1. 首页>百科大全 > 百科

如何利用爬虫收集个人信息(利用“爬虫”采集数据的刑事风险全解析)

作者:刘阳华
2020-06-17
百科

近期,魔蝎科技、新颜科技等数据服务商相继被公安机关立案侦查。据报道,其被调查的原因皆与爬虫、数据等相关业务相关。两家行业内颇有名气的数据服务商被立案后,业内纷纷下架、暂停相关数据服务。业内甚至出现了“爬虫玩的好,牢房进得早。数据玩的溜,牢饭吃的久”的段子。

“爬虫”( Web Crawler),即按照一定的规则,自动抓取互联网信息的程序或者脚本。作为技术或者工具的爬虫,本身难言非法、合法。与爬虫相关的刑事风险高企的关键在于:爬虫为谁所用?用作何处?

利用“爬虫”采集数据的刑事风险全解析

图片来源于网络

从数据生命周期来看,基本可分为数据采集、数据存储、数据处理、数据传输、数据交换和数据销毁等阶段。目前而言,数据生命周期中,刑事风险最高的是数据采集和数据交换环节。各类数据中,刑事风险最高的数据类型为公民个人信息。

在大数据行业内,公民个人信息的获取主要通过外采和自行收集两种途径。外采方式中,包括直接购买数据死库,购买API接口或者爬虫的方式采集个人信息。自行收集的方式中,有通过用户自行填写的方式,也有获取用户授权后采用爬虫技术收集的信息。

其中,通过爬虫方式采集公民个人信息更是时刻悬在数据服务商头上的一把达摩克利斯之剑!该行为面临的刑事风险主要有以下几类:

一、侵犯公民个人信息罪的刑事风险

《刑法》第二百五十三条之一规定,窃取或者以其他方法非法获取公民个人信息的,构成侵犯公民个人信息罪。另根据《关于办理侵犯公民个人信息刑事案件司法解释》的规定,除了花钱购买个人信息属于非法获取,不花钱的收受或交换也都属于非法。从实践来看,非法获取公民个人信息的方式主要表现为窃取、购买、收受、交换和侵入计算机信息系统或者采用其他技术手段等。利用爬虫程序窃取公民个人信息的行为属于典型的侵犯公民个人信息犯罪。

以马某侵犯公民个人信息案为例,2018年2月至4月,马某为牟利,使用自己编写的爬虫程序窃取APP及网站的用户信息,后使用微信聊天的方式出售给苏某某包括姓名、联系方式等内容的公民个人信息约20万条,非法获利共计人民币2.4万元。经法院审理认为,马某犯侵犯公民个人信息罪,依法判处有期徒刑三年二个月,并处罚金人民币四万元。

二、侵犯商业秘密罪和侵犯著作权罪的刑事风险

通过用户授权爬取信息,即数据服务商通过向用户索取特定网站的用户名、密码的方式爬取网站的信息。一般来讲,爬取国家工商信息管理系统、最高人民法院裁判文书网等公共网站的相关公开信息,不构成行政违法,也不构成相关刑事犯罪。

如果爬取的是商业营利性网站,该类网站通常除需要用户名+密码的方式登录之外,运营商还采取技术措施防止他人恶意登录、攻击。在获取用户授权的情况下,从刑法的角度来看,很难认定为侵犯公民个人信息犯罪。但是,可能涉及到侵犯商业秘密、侵犯著作权等相关法律规定,甚至构成侵犯商业秘密罪或者侵犯著作权罪。

如果数据服务商通过用户授权的方式大规模的爬取竞争对手的相关数据,而被爬取的数据被认定为经营信息或技术信息,则可能违反《反不正当竞争法》第九条关于侵犯商业秘密的相关规定,从而涉嫌不正当竞争。一旦前述行为给商业秘密的权利人造成的损失达到50万元以上,则应当按照《刑法》第二百一十九条侵犯商业秘密罪定罪处罚,行为人将面临最高七年有期徒刑,并处罚金的处罚。

如果爬取具有著作权属性的文字或者信息,则有可能违反《著作权法》第十条规定的著作权相关的内容,涉嫌侵犯知识产权。一旦前述行为的违法所得3万元,会被认定为违法数额较大,则应当按照《刑法》第二百一十七条侵犯著作权罪定罪处罚,行为人将面临最高七年有期徒刑,并处罚金的处罚。

以金某某、潘某侵犯著作权案为例,2015年1月,金某某、潘某合伙成立公司,开发“免费小说书城”手机APP软件,在该APP软件上提供各类网络小说的在线阅读服务。潘某负责编写爬虫软件从互联网上抓取小说数据储存至其租用的服务器内。当用户在该手机APP软件上点击阅读某小说(仅有书名和目录)时,爬虫软件即从互联网上抓取用户所需的小说内容,发送并缓存至上述服务器内,供用户免费阅读。金某某负责对该软件进行推广并联系广告商在该APP软件上登载广告,通过用户点击量牟取广告收益。经法院审理认为,金某某、潘某构成侵犯著作权罪,依法判处有期徒刑十个月,缓刑一年。

三、非法获取计算机信息系统数据罪等相关刑事风险

在未获得用户授权或者相关权利人授权的情况下,采取暴力破解的方式爬取相关网站的数据,则可能涉嫌以下几个罪名:1.非法侵入计算机信息系统罪、2.非法获取计算机信息系统数据罪、3.提供侵入、非法控制计算机信息系统的程序、工具罪、4.破坏计算机信息系统罪等罪名。

以非法获取计算机信息系统数据罪为例,福建微数公司为淘宝用户提供第三方服务,主营“云派券”、“淘名录”等业务,黄后荣系该公司法人代表,翁秀豪系该公司软件工程师。2014年5月初,翁秀豪发现淘宝店铺源码存在漏洞,后经黄后荣的授意,以非法获取cookie数据为目的,编写了用于获取cookie的javascript,存储在其租用的某服务器中。自同年5月15日开始,通过上述方法非法获取淘宝用户cookie达2600万余组,并将获取的cookie存放在虚拟队列中。黄后荣利用翁秀豪事先编写的网络爬虫程序读取虚拟队列中的cookie并获取淘宝用户的交易订单数据。经法院审理认为,二人构成非法获取计算机信息系统数据罪,分别判处六年、五年八个月不等有期徒刑,并处罚金。

再以破坏计算机信息系统罪为例,2017年8月8日,黄业兴使用电脑通过Python软件编写“爬虫”程序,以该“爬虫”程序植入第十三届全运会接待服务系统的方式对该系统进行攻击,删除了该系统内大量参赛运动员及技术官员的抵离信息、酒店住宿信息、人员简要身份信息,致使当日天津市全运会组委会接待服务部39台计算机无法正常运行接待服务系统,给全运会接待服务工作造成严重影响。经法院审理认为,黄业兴构成破坏计算机信息系统罪,依法判处有期徒刑二年六个月。

四、数据服务刑事风控三字诀

预防、控制、化解数据服务中的刑事风险,我们建议在实操层面做好以下三点:一是“拿”要合法,即数据获取要合规;二是“用”要规范,即规范使用存量数据;三是“管”要到位,即完善数据保护制度。

推荐阅读
  • 努比亚z9max手机音乐效验

    该机拥有HIFI级音乐芯片,音乐效果不凡。具体体现在:1.音量调节,正常听音乐中高低音都是一个音量,而杜比音效能动态扩大某个音量。比如放打鼓声,杜比会及时提高低音加强鼓声。2.加强音域,杜比音效有开阔、集中、…

    百科 2024-12-23
  • 是atChristmas还是inChristmas

    此处该用“on”。在圣诞节正确表达应为 “on Christmas ”。有具体日期的,比如知道几月几日的都用“on” ;不知道日期,但知道年份和月份的用“in” ,知道具体时间,比如几点几分用“at”。…

    百科 2024-12-23
  • 个体工商户应交纳什么税

    纳税标准根据国家税务总局《个体工商户定期定额征收管理办法》文件精神 ,定期定额征收方式适用的税种及税率如下:1、根据《中华人民共和国增值税暂行条例》规定,自2009年1月1日起,小规模纳税人增值税征收率为3%…

    百科 2024-12-23
  • 材料成本差异率为负数是什么意思

    材料成本差异额,是指材料的实际成本和计划成本之间的差额。差异率负数表示节约差异,即实际成本比计划成本小。正数表示超支差异,即实际成本比计划成本大。…

    百科 2024-12-23
  • 塞翁失马焉知非福是什么意思

    比喻一时虽然受到损失,反而因此能得到好处。也指坏事在一定条件下可变为好事,反之亦然。形容人的心态,一定要乐观向上,任何事情都有二面性,不好的一面,有可能向好的一面转化。塞翁失马,焉知非福出自《 淮南子…

    百科 2024-12-23