(爬虫爬得好监狱进得早)(爬虫写得好监狱进得早)

大数据公司被查

2019，对于以爬虫技术为核心的大数据科技公司，注定是地动山摇的一年。

为什么这么说？从2019年上半年开始，陆陆续续就有很多大数据科技公司被查，爬虫部门解散，相关程序员不得离开指定范围城市，等等。

大家可以网上搜索关键词“爬虫大数据被查”、“大数据科技被查”，随便点开几个新闻，就可以看到那几家大数据公司，然后在搜索下该公司，即可看到相关信息，此处不便一一列举，有兴趣的朋友可以自己去搜索。

网贷、暴力催收等

“我终于上岸了，可能不需要再下海了吧？”AI星球走访一位多年深陷网贷泥潭的年轻人这样说道。

如今很多人都会因各种情况去借贷，没了就去借，还不上就分期，分期不小心便成了逾期。

这种借贷生活慢慢便陷入了“病态循环”中，以致大多数不堪重负的贷民为了改善这种情况，会还清所有借贷、卸载APP、换手机号来让自己“上岸”。

这位90后贷民是一个前几年刚从校园走来的创业大学生，因不好意思向父母伸手拿钱，过去的几年里一直都过着以贷养贷的生活，期间从未有过逾期的现象。

但直到今年上旬，平静的日子被“每天几十个电话的狂轰滥炸、企图曝光通信录、动辄问候双亲”等威胁打破，以致90后贷民，从在短短20天内还了6万多的网贷，在重压之下他终于向父母坦白，还清了高达十多万元的网贷。

大数据风控

“虽然不是直接放贷平台，但看着他们一个个被查，如今他们终于可以尝尝那种心惊胆战、坐立不安的滋味了。”这位90后贷民听说近期多家风控公司被抓后这样说。

如今大数据风险控制在金融行业得到了较为广泛的应用，比如在银行中，贷款业务是占银行风控日常工作比重最高的一类业务。

一些中端的风控部门往往在客户阅读贷款细则时就开始对贷款对象的个人风险评估进行风险审核，只有审核通过后方可被提交到更高管理处审批。而对于一些期货、信托、小额贷款、融资租赁企业来讲，他们则侧重于信用、操作、市场、交易对手等风险操作。

在消费金融科技领域中，大数据风控业务已成为关键环节。但当下大数据风控行业却迎来多事之秋，多家为互联网小贷公司、个人消费类业务金融等公司提供服务的大数据风控领域企业被抓，他们旗下的爬虫业务先后都因“涉黑”被暂停营业。

这些企业“收紧或叫停数据服务”的背后与涉嫌利用网络爬虫技术侵犯个人隐私有关联。

爬虫究竟是合法还是违法的？

网络爬虫（英语：web crawler），也叫网络蜘蛛（spider），是一种用来自动浏览万维网的网络机器人。通俗来讲，爬虫就是一项计算机技术，方便用户自动化、高效率地浏览互联网并从互联网上获取数据。最早的爬虫程序是1994年休斯敦大学的Eichmann开发的RBSE。著名的谷歌公司使用的Google Crawler是当时还是斯坦福大学生Brin和Page在1998年用Python开发的。

爬虫作为一种计算机技术就决定了它的中立性，因此爬虫本身在法律上并不被禁止，但是利用爬虫技术获取数据这一行为是具有违法甚至是犯罪的风险的。所谓具体问题具体分析，正如水果刀本身在法律上并不被禁止使用，但是用来捅人，就不被法律所容忍了。

爬虫程序还能写吗？

如果是爬取公开的数据，通常不会被认为是侵权。Google、百度等搜索引擎都是这么爬取的。

那么，到底怎么爬数据，是有可能规避触犯法律呢？

1、遵守Robots协议

Robots协议是技术界为了解决爬取方和被爬取方之间通过计算机程序完成关于爬取的意愿沟通而产生的一种机制。

根据《互联网搜索引擎服务自律公约》第7条：机器人协议（robots协议）是指互联网站所有者使用robots.txt文件，向网络机器人（Web robots）给出网站指令的协议。具体而言，robots协议是网站所有者通过位于置于网站根目录下的文本文件robots.txt，提示网络机器人哪些网页不应被抓取，哪些网页可以抓取。

根据《互联网搜索引擎服务自律公约》第8条：互联网站所有者设置机器人协议应遵循公平、开放和促进信息自由流动的原则，限制搜索引擎抓取应有行业公认合理的正当理由，不利用机器人协议进行不正当竞争行为，积极营造鼓励创新、公平公正的良性竞争环境。

虽然《互联网搜索引擎服务自律公约》仅适用于中国互联网协会会员单位和自愿加入《中国互联网行业自律公约》的互联网从业单位，但在司法实践中，Robots协议已经被认定构成互联网行业搜索领域内工人的商业道德。

因此，无视网站设置的Robots协议而随意抓取网站内容的行为将涉嫌构成对《反不正当竞争法》的第2条的违反，即违反诚实信用原则和商业道德的不正当竞争行为。

2、遵守目标网站的反爬虫机制

由于爬虫的批量访问会给网站带来巨大的压力和负担，因此许多网站经营者会采取技术手段，以阻止爬虫批量获取自己网站信息。

所以，很多爬虫工具为了爬取数据，会想办法通过各种手段绕过防护措施，但是，这种行为也是会触犯法律的。

根据《刑法》第285条第二款：违反国家规定，侵入前款规定以外的计算机信息系统或者采用其他技术手段，获取该计算机信息系统中存储、处理或者传输的数据，或者对该计算机信息系统实施非法控制，情节严重的，处三年以下有期徒刑或者拘役，并处或者单处罚金；情节特别严重的，处三年以上七年以下有期徒刑，并处罚金。

企图通过技术手段，绕过网站的反爬机制，都属于《刑法》中规定的"侵入"，都是要被处罚的。

对于广大程序员来说，如何避免爬虫所带来的法律风险？

爬虫所带来的风险，主要有：

违反网站意愿，例如网站采取反爬措施后，强行突破其反爬措施；
爬虫干扰了被访问网站的正常运营；
爬虫抓取了受到法律保护的特定类型的数据或信息。

其中，第3类风险主要来自于通过规避反爬虫措施抓取到了互联网上未被公开的信息。

因此，爬虫开发者在使用爬虫时应注意：

严格遵守网站设置的robots协议；
在规避反爬虫措施的同时，需要优化自己的代码，避免干扰被访问网站的正常运行；
在设置抓取策略时，应注意编码抓取视频、音乐等可能构成作品的数据，或者针对某些特定网站批量抓取其中的用户生成内容；
在使用、传播抓取到的信息时，应审查所抓取的内容，如发现属于用户的个人信息、隐私或者他人的商业秘密的，应及时停止并删除。

本文参考资料：
掘金 - 最近程序员频繁被抓，如何避免面向监狱编程！？
CSDN - 重磅干货！你的爬虫会送你进监狱吗？
百家号 - 爬虫玩的好，监狱进的早？

声明：我要去上班所有作品（图文、音视频）均由用户自行上传分享，仅供网友学习交流，版权归原作者互联网金融技术所有，原文出处。若您的权利被侵害，请联系删除。

本文标题：(爬虫爬得好监狱进得早)(爬虫写得好监狱进得早)
本文链接：https://www.51qsb.cn/article/dvjsed.html