首页手记爬虫合法性讨论

爬虫合法性讨论

标签：

Python 爬虫

据说互联网上 50%以上的流量都是爬虫创造的，也许你看到很多热门数据都是爬虫所创造的，所以可以说无爬虫就无互联网的繁荣。

然而在繁荣的表象背后，也往往暗藏杀机 —— 2019年末「程序员因写爬虫而被刑侦」的新闻消息甚嚣尘上：

...

引起了 爬虫合法性 的广泛讨论，而这也是所有爬虫爱好者、从业者必须了解的问题

什么是爬虫：

网络爬虫是 按照人为编写规则，自动获取互联网数据 的程序脚本。可以理解为是另外一个 你 在全年无休地访问网络、记录数据。

本质上就是 通过编写程序，模拟浏览器上网，让后让其去互联网上抓取数据 的工具

网络爬虫领域目前还属于拓荒阶段，虽然互联网世界已经通过自己的游戏规则建立起一定的道德规范(Robots协议，全称是“网络爬虫排除标准”)，但法律部分仍在进一步建立和完善中，也就是说，现在这个领域暂时还是灰色地带。源于网络行为的匿名性和不可追踪性，处于自由发展、技术为王、规则自定的状态。

但旺盛的商业需求，吸引了大批人迅速加入到从业者行列。在拉钩上搜索：爬虫，显示有 252 条相关信息，薪资从 4k - 70 k 都有

所以网络爬虫首先是一门计算机技术，技术本身就具有中立性。爬虫本身在法律上是不被禁止的。

在正常情况下，爬虫技术只是实现遵循网站规则 人工访问网络 的自动化操作。但是也有人给爬虫装上 渗透、暴力破解、多线程 等技术，让自己的爬虫 频繁访问，故意访问非公开数据

这就带来了风险

爬虫的本身是合法的，但是 如何使用爬虫去获取数据 的这一行为是具有风险的，我们举个生活中的例子：

常见爬虫造成的问题有：

尤其是随着中国经济不断发展，个人信息、知识产权越来备受重视，《中华人民共和国网络安全法》不断完善：社工库销声匿迹、盗版网站关停、破解网站整改。

爬虫的本身是合法，但利用爬虫非法获取商业、个人数据也将将面临更高的处罚风险。

由于爬虫的批量访问会给网站带来巨大的压力和负担，因此许多网站经营者会采取技术手段，来阻止爬虫获取自己网站信息。

虽然存在多种不同的技术，本质上都是网站阻止爬虫批量抓取信息的技术手段，因此从法律上并没有实质性区别。而针对该等技术手段，爬虫开发者可以通过优化自己的代码、使用IP池等多种方式规避上述技术措施，实现对网站信息的批量抓取和复制。

无论是网络上的文章、图片、用户评论，甚至网站自身的数据库，都有可能在具备独创性的情况下构成著作权法保护的作品。对于该等信息的抓取和使用是否构成著作权侵权，笔者认为：

就网页访问行为而言，由于爬虫本身仅仅是对人类访问行为的模仿，因此就访问行为而言，对于那些人工访问本身已经可以访问的信息，访问行为并不会构成侵权。但是，如果被抓取的网站本身设置了某些技术措施以保证只有特定用户才能接触该等信息，而爬虫突破了该等限制，则爬虫的访问行为有可能涉嫌破坏技术措施的违法或者侵权行为；
就数据保存行为而言，从著作权法的角度来讲，抓取行为的本质上是对信息的复制，因此该等行为有可能侵犯著作权人的复制权。当然，我国对于临时复制的行为持宽容态度。如果该等信息的保存属于
就数据提取和使用行为而言，如果爬虫控制者抓取信息后在自己的网站上公开传播抓取到的信息，则还有可能进一步侵犯信息网络传播权。