欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识！

您现在的位置是：首页 > IT编程

最近程序员频繁被抓，如何避免Python爬虫面向*编程？

程序员文章站 2023-02-07 09:09:35

前言文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理。作者：weixinscrm PS：如有需要Python学习资料的小伙伴可以加点击下方链接自行获取 http://note.youdao.com/noteshare?id=305 ......

前言

文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理。

作者：weixinscrm

ps：如有需要python学习资料的小伙伴可以加点击下方链接自行获取

最近程序员频繁被抓，如何避免Python爬虫面向*编程？

最近，有关程序员因为参与某些项目开发导致被起诉，甚至被判刑的事件发生的比较多：

某程序员因为接了个外包，帮别人写了个软件，结果这个软件被用于赌博导致被抓。

某公司利用爬虫抓取用户信息，最后被发现，导致该公司的程序员被抓。

某p2p公司暴雷，老板跑路，程序员被抓。

中科大博士卖“外挂”非法牟利300多万，被警方逮捕。

那么，作为一个程序员，如何避免这些坑呢？怎样尽可能的保护自己呢？

本文就从爬虫、赌博网站、p2p以及外挂等几个方向来介绍下，作为程序员如何避免面向*编程！

由于作者并非专业的法律工作从业者，文中法规部分的引用如有偏差，请指正。希望通过本文可以帮助广大程序员们了解一下有哪些自己的人身*息息相关的坑。

最近程序员频繁被抓，如何避免Python爬虫面向*编程？

一、爬虫

爬虫，是互联网时代一项普遍运用的网络信息搜集技术。该项技术最早应用于搜索引擎领域，是搜索引擎获取数据来源的支撑性技术之一。

随着数据资源的爆炸式增长，网络爬虫的应用场景和商业模式变得更加广泛和多样，较为常见的有新闻平台的内容汇聚和生成、电子商务平台的价格对比功能、基于气象数据的天气预报应用等等。

网络爬虫技术为数据收集者提供了极大的便利，也给专业网络爬虫公司带来巨大的收益。所以，很多公司都会有爬虫部门，或者负责开发爬虫的团队，在招聘网站上，也随处可见关于"爬虫工程师"的招聘贴。

最近程序员频繁被抓，如何避免Python爬虫面向*编程？

关于这个问题，一直都是比较难定性的，因为爬虫本身只是个工具，就和菜刀一样，所以很多人都拿"菜刀无罪论"、"技术无罪论"来为爬虫辩护。

从网络爬虫的相关案例来看，爬虫的开发及使用者通常有很多理由为自己辩护：

“我爬取的都是这个网站的公开数据，搜索引擎不也是这么做的吗？”
“这与搜索引擎行为类似，只是使用了自动脚本，这是合理使用行为。”
“我已经遵守了它们的robots协议、该网站没有robots协议”
“这些数据我只是个人研究使用，并没有商业目的。”。

那么，爬虫到底犯不犯法？

目前，关于网络爬虫相关的约束，主要是2019年05月28日国家网信办发布的《数据安全管理办法（征求意见稿）》。这份文件主要包含了数据收集、数据处理使用以及数据安全监督管理三个章节。

基本可以确定的是，如果爬虫使用不当，那么爬虫的开发者是有可能触犯法律的，而根据情况不同，获得的刑罚也有可能有差异。

要看开发和使用爬虫是否犯法，需要从爬什么数据、如何爬取数据以及爬到数据之后怎么用三个方面来判断。接下来就简单分析一下：

爬什么数据犯法？

1、属于著作权法保护的作品

因为有些网站发表的内容，如文章、评论等都是有著作权的，如果只是单纯的通过浏览器查看是不会触犯法律的。

但是，对于有著作权的作品，如果未经著作权人许可，以盈利为目的，对其作品进行复制是会触犯法律的。

根据《*著作权法》第46条：有下列侵权行为的，应当根据情况，承担停止侵害、消除影响、公开赔礼道歉、赔偿损失等民事责任，并可以由著作权行政管理部门给予没收非法所得、罚款等行政处罚：

（一）剽窃、抄袭他人作品的；

（二）未经著作权人许可，以营利为目的，复制发行其作品的；

（三）出版他人享有专有出版权的图书的；

（四）未经表演者许可，对其表演制作录音录像出版的；

（五）未经录音录像制作者许可，复制发行其制作的录音录像的；

（六）未经广播电台、电视台许可，复制发行其制作的广播、电视节目的；

（七）制作、出售假冒他人署名的美术作品的。

如果是使用爬虫技术手段爬取数据之后将其保存下来或者传播，并且进行盈利，这种都是属于犯罪的。

2、用户的个人信息或者个人隐私

个人用户的个人信息，即使是用户自己放到一些网站上进行公开或者部分公开，如微博、微信等，不代表这些数据就可以被其他人随便获取！

根据《民法总则》第111条：任何组织和个人需要获取他人个人信息的，应当依法取得并确保信息安全。不得非法收集、使用、加工、传输他人个人信息；

根据《网络安全法》第44条：任何个人和组织不得窃取或者以其他非法方式获取个人信息。因此，如果爬虫在未经用户同意的情况下大量抓取用户的个人信息，则有可能构成非法收集个人信息的违法行为。

所以，如果爬取的数据涉及到个人信息，都是违法的！

还有些爬虫企图绕过权限校验等，爬取用户未公开的信息，如个人私密相册照片等，都是属于侵犯用户的个人隐私的，这种也是违法的。

3、反不正当竞争保护的数据

目前有很多网站中的数据系由用户生成，且该等数据和内容系原告网站的主要竞争力来源。如大众点评上面的店铺评价、评论等信息，携程网上面的关于酒店的评价评论等信息等。

（python爬虫爬取这类数据特别多，所以你们要注意了，你可以做这些类似的文章或者爬虫，但是不能公布数据源以及代码传播）

根据《反不正当竞争法》第2条：经营者在市场交易中，应当遵循自愿、平等、公平、诚实信用的原则，遵守公认的商业道德。

那么，未经允许，爬去其他网站的核心数据，很明显并没有遵守自愿、平等、公平、诚实信用的原则。

在大众点评诉百度不正当竞争案件、以及新浪微博诉脉脉不正当竞争等案件中，法院都认定被告未经许可抓取、使用原告网站中的数据的行为，违反了诚实信用原则及公认的道德，损害了互联网的市场竞争秩序，损害了原告的竞争优势，从而构成不正当竞争。

因此，如果抓取大众点评、微博、豆瓣电影、知乎等ugc模式的网站上用户发布的信息，并在自己的产品或者服务中发布、使用该等信息，则有较大的风险构成不正当竞争。

最近程序员频繁被抓，如何避免Python爬虫面向*编程？

怎么爬犯法？

如果是爬取公开的数据，通常不会被认为是侵权。google、百度等搜索引擎都是这么爬取的。

那么，到底怎么爬数据是有可能触犯法律的呢，主要考虑是否涉及以下两种行为：

未遵守robots协议

robots协议是技术界为了解决爬取方和被爬取方之间通过计算机程序完成关于爬取的意愿沟通而产生的一种机制。

根据《互联网搜索引擎服务自律公约》第7条：机器人协议（robots协议）是指互联网站所有者使用robots.txt文件，向网络机器人（web robots）给出网站指令的协议。具体而言，robots协议是网站所有者通过位于置于网站根目录下的文本文件robots.txt，提示网络机器人哪些网页不应被抓取，哪些网页可以抓取。

根据《互联网搜索引擎服务自律公约》第8条：互联网站所有者设置机器人协议应遵循公平、开放和促进信息*流动的原则，限制搜索引擎抓取应有行业公认合理的正当理由，不利用机器人协议进行不正当竞争行为，积极营造鼓励创新、公平公正的良性竞争环境。

虽然《互联网搜索引擎服务自律公约》仅适用于中国互联网协会会员单位和自愿加入《中国互联网行业自律公约》的互联网从业单位，但在司法实践中，robots协议已经被认定构成互联网行业搜索领域内工人的商业道德。

因此，无视网站设置的robots协议而随意抓取网站内容的行为将涉嫌构成对《反不正当竞争法》的第2条的违反，即违反诚实信用原则和商业道德的不正当竞争行为。

绕过防护措施对数据的访问，强行突破反爬措施

由于爬虫的批量访问会给网站带来巨大的压力和负担，因此许多网站经营者会采取技术手段，以阻止爬虫批量获取自己网站信息。

所以，很多爬虫工具为了爬取数据，会想办法通过各种手段绕过防护措施，但是，这种行为也是会触犯法律的。

根据《刑法》第285条第二款：违反国家规定，侵入前款规定以外的计算机信息系统或者采用其他技术手段，获取该计算机信息系统中存储、处理或者传输的数据，或者对该计算机信息系统实施非法控制，情节严重的，处三年以下有期徒刑或者拘役，并处或者单处罚金；情节特别严重的，处三年以上七年以下有期徒刑，并处罚金。

企图通过技术手段，绕过网站的反爬机制，都属于《刑法》中规定的"侵入"，都是要被处罚的。

怎么用犯法？

很多公司开发的爬虫遵守了robots协议，也没有爬取不该爬取的数据，难道这样获取到的数据就可以随便使用了吗？其实也不是，如果使用不当，也会触犯法律的。

比如通过爬虫抓取到的数据进行盈利、损害他人利益、造假、诽谤等都是可能触犯法律的。

此外，未经被收集者同意，即使是将合法收集的公民个人信息向他人提供的，也属于刑法第二百五十三条之一规定的“提供公民个人信息”，可能构成犯罪。

小结

在使用爬虫的过程中，爬取的数据类型、爬取数据的方式以及爬取之后的使用都是可能触犯法律的。

其中，使用爬虫得到的数据进行盈利、损害他人利益、不正当竞争等一般都是针对经营者的。

但是对于程序员来说，如果你的老板让你开发的爬虫，是用来爬取用户的个人信息或者个人隐私，并且该爬虫未遵循robots协议、并且有意的躲避反爬机制就可能触犯到法律了。

对于广大爬虫工程师，如果你开发的爬虫涉及个人信息及隐私，爬虫未遵守robots协议，爬虫企图通过技术手段绕过反爬机制等，都是触犯了法律的。

对于那些做爬虫的企业，如果涉及到爬取受著作权保护的内容，涉及到公司商业机密等内容，并且用于盈利或者不正当竞争等，也是国家法律所不允许的。

还有就是，"明知故犯"的事情不要做，也不要抱有任何侥幸心理，一定要远离赌博、s情网站，并拒绝为他们提供任何技术支持。

如果公司的主营业务室p2p，并且自己参与了p2p的开发，那么一定要了解清楚自己公司所做的业务是否合规，如果发现不合规，一定要趁早离职。并且不要参与除纯开发以外的其他事宜。

不要参与'外挂软件'的开发。学会保护自己！

如果你是文中介绍过的相关行业中的程序员，那么希望大家第一时间找律师咨询一下，自己是否有触及到法律，以及如何避免和脱身等。

上一篇：官方做什么都是应该的

下一篇：谷歌宣布与菲亚特合作开发自动驾驶小型货车

推荐阅读