近年来，开发者因使用爬虫技术而锒铛入狱的案例越来越多。

2015年，某公司指使5名程序员使用网络爬虫获取某公司服务器的公交车行驶信息、到站信息等数据。这五个程序员承担连带责任。

2019年，某公司高管张某、宋某、侯某、郭某利用爬虫技术，对服务器存储的视频资料进行非法抓取。依法判处被告人***9-10个月，并处罚金。

越来越多的案例让开发者越来越不安，爬虫违法？公司要我抓取数据，我该不该抓取？爬？这是违法的。爬不好。

不仅仅是开发者，公司使用爬虫技术，风险也很多。

2012年，360搜索抓取了百度等网站，最终被判向百度赔偿70万元；

2017年，秀涛非法抢注今日头条，被告人被判处***九个月至一年，并处罚金。

如何利用公司爬虫技术规避风险？也成为了一个大问题。

通过仔细研究爬虫的相关案例，我们不难总结出如何合法使用爬虫技术，规避风险。

遵守机器人协议

机器人是网站和爬虫之间的君子协定。当网站拒绝爬虫访问并抓取数据时，可以在根目录下存储robots.txt文件，告知爬虫无法抓取网站的全部或部分指定内容。

爬虫不允许访问机器人中的内容。在30搜索抓取百度内容一案中，正是因为360违反了Robots协议，最终被判70万元。

但是网站没有这个协议，并不代表可以随意抓取数据，可能是违法的。

爬行行为

如果开发者使用爬虫技术，如果请求频率过高，接近DDoS攻击的频率，一旦目标服务器瘫痪，这就不是爬虫行为，而是黑客行为，他们必须承担相应的责任。

防攀爬措施

如果目标网站已经使用了BotGuard爬虫管理等云产品来控制和管理爬虫，或者使用了一些措施来爬回，或者正常用户无法到达的页面。如果开发者强行突破这些措施，也会被定义为黑客行为。

爬网内容

攀爬的内容是高压线，绝对不能碰。包括但不限于:

1.抓取用户信息牟利

2018年，新三板上市公司北京睿智华声科技股份有限公司利用爬虫非法窃取用户个人信息30亿条。该公司及其关联公司的6名犯罪嫌疑人被控制。

用户个人信息属于敏感信息，这几年受到的打击越来越大。严禁使用爬虫抓取该信息。

2.抓取业务数据

2018年，武汉远光科技有限公司法定代表人指使4名员工非法抓取竞争对手数据，被判赔偿50万元。

为了获得竞争优势，很多公司会使用爬虫技术抓取竞争对手的内容，但这种手段会构成不正当竞争。

3.抓取知识产权数据

抓取大量具有知识产权的数据并用于商业目的是违法的。

不难看出，爬虫技术本身并不违法，关键在于使用的方式和目的。最后，爬虫抓取数据有几个雷区。第一，它只能抓取公共数据；二是不能影响目标商家和网站；第三，目标网站的全部或部分内容不使用反爬取措施。

本文来自胸大无脑是一种心态投稿，不代表舒华文档立场，如若转载，请注明出处：https://www.chinashuhua.cn/24/641597.html

python插件开发 python数据库编程入门

Jupyter Notebook是一个非常棒的教学、探索和编程环境，但它也以功能不足而闻名。幸运的是，有许多方法可以改进这个好工具，例如Jupyter笔记本扩展工具。迷你版课程在命令提示符下运行以下命令:pip install jupyter_contrib_nbextensions && jupyter contrib nbexten