作为一个三月三年经验的半生不熟的前爬虫程序员,难免会有收集数据时不想写代码的时候。毕竟轮子是天天造的,requests.get写累了。
而且我相信很多做数据分析的同学,不会为了得到一个临时数据而去学一个爬虫。毕竟:
我只想写一个爬虫。我怎么能学到这么多东西?
好在市面上有很多很傻的数据采集器,不用写一行代码就能采集数据。这些数据采集员是怎样的体验?
周老师会给你深刻的评价,让你在不想写代码的时候也能顺利的收集数据。
火车采集器
今天是第一位选手——机车收藏家。
根据机车官网的介绍:
Train collector是用于捕获、处理、分析和挖掘互联网数据的最广泛使用的软件。该软件以其灵活的配置和强大的性能,领先国内数据采集产品,赢得了众多用户的一致认可。
作为国内数据采集器的老前辈,这个吹嘘还是有资格的。
首先,我们从其官方网站下载最新的软件包:
然后安装就完成了。
如果你想使用它,你必须先登录。如果实在没办法,请先注册一个。成功登录后,您将进入程序的主界面:
说实话,我看到这个界面的时候有点迷茫。应该是专业软件。
不,先看看它的用户手册。
列车采集器是一款非常专业的数据采集和数据处理软件,对软件用户的技术要求很高。用户要有基本的HTML基础,能够理解网页的源代码和结构。如果你同时使用web发布或者数据库发布,你应该非常了解你的文章体系和数据存储结构。如果基础薄弱,需要花时间学习相关知识,阅读用户手册,才能掌握程序的使用。
根据说明书,在学习采集器时,如果具备以下相关知识,将会促进程序的使用:
html基础 了解网页的基本知识,帮助分析网页结构 http://***.w3school.com.cn/html/index.asp正则表达式的使用 http://***.regexlab.com/zh/regref.htmHttp协议的相关知识 Http请求抓包的方法 http://***.fiddler2.com/fiddler2/Access,Mysql,Sqlserver,Sqlite,Oracle,Mongo数据库的使用代理服务器,FTP服务器相关知识常见的SQL语句插件需要PHP或C#编程功底的支持Apache或IIS服务器架设,网站的安装
嗯,你需要大量的计算机和编程知识。
虽然不用写代码,但是要会写代码。
查看机车收集器的新任务窗口:
一共4步,每一步都有一长串的配置,感觉比较繁琐。
这里,周先生以收藏周先生的博客为例进行论证:
首先,配置***的URL:
然后,我们还使用默认的内容收集规则:
发布规则,我们选择保存到本地CSV文件:
其他设置主要用于配置代理、Cookie、线程等信息。我们都用默认的。
输入任务名称后,我们单击保存。我们刚刚创建的任务将出现在程序主窗口的任务列表中:
单击该任务,然后右键单击并选择“开始”以开始该任务:
这样,我们的采集任务就已经开始了,在运行管理页签中可以看到任务的运行状态:
任务完成后,您可以看到程序收集的数据列表:
和数据内容:
虽然配置页面看起来比较复杂,但是对于有数据采集经验的人来说还是比较简单的,但是没有数据采集经验的人操作起来有点困难。
这个难度不是运行任务的难度,而是程序采集的数据与自身需求不匹配的难度。
八解析
再来看看另一个玩家——章鱼。
首页,界面很互联网。而且主页还提供了很多模板,相当于直接使用这些模板来收集数据。
不过和上一个火车头一样,我们用周老师的博客进行了测试。
在输入框中输入周老师博客的域名后,出现一个按钮,提示网址已被识别,可以直接收藏。这简直太方便了。让我们试一试。
点开之后,我跳转到一个WebView窗口,打开了周老师的博客:
但是这个加载太慢了。
我等了十分钟,还没打开。不,我不需要博客来做测试。选择一个流行的模板进行尝试:
看看上亿爬虫垂涎三尺的淘宝数据:
之前一直以为章鱼可以解决淘宝的防爬验证。看来是我想多了。
而且免费用户还不能用,就这样。
试试Tencent.com。输入网址后,打开网页,然后自动下拉网页:
最后对列表数据进行了识别(但不排除八达通后台服务器已经以模板的形式预置了Tencent.com的采集识别规则):
然后我们点击“生成采集设置”:
可以进入下一个操作,在这里可以看到章鱼的采集过程:
我们直接“保存并开始收集”:
结果是一个包含WebView的窗口,顶部是WebView打开时要收集的URL,底部是收集的进度和状态。
在窗口中打开要连续收集的URL,最后提示收集完成:
当我们导出数据时,我们可以选择导出到本地或数据库。在这里,我们选择导出到本地:
最后,导出完成。来看看实际效果:
仍然不如火车头:
最后
机车采集器和章鱼采集器分别通过周先生的博客和进行了测试。下面是一个简短的评价:
虽然机车的UI不太友好,配置有点复杂,但是对于周先生来说还是比较符合个人习惯的。
而Octopus,用起来似乎更傻,完全依赖于“浏览器自动化”[S2/]:
效率有点低,如果不使用模板(要升级会员或者花钱买模板),自己配置的采集结果很容易乱。
与其这样,不如掌握一点电脑知识。用机车会更好。
本文来自扎女孩的小辫子投稿,不代表舒华文档立场,如若转载,请注明出处:https://www.chinashuhua.cn/24/506407.html