在创建一个真正的爬虫项目之前,我们需要知道我们想要操作什么。所有操作完成后,要获取的数据或信息是什么?
首先,第一个问题是:操作对象。爬虫的全称是网络爬虫。顾名思义,它操作的对象当然是网页。因为web中有无数的网页,所以我们需要指定爬虫对象需要URL来定位要操作的网页。
一、初步了解:
1.访问网页的具体过程:
用户在浏览网页的过程中,实际上是通过DNS服务器,找到服务器主机,向服务器发出请求。服务器解析后,将HTML、JS、CSS和其他文件发送到用户的浏览器。浏览器解析后,用户可以看到各种图片。所以用户看到的网页本质上都是由HTML代码组成的,爬虫爬的就是这些内容。通过分析过滤这些HTML代码,他们可以获取图片、文字等资源。
2.网址:
全称是统一资源定位符,是对互联网上可用资源的位置和访问方法的简明表示,也是互联网上标准资源的地址。互联网上的每个文件都有一个唯一的URL,它包含指示文件位置和浏览器应该如何处理它的信息。
URL格式由三部分信息组成:
A.第一部分是协议(或服务方式);
B.第二部分是存储资源的主机的IP地址(有时包括端口号);
C.第三部分是主机资源的具体地址,如目录和文件名等。
当爬虫抓取数据时,它们必须有一个目标URL来获取数据。所以URL是爬虫获取数据的基本依据。
二。创建爬网程序脚本:
创建爬虫脚本实际上就是创建Python。在这里,我们创建一个名为test.py的脚本,然后将urllib2库导入脚本,然后抓取一个url地址的内容并打印出来。脚本内容如下:
创建脚本后,在命令行中导航到当前脚本的目录,然后运行指令:
这样,urlopen中输入的地址所指定的网页内容就会被打印出来。注意打印response.read()的内容,而不是直接打印响应。这是因为urlopen实际上只是打开一个URL地址,实际读取打开的地址的内容是通过read方法实现的。
您可以简单地封装它以获得一个方法来获取指定url的html内容,如下所示:
本文来自掩于岁月投稿,不代表舒华文档立场,如若转载,请注明出处:https://www.chinashuhua.cn/24/557088.html