python爬虫脚本在哪里找 python源代码大全-百科知识-舒华文档

在创建一个真正的爬虫项目之前，我们需要知道我们想要操作什么。所有操作完成后，要获取的数据或信息是什么？

首先，第一个问题是:操作对象。爬虫的全称是网络爬虫。顾名思义，它操作的对象当然是网页。因为web中有无数的网页，所以我们需要指定爬虫对象需要URL来定位要操作的网页。

一、初步了解:

1.访问网页的具体过程:

用户在浏览网页的过程中，实际上是通过DNS服务器，找到服务器主机，向服务器发出请求。服务器解析后，将HTML、JS、CSS和其他文件发送到用户的浏览器。浏览器解析后，用户可以看到各种图片。所以用户看到的网页本质上都是由HTML代码组成的，爬虫爬的就是这些内容。通过分析过滤这些HTML代码，他们可以获取图片、文字等资源。

2.网址:

全称是统一资源定位符，是对互联网上可用资源的位置和访问方法的简明表示，也是互联网上标准资源的地址。互联网上的每个文件都有一个唯一的URL，它包含指示文件位置和浏览器应该如何处理它的信息。

URL格式由三部分信息组成:

A.第一部分是协议(或服务方式)；

B.第二部分是存储资源的主机的IP地址(有时包括端口号)；

C.第三部分是主机资源的具体地址，如目录和文件名等。

当爬虫抓取数据时，它们必须有一个目标URL来获取数据。所以URL是爬虫获取数据的基本依据。

二。创建爬网程序脚本:

创建爬虫脚本实际上就是创建Python。在这里，我们创建一个名为test.py的脚本，然后将urllib2库导入脚本，然后抓取一个url地址的内容并打印出来。脚本内容如下:

创建脚本后，在命令行中导航到当前脚本的目录，然后运行指令:

这样，urlopen中输入的地址所指定的网页内容就会被打印出来。注意打印response.read()的内容，而不是直接打印响应。这是因为urlopen实际上只是打开一个URL地址，实际读取打开的地址的内容是通过read方法实现的。

您可以简单地封装它以获得一个方法来获取指定url的html内容，如下所示: