1.在第一个例子中,我们将做一个简单的爬虫来抓取其他人的网页。
这是已爬网网页的输出:
中间发生了什么?让我们打开Fiddler看一看:
左边红色标记表示我们访问成功,是http 200。
右边是python生成的请求头。如果不清楚,看下面:
这是一个简单的头,然后看看响应返回的html。
这里返回的是我们在python的idle中打印的网页!
2.伪装成浏览器爬网。
一些网页,如登录。如果你不从浏览器发起请求,这不会给你一个响应,然后我们需要自己写头。然后发送到web服务器,它会认为你是正常的浏览器。所以你可以爬!
3.抓取网站上的图片
Python3.x 自动登录Python3.x自动登录
Python3.4代码编写:
看一看结果:
此时运行返回的。
本文来自不择手段投稿,不代表舒华文档立场,如若转载,请注明出处:https://www.chinashuhua.cn/24/595250.html