电影排行爬虫 3 抓取第一页

avatar 2020年1月19日11:31:11 评论 928

加入VIP,可以享受无广告视频播放!更可享受教程提前看!详情猛戳:VIP介绍

本节课我们来尝试编写一下对应的python语句,来看下通过python的代码是如何过去到网页的源码的。

我们编写计划查看第一页的内容,但是一开始,我们获取不到我们想要的内容,并且服务器还拒绝了我们的请求。

其实啊,是因为我们没有带上user-agent协议头导致,这个协议头指的是浏览器标识,我们可以到浏览器自带的开发者工具看到,协议头就是告诉服务器我们是通过什么来访问的,比如告诉服务器我们是通过谷歌浏览器访问的,或者通过火狐浏览器访问的,或者通过IE访问的。如果我们的python程序没有带上user-agent来访问,那么默认的就会提供一个user-agent,这个协议头会明明白白的告诉服务器,我们用的是python爬虫程序来访问的,那么服务器收到了肯定不高兴呀,所以就会拒绝我们的访问。

带上一个正确的协议头也非常简单,你可以百度一个浏览器的user-agent,任意一个就行。或者使用浏览器自带的开发者工具抓个你的浏览器访问的包,在数据包里面就可以看到自己的user-agent了,用上它,就可以了。

最后咱们正常访问到了网页的源码内容。

详情可以参看我们的视频教程,有详细的解说。

 

以下是我们的视频教程:

在线观看:

内容已经隐藏,请注册为本站会员后查看

 

 

 

高清源文件下载:

内容已经隐藏,请注册为本站会员后查看

 

 

 

感谢大家的收看,我们下期再见!

avatar

发表评论

您必须才能发表评论!