电影排行爬虫 3 抓取第一页

avatar
avatar
雪山凌狐
488
文章
26
评论
2020年1月19日11:31:11 评论 1,543 674字阅读2分14秒

本节课我们来尝试编写一下对应的python语句,来看下通过python的代码是如何过去到网页的源码的。

我们编写计划查看第一页的内容,但是一开始,我们获取不到我们想要的内容,并且服务器还拒绝了我们的请求。

其实啊,是因为我们没有带上user-agent协议头导致,这个协议头指的是浏览器标识,我们可以到浏览器自带的开发者工具看到,协议头就是告诉服务器我们是通过什么来访问的,比如告诉服务器我们是通过谷歌浏览器访问的,或者通过火狐浏览器访问的,或者通过IE访问的。如果我们的python程序没有带上user-agent来访问,那么默认的就会提供一个user-agent,这个协议头会明明白白的告诉服务器,我们用的是python爬虫程序来访问的,那么服务器收到了肯定不高兴呀,所以就会拒绝我们的访问。

带上一个正确的协议头也非常简单,你可以百度一个浏览器的user-agent,任意一个就行。或者使用浏览器自带的开发者工具抓个你的浏览器访问的包,在数据包里面就可以看到自己的user-agent了,用上它,就可以了。

最后咱们正常访问到了网页的源码内容。

详情可以参看我们的视频教程,有详细的解说。

 

以下是我们的视频教程:

在线观看:

内容已经隐藏,请注册为本站会员后查看

 

 

 

高清源文件下载:

内容已经隐藏,请注册为本站会员后查看

 

 

 

感谢大家的收看,我们下期再见!

如果你觉得内容不错的话,欢迎点赞,评论和分享哟~
avatar
电影排行爬虫 8 课程总结 专题课程

电影排行爬虫 8 课程总结

本节课我们来对我们的整套专题课程来做一个小小的总结。 课程大纲: 电影排行爬虫 1 不得不说的爬虫那些事儿 基础理论,爬虫是啥,爬虫爬到的是啥(源码),爬虫有啥好处(省去人工的麻烦),网页访问的原理。...
电影排行爬虫 7 多页全量爬取 专题课程

电影排行爬虫 7 多页全量爬取

单页全流程,访问,解析,写入到文件都讲通透之后,我们才获取的十部电影的排行。 那么剩下的内容呢?他们都躺在剩余的页码当中,我们在浏览器访问的时候,我们需要点击对应的页码或者下一页的按钮才能访问其他页码...
电影排行爬虫 6 如何写入文件 专题课程

电影排行爬虫 6 如何写入文件

本节课教会大家如何将爬取到的结果写入文件当中。 我们选择了一种简单的比较好掌握的来学习,比如写入json文件当中,我们是如何将一行行的内容转换为json字符串然后写入文件的,怎么写,有什么相关命令呢?...

发表评论