python爬虫要学什么
学习之前的准备
1、一颗热爱学习
2、不屈不挠的心一台有键盘的电脑(什么系统都行。我用的os x,所以例子会以这个为准)
3、html相关的一些前段知识。不需要精通,能懂一点就够!Python的基础语法知识 。
具体的学习路线
总体分为三个大方面:
1、简单的定向脚本爬虫(request --- bs4 --- re)
2、大型框架式爬虫(Scrapy框架为主)
3、浏览器模拟爬虫 (Mechanize模拟 和 Selenium 模拟)
具体步骤:
1、Beautiful Soup
requests库的安装与使用,安装beautiful soup 爬虫环境,beautiful soup 的解析器,re库 正则表达式的使用,bs4 爬虫实践。获取百度贴吧的内容bs4 爬虫实践,获取双色球中奖信息bs4 爬虫实践, 获取起点小说信息bs4 爬虫实践,获取电影信息bs4 爬虫实践。 获取悦音台榜单
2、Scrapy 爬虫框架
安装Scrapy,Scrapy中的选择器 Xpath和CSSScrapy 爬虫实践,今日影视Scrapy 爬虫实践,天气预报Scrapy 爬虫实践,获取代理Scrapy 爬虫实践,糗事百科Scrapy 爬虫实践, 爬虫相关攻防(代理池相关)
3、浏览器模拟爬虫
Mechanize模块的安装与使用,利用Mechanize获取乐音台公告,Selenium模块的安装与使用,浏览器的选择 PhantomJS,Selenium & PhantomJS 实践,获取代理;Selenium & PhantomJS 实践,漫画爬虫。
以上就是python爬虫要学什么的详细内容,更多请关注其它相关文章!
上一篇: js怎么获取input的值
下一篇: php_xmlhttp乱码问题解决