python四种网页解析:
模糊匹配:
1.正则表达式(字符串);
结构化解析:
2.html.parser;
3.BeautifulSoup,拥有2、4功能;
4.lxml;
模糊匹配:
1.正则表达式(字符串);
结构化解析:
2.html.parser;
3.BeautifulSoup,拥有2、4功能;
4.lxml;
2017-04-05
Python网页下载器有:
1.urllib2 (Python官方基础模块),python 3.x中urllib库和urilib2库合并为urllib库。
2.requests (第三方包,更强大)
1.urllib2 (Python官方基础模块),python 3.x中urllib库和urilib2库合并为urllib库。
2.requests (第三方包,更强大)
2017-04-05
现在网址已经变成http://baike.baidu.com/item/Python,如果用原来的地址抓,最多只能抓两个页面就到锁定词条页面了,所以我们可以抓这个新网址,只需要在html_parser里面修改成这句links = soup.find_all('a', href=re.compile(r"/item/(.*)"))就OK了,已实验成功抓取1000条。python初学者,勿喷!
2017-04-04
老师所讲已完成的demo。有注释,https://github.com/DragonFlyXD/baike-python。
2017-04-03
爬虫调度端:启动爬虫,停止爬虫,监视爬虫运行情况
URL管理器:对将要爬取的和已经爬取过的URL进行管理;可取出带爬取的URL,将其传送给“网页下载器”
网页下载器:将URL指定的网页下载,存储成一个字符串,在传送给“网页解析器”
网页解析器:解析网页可解析出①有价值的数据②另一方面,每个网页都包含有指向其他网页的URL,解析出来后可补充进“URL管理器”
URL管理器:对将要爬取的和已经爬取过的URL进行管理;可取出带爬取的URL,将其传送给“网页下载器”
网页下载器:将URL指定的网页下载,存储成一个字符串,在传送给“网页解析器”
网页解析器:解析网页可解析出①有价值的数据②另一方面,每个网页都包含有指向其他网页的URL,解析出来后可补充进“URL管理器”
2017-04-03