最赞回答 / 少年阿虎
以现在百度百科的url格式为例:root_url 变成 root_url = "http://baike.baidu.com/item/Python" 然后把 html_parser.py 中url的正则表达换成模糊匹配 links = soup.find_all('a',href = re.compile(r"item"))这样就可以了以后如果网站升级,url格式改变,也是这个套路希望能帮到你
2017-04-08
python四种网页解析:
模糊匹配:
1.正则表达式(字符串);
结构化解析:
2.html.parser;
3.BeautifulSoup,拥有2、4功能;
4.lxml;
模糊匹配:
1.正则表达式(字符串);
结构化解析:
2.html.parser;
3.BeautifulSoup,拥有2、4功能;
4.lxml;
2017-04-05
Python网页下载器有:
1.urllib2 (Python官方基础模块),python 3.x中urllib库和urilib2库合并为urllib库。
2.requests (第三方包,更强大)
1.urllib2 (Python官方基础模块),python 3.x中urllib库和urilib2库合并为urllib库。
2.requests (第三方包,更强大)
2017-04-05