最新回答 / Snail_87103145
$ pip install beautifulsoup4$ pip install html5libPython:from bs4 import BeautifulSoupimport urllib2url = 'http://www.example.com'page = urllib2.urlopen(url)soup = BeautifulSoup(page.read(), 'html5lib')links = soup.findAll('a')for link in links: print ...
2016-10-11
最新回答 / 慕仔5574918
try: new_url = self.url.get_new_url().encode('utf-8')刚改好,如果你是python2.7版本,需要在此处加上 encode('utf-8'),本人亲验
2016-10-08
已采纳回答 / 墨尔卡娜
当第一个页面被分析之后,会获取到该页面上的其他词条的跳转url,也就是/view/*****.html,然后这些url会被拼装成完整的url加入到set中,程序循环一次之后检查set是否为空,如果不为空就会拿一个新的url去爬取,新的页面也会有些引用的词条的,然后就源源不断的有新的词条地址添加到set中去了,代码就是分析模块中使用正则表达式的那部分
2016-10-05
最新回答 / 创建香菇
楼上说的对,注释里面已经讲清楚了,所以是百科词条的原因,可以把count限制在50,或者换一个root_url,或者当出现nonetype的时候就结束运行。
2016-10-05