运行结果提问
首先python的百科词条目前貌似不是这个:http://baike.baidu.com/view/21087.htm
而是:http://baike.baidu.com/item/Python
而且,里面对应的其他url链接也是这种:http://baike.baidu.com/item/计算机程序设计语言
因此,我能想到的修改就是在主调程序spider_main里:root_url = "http://baike.baidu.com/item/Python"
另外,修改解析器中的正则匹配:
def _get_new_urls(self, page_url, soup):
new_urls = set()
# /view/123.htm
links = soup.find_all('a', href=re.compile(r'/item/.'))
for link in links:
new_url = link['href']
new_full_url = urlparse.urljoin(page_url, new_url)
new_urls.add(new_full_url)
return new_urls
但是运行结果显示,,
这样看来的话,我第一个网址都没解析出来,请问下老师这是什么原因呢?谢谢