讲得很棒。老师实例爬虫--分析目标这一页ppt有个小错误。简介这边,div少了一个斜线,应该是<div class = "lemma-summary">***</div>
2016-02-21
最新回答 / stonesray
不好做吧,毕竟就算是指定页面,当页面更新后还需要更新代码,通用的爬虫适配是个大问题,除非针对某类网站格式相同的页面......我感觉是这个样的哈~
2016-02-21
最赞回答 / PhoebeChen
参考许多人的问题可以通过把try和except的部分注解掉然后执行的时候会出现TypeError: unbound method parse() must be called with HtmlParser instance as first argument (got str...错误里面提到HtmlParser出错原因应该是你没把 HtmlParser 给实例化检查调度程序spider_main.py中的class SpiderMain里的def __init__(self):发现 self.pars...
2016-02-19
已采纳回答 / avalon3515
我使用的是python3,根据实际调试发现此处不需要用encode('utf-8'),但是fout = open('output.html', 'w', encoding='utf-8')要把encoding参数加上,因为在windows下默认编码是gbk,忽略次参数会产生错误。
2016-02-17
已采纳回答 / blacksea3
有可能中间这一块哪里代码打错了而不是self.urls.has_new_url()==0导致退出循环,python的百科里面是有别的链接的,你可以试着把try-except去掉,让错误直接显示出来中间这一块指的是:<...code...>根据错误位置设置print 相应的变量查看错误原因。
2016-02-16