File "E:/download/untitled/baike/spider_main.py", line 33, in <module>
obj_spider.craw(root_url)
File "E:/download/untitled/baike/spider_main.py", line 20, in craw
new_urls,new_data=self.parser.parse(new_url,html_cont)
TypeError: 'NoneType' object is not iterable
obj_spider.craw(root_url)
File "E:/download/untitled/baike/spider_main.py", line 20, in craw
new_urls,new_data=self.parser.parse(new_url,html_cont)
TypeError: 'NoneType' object is not iterable
已采纳回答 / 蚂蚁帅帅
像百度、谷歌这样的搜索引擎,只需要爬去整个网页就可以了。如课程前面提到的,本节课的爬虫是垂直类爬虫,只会爬去特定的网站。所以,没错,是需要每个网站都要分析对应的格式的。
2016-09-29
使用python的同学注意了!
如果出现乱码的话,将fout.write('<td>%s<td>' % data['title'] ) 改为
fout.write("<td>")
fout.write(data['title'])
fout.write("</td>")
并且在文件打开语句改为:fout = open('output.html', 'w', encoding='utf-8')
这样就不会出现乱码了
如果出现乱码的话,将fout.write('<td>%s<td>' % data['title'] ) 改为
fout.write("<td>")
fout.write(data['title'])
fout.write("</td>")
并且在文件打开语句改为:fout = open('output.html', 'w', encoding='utf-8')
这样就不会出现乱码了
2016-09-28
打印异常信息说没有get_text的方法('NoneType' object has no attribute 'get_text')
2016-09-27
最赞回答 / IT男的成长记录
soup = BeautifulSoup(html_doc, 'html.parser', from_encoding='utf-8') 改成小写试试
2016-09-27
已采纳回答 / 黑历史不删除后果很严重
建议你一步一步,逐个函数调试,光看源代码比较难找出错误所在,可以在每个方法打印是否成功运行,找到出错的方法后再找出错的变量。这样一定可以调试出来的,加油!
2016-09-27
最赞回答 / 慕标6571706
已经解决win7 python3.6 遇到乱码的情况同明磊只需要在fout = open('output.html', 'w', encoding = 'utf-8') fout.write("<td>%s</td>" % data['title']) fout.write("<td>%s</td>" % data['summary'])这里面不能加.encode('utf-8'),加了会乱码fout.write("<head><meta ...
2016-09-26