最新回答 / qq_江仔_0
def _get_new_urls(self, curr_url, soup): new_urls = set() links = soup.find_all('a', href=re.compile(r"/item/*"))正则表达式的内容改下就行,网页格式变了
2016-10-24
已采纳回答 / 墨尔卡娜
当第一个页面被分析之后,会获取到该页面上的其他词条的跳转url,也就是/view/*****.html,然后这些url会被拼装成完整的url加入到set中,程序循环一次之后检查set是否为空,如果不为空就会拿一个新的url去爬取,新的页面也会有些引用的词条的,然后就源源不断的有新的词条地址添加到set中去了,代码就是分析模块中使用正则表达式的那部分
2016-10-05
已采纳回答 / Duiknow
代码没有报错是因为你有自定义报错的try except 应该是哪里你出现了拼写错误或者判断条件写错了 运行跟踪调试下就可以了 代码刚刚测试过没有问题
2016-10-04
已采纳回答 / 黑历史不删除后果很严重
建议你一步一步,逐个函数调试,光看源代码比较难找出错误所在,可以在每个方法打印是否成功运行,找到出错的方法后再找出错的变量。这样一定可以调试出来的,加油!
2016-09-27
最赞回答 / 慕标6571706
已经解决win7 python3.6 遇到乱码的情况同明磊只需要在fout = open('output.html', 'w', encoding = 'utf-8') fout.write("<td>%s</td>" % data['title']) fout.write("<td>%s</td>" % data['summary'])这里面不能加.encode('utf-8'),加了会乱码fout.write("<head><meta ...
2016-09-26
已采纳回答 / Dreaman
已经解决啦 我在html_downloader下的read()后加了response.read().decode('utf8',errors='replace')把html_outputer里面的encode()去掉就好了
2016-09-21