已采纳回答 / 墨尔卡娜
当第一个页面被分析之后,会获取到该页面上的其他词条的跳转url,也就是/view/*****.html,然后这些url会被拼装成完整的url加入到set中,程序循环一次之后检查set是否为空,如果不为空就会拿一个新的url去爬取,新的页面也会有些引用的词条的,然后就源源不断的有新的词条地址添加到set中去了,代码就是分析模块中使用正则表达式的那部分
2016-10-05
最新回答 / 创建香菇
楼上说的对,注释里面已经讲清楚了,所以是百科词条的原因,可以把count限制在50,或者换一个root_url,或者当出现nonetype的时候就结束运行。
2016-10-05
已采纳回答 / Duiknow
代码没有报错是因为你有自定义报错的try except 应该是哪里你出现了拼写错误或者判断条件写错了 运行跟踪调试下就可以了 代码刚刚测试过没有问题
2016-10-04
加一句这个可以解决浏览器中乱码问题
fout.write('<meta http-equiv="Content-Type" content="text/html; charset=utf-8" />')
fout.write('<meta http-equiv="Content-Type" content="text/html; charset=utf-8" />')
2016-10-02