课程
/后端开发
/Python
/Python开发简单爬虫
我想知道那些词条是以什么方式搜索出来的?对应的代码是在哪部分?
2016-10-05
源自:Python开发简单爬虫 1-1
正在回答
当第一个页面被分析之后,会获取到该页面上的其他词条的跳转url,也就是/view/*****.html,然后这些url会被拼装成完整的url加入到set中,程序循环一次之后检查set是否为空,如果不为空就会拿一个新的url去爬取,新的页面也会有些引用的词条的,然后就源源不断的有新的词条地址添加到set中去了,代码就是分析模块中使用正则表达式的那部分
WIM0912 提问者
举报
本教程带您解开python爬虫这门神奇技术的面纱