@慕粉4289539 我一开始也和你一样的错误,我的原因是 在url_manager.py中get_new_url()方法忘了return new_url,我知道我很蠢~
2016-12-01
最新回答 / 猪猪的笨笨
感觉你是最近才学的吧。如果是,建议你学习一下基础,然后一个一个模块的学习使用。最后再一次使用多个模块。而且,这个视频的python和模块有点老,你要小心有很多坑,我就是被坑了很多次!!!
2016-12-01
1. 先看url的格式, 这个不太难, F12观察一下链接的形式就行了;
2. 再看目标文本信息的标签格式, 比如文本数据为div class=xxx,
3. 容易看到编码为utf-8
目标: 百度百科python词条
入口页: baike.baidu/view/xxxxx
url格式:
数据格式:
-标题: dd class="lemmawgxxxxxx"
-简介 div class = "xxxxx"
页面编码: utf-8
2. 再看目标文本信息的标签格式, 比如文本数据为div class=xxx,
3. 容易看到编码为utf-8
目标: 百度百科python词条
入口页: baike.baidu/view/xxxxx
url格式:
数据格式:
-标题: dd class="lemmawgxxxxxx"
-简介 div class = "xxxxx"
页面编码: utf-8
2016-11-30
url: 添加新url到爬取集合中, 判断待添加url是否在容器中, 判断是否还有待爬取的url, 获取待爬取url, 将url从待爬移动到已爬
2016-11-30
课程讲的非常好,谢谢老师。我看了两遍,第一遍,了解爬虫运行的流程及本课涉及的知识点。第二遍只看了实战章节,边看视频边敲代码,把细节弄懂,做了笔记。通过学习,已完成对某网站电影下载资源的抓取。
2016-11-29