1. 先看url的格式, 这个不太难, F12观察一下链接的形式就行了;
2. 再看目标文本信息的标签格式, 比如文本数据为div class=xxx,
3. 容易看到编码为utf-8
目标: 百度百科python词条
入口页: baike.baidu/view/xxxxx
url格式:
数据格式:
-标题: dd class="lemmawgxxxxxx"
-简介 div class = "xxxxx"
页面编码: utf-8
2. 再看目标文本信息的标签格式, 比如文本数据为div class=xxx,
3. 容易看到编码为utf-8
目标: 百度百科python词条
入口页: baike.baidu/view/xxxxx
url格式:
数据格式:
-标题: dd class="lemmawgxxxxxx"
-简介 div class = "xxxxx"
页面编码: utf-8
2016-11-30
url: 添加新url到爬取集合中, 判断待添加url是否在容器中, 判断是否还有待爬取的url, 获取待爬取url, 将url从待爬移动到已爬
2016-11-30
课程讲的非常好,谢谢老师。我看了两遍,第一遍,了解爬虫运行的流程及本课涉及的知识点。第二遍只看了实战章节,边看视频边敲代码,把细节弄懂,做了笔记。通过学习,已完成对某网站电影下载资源的抓取。
2016-11-29
第二行就出错,搞了一下午,发现就是把那个root_url给写错了,原来是root_url="http://baike.baidu.com/view/21087.htm" 让我给写成了root_url="http:baike.baidu.com/view/21087.htm" 少了两个“/”
2016-11-26
from bs4 import BeautifulSoup; "BeautifulSoup"冒红线,但是我确定我已经成功安装了BeautifulSoup4
2016-11-24