Python开发简单爬虫_技术问答

首页免费课 Python开发简单爬虫问答

Python开发简单爬虫

全部评论问答未解决精华

李耀3666881

没报错，没输出啊

1 7-7 开始运行爬虫和爬取结果展示

2016-10-22

李耀3666881

File "E:\python\projectexam\baike\spider_main.py", line 32, in <module>
obj_spider.craw(root_url)
File "E:\python\projectexam\baike\spider_main.py", line 13, in craw
while self.urls.has_new_url():
AttributeError: 'SpiderMain' object has no attribute 'urls'

0 7-7 开始运行爬虫和爬取结果展示

2016-10-22

qq_厉钦Max_04232396

最后一句话，哭了。。。。

1 8-1 课程总结

2016-10-22

heroanswer

import urllib.request

url = 'http://www.baidu.com'

print('第一种方法')

response1 = urllib.request.urlopen(url)
print(response1,getcode())
print(len(response1))

0 5-3 Python爬虫urlib2实例代码演示

2016-10-21

Fred9

请问为什么 title_node =soup.find('dd' ，class_="lemmaWgt-lemmaTitle-title").find('h1') 为什么返回值是空啊？求帮助

2016-10-21

heroanswer

set()

0 4-2 Python爬虫URL管理器的实现方式

2016-10-21

heroanswer

防止重复抓取..

0 4-1 Python爬虫URL管理

2016-10-21

heroanswer

URL管理器：待抓取的URL 集合和已抓取的URL集合

0 4-1 Python爬虫URL管理

2016-10-21

heroanswer

爬虫

url管理器

网页下载器

网页解析器（解析：url、有用数据）

2 3-1 Python简单爬虫架构

2016-10-21

慕前端9699632

真是太感谢了，现在刚刚学爬虫，能有一个这样系统讲解的视频教程帮助真的是很大，对爬虫有了一个初步的了解，框架清楚了

0 8-1 课程总结

2016-10-21

没有结果也没有报错啊

最赞回答 / Spider_Maker4260916

你的spider_main里的if __name__ == __main__错了

5 回答 1325 浏览 7-7 开始运行爬虫和爬取结果展示

2016-10-21

不能用ctrl+1导入re和urlparse啊

最新回答 / 慕粉4149136

python版本不对或者elipse没有装好

1 回答 685 浏览 7-5 HTML解析器html_parser

2016-10-21

qq_我也想要橡皮果实_04188688

不能像老师一样直接ctrl+1导入re和urlparse啊，我crtl+1之后没有那个选项，其他的都有，有没有大神能解释下

5 7-5 HTML解析器html_parser

2016-10-21

_劣徒Sadness

@xiaoqiang_123 head meta charset="utf-8" 这个改一下就可以了

1 7-7 开始运行爬虫和爬取结果展示

2016-10-20

qq_北冕_03149153

在from bs4 import beautifulsoup中 unresolved import:beautifulsoup解决方法：

右击项目，属性；选择"PyDev-Interpreter/Grammar"；
点击链接"Click here to configure an interpreter not listed." ；
在"Libraries"内，点击"new egg/zip(s)"，导入egg文件；
比如我的路径：C:\Python27\Lib\site-packages\beautifulsoup4-4.5.1-py2.7.egg
完成后重启

2 8-1 课程总结

2016-10-20

慕粉4237090

厉害了我的哥，我等我学会后要爬到所有形容厉害的词来描述你

78 3-2 Python简单爬虫架构的动态运行流程

2016-10-20

首页上一页 132 133 134 135 136 137 138 下一页尾页

该课程已下架

课程须知: 本课程是Python语言开发的高级课程 1、Python编程语法； 2、HTML语言基础知识； 3、正则表达式基础知识；

老师告诉你能学到什么？: 1、爬虫技术的含义和存在价值 2、爬虫技术架构 3、组成爬虫的关键模块：URL管理器、HTML下载器和HTML解析器 4、实战抓取百度百科1000个词条页面数据的抓取策略设定、实战代码编写、爬虫实例运行 5、一套极简的可扩展爬虫代码，修改本代码，你就能抓取任何互联网网页！

微信扫码，参与3人拼团

热搜

最近搜索清空