Python开发简单爬虫_技术问答

首页免费课 Python开发简单爬虫问答

Python开发简单爬虫

全部评论问答未解决精华

老师，您好！我安装的是anaconda2，在eclipse里面运行5-3的代码的时候，提示没有urllib2

最新回答 / linydee

python版本是2.7.12

2 回答 2276 浏览 5-3 Python爬虫urlib2实例代码演示

2016-09-21

好伤心不知道哪里错了只运行一条，也不报错，也打印不出来求救！！！

最新回答 / DUO_1080

看看output那个py文件有没有错

2 回答 751 浏览 7-7 开始运行爬虫和爬取结果展示

2016-09-20

课程代码对比排错

最新回答 / VDer

在Linux上用PyCharm写了一遍，放到Github上了

1 回答 419 浏览

2016-09-20

爬取的数据还是乱码

最赞回答 / wang4142

导出的out.html页面，浏览器默认打开的是gbk编码，修改下为utf-8编码就好了

5 回答 1077 浏览 7-6 HTML输出器

2016-09-20

mac系统 pydev在eclipse中的快捷键control＋1没有用 comannd＋1也只有图片中的几种模式

最新回答 / 重口小耳朵

说明你没有New PyDev Module XXXX

2 回答 1696 浏览 7-2 调度程序

2016-09-20

No module named bs4 说我没有装bs4.

已采纳回答 / 慕粉18001275658

<...图片...>应该这样安装才行

3 回答 28382 浏览 6-4 BeautifulSoup实例测试

2016-09-14

运行报错，怎么回事，看不懂！

最新回答 / UFO2015

# 初始化 class```pyclass UrlManage(object): def __init__(self): self.new_urls = set(); self.old_urls = set(); def add_new_url(self, url): # todo```

3 回答 647 浏览 7-2 调度程序

2016-09-13

PyCharm : 报错提示： too broad exception clauses 的完美解决方案！

最新回答 / UFO2015

```pyexcept Exception as e: logging.exception(e) print 'error'```

3 回答 12962 浏览 7-2 调度程序

2016-09-13

有小伙伴有分享一下老师的完整代码吗？我的现在出了点问题，想跟老师的对比一下

已采纳回答 / UFO2015

https://github.com/xgqfrms/Python/tree/master/spider/wiki_baike

1 回答 448 浏览 8-1 课程总结

2016-09-13

爬虫程序无法运行can't find _main_ module in this folder

已采纳回答 / sin丶

下载代码后发现问题还是挺多的，除了那个outputer，在html_parser下data写成date，title也打错了,参数page_url也没设置。html_outputer里，方法output_html没有写进去标题。慢慢改吧。

2 回答 964 浏览 8-1 课程总结

2016-09-13

redis 为什么是大公司的工具呀，明明是开源的好不好，不会用是你自己的问题！

最赞回答 / 东围居士

mysql也是开源的吖因为mysql相对较慢，大公司对性能要求高，所以更加适合使用redis何必激动

1 回答 910 浏览 4-2 Python爬虫URL管理器的实现方式

2016-09-12

python 3.4 urllib2 不能用

最新回答 / 慕粉3182733

python3里面没有urllib2，只有urllib，跟2的用法不一样。我同时安装了python2和3，在解释2编写的代码的时候用2的解释器，解释3编写的代码的时候用3的解释器。开发环境是pycharm，可以更改settings里面的interpreter。如果是命令行的话可以用py -2或者py -3运行程序。如果环境变量2在前可以省略py -2，3同样。

2 回答 2307 浏览 5-2 Python爬虫urlib2下载器网页的三种方法

2016-09-08

有个疑惑不知道怎么优化

最新回答 / 否则悲伤从何而来

那你唯一需要修改的就是“然后又随机选一个链接接着爬”，这边的规则应该是你自己想的算法吧建议你写一个方法，把和当前url的关键词按照某种规律，把当前页面的所有url“过滤”成自己需要的有“相关性”URL，就在UrlManger里面的get_new_url下，比如self.new_urls.getMyRulUrl(self.new_urls)

1 回答 571 浏览 7-6 HTML输出器

2016-09-07

卡住了怎么办

最新回答 / 慕粉3975934

用ctrl+c退出，Python运行比较慢

1 回答 604 浏览 7-6 HTML输出器

2016-09-07

ctr+1(Pycharm编辑器)create class如何调出

已采纳回答 / vsyour

alt+回车

3 回答 2525 浏览 7-2 调度程序

2016-09-06

首页上一页 66 67 68 69 70 71 72 下一页尾页

该课程已下架

课程须知: 本课程是Python语言开发的高级课程 1、Python编程语法； 2、HTML语言基础知识； 3、正则表达式基础知识；

老师告诉你能学到什么？: 1、爬虫技术的含义和存在价值 2、爬虫技术架构 3、组成爬虫的关键模块：URL管理器、HTML下载器和HTML解析器 4、实战抓取百度百科1000个词条页面数据的抓取策略设定、实战代码编写、爬虫实例运行 5、一套极简的可扩展爬虫代码，修改本代码，你就能抓取任何互联网网页！

微信扫码，参与3人拼团

热搜

最近搜索清空

Python开发简单爬虫