Python开发简单爬虫_技术问答

首页免费课 Python开发简单爬虫问答

Python开发简单爬虫

全部评论问答未解决精华

qq_我是太阳_2

《Python 3网络爬虫开发实战》中文PDF+源代码中文PDF，606页，带目录和书签，文字可以复制粘贴。配套源代码。网络爬虫经典书籍。资料下载：https://pan.baidu.com/s/1rRfnILg8FB5F2I1E_oy1AQ

2 2-2 爬虫技术的价值

2019-02-23

qq_我是太阳_2

2 2-1 爬虫是什么

2019-02-23

为什么去掉.encode('utf-8')可以，加上就会b'\xaa\xe4\xbd\xbf，用的是谷歌

最新回答 / 凉薄18

创建的新文件的默认编码是gbk而我们获取的网络数据流是decode过的unicode编码可以直接改变目标文件的编码 fout=open("output.html",'w',encoding='utf-8')

1 回答 577 浏览 7-7 开始运行爬虫和爬取结果展示

2019-02-22

西西雪凌

很棒，思路清晰

0 8-1 课程总结

2019-02-21

Python 3的代码自己改了一点，新网站，希望有用

最新回答 / 慕粉101344259

正则表达式需要改改

5 回答 1481 浏览 8-1 课程总结

2019-02-20

=soup.find('dd', class_="lemmaWgt-lemmaTitle-title").find("h1") TypeError: find() takes no keyword argumentsfind() takes no keyword arguments

最赞回答 / bosssssssos

你的soup不会是html文本吧，suop需要是BeautifulSoup对象

1 回答 1634 浏览 7-5 HTML解析器html_parser

2019-02-20

模糊匹配href出现问题

最新回答 / 慕_jm

你确定了其他url都是匹配这个格式的么？最后的d+ 这个加号不需要吧

1 回答 939 浏览 7-5 HTML解析器html_parser

2019-02-18

编译没有错误，运行只能爬取root url，接着就显示craw fialed是什么原因？感觉是parser那里出了问题，大家帮忙看看，就是爬取百科里的python

最赞回答 / 1one一_3607163

问题已解决，建议有类似问题的同学，去掉try模块，看一下有没有报错，根据错误改一下，就好了ps.我是getcode中间多加了个下划线，导致downloader不能正常运行lol

2 回答 905 浏览

2019-02-14

提示错误，一直找不到问题

最新回答 / 慕粉193046834

<...图片...>你的项目在报错啊调好了再运行

2 回答 946 浏览 6-4 BeautifulSoup实例测试

2019-02-13

慕后端703594

这是python3环境还是python2的

1 8-1 课程总结

2019-02-13

没去try前只能爬取一条去掉后发生这个错误大神求教!!!!

最新回答 / YMLiu

或者在'html_parser' 中，改成：

links = soup.find_all('a', href=re.compile(r"/item/.*"))

3 回答 1562 浏览 7-7 开始运行爬虫和爬取结果展示

2019-01-30

为什么我的有问题，报错很奇怪

最新回答 / 小马_125

<...图片...>这不是写的很清楚么

1 回答 933 浏览 7-5 HTML解析器html_parser

2019-01-28

基本原理，需要花费时间细读理解记住，否则你还会回来看，根据自身条件最好再对着源码去理解，毕竟原理和实现还是有不少差别，还有代码是敲出来的；大部分技术书籍上的都是过时的，包括学习网站的，学会自己根据网站api去学习，工作中带着疑问去学习效率比较高，摆脱复制黏贴，还有隔一段时间再回头审查自己写过的接口，你会想优化它，那就做吧，代码一定要规范，推荐sona。建议写博客记录下你学习和工作中碰到的问题以及如何解决的，希望能帮助你。

1 回答 1069 浏览 1-1 Python开发简单爬虫课程介绍

2019-01-28

请问这个问题怎么解决？

最新回答 / 慕粉193046834

代码贴出来不过看报错应该是循环写的有问题，检查下循环的参数

1 回答 1002 浏览 7-3 URL管理器

2019-01-27

pycharm下怎么引入和创建谢谢

最新回答 / 默党

您好，是ALT+ENTER

1 回答 995 浏览 7-2 调度程序

2019-01-26

首页上一页 10 11 12 13 14 15 16 下一页尾页

该课程已下架

课程须知: 本课程是Python语言开发的高级课程 1、Python编程语法； 2、HTML语言基础知识； 3、正则表达式基础知识；

老师告诉你能学到什么？: 1、爬虫技术的含义和存在价值 2、爬虫技术架构 3、组成爬虫的关键模块：URL管理器、HTML下载器和HTML解析器 4、实战抓取百度百科1000个词条页面数据的抓取策略设定、实战代码编写、爬虫实例运行 5、一套极简的可扩展爬虫代码，修改本代码，你就能抓取任何互联网网页！

微信扫码，参与3人拼团

热搜

最近搜索清空

Python开发简单爬虫