Python开发简单爬虫_技术问答

首页免费课 Python开发简单爬虫问答

Python开发简单爬虫

全部评论问答未解决精华

Simon_0005

爬了1000个，没问题，我学习模仿的代码 https://git.oschina.net/xiedongji/spider_demo.git

1 8-1 课程总结

2017-08-07

IcreamPrince

老师思路清晰，声音铿锵有力没有废话，听了一节就想继续听下去

4 7-1 Python爬虫实例-分析目标

2017-08-06

shuer

2017：Python百科url：http://baike.baidu.com/item/Python
读取新连接的正则表达式：links = soup.find_all('a',href=re.compile(r"/item/"))

4 7-2 调度程序

2017-08-05

隔壁码农老唐

爬的页面在爬到"百度"之后就跑偏了，哈哈哈

0 7-7 开始运行爬虫和爬取结果展示

2017-08-05

慕用6474987

清楚，明了

0 6-4 BeautifulSoup实例测试

2017-08-04

慕粉3606827

关于只输出了一条记录，第二条就抓取失败接下来就没有输出的问题，我个人的解决方案是这样，我去掉了老师在代码加上的try和except，然后输出结果就会打印出相应的错误，我发现错误是在parser方法，它返回了两个None值，接着我就去查看为什么会返回None值，结果发现parser的参数html_cont的值是None，parser方法一开始有个判断语句，通过调试会发现代码执行判断语句后就会返回，可由此判断。而html_cont是从download方法来获取的，那么问题就出在download方法，接着发现response.getcode()漏了括号。可以上网百度调试的方法，找bug效率会高很多。

8 7-7 开始运行爬虫和爬取结果展示

2017-08-04

云技术

老师敲代码的思路很好，不用管具体细节，只管敲要的内容。。。。

0 7-2 调度程序

2017-08-04

杭杭＊＊糖糖

老师讲的非常好，思路也很清晰，就是最后代码头大。。。

1 8-1 课程总结

2017-08-03

慕粉3726216

Python3.5 解决了网页输出乱码问题：

https://github.com/doubiiot/py_mooc

0 8-1 课程总结

2017-08-03

慕粉3726216

Python3.5 解决了网页输出乱码问题：

https://github.com/doubiiot/py_mooc

1 7-7 开始运行爬虫和爬取结果展示

2017-08-03

HBQDQC3408204

厉害厉害徐学到了知识

0 4-1 Python爬虫URL管理

2017-08-03

RoyHacker

架构讲的很清晰，按照架构流程图，使用 3.6.1版本的python语法，将 urllib2 替换成 requests模块，输出结果到txt文件，完成代码编写。源码地址：https://git.oschina.net/h_j_xiao/crawler_demo.git

2 8-1 课程总结

2017-08-03

慕仰0361636

import urllib.request

response = urllib.request.urlopen('http://www.baidu.com')
print(response.getcode())

1 5-2 Python爬虫urlib2下载器网页的三种方法

2017-08-02

慕斯2468733

urllib简介
首先需要说明的是，本系列教程，全部采用Python3.5作为开发环境，因为我不想做一些影响Python3发展的事情，如非必要，请使用Python3。
urllib是Python提供的一个用来访问网络的库，在Python3中有了较大的改动，首先最明显的就是整合了urllib2和urllib，使用起来更加的明了简单。

作者：秋名山车神
链接：http://www.imooc.com/article/16026
来源：慕课网
本文原创发布于慕课网，转载请注明出处，谢谢合作！

2 5-3 Python爬虫urlib2实例代码演示

2017-08-02

云技术

from bs4 import beautifulsoup

0 6-3 BeautifulSoup的语法

2017-08-02

首页上一页 36 37 38 39 40 41 42 下一页尾页

该课程已下架

课程须知: 本课程是Python语言开发的高级课程 1、Python编程语法； 2、HTML语言基础知识； 3、正则表达式基础知识；

老师告诉你能学到什么？: 1、爬虫技术的含义和存在价值 2、爬虫技术架构 3、组成爬虫的关键模块：URL管理器、HTML下载器和HTML解析器 4、实战抓取百度百科1000个词条页面数据的抓取策略设定、实战代码编写、爬虫实例运行 5、一套极简的可扩展爬虫代码，修改本代码，你就能抓取任何互联网网页！

微信扫码，参与3人拼团

热搜

最近搜索清空

Python开发简单爬虫