Python开发简单爬虫_技术问答

首页免费课 Python开发简单爬虫问答

Python开发简单爬虫

全部评论问答未解决精华

不知道为什么，只爬了一行

最新回答 / 阿腾啊阿腾

将try。。。except。。。删除，然后查看是哪里出了问题，一步一步来分析解决，不然程序就只有报错，没有输出错误信息

3 回答 988 浏览 8-1 课程总结

2017-09-04

覆水难收d

看五六遍的说明你基础不行，有抱怨的功夫不如去查资料

0 6-3 BeautifulSoup的语法

2017-09-04

覆水难收d

html.parser/美丽汤/lxml

1 6-1 Python爬虫网页解析器简介

2017-09-04

覆水难收d

特殊情境处理：
1.需要用户登录才能访问（HTTPCookieProcessor）
2.需要代理才能访问（ProxyHandler）
3.协议使用HTTPS加密访问（HTTPSHandler）
4.URL自动跳转（HTTPRedirectHandler）

11 5-2 Python爬虫urlib2下载器网页的三种方法

2017-09-04

慕瓜653451

视频教程要比文字教程好很多很多，一篇千字的文档内容可能会折磨你几个钟。但是慕课的视频教程都是几分钟，每个视频慢慢看，不明白就停顿或者多看几遍，总比看着文档钻牛角尖好！

学习就是一个纠错矫正的过程。个人觉得老师也不是万能的，老师的精力也是有限，哪些基础知识不懂，也就只能返回去看一些基础的，有征对性的教材。

根据二八定律，技能重要的是那20%的基础，往往要我们在整个学习的过程中付出80%的的精力和时间放在这上面。

4 6-3 BeautifulSoup的语法

2017-09-03

慕粉1043563131

Github代码，供大家参考
https://github.com/a414351664/py_reptile

2 7-7 开始运行爬虫和爬取结果展示

2017-09-03

SRGSRG

https://github.com/sunrungeng/crawl-baike-python-demo
今天刚敲得需要的可以参考下

3 7-2 调度程序

2017-09-03

丶Esc3626950

本来心情挺好，看了评论真是日了狗了，看不懂的地方搜一下不就知道了？非要老师全部咀嚼碎了再吐给你？

9 5-2 Python爬虫urlib2下载器网页的三种方法

2017-09-03

靠豆浆咸饼度日的沉沉

set()哪里来的

2 7-3 URL管理器

2017-09-03

tinshine

经验证，不能写在一起，上面的方法错了

1 7-3 URL管理器

2017-09-01

需要账号密码登录的网页怎么实现Python抓取

最新回答 / 独孤翎竑

from selenium import webdriverfrom selenium.webdriver.support.wait import WebDriverWaitfrom selenium.webdriver.support import expected_conditions as ECfrom selenium.common.exceptions import NoSuchElementExceptionfrom selenium.webdriver.common.by import By...

1 回答 5817 浏览 7-7 开始运行爬虫和爬取结果展示

2017-09-01

代码如图，爬出来的全是craw failed，求大神解释？

最新回答 / freedom_X20A

def get_new_url(self):#从url管理器中获取一个新的带爬取得url new_url=self.new_urls.pop()#pop方法会从列表中获取url并会移除 self.old_urls.add(new_url)#将此url添加进old_url return new_url你多了个add

1 回答 842 浏览 7-2 调度程序

2017-08-31

求助，这是什么错？

最新回答 / 慕粉0034543

把data换个名字

1 回答 645 浏览 7-7 开始运行爬虫和爬取结果展示

2017-08-31

tinshine

上面说错了，其实没必要判断传入的URL是单个还是多个，对于for来说都一样的

2 7-3 URL管理器

2017-08-31

tinshine

其实没有必要分成两个add_url 和 add_urls，直接写一个add_url函数，然后判断传入的urls是单个元素还是多个元素就好了。

def add_url(self, urls):
if url is None or len(url) == 0:
return
for url in urls:
if url not in self.new_urls and url not in self.old_urls:
self.new_urls.add(url)

7 7-3 URL管理器

2017-08-31

我的_get_new_urls的函数中，在往new_urls中add的时候，add前的元素前面明明没有u,add后却前面多加了一个u，不知道是为什么，求大神告知。

+ 我来回答回答最高可+2积分

0 回答 1080 浏览

2017-08-31

首页上一页 68 69 70 71 72 73 74 下一页尾页

该课程已下架

课程须知: 本课程是Python语言开发的高级课程 1、Python编程语法； 2、HTML语言基础知识； 3、正则表达式基础知识；

老师告诉你能学到什么？: 1、爬虫技术的含义和存在价值 2、爬虫技术架构 3、组成爬虫的关键模块：URL管理器、HTML下载器和HTML解析器 4、实战抓取百度百科1000个词条页面数据的抓取策略设定、实战代码编写、爬虫实例运行 5、一套极简的可扩展爬虫代码，修改本代码，你就能抓取任何互联网网页！

微信扫码，参与3人拼团

热搜

最近搜索清空