Python开发简单爬虫_技术问答

首页免费课 Python开发简单爬虫问答

Python开发简单爬虫

全部评论问答未解决精华

慕无忌9773874

熟能生巧嗄

0 6-3 BeautifulSoup的语法

2016-11-08

Ladder3227016

https://github.com/Yan15/SimpleCrawSpider
自己写的源代码，请给个github star（就是收藏下，）谢谢。

2016-11-07

蒙娜丽莎不会微笑

java面向对象的味道

1 7-2 调度程序

2016-11-07

慕粉4222547

set里面不会出现重复

4 7-3 URL管理器

2016-11-07

有序

很少留言，但是这个老师的思路真的很清晰，非常感谢

0 8-1 课程总结

2016-11-06

慕粉4222547

有些人听不懂就埋怨，看见这种人就觉得这种人真的是低智商的麻瓜，自己不学习，没人有义务教会你，你自己愿意学就自己下功夫，不愿意学不会是你自己活该，别再评论里恶心人了

86 6-3 BeautifulSoup的语法

2016-11-03

CallMeDog

if __name__ = "__main__":
^
SyntaxError: invalid syntax

1 7-7 开始运行爬虫和爬取结果展示

2016-11-02

宇娃

Python第三种方法
import urllib2
import cookielib
url = "http://www.baidu.com/"
print 'third'
cj = cookielib.CookieJar()
opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cj))
urllib2.install_opener(opener)
response3 = urllib2.urlopen(url)
print response3.getcode()
print cj
print response3.read()

2 5-3 Python爬虫urlib2实例代码演示

2016-11-01

宇娃

Python2.7.12 第二种方法
————————————————————————————————
import urllib2
import cookielib
url = "http://www.baidu.com/"
print 'second'
request = urllib2.Request(url)
request.add_header('user-agent', 'Mozilla/5.0')
response2 = urllib2.urlopen(request)
print response2.getcode()
print len(response2.read())

2 5-3 Python爬虫urlib2实例代码演示

2016-11-01

宇娃

Python2.7.12
————————————————————————————————
import urllib2
import cookielib

url = "http://www.baidu.com/"

print 'first'

response1 = urllib2.urlopen(url)
print response1.getcode()
print len(response1.read())

1 5-3 Python爬虫urlib2实例代码演示

2016-11-01

慕仙7237728

#增加一些东西
def output_html(self):
fount=open("output.html","w",encoding='utf-8')
fount.write("<meta charset=\'utf-8\'>")

4 7-6 HTML输出器

2016-10-31

慕田峪2324132

大家的路还长着呢

2 8-1 课程总结

2016-10-29

慕粉4289539

我的输出是这个C:\Python27\python.exe D:/pycharm/xiexie/baike_spider/spider_main.py
craw 1 : None
craw failed

Process finished with exit code 0
为什么？

3 7-7 开始运行爬虫和爬取结果展示

2016-10-27

weibo___何小贱_0

是在是厉害只有听到这里才感觉出python的强大

0 7-4 HTML下载器html_downloader

2016-10-27

weibo___何小贱_0

真是厉害，感触很多

0 7-3 URL管理器

2016-10-27

首页上一页 68 69 70 71 72 73 74 下一页尾页

该课程已下架

课程须知: 本课程是Python语言开发的高级课程 1、Python编程语法； 2、HTML语言基础知识； 3、正则表达式基础知识；

老师告诉你能学到什么？: 1、爬虫技术的含义和存在价值 2、爬虫技术架构 3、组成爬虫的关键模块：URL管理器、HTML下载器和HTML解析器 4、实战抓取百度百科1000个词条页面数据的抓取策略设定、实战代码编写、爬虫实例运行 5、一套极简的可扩展爬虫代码，修改本代码，你就能抓取任何互联网网页！

微信扫码，参与3人拼团

热搜

最近搜索清空

Python开发简单爬虫