Python开发简单爬虫_技术问答

首页免费课 Python开发简单爬虫问答

Python开发简单爬虫

全部评论问答未解决精华

慕粉5129361

cool啊，eclipse 还能这么帅！

0 7-2 调度程序

2016-06-11

天一柯南

讲的太棒了啊！

0 4-1 Python爬虫URL管理

2016-06-11

lene0314

老师，快出高级教程~

1 8-1 课程总结

2016-06-09

这个node是怎么来的？soup.findall方法得到的是列表啊

已采纳回答 / qq_匠邮心生_03449154

在获取全部链接的循环后面加上代码： print type(link),type(links)结果为：<class 'bs4.element.Tag'> <class 'bs4.element.ResultSet'>说明soup.find_all的返回结果links是一个自定义的类，node也是一种自定义的类for i in range(3): print links[i].name, links[i]['href'],links[i].get_text(),links[...

1 回答 1188 浏览 6-3 BeautifulSoup的语法

2016-06-09

米木十丅丨

仅输出1条记录就craw failed，检查html_parser模块get_new_data方法里title_node的赋值，在最后find前有个括号).find('h1')

2 7-7 开始运行爬虫和爬取结果展示

2016-06-08

wawajs

从url出发，爬爬爬，提取网页的数据。

2 2-1 爬虫是什么

2016-06-08

lol1ipop

python3.5第三段代码，urllib2在3.5中为urllib.request
print("第三种方法")
cj = http.cookiejar.CookieJar()
opener = urllib.request.build_opener(urllib.request.HTTPCookieProcessor(cj))
urllib.request.install_opener(opener)
response3 = urllib.request.urlopen(url)
print(response3.getcode())
print(len(response3.read()))

1 5-3 Python爬虫urlib2实例代码演示

2016-06-07

Run As运行代码卡壳

最新回答 / Adobe

在cmd里用python xx.py会怎样呢

1 回答 663 浏览 7-7 开始运行爬虫和爬取结果展示

2016-06-07

自由1号

debug调试时1000条没问题，run时输出一条记录就卡壳了，不懂

1 7-7 开始运行爬虫和爬取结果展示

2016-06-07

自由1号

debug调试时没问题，run时输出一条记录就卡壳了，不懂

2 7-7 开始运行爬虫和爬取结果展示

2016-06-07

雾失楼台123

讲的真好，可以很快的入门了

3 7-1 Python爬虫实例-分析目标

2016-06-07

沧邪

import re

3 6-4 BeautifulSoup实例测试

2016-06-07

慕容毓

import requests

class HtmlDownloader(object):
def download(self,url):
if url is None:
return None
r = requests.get(url)
if r.status_code != 200:
return None
return r.text

7 7-4 HTML下载器html_downloader

2016-06-07

fout.write()出现乱码

最赞回答 / 死瘦子

这是因为虽然 fout.write(data['title'].encode('utf-8')) 指定了编码，但你用浏览器打开页面时浏览器并不是使用的utf-8的编码，可能是GBK的编码，你可以选择下浏览器编码就正常了。你也可以修改下代码，在 fout.write("<html>") 后面加句 fout.write('<meta http-equiv="Content-Type" content="text/html; charset=utf-8" />')，这 <meta ...

2 回答 1803 浏览 8-1 课程总结

2016-06-07

qq_微笑_20

python3中是用urllib.request.urlopen()

3 7-4 HTML下载器html_downloader

2016-06-06

慕前端9062423

讲得不错，很详细，学习思维方式

10 4-2 Python爬虫URL管理器的实现方式

2016-06-06

首页上一页 160 161 162 163 164 165 166 下一页尾页

该课程已下架

课程须知: 本课程是Python语言开发的高级课程 1、Python编程语法； 2、HTML语言基础知识； 3、正则表达式基础知识；

老师告诉你能学到什么？: 1、爬虫技术的含义和存在价值 2、爬虫技术架构 3、组成爬虫的关键模块：URL管理器、HTML下载器和HTML解析器 4、实战抓取百度百科1000个词条页面数据的抓取策略设定、实战代码编写、爬虫实例运行 5、一套极简的可扩展爬虫代码，修改本代码，你就能抓取任何互联网网页！

微信扫码，参与3人拼团

热搜

最近搜索清空