Python开发简单爬虫_技术问答

首页免费课 Python开发简单爬虫问答

Python开发简单爬虫

全部评论问答未解决精华

qidoudou

这个培训的思路太清楚了，赞

1 7-1 Python爬虫实例-分析目标

2017-06-23

qq_职场小不点_0

你看完再说好吗？介绍3种，是让你有个总体了解，后边会具体介绍，真2

比武鱼：对于初学者来说太快了，很难理解。为什么要一次过介绍三种方法呢？为什么不能讲一个方法就演示一遍呢？感觉就是照着PPT读一样，那我不如直接看PPT算了，还需要老师干什么。

5 5-2 Python爬虫urlib2下载器网页的三种方法

2017-06-23

我的代码和视频的一模一样了为什么还是会报错？？？

最新回答 / 慕粉和点心

你用的版本可能错了有2×、3×俩个版本，你都去试试

1 回答 999 浏览 7-2 调度程序

2017-06-22

曼妥思糖

不用下载，直接在Scripts目录下输入pip install beautifulsoup4即可安装（电脑要联网，且Scripts目录下有pip.exe文件）

3 6-2 BeautifulSoup模块介绍和安装

2017-06-22

qq_回忆中的蓝色_04271280

有ppt么

0 6-3 BeautifulSoup的语法

2017-06-22

梦想中的A神

1.到http://www.crummy.com/software/BeautifulSoup/网站上上下载，最新版本是4.6.0。
2.下载完后解压，放到python下。
3.cmd，切换到C:/Python27/beautifulsoup4-4.6.0/目录下（根据自己解压后的目录和下载的版本号修改）
cd C:/Python27/beautifulsoup4-4.6.0
4.运行命令
setup.py build
setup.py install
源自 http://kevinkelly.blog.163.com/blog/static/21390809320133185748442/

3 6-2 BeautifulSoup模块介绍和安装

2017-06-22

南区大表哥

来学学如何爬

0 1-1 Python开发简单爬虫课程介绍

2017-06-22

艾兔

老师讲的很好啊，说实话你想学爬虫html是必须的技能树啊。
建议老师开始前先说明下需要哪些前置课程，这样评论区就可以少很多抱怨的声音。
有些零基础的确实是不知道。

6 6-3 BeautifulSoup的语法

2017-06-21

慕尼黑6392526

@qq_巴图鲁_03964589 搜一下，转换下字符编码就可以了。

0 5-3 Python爬虫urlib2实例代码演示

2017-06-21

python3.6 出现ImportError: cannot import name 'BeautifulSoup' 错误求助

已采纳回答 / 华灯初上丶

楼主，我研究了一个晚上，from bs4 import BeautifulSoup报错No module named 'bs4'问题，琢磨了一个方法。首先，我使用的IDE是PyCharm Python版本3.6，在file选项中选择settings选项点进去<...图片...>然后选择Pro...

4 回答 24638 浏览 6-4 BeautifulSoup实例测试

2017-06-20

qq__9254

这是在window下开发的么

0 7-2 调度程序

2017-06-20

mk充满爱与正义

P3改后实测有效
1. root_url = 'http://baike.baidu.com/item/Python'
2. with open('output.html','w',encoding='utf-8') as fout:
fout.write(unquote("<td>%s</td>" % data['url']))
fout.write("<td>%s</td>" % data['title'])
fout.write("<td>%s</td>" % data['summary'])

2 7-7 开始运行爬虫和爬取结果展示

2017-06-20

慕哥7927659

GitHub: https://github.com/fengtimo/baike_spider
Python 3.6.1运行正常
保存1000条数据html打开不显示简介，不知道为啥

0 7-7 开始运行爬虫和爬取结果展示

2017-06-19

远游骑士

非常不错，受教了

0 7-6 HTML输出器

2017-06-18

运行结果没有问题文件写入正常就是词条的内容乱码

已采纳回答 / mk充满爱与正义

如果是URL部分乱码/item/%E7%BC%96%，是因为url采用了再编码--&te(16进制编码解决方法：调用urllib.parse.unquote("/item/%E7%BC%96%")来变回中文注意：变回中文的URL无法用urllib.request.urlopen(URL)来访问，可以在最...

3 回答 1101 浏览 7-7 开始运行爬虫和爬取结果展示

2017-06-18

等不到的年华

使用第三方库
import requests

class HtmlDownloader(object):

def download(self, url):
if url is None:
return None
response = requests.get(url)
response.encoding = 'utf-8'
if response.status_code != 200:
return None
return response.text

0 7-4 HTML下载器html_downloader

2017-06-18

首页上一页 84 85 86 87 88 89 90 下一页尾页

该课程已下架

课程须知: 本课程是Python语言开发的高级课程 1、Python编程语法； 2、HTML语言基础知识； 3、正则表达式基础知识；

老师告诉你能学到什么？: 1、爬虫技术的含义和存在价值 2、爬虫技术架构 3、组成爬虫的关键模块：URL管理器、HTML下载器和HTML解析器 4、实战抓取百度百科1000个词条页面数据的抓取策略设定、实战代码编写、爬虫实例运行 5、一套极简的可扩展爬虫代码，修改本代码，你就能抓取任何互联网网页！

微信扫码，参与3人拼团

热搜

最近搜索清空