Python开发简单爬虫_技术问答

首页免费课 Python开发简单爬虫问答

Python开发简单爬虫

全部评论问答未解决精华

红博3419678

爬了一个之后就不爬了,错误提示:__init__() got an unexpected keyword argument 'from_Encoding'

1 7-7 开始运行爬虫和爬取结果展示

2016-08-21

慕用1916611

getcode() 200页面请求的状态值，分别有：200请求成功、303重定向、400请求错误、401未授权、403禁止访问、404文件未找到、500服务器错误

15 7-4 HTML下载器html_downloader

2016-08-21

打印不了结果是什么原因？？

最新回答 / 关力

1.同学你好，我们在写程序的时候，有好多判断，比如说链接无效，比如说没有title或者summay数据等都会被返回为异常处理，然后显示为craw failed.2.你可以通过在程序中增加print url来显示你爬取得url,这样即使failed，你也可以自己检验看是否是url真的错误，还是自己程序的问题。有可能出现自己url拼接错误的问题，因为无法看到你的代码，因此无法确定，你可以自己检查一下。

1 回答 519 浏览 7-2 调度程序

2016-08-20

薛定谔的虎

from bs4 import BeautifulSoup
soup = BeautifulSoup(html_doc,'html.parser')
print('所有链接')
links = soup.find_all('a')
for link in links:
print(link.name,link["href"],link.get_text())

1 6-4 BeautifulSoup实例测试

2016-08-20

为什么正则的时候出错呢？？

最赞回答 / 宇娃

很明显，这是re模块没有导入的结果。在输入link_node = soup.find('a', href=re.后面按Ctrl +1 ，会提示你导入re 模块，然后回车就行了，这就就导入了re模块，然后代码就可以正常运行了

5 回答 705 浏览 6-4 BeautifulSoup实例测试

2016-08-20

Oliver0047

没报错，但只输出了一条记录，第二条就failed，然后就没了

2 7-7 开始运行爬虫和爬取结果展示

2016-08-19

为什么这里全部出错了呢。打印不出来

已采纳回答 / UFO2015

<...code...>没有 # coding:utf8 <...图片...> 有 # coding:utf8 <...图片...>

4 回答 1228 浏览 5-3 Python爬虫urlib2实例代码演示

2016-08-19

为什么运行出错？？？

最新回答 / y3093

第一行加 # coding:utf8 声明编码格式即可。

2 回答 407 浏览 6-2 BeautifulSoup模块介绍和安装

2016-08-19

爬虫爬出来的内容是b'\n\xe6\x8e\xa5\xe5\x8f\xa3\xe6\ 这样的字符是什么原因？

最赞回答 / 云1234567

我自己也有同样的问题，后来自己给自己解决了，也是参考了别的问题的答案。我再复制一份给你方法一：fout.write("<html><meta charset=\"utf-8\" />")下面这些不需要再写encode('utf-8')fout.write('<td>%s</td>'%data['url']) fout.write('<td>%s</td>'%data['title']) fout.write('<td>...

3 回答 9952 浏览 7-7 开始运行爬虫和爬取结果展示

2016-08-19

爬虫可爬url但没有html文件输出，也不能正常工作？

最新回答 / Freid_Q

同问啊

3 回答 2407 浏览 7-7 开始运行爬虫和爬取结果展示

2016-08-19

被作业淹没的人

Traceback (most recent call last):
File "C:\Users\cjj\workspace\imooc\test\test_bs4.py", line 39, in <module>
print p_node.name, p_node.get_text()
AttributeError: 'NoneType' object has no attribute 'name'

这到底是错在哪里了

5 6-4 BeautifulSoup实例测试

2016-08-19

qq_王兰书_03786073

百度经验置顶那个下载安装包到Python3.5目录的方法死活都识别你在把BeautifulSoup4往Python2.7里安，换4.4.1，4.4.5都这么坑，不知道什么原理。还是照着视频里老老实实来，给安好了

1 6-2 BeautifulSoup模块介绍和安装

2016-08-18

为什么会报错

已采纳回答 / 慕虎5127847

我在pycharm中把你的代码运行了一下，把“beautifulSoup”改成“BeautifulSoup”，并且把soup=beautifulsoup(html_doc,'html_doc',from_encoding='utf-8')改成了soup=BeautifulSoup(html_doc,'html.parser',from_encoding='utf-8')，最后结果是正确的，而且没有报错

3 回答 832 浏览 6-4 BeautifulSoup实例测试

2016-08-18

PNA

老师讲的很好，看完还有点不舍

1 8-1 课程总结

2016-08-17

慕用1916611

https://www.crummy.com/software/BeautifulSoup/bs4/doc/#installing-beautiful-soup

1 6-2 BeautifulSoup模块介绍和安装

2016-08-17

为什么我加了# -- coding: utf8 -- 还是报错？中文无法识别。。

已采纳回答 / arkria3684535

首先要确保eclipse编辑器环境的编码为utf8，这个是大前提；其次如果py文件中含有中文字符的话，需要在py文件中对编码进行声明。修改eclipse编辑器编码：A）设置工作空间编码：Window->preferences->General->Workspace->UTF-8B）设置编辑器编码：Window->preferences->General ->Editors->Text Editors->Spelling->UTF-8C）设置...

4 回答 8855 浏览 5-3 Python爬虫urlib2实例代码演示

2016-08-17

首页上一页 145 146 147 148 149 150 151 下一页尾页

该课程已下架

课程须知: 本课程是Python语言开发的高级课程 1、Python编程语法； 2、HTML语言基础知识； 3、正则表达式基础知识；

老师告诉你能学到什么？: 1、爬虫技术的含义和存在价值 2、爬虫技术架构 3、组成爬虫的关键模块：URL管理器、HTML下载器和HTML解析器 4、实战抓取百度百科1000个词条页面数据的抓取策略设定、实战代码编写、爬虫实例运行 5、一套极简的可扩展爬虫代码，修改本代码，你就能抓取任何互联网网页！

微信扫码，参与3人拼团

热搜

最近搜索清空

Python开发简单爬虫