为了账号安全,请及时绑定邮箱和手机立即绑定

不知道为什么,只爬了一行

不知道为什么,只爬了一行:

craw 1 : https://baike.baidu.com/item/Python

craw failed

请问怎么解决

正在回答

3 回答

将try。。。except。。。删除,然后查看是哪里出了问题,一步一步来分析解决,不然程序就只有报错,没有输出错误信息

0 回复 有任何疑惑可以回复我~

spider_main.py中加入:

import ssl
ssl._create_default_https_context = ssl._create_unverified_context

原因:会验证SSL 证书,而百度的https直接会失败。需要unverified处理。

0 回复 有任何疑惑可以回复我~

我也出现了这个问题,刚刚解决掉。

第一,检查你的代码,是否全部和文中一样。

第二,如果一样,我的问题出在了html_parser中的_get_new_urls方法中,视频中老师写的那个正则表达式在现在的网页中是打不开的,需要写成符合现在网页中的超链接的href类型的表达式。我改为links=soup.find_all('a', href=re.compile(r"/item/[0-9a-zA-Z\%]+"))之后,正确返回了所有的抓取到的url以及文档。

不知道你的是什么原因,但你可以试一试,希望能够帮到你。

0 回复 有任何疑惑可以回复我~

举报

0/150
提交
取消
Python开发简单爬虫
  • 参与学习       227670    人
  • 解答问题       1219    个

本教程带您解开python爬虫这门神奇技术的面纱

进入课程

不知道为什么,只爬了一行

我要回答 关注问题
意见反馈 帮助中心 APP下载
官方微信