该网站变成了https需要如何爬虫呢
该网站变成了https需要如何爬虫呢
该网站变成了https需要如何爬虫呢
2017-11-22
方法是一样的吧~
本人使用python 3.7 ,入口地址如下:
https://baike.baidu.com/item/Python/407313?fr=aladdin
https://baike.baidu.com/item/Python/407313
我就是按照老师的步骤。只输出了一条,就报错了(报错内容太长了,没全粘过来):
urllib.error.URLError: <urlopen error [SSL: CERTIFICATE_VERIFY_FAILED] certificate verify failed: unable to get local issuer certificate (_ssl.c:864)>
后找到了解决办法,原文链接:http://bookshadow.com/weblog/2015/04/22/sae-python-weibo-sdk-certificate-verify-failed/
Python 升级到 2.7.9 之后引入了一个新特性,当使用urllib.urlopen打开一个 https 链接时,会验证一次 SSL 证书。而当目标网站使用的是自签名的证书时就会抛出本人遇到的错误。
已验证链接中第一种方案有效:
import urllib.request import string import ssl class HtmlDownloader(object): def download(self, url): if url is None: return context = ssl._create_unverified_context() response = urllib.request.urlopen(url, context=context) if response.getcode() != 200: return return str(response.read(), encoding='utf-8')
不知道你要问的是不是这个呢?
举报