课程
                    
                        /后端开发
                        
                            /Python
                        
                        /Python开发简单爬虫

该网站变成了https需要如何爬虫呢

qq_月牙_5

2017-11-22

源自：Python开发简单爬虫 7-7

关注问题我要回答

7056

操作

收起

2 回答

仓颉小米
2017-12-01

方法是一样的吧~

本人使用python 3.7 ，入口地址如下：

https://baike.baidu.com/item/Python/407313?fr=aladdin

https://baike.baidu.com/item/Python/407313

我就是按照老师的步骤。只输出了一条，就报错了（报错内容太长了，没全粘过来）：

urllib.error.URLError: <urlopen error [SSL: CERTIFICATE_VERIFY_FAILED] certificate verify failed: unable to get local issuer certificate (_ssl.c:864)>

后找到了解决办法，原文链接：http://bookshadow.com/weblog/2015/04/22/sae-python-weibo-sdk-certificate-verify-failed/

Python 升级到 2.7.9 之后引入了一个新特性，当使用urllib.urlopen打开一个 https 链接时，会验证一次 SSL 证书。而当目标网站使用的是自签名的证书时就会抛出本人遇到的错误。

已验证链接中第一种方案有效：

import urllib.request
import string
import ssl
 
class HtmlDownloader(object):
 
    def download(self, url):
        if url is None:
            return
             
        context = ssl._create_unverified_context()
        response = urllib.request.urlopen(url, context=context)
 
        if response.getcode() != 200:
            return
 
        return str(response.read(), encoding='utf-8')

不知道你要问的是不是这个呢？