首页手记【学习打卡】第4天 Scrapy打造搜索引擎...

【学习打卡】第4天 Scrapy打造搜索引擎 .cnblogs模拟登陆

标签：

爬虫

课程名称：Scrapy打造搜索引擎(分布式爬虫)

课程章节：.cnblogs模拟登陆

主讲老师：bobby

课程内容：

今天学习的内容包括：.cnblogs模拟登陆

课程收获：

1.Selenium（Web自动化工具）

1.selenium介绍

Selenium是一个用于Web应用程序测试的工具。Selenium测试直接运行在浏览器中，就像真正的用户在操作一样。支持的浏览器包括IE（7, 8, 9, 10, 11），Mozilla Firefox，Safari，Google Chrome，Opera，Edge等。这个工具的主要功能包括：测试与浏览器的兼容性——测试应用程序看是否能够很好得工作在不同浏览器和操作系统之上。测试系统功能——创建回归测试检验软件功能和用户需求。支持自动录制动作和自动生成.Net、Java、Perl等不同语言的测试脚本。

2.安装selenium、undetected-chromedriver

3.使用

# spider运行起来，URL都会从此方法开始
def start_requests(self):
    # 入口可以模拟登录拿到cookie，selenium控制浏览器会被一些网站识别出来(例如:知乎、拉勾网)

    # 实例化一个浏览器
    import undetected_chromedriver.v2 as uc
    chrome_driver = r"E:\Python\chromedriver.exe"
    # 后面讲解selenium的时候会下载chromedriver.exe
    browser = uc.Chrome(executable_path=chrome_driver)
    browser.get("https://account.cnblogs.com/signin")
    # 自动化输入、自动化识别滑动验证码并拖动整个自动化过程
    input("回车继续：")  # 等待浏览器驱动加载完成

    # 手动登录后获取cookie值
    cookies = browser.get_cookies()
    cookie_dict = {}  # 将获取的cookie值转变为dict字典类型数据
    for cookie in cookies:
        cookie_dict[cookie['name']] = cookie['value']

    # 爬虫的时候不要过快，建议使用debug模式进行运行，否则网站会监测cookie值，然后禁止该cookie

    for url in self.start_urls:
        # 将cookie交给scrapy，那么后序的请求会沿用之前请求的cookie值吗？
        headers = {
            # headers将访问伪装成浏览器，防止被反爬
            'user-agent': 'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 '
                          '(KHTML, like Gecko) Chrome/101.0.4951.64 Mobile Safari/537.36'
        }
        yield scrapy.Request(url, cookies=cookie_dict, headers=headers, dont_filter=True)

2.查看博客网新闻具体信息页面时需要事先登录

1.测试——假如未登录，直接查看新闻详情页面会发生什么？

注：user-agent是什么？

3.测试使用

1.运行报错

提示：入口文件中需要加if __name__ == '__main__':

2.jobbole.py代码

3.再次debug

点击查看更多内容

为 TA 点赞

若觉得本文不错，就分享一下吧！

评论

评论

共同学习，写下你的评论

评论加载中...

展开查看更多评论

作者其他优质文章

正在加载中

残梦ming

学生

手记
篇

粉丝

2

获赞与收藏

0

关注作者，订阅最新文章

阅读免费教程

Python 原生爬虫教程

19个小节 56637 1221

Scrapy 入门教程

27个小节 11264 271

后端通用面试教程

41个小节 32869 371

推荐

评论

收藏

共同学习，写下你的评论



感谢您的支持，我会继续努力的～

扫码打赏，你说多少就多少

赞赏金额会直接到老师账户

支付方式

打开微信扫一扫，即可进行扫码打赏哦

今天注册有机会得

100积分直接送

付费专栏免费学

大额优惠券免费领

立即参与放弃机会

点击
抽奖

慕课手记新用户专享福利

恭喜你，你的运气太好了，居然抽中了 100个积分！

恭喜你，抽中了价值元的专栏！

太棒了，直接落到你账户里！

积分商城里的罗技鼠标、机械键盘、
Kindle 阅读器、小米平衡车
Apple iPad （10.2英寸）、大额优惠券
在等着你去兑换了噢

作者：

免费赠送

兑换码：1111222211 复制

优惠券可用于购买实战课、体系课
无门槛使用

先去看看，有什么好东西马上兑换我爱学习，选课去


热搜

最近搜索清空

【学习打卡】第4天 Scrapy打造搜索引擎 .cnblogs模拟登陆

课程内容：

课程收获：

阅读免费教程