为了账号安全,请及时绑定邮箱和手机立即绑定

【学习打卡】第6天 Scrapy打造搜索引擎 提取博客网详情页信息分析

标签:
爬虫

课程名称:Scrapy打造搜索引擎(分布式爬虫)


课程章节:提取博客网详情页信息


主讲老师:bobby


课程内容:

今天学习的内容包括:Scrapy中为什么使用yield、提取博客网详情页信息分析


课程收获:

    1.Scrapy中为什么使用yield

        简单地讲,yield 的作用就是把一个函数变成一个 generator,通常运用在带有循环的函数中,带有 yield 的函数不再是一个普通函数,Python 解释器会将其视为一个 generator,调用该函数时不会执行该函数,而是返回一个 iterable 对象!在 for 循环执行时,每次循环都会执行该函数内部的代码,执行到 yield时,该函数就返回一个迭代值,下次迭代时,代码从 yield的下一条语句继续执行,而函数的本地变量看起来和上次中断执行前是完全一样的,于是函数继续执行,直到再次遇到 yield。

        https://img1.sycdn.imooc.com//62f319c4000158e414660901.jpg

        https://img1.sycdn.imooc.com//62f319cd0001718a13480456.jpg




    2.提取博客网详情页信息

        1.爬虫待爬取数据

            https://img1.sycdn.imooc.com//62f31a2c0001b82424001288.jpg

            https://img1.sycdn.imooc.com//62f31a3e0001229924001288.jpg


    2.提取详情页的点赞数、评论数、查看数问题

        https://img1.sycdn.imooc.com//62f31a700001d3ce23981173.jpg

        1.直接读取

            https://img1.sycdn.imooc.com//62f31a920001e3c424001288.jpg

        2.查看网页html代码

            https://img1.sycdn.imooc.com//62f31aaf0001709024001288.jpg

        3.查找返回评论数、点赞数等的js文件

            https://img1.sycdn.imooc.com//62f31ac600010cab23951168.jpg    

            https://img1.sycdn.imooc.com//62f31adb0001d35123981170.jpg

点击查看更多内容
TA 点赞

若觉得本文不错,就分享一下吧!

评论

作者其他优质文章

正在加载中
  • 推荐
  • 评论
  • 收藏
  • 共同学习,写下你的评论
感谢您的支持,我会继续努力的~
扫码打赏,你说多少就多少
赞赏金额会直接到老师账户
支付方式
打开微信扫一扫,即可进行扫码打赏哦
今天注册有机会得

100积分直接送

付费专栏免费学

大额优惠券免费领

立即参与 放弃机会
微信客服

购课补贴
联系客服咨询优惠详情

帮助反馈 APP下载

慕课网APP
您的移动学习伙伴

公众号

扫描二维码
关注慕课网微信公众号

举报

0/150
提交
取消