已解决430363个问题，去搜搜看，总会有你想问的

scrapy Rule如何解析json格式的链接？

首页猿问 scrapy...

scrapy Rule如何解析json格式的链接？

Python

手掌心 2019-01-05 11:44:12

rules = { 'sina':( Rule(LinkExtractor(allow='/\d+-\d+-\d+\/.*?-.*?.shtml', deny=('http://search.sina.com.cn/.*?')), callback='parse_item', follow=True), ) }如上，目的是从目标页面解析出符合条件的链接目标页面示例：https://feed.sina.com.cn/api/roll/get?pageid=121&lid=1356&num=20&versionNumber=1.2.4&page=1&encode=utf-8&callback=feedCardJsonpCallback&_=1545017197742试了很多正则的方法，都匹配不出来"urls":"[\"https:\\\/\\\/news.sina.com.cn\\\/o\\\/2018-12-18\\\/doc-ihqhqcir7816653.shtml\"]"这里面的链接，正则表达式测试过没问题，但是在scrapy 的Rule里就不行

查看完整描述

1 回答

1 回答
0 关注
608 浏览

关注

添加回答

0/150

提交

取消

微信客服

购课补贴
联系客服咨询优惠详情

帮助反馈 APP下载

慕课网APP
您的移动学习伙伴

公众号

扫描二维码
关注慕课网微信公众号

热搜

最近搜索清空

scrapy Rule如何解析json格式的链接？

scrapy Rule如何解析json格式的链接？

1 回答

添加回答