为了账号安全,请及时绑定邮箱和手机立即绑定

爬取淘宝任一商品首页动态数据信息

标签:
Java Python

在淘宝首页输入商品数据,搜索出来的商品信息是ajax动态加载出来的,这样的信息再源代码的是找不到,于是爬取这些信息可以选择selenium或者找到这个js文件进行解析,本文这次是抓到这个js文件进行解析的,首先打开淘宝页面,本文以搜索文胸为例子,如图,注意此时network中是只有少数几个js文件的

Paste_Image.png

点击商品页面第二页,我们发现JS中多了很多个请求,如图,这里有隐藏着商品信息的js文件

Paste_Image.png


找到这个文件就好办了,接下来就发送请求,解析json文件的事情了,只要点多几次,这个文件就能找到的,不难,如图


Paste_Image.png

Paste_Image.png


但是观察这份json数据和网址之间的关系,我们还可以做一些相应的修改,方便我们爬取之后的解析,这也是楼主实验多次的结果,爬虫真是体力活啊


Paste_Image.png

去掉如图红色箭头所指的字母之后是这样的,这就是一份很规则的json数据了,直接解析就好了

Paste_Image.png

import requests
import json
import csvclass Spider(object):首先找到获得这个文件的链接,其实这个链接很长,但是我们可以修改,把其他东西去掉,剩下这样的https://s.taobao.com/search?data-key=s&data-value=44&ajax=true&_ksTS=1479917597216_854&callback&q={},
大括号里面的是我们自己填充的搜索内容,
,我们使用这个简化版的url,访问效果是一样的
json_url='https://s.taobao.com/search?data-key=s&data-value=44&ajax=true&_ksTS=1479917597216_854&callback&q={}'再提一下,这里q之前的jsonjsonp1035这个字符已经链接上去掉,
否则获得的json文件就有这个字符在前面,影响json.loads的解析,
这里可是折腾了楼主这种小白差不多两个小时啊,简直要死    def __init__(self,kwyword):        self.url =self.json_url.format(kwyword)
        data = self.get_source()        #print(data)
        #print(type(data))

        #print(data)
        rusult_list= self.get_all_data(data)        self.write_data(rusult_list)    def get_source(self):
        html = requests.get(self.url)        #print(html.content)
        return html.content.decode()不解码的话看不到文字    def get_all_data(self,data):
        data_dict= json.loads(data)

        print(data_dict)
        print(type(data_dict))
        item_list = data_dict['mods']['itemlist']['data']['auctions']
      这一步尤其关键,是提取信息最关键的一步,也是折腾了我最久的,不得不感叹,淘宝的数据隐藏得真是深啊
        print(item_list)
        result_list = []        for item in item_list:
            result_dict = {}
            result_dict['title'] = item['title'].replace('<span class=H>', '').replace('</span>', '')
            result_dict['url'] = 'http:' + item['detail_url']
            result_dict['location'] = item['item_loc']
            result_dict['shop_name'] = item['nick']
            result_dict['原价'] = item['reserve_price']
            result_dict['现价'] = item['view_price']
            print(result_dict)
            result_list.append(result_dict)        return result_list    def write_data(self, result_list):
        with open('result.csv', 'w', encoding='UTF-8') as f:
            writer = csv.DictWriter(f, fieldnames=['title', '原价', '现价','shop_name', 'location',  'url'])
            writer.writeheader()
            writer.writerows(result_list)if __name__ == '__main__':
    keyword=input('请输入搜索的内容:' )
    all_data = Spider(keyword)

这是解析后的数据

Paste_Image.png

最后效果图

Paste_Image.png

Paste_Image.png


当然,只抓取一页怎么能满足呢,于是我分析了每个页面的url,发现还是有规律的


Paste_Image.png


除了第一个页面的js文件有点特殊,其他的都是由规律可以寻找的,这为我们大规模爬取提供了可能,数据还可以提取每个商品的购买人数,运费等等信息,对于分析也很有帮助,以后想起再来写吧



作者:蜗牛仔
链接:https://www.jianshu.com/p/e0c52c1100c7

点击查看更多内容
TA 点赞

若觉得本文不错,就分享一下吧!

评论

作者其他优质文章

正在加载中
  • 推荐
  • 评论
  • 收藏
  • 共同学习,写下你的评论
感谢您的支持,我会继续努力的~
扫码打赏,你说多少就多少
赞赏金额会直接到老师账户
支付方式
打开微信扫一扫,即可进行扫码打赏哦
今天注册有机会得

100积分直接送

付费专栏免费学

大额优惠券免费领

立即参与 放弃机会
意见反馈 帮助中心 APP下载
官方微信

举报

0/150
提交
取消