首页手记爬取猫眼评论，分析《阿丽塔：战斗天使》

爬取猫眼评论，分析《阿丽塔：战斗天使》

标签：

Python 数据分析&挖掘爬虫

日本漫画《铳梦》改编电影《阿丽塔：战斗天使（Alita: Battle Angel）》于2019年2月22日在中国大陆上映了。近几天，网上对于这部电影的分析评论也很多，今天通过猫眼电影上的评论粗浅地看一下大众对这部科幻电影的评价。

工具库

jieba
pyecharts
wordcloud
matplotlib

分析网站

通过在浏览器模拟移动端请求评论的数据，可以看到随着页面的更改url并没有发生变化，初步判断该网页是通过js加载的，要想爬取首先得找到真实url和返回的数据格式。
通过多次的实践，找到了请求返回的真实url和关键参数，这里返回的是json格式的数据，里面有我们需要的信息。

通过比较多次请求信息，发现以下的参数

其中，offset是每次请求的起始评论条数；limit是每次请求的条数；ts我猜测应该是时间戳，不用管它

抓取信息

通过返回的json数据，选取其中的content,score,nick ,gender这四个参数，将这些信息写入一个文本中保存起来。

代码：

    def get_comments(self):
        '''
        爬取评论信息
        :return:
        '''
        for i in range(0, 14352, 15):
            URL = self.url.format(i)
            data = requests.get(url=URL, headers=self.header)
            time.sleep(random.random() * 3)
            com = json.loads(data.text)
            comments = com['data']['comments']
            if comments:
                for item in comments:
                    data = {
                        'content': item['content'],
                        'score': item['score'],
                        'nick': item['nick'],
                        'gender': item['gender'],
                    }
                    print(data)
                    # 存入文本中
                    with open('comments.txt', 'a+', encoding='UTF-8') as file:
                        file.writelines(
                            json.dumps(data, ensure_ascii=False) + '\n')
            else:
                break