为了账号安全,请及时绑定邮箱和手机立即绑定

如何使用网络抓取获取推文的内容

如何使用网络抓取获取推文的内容

萧十郎 2022-10-27 16:58:00
我尝试过使用 puppeteer,但是我会尝试通过传入 x-path 来获取信息,它永远不会返回任何信息。完全相同的程序适用于不同的网站,但不适用于 Twitter。有没有办法使用 Cheerio 或其他方法获取推文的内容?我可以访问 twitter API,但是文档很难理解。编辑代码:这是我的 pupputeer 代码,它出于某种原因挂在 await page.waitfornavigation() 仅用于 twitter。对于任何其他网站,这都有效。const Apify = require('apify'); var OldAlphaAIData = {TICKER:"", REF:"", SIGNAL:""} Apify.main(async () => {    const input = await Apify.getValue('INPUT');     const browser = await Apify.launchPuppeteer();    const page = await browser.newPage();    await page.goto('https://twitter.com/MarketsTicker');    await page.waitForNavigation();    do    {        console.log('ffff');        var timenow = new Date(); //Get Date        timenow.setHours(timenow.getHours() + 1);        var AlphaAIData = {TICKER:"", REF:"", SIGNAL:""};        var everything;        var everythingarray = [];         //xpath to 1st twitter message              const [el0] = await page.$x('/html/body/div/div/div/div[2]/main/div/div/div/div[1]/div/div[2]/div/div/div[2]/section/div/div/div/div[1]');            const txt0 = await el0.getProperty('textContent');        everything = await txt0.jsonValue();        console.log(everything);    }while(true);});
查看完整描述

1 回答

?
米脂

TA贡献1836条经验 获得超3个赞

不确定您尝试从每条推文中提取的确切内容以及您如何解决问题,但twitter 模块的文档非常简单,假设您正在使用基于问题标签的节点。


var Twitter = require('twitter');

 

var client = new Twitter({

  consumer_key: '',

  consumer_secret: '',

  access_token_key: '',

  access_token_secret: ''

});

 

var params = {screen_name: 'nodejs'};

client.get('statuses/user_timeline', params, function(error, tweets, response) {

  if (!error) {

    console.log(tweets);

  }

});

当然,要实现这一点,您需要注册访问 API 并使用适当的变量(如 consumer_key、consumer_secret 等)提供这些详细信息。


更新:我已经设法让您的代码在 twitter 上运行,请查看以下更改,最重要的是await page.waitForXPath(xpath);,它在尝试获取其内容之前等待 xpath 首先加载。xpath 也不同,我在 DOM 内部进一步指出了保存消息的跨度。


const Apify = require('apify');


var OldAlphaAIData = { TICKER: "", REF: "", SIGNAL: "" }

Apify.main(async () => {

    const input = await Apify.getValue('INPUT');


    const browser = await Apify.launchPuppeteer();

    const page = await browser.newPage();

    const navigationPromise = page.waitForNavigation();

    await page.goto('https://twitter.com/MarketsTicker')

    await navigationPromise


    console.log('ffff');

    var timenow = new Date(); //Get Date

    timenow.setHours(timenow.getHours() + 1);

    var AlphaAIData = { TICKER: "", REF: "", SIGNAL: "" };

    var everything;

    var everythingarray = [];


    //xpath to 1st twitter message      

    const xpath = '/html/body/div/div/div/div[2]/main/div/div/div/div/div/div/div/div/div[2]/section/div/div/div/div[1]/div/div/article/div/div/div/div[2]/div[2]/div[2]/div[1]/div/span';

    await page.waitForXPath(xpath);

    const [el0] = await page.$x(xpath);

    const txt0 = await el0.getProperty('textContent');

    everything = await txt0.jsonValue();

    console.log(everything);


});

为简单起见,我删除了无限循环,因为它无限期地打印第一条推文。


查看完整回答
反对 回复 2022-10-27
  • 1 回答
  • 0 关注
  • 127 浏览
慕课专栏
更多

添加回答

举报

0/150
提交
取消
微信客服

购课补贴
联系客服咨询优惠详情

帮助反馈 APP下载

慕课网APP
您的移动学习伙伴

公众号

扫描二维码
关注慕课网微信公众号