为了账号安全,请及时绑定邮箱和手机立即绑定

爬虫爬到中文乱码该如何解决

爬虫爬到中文乱码该如何解决

茅侃侃 2018-10-04 21:18:01
利用Node的cheerio插件去爬一个网站的新闻,结果发现从中获得的中文显示为“������ͼ��20140611����”乱码,求问如何解决,顺便求问不同转码格式的知识点;
查看完整描述

1 回答

?
红糖糍粑

TA贡献1815条经验 获得超6个赞

首先肯定是确定要爬的页面的编码。如果是GBK的话就需要对爬过来的文字用iconv库做转化,在nodejs中变成UTF8。比如:

var request = require('request'),

    cheerio = require('cheerio'),

    Iconv = require('iconv').Iconv;


var iconv = new Iconv('GBK', 'UTF-8');


request(opts, function (err, response, body) {

    var result = iconv.convert(new Buffer(body, 'binary')).toString();

    var $ = cheerio.load(result);

    // ......

});


查看完整回答
反对 回复 2018-10-14
  • 1 回答
  • 0 关注
  • 1611 浏览
慕课专栏
更多

添加回答

举报

0/150
提交
取消
意见反馈 帮助中心 APP下载
官方微信