为了账号安全,请及时绑定邮箱和手机立即绑定

爬虫爬到中文乱码该如何解决

爬虫爬到中文乱码该如何解决

慕尼黑5688855 2019-03-29 22:09:46
利用Node的cheerio插件去爬一个网站的新闻,结果发现从中获得的中文显示为“������ͼ��20140611����”乱码,求问如何解决,顺便求问不同转码格式的知识点;
查看完整描述

2 回答

?
幕布斯7119047

TA贡献1794条经验 获得超8个赞

首先肯定是确定要爬的页面的编码。如果是GBK的话就需要对爬过来的文字用iconv库做转化,在nodejs中变成UTF8。比如:
varrequest=require('request'),
cheerio=require('cheerio'),
Iconv=require('iconv').Iconv;
variconv=newIconv('GBK','UTF-8');
request(opts,function(err,response,body){
varresult=iconv.convert(newBuffer(body,'binary')).toString();
var$=cheerio.load(result);
//......
});
                            
查看完整回答
反对 回复 2019-03-29
  • 2 回答
  • 0 关注
  • 443 浏览
慕课专栏
更多

添加回答

举报

0/150
提交
取消
意见反馈 帮助中心 APP下载
官方微信