为了账号安全,请及时绑定邮箱和手机立即绑定

hadoop读取GBK编码文件,中文乱码问题求助?

hadoop读取GBK编码文件,中文乱码问题求助?

宝慕林4294392 2018-11-18 08:04:30
hadoop读取GBK编码文件,中文乱码问题求助
查看完整描述

1 回答

?
MMMHUHU

TA贡献1834条经验 获得超8个赞

1、hadoop内部默认的文本读取编码设置为utf-8,你的源文件为gbk,在读取时遇到中文时是肯定要出现乱码
解决方法有二:
(1)将你的GBK编码的文件在生成时,统一成utf-8,这是最好的方式,方便国际化。
(2)重写一个你的hadoop读文件的FileInputFormat对象,在其中进行传相应的编码值与编码转换的工作,这个是比较麻烦,实际当中用得很少。

查看完整回答
反对 回复 2018-12-08
  • 1 回答
  • 0 关注
  • 1289 浏览
慕课专栏
更多

添加回答

举报

0/150
提交
取消
意见反馈 帮助中心 APP下载
官方微信