为了账号安全,请及时绑定邮箱和手机立即绑定

百度面试题,如何快速找出文件(大文件无法一次性读取)中的重复项?

百度面试题,如何快速找出文件(大文件无法一次性读取)中的重复项?

一只名叫tom的猫 2019-05-13 08:52:04
百度面试题,大致意思是说,有个文件,文件很大不能一次性读取(可能是不能一次性加载到内存中),文件中存放的是IP地址,如何快速找出重复的IP地址?求指点思路。文件很大,可以逐行读取,append到list中,取set,再取差集,不知是否可行?
查看完整描述

2 回答

?
慕容3067478

TA贡献1773条经验 获得超3个赞

不可行。
append到list中,,跟直接一次性读取没差,都是要占用所有数据的内存;
取差集只能set-list,不能list-set
                            
查看完整回答
反对 回复 2019-05-13
?
FFIVE

TA贡献1797条经验 获得超6个赞

条件不充分阿。如果有1000万条记录地址,只有几个重复,目前想到的可以先排序,然后map-reduce。如果有1000万条记录,其中900万是重复的,用hashTable就解决了。
                            
查看完整回答
反对 回复 2019-05-13
  • 2 回答
  • 0 关注
  • 587 浏览
慕课专栏
更多

添加回答

举报

0/150
提交
取消
意见反馈 帮助中心 APP下载
官方微信