已解决430363个问题，去搜搜看，总会有你想问的

百度面试题，如何快速找出文件(大文件无法一次性读取)中的重复项？

首页猿问百度面试题，如何快速找出文件(大文...

JavaScript

一只名叫tom的猫 2019-05-13 08:52:04

百度面试题，大致意思是说，有个文件，文件很大不能一次性读取（可能是不能一次性加载到内存中），文件中存放的是IP地址，如何快速找出重复的IP地址？求指点思路。文件很大，可以逐行读取，append到list中，取set，再取差集，不知是否可行？

查看完整描述

2 回答

慕容3067478

TA贡献1773条经验获得超3个赞

不可行。append到list中，，跟直接一次性读取没差，都是要占用所有数据的内存；取差集只能set-list，不能list-set

反对回复 2019-05-13

FFIVE

TA贡献1797条经验获得超6个赞

条件不充分阿。如果有1000万条记录地址，只有几个重复，目前想到的可以先排序，然后map-reduce。如果有1000万条记录，其中900万是重复的，用hashTable就解决了。

反对回复 2019-05-13

关注

0/150

提交

取消