已解决430363个问题，去搜搜看，总会有你想问的

百度面试题，如何快速找出文件(大文件无法一次性读取)中的重复项？

首页猿问百度面试题，如何快速找出文件(大文...

有只小跳蛙 2018-07-10 16:21:29

百度面试题，大致意思是说，有个文件，文件很大不能一次性读取（可能是不能一次性加载到内存中），文件中存放的是IP地址，如何快速找出重复的IP地址？求指点思路。文件很大，可以逐行读取，append到list中，取set，再取差集，不知是否可行？

查看完整描述

1 回答

慕的地6079101

TA贡献3593条经验获得超0个赞

反对回复 2021-10-16

饮歌长啸

TA贡献1951条经验获得超3个赞

不可行。

反对回复 2018-07-10

白猪掌柜的

TA贡献1893条经验获得超10个赞

IPv4么…… 一共才 4Gi 个地址，到内存里挖好坑，等着IP来跳。浪费点，用int8来存也就是4GB内存，节省点，用bit存的话只要500MB。思路可以活点，其实我觉得给出IP地址这个限制条件就是在降低难度。

IPv6的话，可能就得分治。基本思路就是先按内存能承受的长度去检查地址的前几位，碰撞了的丢同一个bucket里，然后再一个一个bucket地去看里面有没有重的，往下也可以再分。其实DBMS整天干这事……

反对回复 2018-07-10

关注

0/150

提交

取消