已解决430363个问题，去搜搜看，总会有你想问的

求 C# 海量数据挑出重复数据算法？

首页猿问求 C# 海量数据挑出重复数据算法？

求 C# 海量数据挑出重复数据算法？

.NET

慕仙森 2018-10-10 04:05:37

需求：挑出大量数据中的重复数据.NET 做数据处理，现在是把数据一条条addrow 到datatable里，在初始化datatable时设置其 primarykey 字段，如果是重复的数据会引发ConstraintException，这样就能抓到重复的记录。如何实现对大数据量数据重复记录筛选出来，有时数据量会上1000W，如果不借助datatable，自己实现，用什么样的数据结构和算法，能保证效率？如果数据量大到内存无法全部加载呢？

查看完整描述

2 回答

波斯汪

TA贡献1811条经验获得超4个赞

1、算哈希，假设数据变成128位的哈希码

2、根据128位的前16位分文件存储

3、每个文件里再找重复

这是分治的思路，至于具体根据几位分文件，是不是要二级细分都可以修改

反对回复 2018-10-22

2 回答
0 关注
625 浏览

关注

添加回答

0/150

提交

取消

微信客服

购课补贴
联系客服咨询优惠详情

帮助反馈 APP下载

慕课网APP
您的移动学习伙伴

公众号

扫描二维码
关注慕课网微信公众号

热搜

最近搜索清空

求 C# 海量数据 挑出重复数据算法？

求 C# 海量数据 挑出重复数据算法？

2 回答

添加回答

求 C# 海量数据挑出重复数据算法？

求 C# 海量数据挑出重复数据算法？