为了账号安全,请及时绑定邮箱和手机立即绑定

大数据怎么样判断数据唯一性效率高?

大数据怎么样判断数据唯一性效率高?

吃鸡游戏 2018-07-30 17:33:14
我想用python对全网的网站进行扫描记录,想用mysql建个表记录每个网站的信息,数据量大后怎么能快速的判断这个网站已经记录过呢?基本表结构有:id,url,name,datetime等相关字段,url想有唯一性,是拿到url查询一下判断没有数据再插入还是怎么办?如果做了唯一性索引直接插入时会报错,谢谢,或是有没有别的有效的解决办法?
查看完整描述

3 回答

?
慕侠2389804

TA贡献1719条经验 获得超6个赞

推荐使用Bloom Filter存储已经抓取到的url.
Bloom Filter实际上是由一组哈希函数和一个字节列表组成. 

如果使用Python可直接安装Pybloom包, 这里已经实现了Bloom Filter.


查看完整回答
反对 回复 2018-08-02
?
狐的传说

TA贡献1804条经验 获得超3个赞

对url进行hash,就是微博短域名一样,然后用kv,mysql都行

查看完整回答
反对 回复 2018-08-02
?
萧十郎

TA贡献1815条经验 获得超12个赞

分布式kv数据库
对url分组

查看完整回答
反对 回复 2018-08-02
  • 3 回答
  • 0 关注
  • 1119 浏览
慕课专栏
更多

添加回答

举报

0/150
提交
取消
意见反馈 帮助中心 APP下载
官方微信