为了账号安全,请及时绑定邮箱和手机立即绑定

那位大神能提供告诉下 10W数据 快速查询的算法谢谢

那位大神能提供告诉下 10W数据 快速查询的算法谢谢

POPMUISE 2018-12-07 04:31:19
那位大神能提供告诉下  10W数据 快速查询的算法谢谢 我自己在写一个网络蜘蛛玩  里边的URL去重  要是用常规方法 需要花很久的时间 我希望能以算法实现快速查找   希望路过的  都给吓意见吗  小弟在这里 谢谢啦
查看完整描述

10 回答

?
蛊毒传说

TA贡献1895条经验 获得超3个赞

对URL进行hash,32bit的hash就足够了,使用hashcode做index,查询速度是客观的。我现在也在做抓取工作,采用的方式就是这种,数据库文件体积8G+了。

查看完整回答
反对 回复 2019-01-21
?
jeck猫

TA贡献1909条经验 获得超7个赞

周公说的对...

查看完整回答
反对 回复 2019-01-21
?
Helenr

TA贡献1780条经验 获得超3个赞

@落幕残情: 

就是周公的说的。sorry,没有具体实现。

查看完整回答
反对 回复 2019-01-21
?
慕尼黑5688855

TA贡献1848条经验 获得超2个赞

用蚁群算法

查看完整回答
反对 回复 2019-01-21
?
一只甜甜圈

TA贡献1836条经验 获得超5个赞

说明URL是常用的搜索条件,给它建立索引试试看吧,应该会快一些。

查看完整回答
反对 回复 2019-01-21
?
MMMHUHU

TA贡献1834条经验 获得超8个赞

纯10w不多,放内存都没啥问题,直接遍内存一下就出来了。

10w对于mssql,查一下就出来了,也很快。

如果再往上,自己在数据存储上花点功能,比如把域名建成分类,这样查询时就可以按域名缩小范围。

查看完整回答
反对 回复 2019-01-21
?
蓝山帝景

TA贡献1843条经验 获得超7个赞

我是URL 去重复   
网络爬虫在 筛选URL  不去读取重复URL ,10W确实少了点 ,目前我能做到的是 蜘蛛每天可以读取100W网页

查看完整回答
反对 回复 2019-01-21
  • 10 回答
  • 0 关注
  • 331 浏览

添加回答

举报

0/150
提交
取消
意见反馈 帮助中心 APP下载
官方微信