为了账号安全,请及时绑定邮箱和手机立即绑定

simhash分块问题,为什么这么芬

simhash分块问题,为什么这么芬

慕斯王 2019-06-16 15:52:53
   爬虫课上simhash比较通过增加存储空间减少比较次数,其中您讲到分成5块:A,B,C,D,E,分别存储16,12,12,12,12位。   我的问题是为什么不分4块存储:28,12,12,12呢?
查看完整描述

2 回答

?
ibeautiful

TA贡献1993条经验 获得超5个赞

这个问题是这样的,如果你有一块是28个bit位,你可以试试看,会出现一种情况,比如 x 和 y 两个数,它们分别在 24 44 64 3个bit位不同,那么x分为这样的4块(也就是 28 12 12 12 | 12 28 12 12 | ... )后,发现4个特征块也就是 28bit的那一个块,都会有不同的数,因此根据特征块来找,会根本就找不到
 
根据我们的情况,64个bit位有3个不同,要保证分组的间隔是小于21的,否则就会出现,几个特征块总能包含不同的bit

查看完整回答
反对 回复 2019-06-16
?
繁花不似锦

TA贡献1851条经验 获得超4个赞

看了这个更疑惑了,如果分成ABCD,28,12,12,12的四块,那么根据抽屉原理,还是能找到一块是完全相同的,然后再比较剩余的位。没有明白为什么会找不到。

看了这个更疑惑了,如果分成ABCD,28,12,12,12的四块,那么根据抽屉原理,还是能找到一块是完全相同的,然后再比较剩余的位。没有明白为什么会找不到。

查看完整回答
反对 回复 2019-06-16
  • 2 回答
  • 0 关注
  • 437 浏览
慕课专栏
更多

添加回答

举报

0/150
提交
取消
意见反馈 帮助中心 APP下载
官方微信