现在的实现是一个字典类型,拥有500万条数据,KEY是40位的Hash做的是从里面确定某个Hash是否存在,但是这样的方法内存占用太多了准备尝试bloomfilter替换但是感觉增加数据有点麻烦,是否有其他类似的算法可以用?====另一种介绍===每次拿到一个HASH在列表中寻找,如果有,则停止执行,如果没有,则将该HASH添加到列表,继续重复执行。问题在:内存/效率
2 回答
HUX布斯
TA贡献1876条经验 获得超6个赞
因为hash40位,是16进制数的,我将字母替换为数字,然后转化为数字来存,这样应该可以省内存,效率应该会比较O(n)低。我的代码:#!/usr/bin/envpython#-*-coding:utf-8-*-SHIFT=5#如果计算机为32位,SHIFT为5;如果计算机为64位,SHIFT为6MASK=0x1F#如果计算机为32位,MASK为0x1F;如果计算机为64位,MASK为0x3FclassBitBucket(object):def__init__(self):self._unique_key_count=0#唯一的key有多少个self._total_key_count=0#加入的key有多少个self._bit={}self._map={'a':'1','b':'2','c':'3','d':'4','e':'5','f':'6'}defset(self,value):"""returnlastbit"""value=self._translate(value)self._total_key_count+=1ifnotself._has_key(value):self._unique_key_count+=1key=value>>SHIFTself._bit[key]=self._bit.get(key,0)|(1<<(value&MASK))return0return1defexist(self,value):value=self._translate(value)ifself._has_key(value):returnTruereturnFalsedefclear(self,value):value=self._translate(value)ifself._has_key(value):self._unique_key_count-=1self._total_key_count-=1key=value>>SHIFTself._bit[key]=self._bit[key]&(~(1<<(value&MASK)))returnTruereturnFalsedefget_total_count(self):returnself._total_key_countdefget_bit_count(self):returnself._unique_key_countdef_has_key(self,value):key=value>>SHIFTreturnself._bit.get(key,0)&(1<<(value&MASK))def_translate(self,value):value=value.lower()returnlong(''.join([self._map.get(c,c)forcinvalue]))if__name__=='__main__':bitBucket=BitBucket()bitBucket.set("a"*40)printbitBucket.exist("a"*40)printbitBucket.exist("b"*40)bitBucket.clear("a"*40)importhashlibforiinrange(1,27):a=chr(i)sha1=hashlib.sha1()sha1.update(a)bitBucket.set(sha1.hexdigest())printbitBucket.get_total_count()printbitBucket.get_bit_count()count=0foriinrange(1,30):a=chr(i)sha1=hashlib.sha1()sha1.update(a)ifbitBucket.exist(sha1.hexdigest()):count+=1assertcount==bitBucket.get_bit_count()或者可以考虑用字典树来做,用C++来做最好不过了,效率和内存但可以提高!
添加回答
举报
0/150
提交
取消