同步操作将从 mktime/python-learn 强制同步,此操作会覆盖自 Fork 仓库以来所做的任何修改,且无法恢复!!!
确定后同步将在后台操作,完成时将刷新页面,请耐心等待。
#!/usr/local/bin/python2.7#coding=gbk'''Created on 2012年11月7日@author: palydawn'''import cmathfrom BitVector import BitVectorclass BloomFilter(object):#之前用python写了一个网络爬虫,里面url去重用的就是布隆过滤器,不过那个是用c++写的,在windows下用boost编译成python模块之后再python里面调用,现在用纯python重新写一个,这样爬虫在linux和windows下都可以运行了,下面是代码:def __init__(self, error_rate, elementNum):#计算所需要的bit数self.bit_num = -1 * elementNum * cmath.log(error_rate) / (cmath.log(2.0) * cmath.log(2.0))#四字节对齐self.bit_num = self.align_4byte(self.bit_num.real)#分配内存self.bit_array = BitVector(size=self.bit_num)#计算hash函数个数self.hash_num = cmath.log(2) * self.bit_num / elementNumself.hash_num = self.hash_num.real#向上取整self.hash_num = int(self.hash_num) + 1#产生hash函数种子self.hash_seeds = self.generate_hashseeds(self.hash_num)def insert_element(self, element):for seed in self.hash_seeds:hash_val = self.hash_element(element, seed)#取绝对值hash_val = abs(hash_val)#取模,防越界hash_val = hash_val % self.bit_num#设置相应的比特位self.bit_array[hash_val] = 1#检查元素是否存在,存在返回true,否则返回falsedef is_element_exist(self, element):for seed in self.hash_seeds:hash_val = self.hash_element(element, seed)#取绝对值hash_val = abs(hash_val)#取模,防越界hash_val = hash_val % self.bit_num#查看值if self.bit_array[hash_val] == 0:return Falsereturn True#内存对齐def align_4byte(self, bit_num):num = int(bit_num / 32)num = 32 * (num + 1)return num#产生hash函数种子,hash_num个素数def generate_hashseeds(self, hash_num):count = 0#连续两个种子的最小差值gap = 50#初始化hash种子为0hash_seeds = []for index in xrange(hash_num):hash_seeds.append(0)for index in xrange(10, 10000):max_num = int(cmath.sqrt(1.0 * index).real)flag = 1for num in xrange(2, max_num):if index % num == 0:flag = 0breakif flag == 1:#连续两个hash种子的差值要大才行if count > 0 and (index - hash_seeds[count - 1]) < gap:continuehash_seeds[count] = indexcount = count + 1if count == hash_num:breakreturn hash_seedsdef hash_element(self, element, seed):hash_val = 1for ch in str(element):chval = ord(ch)hash_val = hash_val * seed + chvalreturn hash_val'''#测试代码bf = BloomFilter(0.001, 1000000)element = 'palydawn'bf.insert_element(element)print bf.is_element_exist('palydawn')'''其中使用了BitVector库,python本身的二进制操作看起来很麻烦,这个就简单多了
此处可能存在不合适展示的内容,页面不予展示。您可通过相关编辑功能自查并修改。
如您确认内容无涉及 不当用语 / 纯广告导流 / 暴力 / 低俗色情 / 侵权 / 盗版 / 虚假 / 无价值内容或违法国家有关法律法规的内容,可点击提交进行申诉,我们将尽快为您处理。