开源 企业版 高校版 私有云 模力方舟 AI 队友
代码拉取完成,页面将自动刷新
捐赠
捐赠前请先登录
扫描微信二维码支付
取消
支付完成
支付提示
将跳转至支付宝完成支付
确定
取消
1 Star 0 Fork 265

enzoism/python-learn

forked from mktime/python-learn
加入 Gitee
与超过 1400万 开发者一起发现、参与优秀开源项目,私有仓库也完全免费 :)
免费加入
已有帐号? 立即登录
文件
master
分支 (1)
master
master
分支 (1)
master
克隆/下载
克隆/下载
提示
下载代码请复制以下命令到终端执行
为确保你提交的代码身份被 Gitee 正确识别,请执行以下命令完成配置
初次使用 SSH 协议进行代码克隆、推送等操作时,需按下述提示完成 SSH 配置
1 生成 RSA 密钥
2 获取 RSA 公钥内容,并配置到 SSH公钥
在 Gitee 上使用 SVN,请访问 使用指南
使用 HTTPS 协议时,命令行会出现如下账号密码验证步骤。基于安全考虑,Gitee 建议 配置并使用私人令牌 替代登录密码进行克隆、推送等操作
Username for 'https://gitee.com': userName
Password for 'https://userName@gitee.com': # 私人令牌
master
分支 (1)
master
python-learn
/
find_repeat.py
python-learn
/
find_repeat.py
find_repeat.py 3.69 KB
一键复制 编辑 原始数据 按行查看 历史
private-user 提交于 2021年07月05日 22:41 +08:00 . delete some words
#!/usr/bin/env python2
import os.path
from os.path import isfile, isdir, join, getsize, basename
from sys import argv, exit
import getopt
from hashlib import md5
'''
date: 2015年07月16日 12:56:27
author: withrock
mail: withfaker@gmail.com
desc: this tool is used to find content-repeated file in a directory tree.
it didn't use md5 hash because of calcluating hash slowly for big file.
i wrote a simple hash function `calc_hash` whhich just depends on file size and file name.
if you have good idea for quickly calcluating file hash,
you can give me some advise, thank you!
'''
def calc_hash(filepath, size):
data = str(size) + "-" + basename(filepath)
m = md5()
m.update(data)
return m.hexdigest()
def calc_hash_slow(filepath, size):
buffer_size = 1024*1024*2
handle = open(filepath, "rb")
m = md5()
while True:
data = handle.read(buffer_size)
if not data:
break
m.update(data)
handle.close()
return m.hexdigest()
def pretty_size(size):
if size < 1024:
return "%.2f Bytes" % size
elif size < (1024 * 1024):
return "%.2f Kibs" % (float(size) / 1024.00)
elif size < (1024 * 1024 * 1024):
return "%.2f Mibs" % (float(size) / (1024.00 * 1024.00))
elif size < (1024 * 1024 * 1024 * 1024):
return "%.2f Gibs" % (float(size) / (1024.00 * 1024.00 * 1024.00))
else:
return "%.2f Tibs" % (float(size) / (1024.00 * 1024.00 * 1024.00 * 1024.00))
'''
{
hash1 --> [(path, filesize), ...],
hash2 --> [(path, filesize), ...],
hash3 --> [(path, filesize), ...],
hash4 --> [(path, filesize), ...]
...
}
'''
data_set = {}
def insert_data(data):
_hash = data['hash']
if not data_set.has_key(_hash):
data_set[_hash] = [data[_hash], ]
else:
data_set[_hash].append(data[_hash])
def analyze_data():
for _hash in data_set:
if len(data_set[_hash]) > 1:
print("-" * 40)
for one in data_set[_hash]:
print("\t", one)
def find_repeat(p, big_size):
'''find repeat-content file'''
try:
items = os.listdir(p)
except:
items = []
for item in items:
fp = join(p, item)
if isfile(fp):
file_size = getsize(fp)
if file_size > big_size:
_hash = calc_hash(fp, file_size)
_size = pretty_size(file_size)
data = {
'hash': _hash,
_hash : (fp, _size)
}
insert_data(data)
else:
find_repeat(fp, big_size)
def usage():
print('''
python find_repeat.py [options]
-d, --dir the dir to find
-m, --minsize find size large than minsize
-h, --help show help
-v, --version show version
''')
exit(0)
if __name__ == '__main__':
big_size = ""
query_dir = ""
try:
options, args = getopt.getopt(argv[1:], "hvd:m:", ["help", "dir=", "minsize="])
except:
usage()
for o, v in options:
if o in ("-h", "--help"):
usage()
if o in ("-v", "--version"):
print("0.0.1 --by withrock")
exit(0)
if o in ("-d", "--dir"):
query_dir = v
if not isdir(query_dir):
print("dir invalid.")
usage()
if o in ("-m", "--minsize"):
try:
big_size = long(v)
except:
print("minsize invalid.")
usage()
if not big_size or not query_dir:
usage()
find_repeat(query_dir, big_size)
analyze_data()
Loading...
举报
举报成功
我们将于2个工作日内通过站内信反馈结果给你!
请认真填写举报原因,尽可能描述详细。
请选择举报类型
取消
发送
误判申诉

此处可能存在不合适展示的内容,页面不予展示。您可通过相关编辑功能自查并修改。

如您确认内容无涉及 不当用语 / 纯广告导流 / 暴力 / 低俗色情 / 侵权 / 盗版 / 虚假 / 无价值内容或违法国家有关法律法规的内容,可点击提交进行申诉,我们将尽快为您处理。

取消
提交

简介

个人AI助理,音频实时监听,GPT对话,opencv获取摄像头视频截图;Python基础编程示例:Excel读写追加处理,XML解析、JSON解析、FLV与MP4转换,PyQT界面应用程序开发示例等,https证书到期检测,糗百爬虫,pdf和图片互相转换,socket使用,百度OCR调用例子,IP及端口快速扫描。
暂无标签
MIT
使用 MIT 开源许可协议
取消

发行版

暂无发行版

贡献者

全部

近期动态

不能加载更多了
编辑仓库简介
简介内容
主页
马建仓 AI 助手
尝试更多
代码解读
代码找茬
代码优化
Python
1
https://gitee.com/enzoism/python-learn.git
git@gitee.com:enzoism/python-learn.git
enzoism
python-learn
python-learn
master
点此查找更多帮助

搜索帮助

评论
仓库举报
回到顶部
登录提示
该操作需登录 Gitee 帐号,请先登录后再操作。
立即登录
没有帐号,去注册

AltStyle によって変換されたページ (->オリジナル) /