博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
文件类似的推理 -- 超级本征值(super feature)
阅读量:6161 次
发布时间:2019-06-21

本文共 865 字,大约阅读时间需要 2 分钟。

     基于内容的变长分块(CDC)技术,能够用来对文件进行变长分块。而后用来进行反复性检測,广泛用于去重系统中。后来又出现了对相似数据块进行delta压缩,进一步节省存储开销。

所以就须要一种高效的相似性检測算法,在论文 WAN Optimized Replication of Backup Datasets Using Stream-Informed Delta Compression 提出的super-features 算法具有非常好的效果。主要思想是在滑动窗体进行分块的过程中,通过一个窗体的rabin fingerprint 我们能够随机的得到一个数值。假设它比这个块中全部窗体w的rabin指纹都大。就把它记为一个特征值 feature-i,通过这个方案得到的多个feature。计算rabin 指纹得到的就是超级特征值SF,下图每一个SF有四个特征值得到。

以下是对几个文件简单的測试结果,这里每一个文件生成俩超级特征值(假设两个文件有一个super feature一样,就能够觉得它们相似性非常高),效果比simhash好(缺乏大量数据集论证)。
F1,F2,F3 分别在F的基础上头,尾,中间增加额外字节,发现得到的两个超级特征值都一样 Supfeature[0]=5465959093573163876,Supfeature[1]=7673021043978770954。

F4是一个全然不同的文件。 Supfeature[0]=2682386775420212619,Supfeature[1]=3509276326591445061。
參考:
1. Philip Shilane-WAN Optimized Replication of Backup Datasets Using Stream-Informed Delta Compression
2.Some applications of rabin's fingerprinting method.  
 

版权声明:本文博主原创文章。博客,未经同意不得转载。

你可能感兴趣的文章
SQL优化技巧
查看>>
thead 固定,tbody 超出滚动(附带改变滚动条样式)
查看>>
Dijkstra算法
查看>>
css 动画 和 响应式布局和兼容性
查看>>
csrf 跨站请求伪造相关以及django的中间件
查看>>
MySQL数据类型--与MySQL零距离接触2-11MySQL自动编号
查看>>
生日小助手源码运行的步骤
查看>>
Configuration python CGI in XAMPP in win-7
查看>>
bzoj 5006(洛谷 4547) [THUWC2017]Bipartite 随机二分图——期望DP
查看>>
CF 888E Maximum Subsequence——折半搜索
查看>>
欧几里德算法(辗转相除法)
查看>>
面试题1-----SVM和LR的异同
查看>>
MFC控件的SubclassDlgItem
查看>>
如何避免历史回退到登录页面
查看>>
《图解HTTP》1~53Page Web网络基础 HTTP协议 HTTP报文内的HTTP信息
查看>>
unix环境高级编程-高级IO(2)
查看>>
树莓派是如何免疫 Meltdown 和 Spectre 漏洞的
查看>>
雅虎瓦片地图切片问题
查看>>
HTML 邮件链接,超链接发邮件
查看>>
HDU 5524:Subtrees
查看>>