博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
Hash
阅读量:4109 次
发布时间:2019-05-25

本文共 6339 字,大约阅读时间需要 21 分钟。

Hash,一般翻译做“散列”,也有直接音译为“哈希”的,就是把任意长度的 (又叫做预映射, pre-image),通过散列算法,变换成固定长度的 ,该输出就是散列值。这种转换是一种压缩映射,也就是,散列值的空间通常远小于输入的空间,不同的输入可能会散列成相同的输出,而不可能从散列值来唯一的确定输入值。简单的说就是一种将任意长度的消息压缩到某一固定长度的 的函数。
HASH函数( 领域)

基本概念

* 若结构中存在和关键字K相等的记录,则必定在f(K)的存储位置上。由此,不需比较便可直接取得所查记录。称这个对应关系f为 (Hash function),按这个思想建立的表为 。
* 对不同的关键字可能得到同一散列地址,即key1≠key2,而f(key1)=f(key2),这种现象称
碰撞。具有相同函数值的关键字对该 来说称做 。综上所述,根据 H(key)和处理冲突的方法将一组关键字映象到一个有限的连续的地址集(区间)上,并以关键字在地址集中的“象” 作为记录在表中的存储位置,这种表便称为 ,这一映象过程称为
散列造表或 ,所得的存储位置称
散列地址
* 若对于 集合中的任一个关键字,经 映象到地址集合中任何一个地址的概率是相等的,则称此类散列函数为
均匀散列函数(Uniform Hash function),这就是使关键字经过散列函数得到一个“随机的地址”,从而减少冲突。

散列函数的性质

所有 都有如下一个基本特性:如果两个散列值是不相同的(根据同一函数),那么这两个散列值的原始输入也是不相同的。这个特性是 具有确定性的结果。但另一方面, 的输入和输出不是一一对应的,如果两个散列值相同,两个输入值很可能是相同的,但并不能绝对肯定二者一定相等。输入一些数据计算出散列值,然后部分改变输入值,一个具有强混淆特性的 会产生一个完全不同的散列值。
典型的 都有无限定义域,比如任意长度的字节字符串,和有限的值域,比如固定长度的比特串。在某些情况下, 可以设计成具有相同大小的定义域和值域间的一一对应。一一对应的 也称为排列。可逆性可以通过使用一系列的对于输入值的可逆“混合”运算而得到。

常用HASH函数

·直接取余法:f(x):= x mod maxM ; maxM一般是不太接近 2^t 的一个质数。
·乘法取整法:f(x):=trunc((x/maxX)*maxlongit) mod maxM,主要用于实数。
·平方取中法:f(x):=(x*x div 1000 ) mod 1000000); 平方后取中间的,每位包含信息比较多。

构造方法

能使对一个数据序列的访问过程更加迅速有效,通过散列函数, 将被更快地定位。
(详细构造方法可以参考 中的【哈希表的构造方法】)
1. 法:取关键字或关键字的某个线性函数值为散列地址。即H(key)=key或H(key) = a·key + b,其中a和b为常数(这种 叫做自身函数)
2. 数字分析法
3. 平方取中法
4. 折叠法
5. 随机数法
6. 除留余数法:取关键字被某个不大于 表长m的数p除后所得的余数为散列地址。即 H(key) = key MOD p,p<=m。不仅可以对关键字直接取模,也可在折叠、平方取中等运算之后取模。对p的选择很重要,一般取素数或m,若p选的不好,容易产生同义词。

处理冲突的方法

1. ;Hi=(H(key) + di) MOD m,i=1,2,…,k(k<=m-1),其中H(key)为 ,m为 长,di为增量序列,可有下列三种取法:
1). di=1,2,3,…,m-1,称线性探测再散列;
2). di=1^2,(-1)^2,2^2,(-2)^2,(3)^2,…,±(k)^2,(k<=m/2)称二次探测再散列;
3). di= 序列,称伪随机探测再散列。
2. 再 :Hi=RHi(key),i=1,2,…,k RHi均是不同的 ,即在同义词产生地址冲突时计算另一个散列函数地址,直到冲突不再发生,这种方法不易产生“聚集”,但增加了计算时间。
3. 链地址法(拉链法)
4. 建立一个公共溢出区

查找的性能分析

的查找过程基本上和造表过程相同。一些关键码可通过 转换的地址直接找到,另一些关键码在散列函数得到的地址上产生了冲突,需要按处理冲突的方法进行查找。在介绍的三种处理冲突的方法中,产生冲突后的查找仍然是给定值与关键码进行比较的过程。所以,对 查找效率的量度,依然用 来衡量。
查找过程中,关键码的比较次数,取决于产生冲突的多少,产生的冲突少,查找效率就高,产生的冲突多,查找效率就低。因此,影响产生冲突多少的因素,也就是影响查找效率的因素。影响产生冲突多少有以下三个因素:
1. 是否均匀;
2. 处理冲突的方法;
3. 的装填因子。
的装填因子定义为:α= 填入表中的元素个数/ 的长度
α是 装满程度的标志因子。由于表长是定值,α与“填入表中的元素个数”成正比,所以,α越大,填入表中的元素较多,产生冲突的可能性就越大;α越小,填入表中的元素较少,产生冲突的可能性就越小。
实际上,散列表的 是装填因子α的
函数,只是不同处理冲突的方法有不同的函数。
了解了hash基本定义,就不能不提到一些著名的hash算法, 和 可以说是目前应用最广泛的 ,而它们都是以 为基础设计的。
常用hash算法的介绍:
(1)
MD4(RFC 1320)是 MIT 的 在 1990 年设计的,MD 是 Message Digest( ) 的缩写。它适用在32位 的处理器上用高速 实现——它是基于 32 数的位操作来实现的。
(2)
MD5(RFC 1321)是 Rivest 于1991年对MD4的改进版本。它对输入仍以512位分组,其输出是4个32位字的级联,与 MD4 相同。MD5比MD4来得复杂,并且速度较之要慢一点,但更安全,在抗分析和抗差分方面表现更好。
(3) 及其他
SHA1是由NIST NSA设计为同DSA一起使用的,它对长度小于264的输入,产生长度为160bit的散列值,因此抗穷举(brute-force)性更好。SHA-1 设计时基于和MD4相同原理,并且模仿了该算法。

散列函数的应用

由于 的应用的多样性,它们经常是专为某一应用而设计的。例如, 假设存在一个要找到具有相同散列值的原始输入的敌人。一个设计优秀的 是一个“单向”操作:对于给定的散列值,没有实用的方法可以计算出一个原始输入,也就是说很难伪造。为加密散列为目的设计的函数,如MD5,被广泛的用作检验 。这样软件下载的时候,就会对照验证代码之后才下载正确的文件部分。此代码有可能因为环境因素的变化,如机器配置或者IP地址的改变而有变动。以保证源文件的安全性。
错误监测和修复函数主要用于辨别数据被随机的过程所扰乱的事例。当 被用于 的时候,可以用相对较短的散列值来验证任意长度的数据是否被更改过。
错误校正
使用一个 可以很直观的检测出数据在传输时发生的错误。在数据的发送方,对将要发送的数据应用 ,并将计算的结果同原始数据一同发送。在数据的接收方,同样的 被再一次应用到接收到的数据上,如果两次散列函数计算出来的结果不一致,那么就说明数据在传输的过程中某些地方有错误了。这就叫做 。
对于错误校正,假设相似扰动的分布接近最小(a distribution of likely perturbations is assumed at least approximately)。对于一个信息串的微扰可以被分为两类,大的(不可能的)错误和小的(可能的)错误。我们对于第二类错误重新定义如下,假如给定 H(x) 和 x+s,那么只要s足够小,我们就能有效的计算出x。那样的 被称作错误校正编码。这些错误校正编码有两个重要的分类:循环冗余校验和 所罗门码。
语音识别
对于像从一个已知列表中匹配一个MP3文件这样的应用,一种可能的方案是使用传统的 ——例如MD5,但是这种方案会对时间平移、CD读取错误、不同的音频压缩算法或者音量调整的实现机制等情况非常敏感。使用一些类似于MD5的方法有利于迅速找到那些严格相同(从音频文件的二进制数据来看)的音频文件,但是要找到全部相同(从音频文件的内容来看)的音频文件就需要使用其他更高级的算法了。
那些并不紧随IT工业潮流的人往往能 ,对于那些微小差异足够 的 确实存在。现存的绝大多数散列算法都是不够 的,但是有少数散列算法能够达到辨别从嘈杂房间里的 里播放出来的音乐的鲁棒性。有一个实际的例子是Shazam[1]服务。用户可以用电话机拨打一个特定的号码,并将电话机的话筒靠近用于播放音乐的扬声器。该项服务会分析正在播放的音乐,并将它于 在数据库中的已知的散列值进行比较。用户就能够收到被识别的音乐的曲名(需要收取一定的费用)
信息安全
Hash算法在信息安全方面的应用主要体现在以下的3个方面:
(1)
我们比较熟悉的校验算法有 和CRC校验,这2种校验并没有抗 的能力,它们一定程度上能检测并纠正数据传输中的信道误码,但却不能防止对数据的恶意破坏。
MD5 Hash算法的"数字指纹"特性,使它成为目前应用最广泛的一种文件完整性 (Checksum)算法,不少Unix系统有提供计算md5 checksum的命令。
(2)
Hash 算法也是现代密码体系中的一个重要组成部分。由于 的运算速度较慢,所以在数字签名协议中, 扮演了一个重要的角色。对 Hash 值,又称" "进行数字签名,在统计上可以认为与对文件本身进行数字签名是等效的。而且这样的协议还有其他的优点。
(3) 鉴权协议
如下的鉴权协议又被称作挑战--认证模式:在传输信道是可被侦听,但不可被篡改的情况下,这是一种简单而安全的方法。以上就是一些关于hash以及其相关的一些基本预备知识。

文件的hash值

大家都知道emule是基于P2P (Peer-to-peer的缩写,指的是点对点的意思的软件), 它采用了"多源文件传输协议”( ,the Multisource FileTransfer Protocol)。在协议中,定义了一系列传输、压缩和打包还有积分的标准,emule 对于每个文件都有md5-hash的算法设置,这使得该文件独一无二,并且在整个网络上都可以追踪得到。
MD5-Hash-文件的数字文摘通过Hash函数计算得到。不管文件长度如何,它的Hash函数计算结果是一个固定长度的数字。与 不同,这一个Hash算法是一个不可逆的 。采用安全性高的Hash算法,如MD5、SHA时,两个不同的文件几乎不可能得到相同的Hash结果。因此,一旦文件被修改,就可检测出来。
当我们的文件放到emule里面进行共享发布的时候, 会根据 自动生成这个文件的hash值,他就是这个文件唯一的身份标志,它包含了这个文件的基本信息,然后把它提交到所连接的服务器。当有他人想对这个文件提出下载请求的时候, 这个hash值可以让他人知道他正在下载的文件是不是就是他所想要的。尤其是在文件的其他属性被更改之后(如名称等)这个值就更显得重要。而且服务器还提供了,这个文件当前所在的用户的地址,端口等信息,这样emule就知道到哪里去下载了。
一般来讲我们要搜索一个文件,emule在得到了这个信息后,会向被添加的服务器发出请求,要求得到有相同hash值的文件。而服务器则返回持有这个文件的用户信息。这样我们的客户端就可以直接的和拥有那个文件的用户沟通,看看是不是可以从他那里下载所需的文件。
对于emule中文件的hash值是固定的,也是唯一的,它就相当于这个文件的信息摘要,无论这个文件在谁的机器上,他的hash值都是不变的,无论过了多长时间,这个值始终如一,当我们在进行文件的下载上传过程中,emule都是通过这个值来确定文件。

hash文件

我们经常在emule日至里面看到,emule正在hash文件,这里就是利用了hash算法的 性这个功能了,文章前面已经说了一些这些功能,其实这部分是一个非常复杂的过程,在ftp,bt等软件里面都是用的这个基本原理,emule里面是采用文件分块传输,这样传输的每一块都要进行对比校验,如果错误则要进行重新下载,这期间这些相关信息写入met文件,直到整个任务完成,这个时候part文件进行重新命名,然后使用move命令,把它传送到incoming文件里面,然后met文件自动删除,所以我们有的时候会遇到hash文件失败,就是指的是met里面的信息出了错误不能够和part文件匹配,另外有的时候开机也要疯狂hash,有两种情况一种是你在第一次使用,这个时候要hash提取所有文件信息,还有一种情况就是上一次你 ,那么这个时候就是要进行排错校验了。
关于hash的算法研究,一直是信息科学里面的一个前沿,尤其在 普及的今天,他的重要性越来越突出,其实我们每天在网上进行的信息交流安全验证,我们在使用的操作系统 原理,里面都有它的身影,特别对于那些研究信息安全有兴趣的朋友,这更是一个打开信息世界的钥匙,他在hack世界里面也是一个研究的焦点。

userhash

道理同上,当我们在第一次使用emule的时候,emule会自动生成一个值,这个值也是唯一的,它是我们在emule世界里面的标志,只要你不卸载,不删除config,你的userhash值也就永远不变,积分制度就是通过这个值在起作用,emule里面的积分保存,身份识别,都是使用这个值,而和你的id和你的用户名无关,你随便怎么改这些东西,你的userhash值都是不变的,这也充分保证了公平性。其实他也是一个信息摘要,只不过保存的不是文件信息,而是我们每个人的信息。

2散列表

是 的一个主要应用,使用散列表能够快速的按照关键字查找数据记录。(注意:关键字不是像在加密中所使用的那样是秘密的,但它们都是用来“解锁”或者访问数据的。)例如,在英语字典中的关键字是英文单词,和它们相关的记录包含这些单词的定义。在这种情况下, 必须把按照字母顺序排列的字符串映射到为散列表的内部 所创建的索引上。
散列表 的几乎不可能/不切实际的理想是把每个关键字映射到唯一的索引上(参考完美散列),因为这样能够保证直接 中的每一个数据。
一个好的 (包括大多数 )具有均匀的真正随机输出,因而平均只需要一两次探测(依赖于装填因子)就能找到目标。同样重要的是,随机 几乎不可能出现非常高的冲突率。但是,少量的可以估计的冲突在实际状况下是不可避免的(参考生日悖论)。
在很多情况下,heuristic 所产生的冲突比随机散列函数少的多。Heuristic函数利用了相似关键字的相似性。例如,可以设计一个heuristic函数使得像FILE0000.CHK,FILE0001.CHK,FILE0002.CHK,等等这样的文件名映射到表的连续指针上,也就是说这样的序列不会发生冲突。相比之下,对于一组好的关键字性能出色的随机 ,对于一组坏的关键字经常性能很差,这种坏的关键字会自然产生而不仅仅在攻击中才出现。性能不佳的 表意味着查找操作会退化为费时的线性搜索。

3扩展

MD5、SHA1的破解
2004年8月17日,在美国 圣芭芭拉召开的国际密码大会上,山东大学 教授在国际会议上首次宣布了她及她的研究小组的研究成果——对 、HAVAL-128、MD4和 四个著名 的破译结果。次年二月宣布破解 密码。

转载地址:http://yeosi.baihongyu.com/

你可能感兴趣的文章
socket之send与发送缓冲区大小的关系
查看>>
Python学习准备
查看>>
Python字符串(1)
查看>>
关于java堆内存溢出的几种情况(转)
查看>>
struts2表单验证里field-validator type值一共可以取哪些?都什么含义?
查看>>
mybatis配置详解
查看>>
Java中实例对象的状态转换简图
查看>>
设置MyEclipse的默认编码方式为"UTF-8"
查看>>
Java实现WebSocket聊天
查看>>
java实体类实现序列化的意义
查看>>
Spring MVC 框架搭建及详解
查看>>
FreeMarker帮助手册
查看>>
开启root远程连接mysql
查看>>
a标签中href常见参数的区别
查看>>
SpringMVC 基础教程 框架分析
查看>>
SpringMVC 文件上传配置,多文件上传,使用的MultipartFile
查看>>
SpringMVC+ibatis+maven+shiro环境搭建过程中的基本注意事项
查看>>
C#程序打包成安装项目详解
查看>>
Java中的基本数据类型
查看>>
Webpack Bundle Analyzer ,可缩放可视化文件大小配置
查看>>