HashMap是我们经常用的数据结构,采用了key-value的方式来存储数据。在JDK 1.8的版本中也是对其做了优化修改,现在我们来通过在JDK 1.8的环境下的源代码分析一下HashMap的工作原理。及相比于1.7,在1.8中的优化。
目录
HashMap源码分析
概述
HashMap是我们经常用的数据结构,采用了key-value的方式来存储数据。在使用设计的过程中牵涉了许多的数据结构及知识点,数组+链表,扩容,头插尾插,hash函数等。JDK 1.8的版本中也是对其做了优化修改,现在我们来通过在JDK 1.8的环境下的源代码分析一下HashMap的工作原理,及相比于1.7,在1.8中的优化。本文基于JDK 1.8中源代码,比较与JDK 1.7中代码的时候会额外说明。同时,本文的描述从构造函数及节点等基本数据类型开始,然后再通过我们常用的put()
、remove()
等常用函数来逐步介绍了解,碰到的一步步状况作者在设计时都做了什么,为什么是这样设计的,而不是直接将一堆结论罗列出来讲解。
Hashmap结构
首先,我们来看下初始化HashMap的时候的构造函数new HashMap()
。
/**
* The load factor used when none specified in constructor.
*/
// 1
static final float DEFAULT_LOAD_FACTOR = 0.75f;
public HashMap() {
this.loadFactor = DEFAULT_LOAD_FACTOR; // all other fields defaulted
}
Hashmap的初始化中,在注释1处设置了Hashmap的默认负载因子DEFAULT_LOAD_FACTOR
为 0.75f。接下来,我们再来看下Hashmap中的一个基本结构-Hashmap节点。
Hashmap节点
HashMap中有一个静态内部类Node
,为Hashmap的节点。我们来看下Node
中的结构。
static class Node<K,V> implements Map.Entry<K,V> {
final int hash;
final K key;
V value;
Node<K,V> next;
Node(int hash, K key, V value, Node<K,V> next) {
this.hash = hash;
this.key = key;
this.value = value;
this.next = next;
}
public final K getKey() { return key; }
public final V getValue() { return value; }
public final String toString() { return key + "=" + value; }
public final int hashCode() {
return Objects.hashCode(key) ^ Objects.hashCode(value);
}
//......
}
从该静态类中可以看到,节点有4个属性值。第一个为key值的hash值hash,由key值经过hash函数得来的。第二个为相对应的key值。第三个为Value值。最后一个值为下一个节点Next值,所以可以看出Node
其实是一个链表的结构。
了解完hashmap的基础结构之后,我们先来了解一下hashmap的哈希算法及扩容机制,之后再通过hashmap的常用方法来深入介绍。
Hashmap的哈希及索引算法
Hashmap通过散列表函数hash(key)
计算key
的哈希值。通过hash值来计算Node
节点所在数组的索引。来看下是如何计算hash值及如何计算索引的。
static final int hash(Object key) {
int h;
return (key == null) ? 0 : (h = key.hashCode()) ^ (h >>> 16);
}
// 1
// n = tab.length
// i = (n - 1) & hash
计算hash值过程很简单,只有一行代码。取key的hashCode
,将hashCode
的低16位和高16位进行异或运算。而key的hashCode()
方法是由自己重写的。String
类型的hashCode在Java中有默认重写方法。所以从这里我们可以知道,作为Hashmap的key值则必须重写hashCode()
方法。
同时,hashCode
为int类型,4个字节有32位,取低16位与高16位进行异或运算是为了尽可能的让hashCode
值的高位和低位参与运算。因为注释1中将数组长度减1和hash
值做与运算来确定Node
节点所在数组的索引。高低16位进行异或这种做法可以在数组长度n
值较小时也能让尽可能多的位值参与运算。同时取位运算而不通过mod
模运算来计算余数是为了更高效。
除此之外,将hash
值与n-1
取与运算,是因为数组的长度都是2的幂,所以n-1
都为1。类似于01111...
这种形式,1的个数为2的幂数。所以设计hashmap数组的时候故意将数组长度设置为2的幂是为了散列值计算出来的索引更均匀的分布在数组中,减少hash碰撞。
HashMap常用方法
介绍完Hashmap的初始化后,我们来看下Hashmap的常用函数的用法。
put(K key, V value)
我们直接来看下put
方法的源代码。
public V put(K key, V value) {
return putVal(hash(key), key, value, false, true);
}
final V putVal(int hash, K key, V value, boolean onlyIfAbsent,
boolean evict) {
Node<K,V>[] tab; Node<K,V> p; int n, i;
if ((tab = table) == null || (n = tab.length) == 0)
// 1.1
n = (tab = resize()).length;
// 1.2
if ((p = tab[i = (n - 1) & hash]) == null)
tab[i] = newNode(hash, key, value, null);
else {
Node<K,V> e; K k;
// 1.3
if (p.hash == hash &&
((k = p.key) == key || (key != null && key.equals(k))))
e = p;
// 1.4
else if (p instanceof TreeNode)
e = ((TreeNode<K,V>)p).putTreeVal(this, tab, hash, key, value);
else {
// 1.5
for (int binCount = 0; ; ++binCount) {
if ((e = p.next) == null) {
p.next = newNode(hash, key, value, null);
if (binCount >= TREEIFY_THRESHOLD - 1) // -1 for 1st
treeifyBin(tab, hash);
break;
}
if (e.hash == hash &&
((k = e.key) == key || (key != null && key.equals(k))))
break;
p = e;
}
}
// 1.6
if (e != null) { // existing mapping for key
V oldValue = e.value;
if (!onlyIfAbsent || oldValue == null)
e.value = value;
afterNodeAccess(e);
return oldValue;
}
}
++modCount;
if (++size > threshold)
// 1.7
resize();
afterNodeInsertion(evict);
return null;
}
这个函数信息量比较大,做的事情比较多。调用putVal()
之前,便先计算key的hash值作为参数传入。然后再来看下注释1.1。默认table是为一个空数组,那么函数会首次调用put()
函数的时候会直接调用resize()
函数,这个函数称为hashmap的扩容函数。扩容函数我们之后再讨论,执行完扩容之后也即默认初始化数组。
之后再注释1.2处,i = (n-1) & hash
为上文所述,通过将hash值与数组长度减1做与运算来获取索引index,目的是为了高效地使hash均匀分布在数组中。如果所在数组节点处没有元素,那么直接新建一个node
节点放在该数组index处。
否则在注释1.3处,如果该数组index已经有了节点p,那么判断该节点的key的hash值和key值是不是相等,如果是同一个key,那么就找到了要修改的节点e。将p赋值给e,联系注释1.6处代码,可知将旧的value值用新的value值代替。
如果在数组上Index的节点的key值和我们插入的key值不一致,那么看注释1.4处,判断节点链表是否为红黑树,如果是红黑树,那么直接在红黑树中插入。
否则进入到注释1.5处,头节点的key值不一致,那么就向链表中下一个节点同理查询,如果下一个节点的key值和插入的key值相等,那么就相当于1.3处的逻辑,找到了要修改的节点e,用新的value替换旧的value。如果顺着链表一直没有找到相同key值的节点,那么就生成key-value的新节点,插入到链表尾部。
我们可以通过图来更直接的理解hashmap的hash值计算及插入操作。
图中,分别有节点A,B,C,D的信息。其中第二行蓝色32位数据为节点的hashCode值,第一行为hashCode右移16位值。第一行红色为执行异或运算之后得到的hash值。绿色为数组长度n-1
的值,下面的红色值为hash & (n-1)
与运算得到要插入数组的index值。
插入更新完成之后,注释1.7处,通过数组中已有node
节点数和threshold
值比较,如果超过了该值,那么进行扩容操作。接下来我们就该看看hashmap到底是如何进行扩容的。
Hashmap的扩容机制
由上述put()
方法,我们接触到扩容。当hashmap容量不足以储存新数据时,便要采用扩容来扩大Hashmap容量。重点我们来看下上述提到的resize()
函数。
final Node<K,V>[] resize() {
Node<K,V>[] oldTab = table;
int oldCap = (oldTab == null) ? 0 : oldTab.length;
int oldThr = threshold;
int newCap, newThr = 0;
if (oldCap > 0) {
if (oldCap >= MAXIMUM_CAPACITY) {
threshold = Integer.MAX_VALUE;
return oldTab;
}
// 2.1
else if ((newCap = oldCap << 1) < MAXIMUM_CAPACITY &&
oldCap >= DEFAULT_INITIAL_CAPACITY)
newThr = oldThr << 1; // double threshold
}
else if (oldThr > 0) // initial capacity was placed in threshold
newCap = oldThr;
else { // zero initial threshold signifies using defaults
// 2.2
newCap = DEFAULT_INITIAL_CAPACITY;
newThr = (int)(DEFAULT_LOAD_FACTOR * DEFAULT_INITIAL_CAPACITY);
}
if (newThr == 0) {
float ft = (float)newCap * loadFactor;
newThr = (newCap < MAXIMUM_CAPACITY && ft < (float)MAXIMUM_CAPACITY ?
(int)ft : Integer.MAX_VALUE);
}
threshold = newThr;
@SuppressWarnings({"rawtypes","unchecked"})
// 2.3
Node<K,V>[] newTab = (Node<K,V>[])new Node[newCap];
table = newTab;
if (oldTab != null) {
// 2.4
for (int j = 0; j < oldCap; ++j) {
Node<K,V> e;
if ((e = oldTab[j]) != null) {
oldTab[j] = null;
if (e.next == null)
newTab[e.hash & (newCap - 1)] = e;
else if (e instanceof TreeNode)
((TreeNode<K,V>)e).split(this, newTab, j, oldCap);
else { // preserve order
Node<K,V> loHead = null, loTail = null;
Node<K,V> hiHead = null, hiTail = null;
Node<K,V> next;
do {
next = e.next;
// 2.5
if ((e.hash & oldCap) == 0) {
if (loTail == null)
loHead = e;
else
loTail.next = e;
loTail = e;
}
else {
if (hiTail == null)
hiHead = e;
else
hiTail.next = e;
hiTail = e;
}
} while ((e = next) != null);
if (loTail != null) {
loTail.next = null;
newTab[j] = loHead;
}
if (hiTail != null) {
hiTail.next = null;
newTab[j + oldCap] = hiHead;
}
}
}
}
}
return newTab;
}
初始化数组的时候使用扩容会进入注释2.2处,数组容量采用默认容量DEFAULT_INITIAL_CAPACITY
16,threshold
为默认负载因子乘以容量。threshold
的作用为判断hashmap是否需要扩容,当hashmap中的Node节点数size
大于threshold
时,那么hashmap就需要扩容了,这一点在put
中的源码有体现,我们可以之后来验证它。
而当hashmap节点size
到一定容量时也会触发扩容,此时就会进入注释2.1处。数组长度通过位运算进行乘2扩容,同时由于负载因子未变,threshold = capacity * loadfactor
也会扩大一倍。所以也通过位运算左移一位完成乘2操作。
完成了capacity
和threshold
的更新之后,注释2.3处便新建一个新容量的数组,在注释2.4处进行节点元素的迁移。从将旧数组中的元素迁移到新数组中。迁移过程可参考下图。
迁移时,如果和节点A一样,没有子节点,那么就直接重新计算新数组下的索引插入。如果和B节点一样,有子节点,那么会区分节点B是不是为红黑树,如果没有那么进入到注释2.5处。这里就有点意思了,这里采用e.hash & oldCap
,e的hash值和旧数组长度做与运算。如果为0则将元素插入新数组的j处。这里有2个问题。首先,为什么将元素插入j处?其次,为什么定位索引是使用和旧数组长度做位运算,而不是和新数组长度减1做位运算定位index索引呢?
针对这两个问题,我们一一来解释。首先为什么将元素插入j处,可以从新数组扩容图中各节点的hashCode值与新数组长度做位运算时比较看出。因为该节点在旧数组时在j处,所以该节点的hash值和新数组长度减1做位运算时仅仅不同的是比原来多一位运算。所以只要看那一位是0还是1,0的话那就保持和旧数组中索引一样为j,如果那一位是1的话就将j+旧数组长度作为它的新索引(因为新数组长度为旧数组长度2倍),将节点分散减少hash碰撞。
其次问题2,为什么用旧数组长度做位运算呢?因为在旧数组时已经做过了位运算知道了旧索引j,所以只要将hash值和第n+1位做与运算,也即和旧数组长度做位运算。确定是0还是1,就能在旧索引j的基础上直接定位出新索引。大大提高效率。同时,在新数组图中,我们也可以发现插入的时候采用尾插方式,新的节点都是插入链表尾部。
HashMap的线程不安全
可能大家都有听说过Hashmap非线程安全会产生死锁,但是死锁是如何产生的呢?我们可以通过分析JDK 1.7中的代码来一窥究竟。
void resize(int newCapacity) {
Entry[] oldTable = table;
int oldCapacity = oldTable.length;
if (oldCapacity == MAXIMUM_CAPACITY) {
threshold = Integer.MAX_VALUE;
return;
}
Entry[] newTable = new Entry[newCapacity];
transfer(newTable, initHashSeedAsNeeded(newCapacity));
table = newTable;
threshold = (int)Math.min(newCapacity * loadFactor, MAXIMUM_CAPACITY + 1);
}
/**
* Transfers all entries from current table to newTable.
*/
void transfer(Entry[] newTable, boolean rehash) {
int newCapacity = newTable.length;
for (Entry<K,V> e : table) {
while(null != e) {
Entry<K,V> next = e.next;
if (rehash) {
e.hash = null == e.key ? 0 : hash(e.key);
}
int i = indexFor(e.hash, newCapacity);
e.next = newTable[i];
newTable[i] = e;
e = next;
}
}
}
这是JDK 1.7中的Hashmap扩容操作。如果有两个线程同时扩容,进入transfer()
函数中,那么此时两个线程中分别创建了新数组newTable
。如果我们在transfer()
函数中加入断点,在Entry<K,V> next = e.next;
处加入断点,使线程1在此处暂停,然后继续执行线程2,让线程2完成扩容操作。然后我们再继续线程1的执行。此时e = key(3), next = key(7)
。如果所示,我们处在第一个循环Loop1。
由于线程2已扩容,如图可以得知int i = 3
,并且线程1中的newTable[3]
指向key(3)
。然后e = next;
,e变为key(7)
进入第二次循环Loop2。
第二次循环中,e = key(7), next = key(3)
,i依旧为3。并且key(7).next = key(3)
,key(3)
指向key(7)
,线程1中的newTable[3]
由指向key(3)
变为指向key(7)
,然后e = key(3)
。进入第三次循环。
第三次循环中,e = key(3), next = null
,i依然是3。然后e.next = newTable[i]
为key(3).next = key(7)
,key(7)
指向key(3)
了。此时形成了环,如图中Loop3处数组所示。并且e = null
,跳出循环。此时如果在线程1中进行map.get()
操作,那么就进入死循环,形成非线程安全。
JDK 1.7中由于头插法会导致死循环,而在JDK 1.8处将头插法改为尾插法,多线程操作不再会有死循环,但是会产生数据覆盖错误。所以Hashmap依旧是线程不安全。
知识点总结
-
Hashmap中的Hash操作会将key值的hashCode的高16位和低16位进行异或运算来得到hash值,目的有2个。第一,使用位运算效率高。第二,当hashmap的size较小时也可以尽可能多的让hashCode加入运算,增加hash值的分散,减小哈希碰撞。
-
Hashmap的扩容操作,会将数组长度翻倍(乘2),并且将节点重新移入新数组中。而新数组不再重新计算索引,而是只看第
n+1
位为0或1,来判断新索引和旧索引一样还是在旧索引基础上加上原数组长度。 -
Hashmap为非线程安全,在JDK 1.7中会形成死锁,在JDK 1.8中户形成数据覆盖,如果线程安全可采用
ConcurrentHashMap
,其采用了分段锁,保证了线程安全。 -
Hashmap在JDK 1.8中,加入新节点后,若链表长度大于8,那么链表就会转换成红黑树。查询所需要的时间复杂度由
O(n)
变为O(logn)
。所以JDK 1.8中,Hashmap的结构为 数组+链表+红黑树。 - size : 表示Hashmap中存放key-value的数量。(Node节点总和)
- capacity : Hashmap中数组的长度。table.length
- loadFactor : 负载因子。根据size与装载因子 * capacity 判断是否扩容。
- threshold : 表示Hashmap的size大于threshold时会进行扩容操作。 threadhold = capacity * loadFactor.