• Collection是集合类的上级接口,继承他的接口主要有Set List.
  • Collections是针对集合类的一个帮助类,他提供一系列静态方法实现对各种集合的搜索、排序、线程安全化等操作。

 

Collection 接口的接口对象的集合(单列集合)

├——List 接口:元素按进入先后有序保存,可重复

│ ├ LinkedList 接口实现类,链表,插入删除,线程不安全

│ ├ ArrayList 接口实现类,数组, 随机访问,线程不安全 (Collections.synchronizedList(new ArrayList<>());copyOnWriteArrayList是线程安全的)

│ └ Vector 接口实现类 数组,同步,线程安全,数据增长默认一倍

│ └ Stack 是Vector类的实现类

└——Set 接口:仅接收一次,不可重复,并做内部排序

│ └HashSet 使用hash表(数组)存储元素

│ └ LinkedHashSet 链表维护元素的插入次序

└ —————TreeSet 底层实现为二叉树,元素排好序

 

Map 接口键值对的集合 (双列集合)

├———Hashtable 接口实现类,线程安全

├———HashMap 接口实现类,线程不安全

│ ├ LinkedHashMap 双向链表和哈希表实现

│ └ WeakHashMap

├ ——–TreeMap 红黑树对所有的key进行排序

└———IdentifyHashMap

 

  • 创建ArrayList对象时,若未指定集合容量,集合默认容量为0
  • 当集合对象调用add方法存储数据时,进行初始化容量为10
  • 集合初始化后,再次调用add方法,先将集合扩大1.5倍,如果仍然不够,新长度为传入集合大小。并调用Arrays.copyOf方法将elementData数组指向新的长度为扩容后长度的内存空间
  • 若使用addAll方法添加元素,则初始化大小为10和添加集合长度的较大值

 

  1. Array可以包含基本类型和对象类型ArrayList只能包含对象类型。
  2. Array大小是固定的ArrayList大小是动态变化的。
  3. ArrayList提供了更多的方法和特性,比如:addAll()removeAll()iterator()等等。

 

ArrayList可以看作是能够自动增长容量的数组,LinkList是一个双链表,在添加和删除元素时具有比ArrayList更好的性能。但在get方面弱于ArrayList。当然,这些对比都是指数据量很大或者操作很频繁。

  1. 查找时间复杂度都是O(N), 但是数组要比链表快,因为数组的连续内存, 会有一部分或者全部数据一起进入到CPU缓存, 而链表还需要在去内存中根据上下游标查找, CPU缓存比内存快太多
  2. 数组大小固定, 不适合动态存储、动态添加, 内存连续的地址, 可随机访问, 查询速度快
  3. 链表大小可变, 扩展性强, 只能顺着指针的方向查询,
    速度较慢
  • 使用场景:
  1. 如果应用程序对数据有较多的随机访问,ArrayList对象要优于LinkedList对象;
  2. 如果应用程序有更多的插入或者删除操作,较少的随机访问,LinkedList对象要优于ArrayList对象;
  3. 不过ArrayList的插入,删除操作也不一定比LinkedList慢,如果在List靠近末尾的地方插入,那么ArrayList只需要移动较少的数据,而LinkedList则需要一直查找到列表尾部,反而耗费较多时间,这时ArrayList就比LinkedList要快。

 

equals()方法来自object对象,默认比较的是对象的引用是否指向同一块内存地址,重写的目的是为了比较两个对象的value值是否相等。在Object中,HashCode的计算方法是根据对象的地址进行计算的。

如果我们对一个对象重写了euqals,意思是只要对象的成员变量值都相等那么euqals就等于true,但不重写hashcode,那么我们再new一个新的对象,当原对象.equals(新对象)等于true时,两者的hashcode却是不一样的,由此将产生理解的不一致,如在存储散列集合时(如Set类),将会存储了两个值一样的对象,导致混淆,因此,就也需要重写hashcode。

为了保证这种一致性,必须满足以下两个条件:

  • obj1.equals(obj2)true时,obj1.hashCode() == obj2.hashCode()必须为true
  • obj1.hashCode() == obj2.hashCode()false时,obj1.equals(obj2)必须为false

 

HashSet集合的底层数据结构是哈希表。哈希表的存储依赖两个方法:hashCode()和equals()

  • 首先判断对象的hashCode()哈希值是否相同:
  • 如果不同,就直接添加到集合中。
  • 如果相同,就继续执行equals()方法。
    • 如果equals()方法返回true,说明元素重复,就不添加。
    • 如果equals()方法返回false,说明元素没有重复,就添加到集合中。

 

java.util.Map:它有四个实现类,分别是HashMap、Hashtable、LinkedHashMap 和TreeMap.

  • Hashmap 是一个最常用的Map,它根据键的HashCode值存储数据,根据键可以直接获取它的值,具有很快的访问速度,遍历时,取得数据的顺序是完全随机的。HashMap最多只允许一条记录的键为Null,允许多条记录的值为NullHashMap不支持线程的同步,即任一时刻如果有多个线程同时写HashMap,可能会导致数据的不一致。如果需要同步,可以用 Collections.synchronizedMap方法使HashMap具有同步的能力,或者使用ConcurrentHashMap
  • Hashtable HashMap类似,它继承自Dictionary类,不同的是:它不允许记录的键或者值为空;它支持线程的同步,即任一时刻只有一个线程能写Hashtable,因此也导致了 Hashtable在写入时会比较慢。
  • LinkedHashMap HashMap的一个子类,保存了记录的插入顺序,在用Iterator遍历LinkedHashMap时,先得到的记录肯定是先插入的。也可以在构造时用带参数,按照应用次数排序。在遍历的时候会比HashMap慢,不过有种情况例外,当HashMap容量很大,实际数据较少时,遍历起来可能会比LinkedHashMap慢,因为LinkedHashMap的遍历速度只和实际数据有关,和容量无关,而HashMap的遍历速度和他的容量有关。
  • TreeMap实现SortMap接口,能够把它保存的记录根据键大小排序默认是按键值的升序排序,也可以指定排序的比较器,当用Iterator 遍历TreeMap时,得到的记录是排过序的。

小结:一般情况下,我们用的最多的是HashMap,在Map中插入、删除和定位元素,HashMap 是最好的选择。但如果您要按自然顺序或自定义顺序遍历键,那么TreeMap会更好。如果需要输出的顺序和输入的相同,那么用LinkedHashMap可以实现,它还可以按读取顺序来排列。

 

  • 哈希表:根据关键码值(key value)而直接进行访问的数据结构。也就是说,它通过关键码值映射到表中一个位置来访问记录,以加快查找速度。这个映射函数叫做散列函数存放记录的数组叫做散列表
  • 哈希:把任意长度的输入通过哈希算法映射成固定长度的输出。
  • 哈希冲突(无法避免):计算得到的哈希值相同。

解决方法:

  1. 开放定址法
  2. 再哈希法:双哈希法计算,计算出不同的哈希值为止
  3. 链址法:HashMap实现方式,next指针连接Node
  4. 建立公共溢出区:建立基本表和溢出表,哈希值相同的直接放到溢出表

哈希算法要求:

  1. 高效,能够处理长文本
  2. 不能逆推原文
  3. 尽量分散,减少哈希冲突
  • HashMap
    • JDK1.7:数组+链表;JDK1.8:数组+链表+红黑树(链表长度大于8table大于64转为红黑树,红黑树节点个数小于6转为链表)
    • 每个数据单元为一个Node结构,包含keyvaluehashnext四个字段
    • 初始长度为16,默认负载因子为0.75,当HashMap的长度达到16*0.75=12时,就会触发扩容流程,每次扩容为原来的2倍(碰撞的概率低)。
    • 采用懒加载机制,即在进行put操作时才真正构建table数组。
    • 允许第一个位置的key为空,允许value为空
    • 线程不安全,导致cpu100%jdk7链表成环,jdk8红黑树父子节点成环

  • 红黑树(自平衡二叉查找树)特性:
  1. 每个结点是黑色或者红色。
  2. 根结点是黑色。
  3. 每个叶子结点(NIL)是黑色。 [注意:这里叶子结点,是指为空(NILNULL)的叶子结点!]
  4. 如果一个结点是红色的,则它的子结点必须是黑色的。
  5. 从一个节点到该节点的子孙节点的所有路径上包含相同数目的黑节点。确保没有一条路径会比其他路径长出俩倍。因而,红黑树是相对是接近平衡的二叉树。

  • HashMapget流程:
  1. 首先会判断数组是否不等于null,或者数组的长度是否大于0,如果不满足,就说明HashMap里没有数据,直接返回null
  2. 通过 hash & (table.length – 1)获取该key对应的数据节点的hash
  3. 判断首节点是否为空,为空则直接返回空;
  4. 再判断首节点key是否和目标值相同,相同则直接返回(首节点不用区分链表还是红黑树);如果不同,且首节点next为空,则直接返回空;
  5. 首节点是树形节点,则进入红黑树数的取值流程,并返回结果;
  6. 否则就会进入一个do while循环进行查询链表,并返回结果;
  • HashMapput流程:
  1. 如果table数组为空数组,进行数组填充(为table分配实际内存空间),入参为threshold
  2. 如果keynull时被放在了tab下标为0的位置。
  3. 根据hash & (table.length – 1)来确认存放的位置,如果当前位置是空直接添加到table中。
  4. 如果在首结点与我们待插入的元素有相同的hashkey值,则先记录。
  5. 如果首结点的类型是红黑树类型,则按照红黑树方法添加该元素。
  6. 如果首结点类型为链表类型,遍历到末尾时,先在尾部追加该元素结点。当遍历的结点数目大于8时,则采取树化结构。
  7. modCount++;如果集合在被遍历期间如果内容发生变化则++modCount,只能检测并发修改的bug,不能保证线程安全(ABA,祥见CAS
  8. 当结点数+1大于threshold时,则进行扩容


 

e.hash & oldCap,就是用于计算位置b到底是0还是1用的,只要其结果是0,则新散列下标就等于原散列下标,否则新散列坐标要在原散列坐标的基础上加上原table长度。

  1. newHashMap之后,第一次往HashMap进行put操作的时候,首先会进行扩容。
  2. HashMap的使用的桶数达到总桶数*加载因子的时候会触发扩容;
  3. 当某个桶中的链表长度达到8进行链表扭转为红黑树的时候,会检查总桶数是否小于64如果总桶数小于64也会进行扩容
  1. JDK1.7 先扩容后插入新节点:头插法不需要遍历扩容后的数组或者链表。
  2. JDK1.8 先插入后扩容:jdk8如果要先扩容,由于是尾插法,扩容之后还要再遍历一遍,找到尾部的位置,然后插入到尾部。在Node插入之后,如果当前数组位置上节点数量达到了8,先树化,然后再计算需不需要扩容,否则前面的树化可能被浪费了。


 

  1. 为什么JDK1.8采用红黑树存储Hash冲突的元素?

红黑树本质上是一棵二叉查找树,但它在二叉查找树的基础上增加了着色和相关的性质使得红黑树相对平衡,从而保证了红黑树的查找、插入、删除的时间复杂度最坏为O(log n)。能够加快检索速率。

  1. 为什么在长度小于8时使用链表,不一直使用红黑树?

桶中元素的插入只会在hash冲突时发生,而hash冲突发生的概率较小,一直维护一个红黑树比链表耗费资源更多,在桶中元素量较小时没有这个必要。

  1. 为什么要使用红黑树而不使用AVL树?

红黑树与AVL树,在检索的时候效率差不多,都是通过平衡来二分查找。但红黑树不像AVL树一样追求绝对的平衡,红黑树允许局部很少的不完全平衡,这样对于效率影响不大,但省去了很多没有必要的调平衡操作,AVL树调平衡有时候代价较大,所以效率不如红黑树。

  1. 为什么数组容量必须是2次幂?

索引计算公式为i = (n – 1) & hash,如果n为2次幂,那么n-1的低位就全是1,而扩容后只有一位差异,也就是多出了最左位的1,这样在通过 (length-1) &hash的时候,只要hash对应的最左边的那一个差异位为0,就能保证得到的新的数组索引和老数组索引一致(高效的数据迁移,大大减少了之前已经散列良好的老数组的数据位置重新调换),哈希值进行与操作时可以保证低位的值不变,如果低位值为1,则表示该位置可以插入值,从而保证分布均匀,效果等同于hash%n,但是位运算比取余运算要高效的多。

  1. 为什么单链表转为红黑树要求桶内的元素个数大于8

当hashCode离散性很好的时候,树型bin用到的概率非常小,因为数据均匀分布在每个bin中,几乎不会有bin中链表长度会达到阈值。但是在随机hashCode下,离散性可能会变差,然而JDK又不能阻止用户实现这种不好的hash算法,因此就可能导致不均匀的数据分布。不过理想情况下随机hashCode算法下所有bin中节点的分布频率会遵循泊松分布,而一个bin中链表长度达到8个元素的概率为0.00000006,几乎是不可能事件。

同理,少于6就从红黑树转回单链表是为了节省维护一个树的资源消耗,而选择6作为临界值,是因理想情况下一个bin中元素个数达到6的概率是0.00001316,达到7的概率为0.00000094,二者跨度较大,可以减小树和链表之间频繁转化的可能性

  1. 为什么jdk1.8将头插法改成尾插法?

JDK1.7中扩容时,每个元素的rehash之后,都会插入到新数组对应索引的链表头,所以这就导致原链表顺序为A->B->C,扩容之后,rehash之后的链表可能为C->B->A,元素的顺序发生了变化。在并发场景下,扩容时可能会出现循环链表的情况而JDK1.8从头插入改成尾插入元素的顺序不变,避免出现循环链表的情况。


 

  1. HashEntryvalue,以及next(链表)都是 volatile 修饰的,保证了获取时的可见性。
  2. 原理上来说:ConcurrentHashMap 采用了分段锁技术,其中 Segment 继承于
    ReentrantLock
    不会像HashTable那样不管是 put 还是 get 操作都需要做同步处理,理论上 ConcurrentHashMap 支持 CurrencyLevel (Segment 数组数量,默认为16)的线程并发。每当一个线程占用锁访问一个 Segment 时,不会影响到其他的 Segment

//外部类方法

public V put(K key, V value) {

if (value == null)

throw new NullPointerException();

int hash = hash(key.hashCode());

return segmentFor(hash).put(key, hash, value, false); //先确定段的位置

}

 

// Segment类中的方法

V put(K key, int hash, V value, boolean onlyIfAbsent) {


lock();

try {

int c = count;

// 如果当个数超过阈值,就重新hash当前段的元素

if (c++ > threshold)

rehash();

HashEntry<K,V>[] tab = table;

int index = hash & (tab.length – 1);

HashEntry<K,V> first = tab[index];

HashEntry<K,V> e = first;

while (e != null && (e.hash != hash || !key.equals(e.key)))

e = e.next;

 

V oldValue;

if (e != null) {

oldValue = e.value;

if (!onlyIfAbsent)

e.value = value;

}

else {

oldValue = null;

++modCount;

tab[index] = new HashEntry<K,V>(key, hash, first, value);

count = c; // write-volatile

}

return oldValue;

} finally {


unlock();

}

} 


 

public V put(K key, V value) {

return putVal(key, value, false);

}

final V putVal(K key, V value, boolean onlyIfAbsent) {

if (key == null || value == null) throw new NullPointerException();

int hash = spread(key.hashCode());// 得到 hash 值

int binCount = 0; // 用于记录相应链表的长度

for (Node<K,V>[] tab = table;;) {

Node<K,V> f; int n, i, fh;

// 如果数组”空”,进行数组初始化

if (tab == null || (n = tab.length) == 0)

// 初始化数组

tab = initTable();

// 找该 hash 值对应的数组下标,得到第一个节点 f

else if ((f = tabAt(tab, i = (n – 1) & hash)) == null) {

// 如果数组该位置为空,用一次 CAS 操作将新new出来的 Node节点放入数组i下标位置;如果 CAS 失败,那就是有并发操作,进到下一个循环

if (casTabAt(tab, i, null,

new Node<K,V>(hash, key, value, null)))

break; // no lock when adding to empty bin

}

// hash 居然可以等于 MOVED==-1,这个需要到后面才能看明白,不过从名字上也能猜到,肯定是因为在扩容

else if ((fh = f.hash) == MOVED)

// 帮助数据迁移,这个等到看完数据迁移部分的介绍后,再理解这个就很简单了

tab = helpTransfer(tab, f);

// 到这里就是说,f 是该位置的头结点,而且不为空

else {

V oldVal = null;

// 获取链表头结点监视器对象


synchronized (f) {

if (tabAt(tab, i) == f) {

if (fh >= 0) { // 头结点的 hash 值大于 0,说明是链表

// 用于累加,记录链表的长度

binCount = 1;

// 遍历链表

for (Node<K,V> e = f;; ++binCount) {

K ek;

// 如果发现了”相等”的 key,判断是否要进行值覆盖,然后也就可以 break 了

if (e.hash == hash &&

((ek = e.key) == key ||

(ek != null && key.equals(ek)))) {

oldVal = e.val;

if (!onlyIfAbsent)

e.val = value;

break;

}

// 到了链表的最末端,将这个新值放到链表的最后面

Node<K,V> pred = e;

if ((e = e.next) == null) {

pred.next = new Node<K,V>(hash, key,

value, null);

break;

}

}

}

else if (f instanceof TreeBin) { // 红黑树

Node<K,V> p;

binCount = 2;

// 调用红黑树的插值方法插入新节点

if ((p = ((TreeBin<K,V>)f).putTreeVal(hash, key,

value)) != null) {

oldVal = p.val;

if (!onlyIfAbsent)

p.val = value;

}

}

}

}

// binCount != 0 说明上面在做链表操作

if (binCount != 0) {

// 判断是否要将链表转换为红黑树,临界值: 8

if (binCount >= TREEIFY_THRESHOLD)

// 如果当前数组的长度小于 64,那么会进行数组扩容,而不是转换为红黑树

treeifyBin(tab, i); // 如果超过64,会转成红黑树

if (oldVal != null)

return oldVal;

break;

}

}

}

//

addCount(1L, binCount);

return null;

} 


 

  1. 数据结构不同
  1. 并发度
  1. 保证并发安全的原理
  1. 遇到 Hash 碰撞
  1. 查询时间复杂度


 


 

JDK 1.8 中 HashMap 和 Hashtable 主要区别如下:


 


 


 


 

迭代器定义:Iterator提供了统一遍历操作集合元素的统一接口, Collection接口实现Iterable接口,每个集合都通过实现Iterable接口中iterator()方法返回Iterator接口的实例, 然后对集合的元素进行迭代操作.


 

在用迭代器遍历一个集合对象时,如果遍历过程中对集合对象的内容进行了修改(增加、删除、修改),则会抛出ConcurrentModificationException如HashMap

采用安全失败机制的集合容器,在遍历时不是直接在集合内容上访问的,而是先复制原有集合内容,在拷贝的集合上进行遍历


 

克隆(cloning)或者是序列化(serialization)的语义和含义是跟具体的实现相关的。因此,应该由集合类的具体实现来决定如何被克隆或者是序列化


 


 

版权声明:本文为ttyq原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://www.cnblogs.com/ttyq/p/15182484.html