为了账号安全,请及时绑定邮箱和手机立即绑定

高并发实战(二)-并发基础 缓存 MESI 内存模型

标签:
Java

图片描述

              左图为高速缓存  右图为多级缓存

数据的读取和存储都经过高速缓存,CPU核心与高速缓存有一条特殊的快速通道。主存与高速缓存都是连接在系统总线上,当然其他组件也是在此基础上进行通信的。
在高速缓存出现后不久,系统变得愈加复杂,高速缓存与主存之间的速度差异被拉大,直到加入了另一级缓存,新加入的这级缓存比第一缓存更大,更慢。如果只是单纯的增大以及还从的容量的话,经济与技术上是行不通的,所以这才有了二级缓存,甚至现在有些系统拥有三级缓存。

        因为这方面我不是很懂,所以我把查的一些资料也贴出来,像我一样的小伙伴也就不用特意去查了:
 CPU高速缓存(英语:CPU Cache,在本文中简称缓存)是用于减少处理器访问内存所需平均时间的部件。在金字塔式存储体系中它位于自顶向下的第二层,
 仅次于CPU寄存器。其容量远小于内存,但速度却可以接近处理器的频率。
  • 为什么需要CPU cache?
    CPU的频率太快了,快到主存跟不上,这样在处理器时钟周期内,CPU常常需要等待主存,浪费资源,
    所以cache的出现,是为了缓解CPU和内存之间速度的不匹配问题(结构:cpu->cache->memort)
· CPU cache有什么意义?

缓存的容量远远小于主存,因此出现缓存不命中的情况是常有发生,那么它存在的意义到底是啥?

  1.时间局部性:如果某个数据被访问,那么在不久的将来他很可能被再次访问
  2.空间局部性:如果某个数据被访问,那么与他相邻的数据很快也可能被访问
  • 缓存一致性(MESI)?

    处理器上有一套完整的协议,来保证Cache一致性。比较经典的Cache一致性协议当属MESI协议,奔腾处理器有使用它,很多其他的处理器都是使用它的变种。

单核Cache中每个Cache line有2个标志:dirty和valid标志,它们很好的描述了Cache和Memory(内存)之间的数据关系(数据是否有效,数据是否被修改),而在多核处理器中,多个核会共享一些数据,MESI协议就包含了描述共享的状态。

     M: Modified 修改,指的是该缓存行只被缓存在该CPU的缓存中,并且是被修改过的,因此他与主存中的数据是不一致的,该缓存行中的数据需要在未来的某个时间点(允许其他CPU读取主存相应中的内容之前)写回主存,然后状态变成E(独享)
     E:Exclusive 独享 缓存行只被缓存在该CPU的缓存中,是未被修改过的,与主存的数据是一致的,可以在任何时刻当有其他CPU读取该内存时,变成S(共享)状态,当CPU修改该缓存行的内容时,变成M(被修改)的状态
     S:Share 共享,意味着该缓存行可能会被多个CPU进行缓存,并且该缓存中的数据与主存数据是一致的,当有一个CPU修改该缓存行时,其他CPU是可以被作废的,变成I(无效的)
     I:Invalid 无效的,代表这个缓存是无效的,可能是有其他CPU修改了该缓存行

M(Modified)和E(Exclusive)状态的Cache line,数据是独有的,不同点在于M状态的数据是dirty的(和内存的不一致),E状态的数据是clean的(和内存的一致)。

      S(Shared)状态的Cache line,数据和其他Core的Cache共享。只有clean的数据才能被多个Cache共享。
      I(Invalid)表示这个Cache line无效。

1.用于保证多个CPU cache之间缓存共享数据的一致

local read:读本地缓存的数据
local write:将数据写到本地缓存里面
remote read:将内(主)存中的数据读取到缓存中来
remote write:将缓存中的数据写会到主存里面
图片描述

图片描述
对于上图我敢肯定有好多人应该是不理解的。为什么这么说呢,因为我就是费了很大的劲才懂得。维基百科原话:
for any given pair of caches the permitted states of
a given cache line are as follows

(个人理解:当缓存A要对缓存B做操作的时候 缓存A需要将自身变成什么样子的状态)

MESI的理解其实就是理解这16种状态
图片描述
图片描述
图片描述

2.CPU多级缓存的乱序执行优化

处理器为提高运算速度而做出违背代码原有顺序的优化。当然了在正常情况下是不对结果造成影响的。在单核时代处理器对结果的优化保证不会远离预期目标,但是在多核环境下却并非如此。为什么这么说呢?首先,在多核条件下会有多个核执行指令,因此每个核的指令都有可能会乱序。另外处理器还引入了L1、L2缓存机制,这就导致了逻辑上后写入的数据不一定最后写入。

这就导致的一个问题,如果我们不做任何处理,实际结果可能和逻辑运行结果大不相同。在一个核上记录一个标志表示数据已经准备完毕,在另一个核上来判断这个数据是否已经就绪,这时候就会存在风险。标记位先被写入,但是实际的操作缺并未完成,这个未完成既有可能是没有计算完成,也有可能是缓存没有被及时刷新到主存之中,使得其他核读到了错误的数据。

3.Java内存模型(Java Memory Model,JMM)

为了屏蔽掉各种系统硬件和操作系统的内存访问差异,以实现java程序在各大平台都能达到一致的并发效果,java虚拟机因此定义了java内存模型,它规范了java虚拟机与计算机是如何协同工作的。

它规定了一个线程如何看到或者共享其他线程一个共享变量的值,以及必须时,如何同步的访问共享变量。
(这几段各位懂得小伙伴自动略过哈,我写是因为我不懂 略显尴尬)

· JAVA内存模型规范:

1.规定了一个线程如何和何时可以看到其他线程修改过后的共享变量的值
2.如何以及何时同步的访问共享变量

· JAVA内存模型:

图片描述

Heap(堆):java里的堆是一个运行时的数据区,堆是由垃圾回收来负责的,
     堆的优势是可以动态的分配内存大小,生存期也不必事先告诉编译器,
     因为他是在运行时动态分配内存的,java的垃圾回收器会定时收走不用的数据,
     缺点是由于要在运行时动态分配,所有存取速度可能会慢一些
Stack(栈):栈的优势是存取速度比堆要快,仅次于计算机里的寄存器,栈的数据是可以共享的,
      缺点是存在栈中的数据的大小与生存期必须是确定的,缺乏一些灵活性
      栈中主要存放一些基本类型的变量,比如int,short,long,byte,double,float,boolean,char,对象句柄,

    java内存模型要求调用栈和本地内存变量存放在线程栈(Thread Stack)上,对象存放在堆上。
    一个本地变量可能存放一个对象的引用,这时引用变量存放在本地栈上,但是对象本身存放在堆上
    成员变量跟随着对象存放在堆上,而不管是原始类型还是引用类型,静态成员变量跟随着类的定义一起存在在堆上

    存在堆上的对象,可以被持有这个对象的引用的线程访问
    如果两个线程同时访问同一个对象的私有变量,这时他们获得的是这个对象的私有拷贝

图片描述

CPU:一个计算机一般有多个CPU,一个CPU还会有多核。因此意味着每个cpu可能都会运行一个线程,所以计算机出现多线程是很有可能的。
CPU Registers(寄存器):每个CPU都包含一系列的寄存器,他们是CPU内存的基础,CPU在寄存器上执行的速度远大于在主存上执行的速度。
CPU Cache(高速缓存):由于计算机的存储设备与处理器的处理设备有着几个数量级的差距,
                所以现代计算机都会加入一层读写速度与处理器处理速度接近想通的高级缓存来作为内存与处理器之间的缓冲,
                将运算使用到的数据复制到缓存中,让运算能够快速的执行,当运算结束后,再从缓存同步到内存之中,这样,CPU就不需要等待缓慢的内存读写了
主(内)存:一个计算机包含一个主存,所有的CPU都可以访问主存,主存比缓存容量大的多

运作原理:通常情况下,当一个CPU要读取主存的时候,他会将主存中的数据读取到CPU缓存中,甚至将缓存中的内容读到内部寄存器里面,然后再寄存器执行操作,当运行结束后,会将寄存器中的值刷新回缓存中,并在某个时间点刷新回主存

内存模型与硬件架构之间的关联
内存模型与硬件架构之间的关联

 所有线程栈和堆会被保存在缓存里面,部分可能会出现在CPU缓存中和CPU内部的寄存器里面

图片描述

每个线程之间共享变量都存放在主内存里面,每个线程都有一个私有的本地内存
本地内存是java内存模型中抽象的概念,并不是真实存在的(他涵盖了缓存写缓冲区。寄存器,以及其他硬件的优化)
本地内存中存储了以读或者写共享变量的拷贝的一个副本

从一个更低的层次来说,线程本地内存,他是cpu缓存,寄存器的一个抽象描述,而JVM的静态内存存储模型,
他只是一种对内存模型的物理划分而已,只局限在内存,而且只局限在JVM的内存

如果线程A和线程B要通信,必须经历两个过程:
1、A将本地内存变量刷新到主内存
2、B从主内存中读取变量

下面对上面的描述举个例子。假设主内存的变量为1,线程A、B同时读取,线程A从主内存得到变量值为1,然后存储到自己的本地内存,之后进行加一的操作,最后写回主内存变为2。其实B的操作也是一样的。线程B并不是等线程A写回主内存之后再开始操作的,它们之间不可见的,因此计数就出现了错误,这就引起了并发的手段。

  • 八种同步规则
    1.lock(锁定):作用于主内存的变量,把一个变量标识变为一条线程独占状态
    2.unlock(解锁):作用于主内存的变量,把一个处于锁定状态的变量释放出来,释放后的变量才可以被其他线程锁定
    3.read(读取):作用于主内存的变量,把一个变量值从主内存传输到线程的工作内存中,以便随后的load动作使用
    4.load(载入):作用于工作内存的变量,它把read操作从主内存中得到的变量值放入工作内存的变量副本中
    5.use(使用):作用于工作内存的变量,把工作内存中的一个变量值传递给执行引擎
    6.assign(赋值):作用于工作内存的变量,它把一个从执行引擎接受到的值赋值给工作内存的变量
    7.store(存储):作用于工作内存的变量,把工作内存中的一个变量的值传送到主内存中,以便随后的write的操作
    8.write(写入):作用于主内存的变量,它把store操作从工作内存中一个变量的值传送到主内存的变量中

图片描述

  • 同步规则
    1.如果要把一个变量从主内存中赋值到工作内存,就需要按顺序得执行read和load操作,如果把变量从工作内存中同步回主内存中,就要按顺序得执行store和write操作,但java内存模型只要求上述操作必须按顺序执行,没有保证必须是连续执行

2.不允许read和load、store和write操作之一单独出现

3.不允许一个线程丢弃他的最近assign的操作,即变量在工作内存中改变了之后必须同步到主内存中

4.不允许一个线程无原因地(也就是说必须有assgin操作)把数据从工作内存同步到主内存中

5.一个新的变量只能在主内存中诞生,不允许在工作内存中直接使用一个未被初始化(load或assign)的变量。即就是对一个变量实施use和store操作之前,必须先执行过了load和assign操作

6.一个变量在同一时刻只允许一条线程对其进行lock操作,但lock操作可以同时被一条线程重复执行多次,多次执行lock后,只有执行相同次数的unlock操作,变量才会解锁,lock和unlock必须成对出现

7.如果一个变量执行lock操作,将会清空工作内存中此变量的值,在执行引擎中使用这个变量前需要重新执行load或assign操作初始化变量的值

8.如果一个变量事先没有被lock操作锁定,则不允许他执行unlock操作,也不允许去unlock一个被其他线程锁定的变量

9.对一个变量执行unlock操作之前,必须先把此变量同步到主内存中(执行store和write操作)

4.并发的优势和风险

图片描述

点击查看更多内容
TA 点赞

若觉得本文不错,就分享一下吧!

评论

作者其他优质文章

正在加载中
  • 推荐
  • 评论
  • 收藏
  • 共同学习,写下你的评论
感谢您的支持,我会继续努力的~
扫码打赏,你说多少就多少
赞赏金额会直接到老师账户
支付方式
打开微信扫一扫,即可进行扫码打赏哦
今天注册有机会得

100积分直接送

付费专栏免费学

大额优惠券免费领

立即参与 放弃机会
意见反馈 帮助中心 APP下载
官方微信

举报

0/150
提交
取消