捕鱼游戏-Volta架构GV100核心揭秘 NVIDIA新“核弹”性能突破天际

Volta架构GV100核心揭秘 NVIDIA新“核弹”性能突破天际

   去年的GTC大会上,捕鱼游戏 老黄公布了帕斯卡系列首款产品Tesla P100,今年的GTC技术大会也没有让大家失望,英伟达CEO黄仁勋首次宣布了NVIDIA下一代GPU架构,代号“Volta”(伏特),包括顶级的GV100大核心,以及Tesla V100高性能计算卡。捕鱼游戏 在现场黄总还用新核弹演示了CG电影《最终幻想15:王者之剑》中男主角的画质效果。

   现场演示:

   NVIDIA是在2013年第一次透露Volta架构的,原计划在Maxwell(麦克斯韦)架构之后上马,但因为某些原因,临时增加了一个Pascal(帕斯卡)。

   据悉,Volta架构的研发投入达到了30亿美元,创造了NVIDIA的历史新高。

   Volta家族的顶级核心代号GV100,将会取代GP100成为新的旗舰。

   它采用台积电专门为NVIDIA定制的12nm FFN新工艺(N代表NVIDIA),或者说是16nm FinFET的改良升级版,集成多达211亿个晶体管,核心面积达到了恐怖的815平方毫米,相比于GP100分别增加了38%、34%,顺利成为史上第一大GPU核心。

   其内部拥有5376个32位浮点核心、2688个64位浮点核心(还是2:1),划分为84组SM阵列、42组TPC阵列、7组GPC阵列,同时搭配336个纹理单元,都比GP100增加了40%,同时还首次加入了672个Tensor Core。

   Tensor Core是一种新的核心,专门为深度计算操作加入的,更加刚性,不那么弹性,但是依然可以编程。

   它本质上是一系列ALU单元的集合,可以执行4×4矩阵操作、融合乘加操作(A×B+C),还可以计算两个4xx 16位浮点矩阵的乘积,再加上一个4×4 16/32位浮点矩阵,得到一个4×4 32位矩阵。

   通过在一个单元内执行大规模的矩阵乘积操作,GV100可以获得更强大的浮点计算性能。单个Tense Core每时钟周期能执行64个FMA操作(128FLOPS),官方号称整体性能比Pasal提升4倍。

   每个SM阵列还拥有128KB一级缓存/共享内存,GP100核心则是24KB一级缓存/纹理缓存、64KB共享内存,总的二级缓存容量也从4MB增至6MB,不过每SM 256KB寄存器的规模没变。

   显存还是搭配HBM2,位宽不变4096-bit,堆叠也是四个,只是频率提高了25%,但是得益于更好的显存效率,带宽增长了50%。

   新的互连总线NVLink 2可以提供25GB/s的双向带宽,提升40%,而且每个核心拥有六条之多(GP100两条),并支持缓存一致性,预计会搭配IBM Power9处理器。

   NVIDIA还透露,Volta核心及大地改变了SIMT(单指令多线程)的工作方式,32个线程束内的每个CUDA核心都有一定程度的自治,线程同步精度更高,整体效率自然有所提升。

   更重要的是,单个线程可以独立完成然后重新调度到一起,这意味着有限的调度硬件又回到了NVIDIA GPU。

Author: admin

发表评论

您的电子邮箱地址不会被公开。 必填项已用*标注