

这篇文章给大家分享一些关于NVIDIAGeForceRTX4090FE首测大杯的不只有体积还有性能,和408大风扇不转的相关知识,希望对大家帮助。
1前言
距离2022年秋季GTC大会上发布最新一代GeForceRTX40系列桌面显卡不到一个月,NVIDIA正式解锁了GeForceRTX4090创始人版旗舰显卡的性能。至于明天,10月12日将是各大AIC厂商的性能解锁时间。
在谈论NVIDIAGeForceRTX4090FounderEdition显卡的性能之前,我们先来详细谈谈这款GeForceRTX40系列会给我们带来什么样的改进?
GeForceRTX4090[建议零售价12,999日元起]
GeForceRTX408016GB【建议零售价9499元起】
GeForceRTX408012GB[建议零售价7199日元起]
此次NVIDIA将推出限量版GeForceRTX4090FE版本,将于北京时间10月12日晚上9点在京东首发,旨在为喜爱FE版本设计的发烧级玩家带来无与伦比的体验。届时,玩家可以选择NVIDIAFE版本以及来自顶级显卡供应商的RTX4090GPU标准频率版本和超频版本。【点击购买】
技术讲解架构优势
图灵和安培最后两代的核心架构都是以数字命名的。前者是计算机科学之父艾伦马西森图灵;后者是“电学牛顿”——AndreMarieAmpere。电流的单位安培就是以他的姓氏命名的。那么艾达洛夫莱斯一定是非凡的。扫了一眼,原来这就是被誉为“数字女王”的艾达洛夫莱斯。她编写了历史上第一个计算机程序,被公认为世界上第一位计算机程序员。她确实是一代人。甚至比上一代还要厉害。PS她的父亲是诗人拜伦,《唐璜》的作者。
从Turing架构开始,NVIDIA首次在显卡中加入了用于加速光线追踪的RTCore单元和用于AI推理的TensorCore单元。这项革命性的创新使实时光线追踪成为可能。Ampere架构是一种全面的架构改进。除了新一代的第二代RTCore和第三代TensorCore之外,还有更先进的SM单元设计,使显卡效率提升一倍。对于AdaLovelace架构来说,效率提升是主要前提。自然而然地引入了最新的第三代RTCores和第四代TensorCores单元,并且加入了许多新颖的黑科技。在执行效率方面,AdaLovelace架构优于上一代Ampere。架构提升了2倍以上,甚至光线追踪能力也达到了恐怖的4倍性能。
在讲核心架构之前,我们先了解几个关键词GeForceRTX4090、AdaLovelace、TSMC4N、608mm、760亿个晶体管、2x性能功耗比。
如果你用几个关键词看一下上面的【显卡规格对比】表,就会更容易理解上表。最新一代桌面显卡GeForceRTX40系列均采用全新AdaLovelace架构核心。GeForceRTX4090的核心为AD102,是目前最强大的AdaLovelace架构核心,拥有760亿个晶体管、16384个CUDA核心和24GB高速美光GDDR6X显存。
GeForceRTX408016GB核心代号为AD103-300,拥有9728个CUDA核心和16GB高速美光GDDR6X显存,显存位宽降低至256Bit;GeForceRTX408012GB规格较低,核心代号为AD104-400,拥有7680个CUDA核心和12GB美光GDDR6X显存,显存位宽仅为192Bit。由于NDA的原因,我们在这里不再谈论GeForceRTX4080系列。
得益于NVIDIA与台积电深度合作的TSMC4N制程技术,GeForceRTX4090的核心面积仅为608mm。它可以在更小的核心面积内容纳多达760亿个晶体管,比上一代Ampere架构多出约70个晶体管。数量。
值得注意的是,工艺技术的改进不仅可以有更多的晶体管,而且它的核心频率也可以跑得很高。GeForceRTX4090Boost的频率达到了2520MHz,从而在核心频率和高规格的双向保证下实现了更高的倍率。性能功耗比高达上一代显卡的2倍。
从GTC2022秋季发布会上我们其实已经发现,目前GeForceRTX4090显卡搭载的AD102-300核心其实并不是完整的AD102核心。完整的AD102核心应包括12个GPC图形处理集群、72个TPC纹理处理集群、144个SM流多处理器和一个384位视频内存宽度以及12个32位视频内存控制器。
看上面的GeForceRTX4090架构图,很容易看出与完整版AD102核心的差异。首先,GeForceRTX4090核心代号为AD102-300。它有9个全尺寸的GPC图形处理集群,每个集群内置6个TPC,还有2个非完整的GPC图形处理集群,每个集群内置5个TPC,总共形成了64个TPC,所以自然就有了共有128个SM单元。至于内存位宽方向,是比较完整的——384Bit。
如果你还不明白,这里我将AdaLovelace架构显卡的组件一一讲解。
刚才我们提到,一个完整的AdaLovelace架构AD102核心内部有12个GPC,每个完整的GPC包含一个专用的RasterEngine、两套ROP总共16个ROP、6个TPC和12个SM单元。
2ADA技术讲解
新的SM流式多处理器
AdaLovelace架构的最大亮点之一新的SM流多处理器。每个SM包含128个CUDA核心、1个第三代RTCore、4个第四代TensorCore、4个TextureUnit、256KBRegisterFile和128KBL1数据缓存/共享内存子系统,因此这个新的SM单元的性能是上一代的两倍。
过去,图灵架构INT32计算单元和FP32的数量是相同的,两者相加形成64个CUDA核心。但从Ampere架构开始,左边的计算单元实现了FP32+INT32计算单元的并发执行,这意味着CUDA核心数量增加了一倍,达到128个。
我们再来看看AdaLovelace架构SM,即FP32/INT32计算单元组合,同样实现了每个SM包含128个CUDA的设计。看似提升不大,但当你了解了GeForceRTX4090拥有128个SM和16384个CUDA核心后,那么你就应该明白826TFLOPS的着色器能力是如何实现的,这是上一代RTX3090Ti显卡40TFLOPS的两倍多。
此外,AdaLovelace架构在缓存方面也进行了重大改进。首先,每个SM单元配备128KB缓存,使得RTX4090显卡达到163MBL1/共享显存。其次,核心的二级缓存进行了重新设计,完整的AD102核心拥有96MB二级缓存,而RTX4090显卡则拥有72MB二级缓存。这可能是因为AdaLovelace架构核心对显存位宽的依赖性不高。
事实上,等到11月份RTX4080推出时我们就会知道这是否属实。
技术讲解第三代RTCore和第四代TensorCore
我想刚才的CUDA数量和大二级缓存已经很大了。AdaLovelace架构中最大的改进是第三代RTCores和第四代TensorCores。
第三代RTCore
RTCore用于光线追踪加速。第三代RTCore的有效光线追踪计算能力达到191TFLOPS,是上一代的28倍。
在Ampere架构中,第二代RTCore支持边界交叉测试和三角形交叉测试,用于加速BVH遍历并进行射线三角形交叉测试计算。虽然光线追踪处理能力已经比第一代图灵架构核心更加高效,但随着环境物体的几何复杂度不断增加,传统的处理方法很难更高效、准确地反射现实世界中的光线,尤其是光运动的准确性。
因此,第三代RTCore中增加了两个重要的硬件单元OpacityMicromapEngine和DisplacedMicro-MeshesEngine引擎。OpacityMicromapEngine主要用于alpha通道加速,可以将alpha测试几何体的光线追踪速度提高2倍。
在传统的光栅渲染中,开发人员使用一些Alpha通道材质来实现更高效的图片渲染,例如Alpha通道树叶或火焰等形状复杂的物体。但在光线追踪时代,这种传统的做法会导致光线追踪大量无效计算。例如,移动的光多次穿过树叶。每次光线照射到叶子时,都会调用着色器来确定如何处理相交。这会造成严重的执行成本和时间等待成本。
而OpacityMicromapEngine用于直接解析与非不透明光线相交的不透明状态
三角形。Alpha通道根据三种不同的块状态进行处理不透明、透明和未知透明块直接忽略并继续寻找下一个,不透明块被记录并通知命中,未知块则交给着色器进行处理确定如何处理他们。这样,大部分GPU不需要着色器调试,就能获得更高效的性能。
位移微网格引擎
如果说OpacityMicromapEngine加速了表面处理,那么DisplacedMicro-MeshesEngine就是几何表面细节的加速器。如上图所示,在AdaLovelace架构中,可以通过1个基本三角形+位移图创建高度详细的几何网格,与第二代RTCore相比,资源占用更低,效率更高。
我们以NVIDIA给出的创建14:1珊瑚蟹为例。这里我们需要17万个微网格和160万个微三角形。在AdaLovelace架构中,BVH创建速度可加快76倍,存储空间可减少81倍。DisplacedMicro-MeshesEngine起着关键作用。它将几何对象根据不同的细节划分为不同密度的微网络处理。红色的密度极高,细节的处理变得更加复杂。相应的低密度微网络区域可以释放更多的资源和存储空间,因此DisplacedMicro-MeshesEngine可以帮助BVH加速进程并减少构建时间和存储成本。
同时,AdaLovelace架构SM中添加了新的着色器执行重新排序。这是因为光线追踪不再只处理强光或阴影渲染。未来,它会更加关注光的运动,让光变得越来越复杂。它们变得越复杂,如果你想让第三代RTCore和第四代TensorCore有更高的执行效率,你必须为它们安排一个管家。着色器执行重新排序的目的是立即重新排列着色器负载以提高执行效率,为光线追踪提供2倍加速,并更好地利用GPU资源。但目前还没有例子。要实现这个功能,我们需要和开发工具的支持。
第四代TensorCore
TensorCore是专门用于执行张量/矩阵运算的执行单元,这些运算是深度学习中使用的核心计算功能。第四代TensorCores增加了全新的FP8引擎,其张量处理性能高达132petaflops,是上一代的5倍。
3DLSS3技术和NVENC
技术说明DLSS3
或者也许第四代TensorCores太硬核而你不知道它是什么?改进的重点是什么?但你一定会知道TensorCores最经典的应用,DLSS。此次AdaLovelace架构支持NVIDIA最新的DLSS3技术。
之前我们也讲过DLSS技术。它最初是为了弥补光线追踪技术之后的性能损失而设计的。具体表现为,开启光线追踪技术后,帧数明显下降,甚至难以保证流畅运行。因此,DLSS采用低分辨率内容作为输入,利用AI技术输出高分辨率帧,从而提高光线追踪的性能。
封装在DLSS3中
对于一些NVIDIAGeForceRTX4090FE首测大杯的不只有体积还有性能和408大风扇不转详细内容就介绍到这里了,希望对大家有所助益。
评论已关闭!