HD4850神迹重现!RX 9070 XT首发评测芯片破解
一、前言:洗心革面的RDNA 4架构
实在不知道该如何评价NVIDIA的RTX 50系列显卡!
Blackwell架构的变化如此之小,芯片破解除了增加了PCIe 5.0和DLSS 4技术之外,似乎就再没有其他显著的改进。
就连制程工艺依旧是2年前的台积电4N(实际上是5nm),晶体管密度没有任何提升,完全是依赖成熟的制程工艺所带来的超高频率以及GDDR7显存来实现性能提升。
在相同的价位上,RTX 50相比上代仅有区区15%的性能提升!而即便如此,消费者也几乎不可能以MSRP原价买到RTX 5070 Ti和RTX 5080,基本上都要加价千元以上。
所以整整2年的等待,消费者到底等到了什么!
NVIDIA站在山巅毫无对手,肆意挥霍着RTX 40系带来的巨大领先优势,挤牙膏程度比起10年前的Intel有过之而无不及!
RDNA 4采用了DCU(Dual Compute Unit)设计,一个DCU包含上下并行的2个CU单元,而每个CU单元又包含2组SIMD32矢量单元,这在一定程度上可以带来更高的并行效率。
RDNA 4的每组SIMD32单元中包含32个可同时处理整数、浮点运算的FMA/INT ALU、32个只能处理浮点运算的FMA ALU。
在极限状态下,所有的ALU单元都进行浮点运算时,芯片破解每组SIMD32矢量单元相当于有64个流处理器,也就是每个CU有128个流处理器。
但是,AMD和NVIDIA不同,没有将FMA/INT单元算作流处理器,也许是AMD对于数字并没有太在意。
为了解决流处理器倍增所带来的调度问题,AMD扩展了标量单元(Scalar Unit)的指令集,能支持新的Float32 操作。
同时还引入了动态寄存器分配技术,芯片破解使得显卡在处理复杂图形任务时能够更灵活地调度资源,基本上不会出现RDNA 3上的4个Wave竞争一个标量ALU的情况。
在内存效率方面,AMD做了2点:翻倍的L2缓存容量,无序内存处理技术!