您终于找到专注于电脑行业的管理软件了

由于贴近电脑行业 使用起来自然得心应手

RTX 50显卡评测背后的秘密武器:深度剖析AI基准测试


引言:

科技的海潮滚滚向前,每一次硬件的迭代都不仅仅是数字的更改,更是应用处景的深刻变革。近期两大年夜显卡巨擘纷纷宣布了新一代的NVIDIA GeForce RTX 50系列与AMD Radeon RX 9070系列花费级显卡,激发了玩家、内容创作者,甚至是专业人士的热烈评论辩论。与以往不合的是,除了传统的游戏机能晋升外,一个愈发洪亮的关键词成为宣布会和后续分析的核心――人工智能(AI)算力。

TOPS/FLOPS(理论峰值算力):

我们清楚地看到,花费级显卡的设计理念正在经历一场深刻的演变。它们不再仅仅是驱动极致游戏画面的“游戏卡”,而是越来越多地承担起内容创作加快、复杂科学计算,甚至驱动前沿AI模型的重担。

从视频编辑中的智能对象抠图、音频降噪,到3D衬着中的AI帮助优化,再到本地运行大年夜型说话模型(LLM)的潜力,AI正以前所未有的速度渗入渗出到我们数字生活的方方面面。而这一切,都对底层硬件的AI处理才能提出了更高的请求。

各大年夜科技媒体和自力评测机构对这些新生代显卡的评测申报中,除了惯例的3DMark、游戏帧率等数据外,一系列专业的AI基准测试对象及其得分也占据了显要地位。这些对象,如MLPerf、UL Procyon AI Inference Benchmark等,正成为衡量显卡“聪明”程度的标尺。那么,这些看似复杂的AI测试对象毕竟是什么?它们是若何工作的?我们又该若何解读其测试成果,从而精确评估一款显卡在AI时代的真实价值?下面我们将会应用技嘉GeForce RTX 5070 Ti GAMING OC 魔鹰 16G显卡为大年夜家进行一系列的实测与详解。

花费级显卡周全拥抱AI

AI,特别是深度进修,其核心运算大年夜多涉及大年夜范围的矩阵和向量运算。例如,神经收集的练习和推理过程,本质上就是对海量数据进行反复的、相对简单的数学计算。GPU最初为图形衬着而设计,其核心优势在于拥稀有千个小型计算核心(如NVIDIA的CUDA核心或AMD的Stream Processors),可以或许同时履行大年夜量并行计算义务(SIMD - Single Instruction, Multiple Data)。这种架构与AI算法的需求不约而同,使得GPU在处理这些义务时远比CPU(中心处理器,其核心数量较少,但单个核心功能更强大年夜,更善于复杂的逻辑控制和串行义务)更高效。

尤其是近年来,几大年夜显卡上游厂商灵敏地捕获到了AI的趋势,开端在GPU芯片中集成专为AI计算优化的硬件单位。个中NVIDIA的Tensor Cores就是个中的佼佼者,它们针对深度进修中常见的混淆精度矩阵乘法运算进行了特别优化,可以或许大年夜幅晋升特定AI工作负载的吞吐量。

具体机能展示会在答复内容的最后小字出现,如上图我们拿技嘉GeForce RTX 5070 Ti GAMING OC 魔鹰 16G显卡做的测试速度为66.62 tok/sec与0.30s TTFT,并且其显存占用为11GB。

拿新一代的花费显卡技嘉GeForce RTX 5070 Ti GAMING OC 魔鹰 16G显卡规格来说,同样是采取了TSMC同新一代的TSMC 4nm 4N制造工艺,然则其核心规格与机能都有着明显的增长。尤其是AI机能方面,有着长足的晋升,分别达到了:Shader TFLOPS(43.9);FP4 AI TOPS(1406),AI TOPS(703),以及RT FLOPS(133.2)。

个中GeForce RTX 50系列参加了对FP4精度模型加快处理的支撑,相较FP8精度,可以或许实现更快的生成速度,同时显存占用也更低。

LM Studio

并且FP4精度模型生成的图片也异常能打,从下图就能看出来,其与FP8生成的图片几乎没有差别,无论是对关键词的懂得照样图像的质量,都异常有保障,新时代AIGC玩家的最佳选择了。

AI机能的关键指标

在查看AI测试对象的申报时,我们会碰到一系列专业术语和指标。懂得它们的含义至关重要:

TOPS (Tera Operations Per Second): 每秒万亿次运算。在AI范畴,平日指INT8(8位整数)或INT4等低精度整数运算才能,因为很多AI推理义务可以在较低精度下完成而几乎不损掉精确性,同时大年夜幅晋升速度和效力。

重要性与局限性:TOPS/FLOPS作为衡量GPU理论计算潜力的关键指标,平日由芯片制造商颁布。例如,NVIDIA会强调其Tensor Core的FP16或INT8 TOPS算力,而RTX 50系列显卡支撑FP4,是以在推广中我们也会看到如许的数值表示。然而,理论峰值并不等同于实际机能。实际机能受到内存带宽、缓存效力、驱动优化、软件[IT江湖]生态以及具体AI模型的计算特点等多种身分的影响。

吞吐量 (Throughput):

指单位时光内体系可以或许处理的AI义务数量。例如,在MLPerf Inference的Offline场景下,吞吐量平日以“每秒处理样本数”(Samples per second)来衡量。对于图像生成,则可能是“每秒生成图像数”或“每秒迭代次数”(iterations/sec)。高吞吐量意味着显卡可以或许高效处理大年夜范围AI义务。

延迟 (Latency):

指完成单个AI义务所需的时光,平日以毫秒(ms)为单位。低延迟对于及时AI应用至关重要,如语音辨认、及时翻译、游戏中的AI互动等。MLPerf Inference的SingleStream场景就特别存眷延迟。

精确性 (Accuracy):

固然基准测试重要存眷速度,但AI模型的输出质量同样重要。MLPerf等标准基准会设定一个目标精确率,测试体系须要在达到该精确率的前提下比拼速度。假如为了寻求速度而就义过多精确性,那么测试成果的意义就会大年夜打扣头。

能效比 (Performance per Watt):

指GPU在消费单位功率(瓦特)的情况下所能供给的AI算力。跟着AI计算需求的增长,功耗和散热成为重要考量。高能效比意味着显卡在供给强大年夜AI机能的同时,更为节能环保,对电源和散热体系的请求也更友爱。这对于笔记本电脑[IT江湖]和小型化PC尤为重要。

内存带宽与容量 (Memory Bandwidth & Capacity):

现代AI模型,特别是大年夜型说话模型和高分辨率视觉模型,平日须要巨大年夜的显存容量来存储模型参数和中心数据。同时,高速的显存带宽对于确保计算核心不因数据等待而余暇也至关重要。RTX 50和RX 9070系列估计会配备更大年夜容量、更高带宽的显存(如GDDR7),这将直接惠及其AI机能,尤其是在处理大年夜型模型时。

AI基准测试对象概览&测试

综合性行业标准基准:MLPerf

MLPerf 是由 MLCommons 组织开辟的一套行业标准基准测试套件,旨在公平、客不雅地评估机械进修(ML)体系的机能。MLPerf 的目标是经由过程标准化的测试办法,为硬件平台、软件[IT江湖]框架和云办事的机械进修惯能供给可比较的指标,促进人工智能(AI)技巧的立异和透明度。MLPerf 涵盖了机械进修惯命周期的两个重要阶段:

练习(Training):

MLPerf Training 基准测试衡量体系练习机械进修模型到特定质量指标(如目标精确率)所需的时光。它测试模型、软件[IT江湖]和硬件在练习过程中的综合机能,实用于数据中间、云端和本地体系。

推理(Inference):

MLPerf Inference 基准测试评估体系在已练习模型上处理新数据(推理)的速度和效力,覆盖数据中间、边沿设备和移动设备等多种安排场景。它包含不合场景(如离线、办事器、单流和多流)以模仿实际世界的应用。

当然MLPerf为我们供给了浩瀚的测试对象,然则这些都与我们没关,因为非专业人士与专业设备想玩转这类软件[IT江湖]并非一件轻易的事。而我们常用到的是MLPerf Client ,这是MLPerf基准测试套件的一个分支,专门为客户端设备(如笔记本电脑[IT江湖]、台式机和工作站)上的机械进修惯能评估而设计。

我们可以直接从GitHub上的MLPerf官方下载页面中下载到最新版本的MLPerf Client,如上图所示就是我们之前常用的MLPerf Client 0.5版本,今朝最新为MLPerf Client 0.6版本。

同时运行也相当简单,只须要把ZIP紧缩包解压后,运行对应显卡的定名行即可,如应用NVIDIA显卡的用户,直接右键【在终端中打开】,输入【\mlperf-windows.exe -c NVIDIA_ORTGenAI-DML_GPU.json】即进入下载的定名行,当下载完测试模型之后,即开端运行测试。

技嘉GeForce RTX 5070 Ti GAMING OC 魔鹰 16G显卡测试出来的成果为上图。这测试是基于llama-2-7b-chat-dml,较为关键的两个数值为First Token响应时光与Token平均生成速度。是以我们在RTX 50系列显卡测试中也重要不雅察这两数值的变更 。

面向花费级和专业用户的基准:UL Procyon AI Benchmark

UL Procyon是有名的基准测试软件[IT江湖]开辟商UL Benchmarks(前身为Futuremark,3DMark的开辟者)推出的一套专业基准测试套件。

UL Procyon AI 文本生成基准测试(AI Text Generation Benchmark)

之前我们应用UL Procyon整机的 办公临盆率基准测试、照片编辑基准测试,以及视频编辑基准测试。但到了比来UL Procyon针对的AI方面的测试越来越多,且越来越专业化。是以我们也常拿此软件[IT江湖]对显卡进行AI机能测试。

UL Procyon AI 计算机视觉基准测试,测量Windows或macOS设备上AI推理引擎和专用AI硬件(如CPU、GPU、NPU)的机能,实用于企业、行业和媒体专业用户。个中应用先辈的神经收集模型,如MobileNetV3、ResNet50、InceptionV4、DeepLabV3、YOLOv3和Real-ESRGAN,供给浮点(FP32/FP16)和整数(INT8)优化版本。并支撑多种主流推理引擎,包含:NVIDIA TensorRT、Intel OpenVINO、Qualcomm SNPE、Microsoft Windows ML,以及Apple Core ML等。

纯真是针对NVIDIA TensorRT这种高机能推理的SDK,也给出了三种不合的精度:Float32、Float16,以及Integer。因为测试的神经收集模型数量较多,是以AI 计算机视觉基准测试给出来的具体测试成果也是较为复杂的,是以我们只须要看总分即可。

UL Procyon AI 图像生成(AI Image Generation Benchmark)

UL Procyon AI 图像生成评估高机能设备(特别是高端离散GPU)在AI图像生成义务中的推理机能,实用于须要重型AI工作负载的场景。重要针对Windows,支撑AMD、Intel、NVIDIA的离散GPU,基于Stable Diffusion模型,生成文本到图像的AI义务,应用标准化的文本提示确保一致性和靠得住性。

FLOPS (Floating Point Operations Per Second): 每秒浮点运算次数,衡量处理器履行浮点计算的才能。常见的精度有FP32(单精度)、FP16(半精度)、BF16(BFloat16)。

同样测试模块包含三个:Stable Diffusion XL (FP16):最苛刻的测试,仅实用于最新高端GPU;Stable Diffusion 1.5 (FP16):合适中端离散GPU;Stable Diffusion 1.5 (INT8):针对低功耗设备(如NPU)。

尤其是Stable Diffusion XL (FP16)测试生成的是1024 x 1024分辨率的图片,对显卡请求较高。若显卡算力与显存容量不足,基本上出来的运行成果出现0分或者是缺点提示,那就证实你显卡机能不足够进行此测试。而UL Procyon AI 图像生成基准测试中,我们除了要留心机能总特别,我们还一般会拿Overall duration - 总耗时、Overall image generation speed - 整体图像生成速度,以及Average UNET Speed - 平均UNET速度来做比较。

当然RTX 50系列显卡最大年夜的优势就在于支撑FP4精度的模型,而NVIDIA供给的Procyon-models_Flux1DEV_ONNX测试DEMO就是抢先可以或许让我们体验一把FP4精度模型的优势。如上图一样可看到,同样的测试设备和情况下,FP4精度速度明显比FP8精度模型生成图片的速度快了一半,同时其图片质量也获得较好地包管。

UL Procyon AI 文本生成基准测试,评估本地大年夜说话模型(LLM)的AI推理机能,简化复杂LLM测试流程,实用于企业IT和硬件评估。基于多种LLM模型的文本生成义务,测试支撑模型:Phi-3.5-mini、Mistral-7B、Llama-3.1-8B、Llama-2-13B。

如上图一样,AI 文本生成基准测试并没有总分数,而是针对每个大年夜说话模型给出总结分数、平均首Token延迟时光(TTFT)、平均Token生成速度(OTS),以及加载时光。

当然UL Procyon是须要额外花钱或者是申请授权才能让你应用测试的,那没有和MLPerf Client一样免费的测试软件[IT江湖],那天然是有的――LM Studio。LM Studio供给了一个用户友爱的图形界面,集成了模型发明、下载、加载、运行以及经由过程类似ChatGPT的聊天界面进行交互的功能,更重要的是LM Studio还能支撑多GPU。

如许我们只须要下载对应的测试模型,同样的问题设定与软件[IT江湖]设置,就可以知道不合级别显卡的首Token延迟时光(TTFT)与平均Token生成速度(OTS)。

总结:

RTX 50系列显卡的到来,再次印证了花费级显卡正从“游戏专属”向“通用计算与AI加快平台”的计谋转型。AI基准测试对象,如同精准的标尺,赞助我们量化这些“钢铁猛兽”的“聪明”程度,懂得它们在不合AI应用处景下的潜能。

对于通俗花费者而言,懂得这些测试对象及其衡量标准,有助于在选购新显卡时,不再仅仅存眷游戏帧数,更能洞察其在内容创作、AI应用等新兴范畴的价值。对于行业而言,标准化的AI测试促进了技巧的公平竞争和持续立异。

UL Procyon AI 计算机视觉基准测试(AI Computer Vision Benchmark)

将来已来,AI算力不再是锦上添花的附加功能,而是定义下一代花费级显卡核心竞争力的关键地点。无论是NVIDIA照样AMD,谁能在AI的赛道上供给更强大年夜、更高效、更易用的解决筹划,谁就更能博得用户和市场的青睐。

来源:太平洋电脑网
电脑行业专用管理系统:IT江湖    上一篇    下一篇

Copyright © 2004-2025 宇然软件(www.fsyuran.com) 版权所有
粤ICP备14024714号