내 4K 100프레임! NVIDIA GeForce RTX 4090 그래픽 카드 테스트 보고서

엔비디아 지포스 RTX 4090

창의적인 무술, 게임의 마법, 나는 NVIDIA GeForce RTX 4090입니다. 첫 번째 플래그십 카드 이후 공식 출시된 NVIDIA의 차세대 Ada Lovelace GPU 아키텍처는 프로세스 업그레이드와 급등하는 클럭뿐만 아니라 Tensor Core 및 RT Core 업그레이드까지, 차세대 DLSS 3, AI 프레임 필링 기술로 GPU 가속 시대를 여는 동시에 AV1 듀얼 인코딩 엔진을 탑재해 게이머들의 4K 100 프레임 꿈을 충족시킬 뿐만 아니라 이지만 3D 렌더링, 제작, 시뮬레이션 및 컴퓨팅 분야의 전문가이기도 합니다. 아키텍처, 사양 및 성능의 관점에서 이 차세대 카드를 살펴보겠습니다. 경험을 업그레이드하세요.

차세대 플래그십 카드 Ada Lovelace를 만난 후, NVIDIA GeForce RTX 4090

NVIDIA의 차세대 Ada Lovelace 마이크로 아키텍처인 RTX 40 시리즈, 첫 번째 플래그십 GeForce RTX 4090이 공식적으로 내일 10월 12일에 1599달러에 판매될 예정입니다. 그런 다음 GeForce RTX 4080 16GB 및 12GB의 두 가지 새로운 카드도 11월에 출시될 예정이며 가격은 1199달러와 899달러입니다.

에이다 러브레이스 - 양자 도약.

이번 세대의 NVIDIA는 TSMC 4N 커스텀 프로세스와 Ada Lovelace 마이크로 아키텍처로 전환하여 GPU에 더 많은 SM 유닛을 보유할 수 있게 하고 CUDA, Tensor Core 및 RT Core 등의 수를 더욱 늘립니다. 2.5GHz Boost의 초고속 클럭과 결합된 TMU 및 ROP를 통해 RTX 4090은 2~4배 더 빠른 성능으로 RTX 3090 Ti를 능가할 수 있습니다.

GeForce RTX 4090에는 16,384개의 CUDA 코어, 512개의 4세대 Tensor 코어 및 128개의 3세대 RT 코어, 2.52GHz Boost 클럭 및 24GB의 GDDR6X 메모리가 있습니다. 전문적인 창작, 렌더링 및 주력 게이머의 요구를 동시에 충족시키는 매우 미친 사양을 갖춘 이 슈퍼 미친 그래픽 카드의 가격은 NT$ 56,990입니다.

GeForce RTX 4080에는 두 가지 사양이 있습니다. RTX 4080 16GB에는 NT$ 42,990부터 시작하는 CUDA 9728, Tensor Core 304, RT Core 76, 2.51GHz Boost 클럭이 있습니다. RTX 4080 12GB는 CUDA 7680, 240개의 Tensor 코어, 60개의 RT 코어, 2.61GHz 부스트 클럭이며 NT$31,990부터 시작됩니다.

RTX 4090, RTX 4080 사양 시트.
RTX 4090은 RTX 3090/Ti 제품을 대체하고, RTX 4080은 RTX 3080 12GB/Ti 제품을 대체합니다.

미국 달러 가격으로 보면 이 세대의 RTX 4080이 더 비싼 것은 사실이지만 NVIDIA가 제공한 현재 성능 기준에 따르면 RTX 4090은 RTX 3090 Ti보다 2~4배 빠르고 RTX 4080은 2~4배 더 빠릅니다. RTX 3080 Ti 배보다 빠릅니다. 따라서 성능이나 가격면에서 RTX 4090의 가격 대비 성능 비율은 RTX 3090 Ti보다 확실히 좋습니다. RTX 4080 12GB 성능이 RTX 3090 Ti와 경쟁할 수 있다고 하더라도, 이 세대 RTX 4080의 가격은 그에 따라 상승할 것입니다.

결국 NVIDIA가 각 세대의 성능을 2~4배까지 미친 듯이 향상시킬 수 있는 이유는 무엇일까요? 프로세스 개선과 급상승하는 시계 외에도 더 중요한 것은 Ada Lovelace Engine의 새로운 아키텍처가 가져온 신기술 SER, Displaced Micro-Mesh Engine, Opacity Micro map, Optical Flow Accelerator 및 DLSS 3의 AI입니다. 보조 프레임은 NVIDIA의 가장 뛰어난 기술력입니다.

에이다 러브레이스 핵심 기술.

Ada Lovelace: 프로세스 클럭 업그레이드, 고급 레이 트레이싱 및 듀얼 AV1 인코딩을 갖춘 완전한 코어 AD102 GPU

총 12개의 GPC 세트, 72개의 TPC 세트 및 144개의 SM 장치 세트로 763억 개의 트랜지스터에 도달하는 Ada Lovelace 마이크로 아키텍처는 총 18432개의 CUDA, 576개의 Tensor 코어 및 144개의 RT 코어가 있음을 의미합니다. 현재 이 세대의 주력 제품인 RTX 4090은 SM 유닛이 128대 미만에 불과합니다. 이는 RTX 4090 Ti가 앞으로도 현재의 주력 제품을 능가할 가능성이 여전히 있다는 것을 의미합니다.

Ada는 SM 유닛 개선 외에도 GDDR6X 고속 메모리, AI 추론 성능을 향상시키는 4세대 텐서 코어, 레이 트레이싱 품질을 향상시키는 3세대 RT 코어, 8세대 오디오 및 비디오 인코더를 갖추고 있습니다. AV1 하드웨어 인코딩을 지원합니다. DLSS 3에서 2~4배 성능 업그레이드.

AD102 전신 GPU 블록 다이어그램.

ADA Gen 4 텐서 코어

Tensor Core는 딥 러닝 훈련 및 추론에 필요한 행렬 계산에 획기적인 성능 향상을 제공하는 고성능 컴퓨팅 코어입니다. 핵심은 "행렬 곱셈"과 "수학 연산 누적"을 목표로 합니다. 디자인은 AI와 HPC의 적용에 있어서 매우 중요한 역할을 합니다.

Ampere 아키텍처와 비교하여 Ada는 FP16, BF16, TF32, INT8 및 INT4에 비해 Tensor TFLOPS 성능을 2배 향상시킬 수 있습니다. 동시에 Hopper 아키텍처의 FP8 Transformer Engine을 추가하면 1.3PetaFLOPS의 Tensor Core 성능을 제공할 수 있습니다.

에이다 러브레이스.

ADA 3세대 RT 코어 및 새로운 광학 추적 기술

Ada 아키텍처는 (이전 Ampere에 비해) 2배 더 빠른 Ray-Triangle Intersection 출력 성능을 제공할 수 있습니다. 새로 추가된 ” 불투명도 마이크로맵 엔진 ”를 사용하면 개체가 불투명, 투명 또는 알 수 없음의 세 가지 상태로 개체의 불투명 상태를 기록하는 데 사용할 수 있는 미세 삼각형의 가상 메시를 가질 수 있습니다.

ADA의 불투명 마이크로 맵 엔진을 사용하면 객체가 가상 메시 기록 불투명 상태를 가질 수 있습니다.

광선이 불투명한 표현으로 추적되면 “적중”이 기록되어 반환되고, 투명한 영역이면 광선 추적이 직접 무시되고 알 수 없는 영역은 SM에 넘겨 광선의 교차점을 처리합니다. 양식화된 셰이더. 불투명 마이크로 맵 엔진은 불투명 마스크, 즉 무게 중심 좌표를 사용하여 "광선/삼각형"의 교차점을 보고하는 정삼각형 마스크를 평가하는 데 사용됩니다.

Opacity Micro map Engine을 통해 기하학 알파 테스트를 직접 수행할 수 있어 Shader의 알파 계산 부담이 줄어들며, 이 기능을 통해 개발자는 보다 복잡한 모양, 고사리, 울타리 및 기타 물체와 같은 반투명 물체를 그릴 수 있으며 Ada를 통해 효율적인 광선 추적을 위한 RT Core.

게임 화면의 연기처럼 Opacity Micro map Engine 기술을 사용하면 Ray Tracing의 복잡성을 줄일 수 있습니다.
위 사진의 왼쪽이 원본 Ray Tracing 양입니다. 색상이 어두울수록 더 많은 빛이 계산되지만 연기 효과가 상당히 반투명하다는 것은 분명하지만 전반적인 성능은 저하됩니다. 사진의 오른쪽은 불투명도 마이크로 맵을 적용한 후 필요 엔진. 광선 추적 계산량이 증가하여 복잡한 개체 및 투명 효과를 처리할 때 광선 추적 성능이 향상됩니다.

또한 Ada RT Core는 " 변위된 마이크로 메시 엔진 점점 복잡해지는 기하학적 장면, 레이 트레이싱의 계산 부담, BVH 데이터에 필요한 메모리/저장 용량 감소 등을 해결합니다. 변위된 마이크로 메시(Displaced Micro-Mesh)는 기하학적 공간의 상관 관계를 사용하여 참조 삼각형 점과 변위 방향으로 복잡한 형상을 나타냅니다.

이러한 방식으로 레이 트레이싱 중에 BVH 구조의 대량 생성을 피할 수 있고, BVH 탐색 성능이 더 효과적일 수 있으며, 래스터화 중에 기존 Micro-Mesh LOD를 사용하여 원래 형상을 렌더링할 수 있습니다. 즉, Displaced Micro-Mesh 엔진은 간단한 BVH, 데이텀 삼각형 점 및 변위 방향 맵을 사용하여 매우 상세한 기하학적 광선 추적을 생성할 수 있습니다.

레이 트레이싱을 사용하여 게 껍질을 자세히 렌더링하려면 게를 1024개의 삼각형으로 세분화한 다음 BVH 알고리즘을 사용하여 각 위치의 빛 변화를 계산해야 하며, 이는 매우 많은 양의 BVH 데이터 및 성능을 생성합니다. 손실.
Ada의 Displaced Micro-Mesh Engine은 1개의 Triangle이 포함된 변위 방향 맵에 복잡한 표면을 추가하여 간단한 BVH 계산만 필요하며, 변위 방향 맵을 사용하여 각 위치의 빛 변화를 계산합니다.

이번 세대의 Ada는 새로운 ” 셰이더 실행 재정렬 (SER) 기능은 더 나은 실행 이점을 얻기 위해 빛을 처리하도록 셰이더를 동적으로 배열할 수 있습니다.

간단히 말하면 장면에서 광선 추적을 계산할 때 주 광선에서 시작하여 마주친 객체를 계산한 다음 주 광선에 의해 생성된 반사 및 주변 확산이 두 번째 광선 추적을 수행하지만 두 번째 광선 추적은 지저분합니다. . 상황의 순서 또한 두 번째 Ray Tracing의 셰이더 성능 저하로 이어집니다.

즉, SER은 광선 추적의 셰이더를 최적화하여 작업을 보다 효율적으로 만들 수 있습니다.

따라서 Shader Execution Reordering이 광선 추적 파이프라인에 추가된 후에는 두 번째 광선 추적에 적중된 동일한 셰이더를 재정렬하고 그룹화하여 광선 추적 셰이더의 효율성을 높일 수 있습니다. SER은 2배의 RT Shader 성능 향상을 제공할 수 있으며 Cyberpunk 2077이 오버드라이브 모드에서 실행될 때 SER 결과의 성능이 44% 향상됩니다.

이 다이어그램은 SER 기능을 더 잘 설명합니다. 
첫 번째 광선 추적의 계산은 순차적인 상태이지만 두 번째 광선 추적에는 반사, 굴절 및 확산이 포함됩니다. 따라서 계산의 혼란으로 인해 Shader는 최상의 성능을 발휘할 수 없습니다. SER로 최적화할 수 있습니다. 성능이 크게 향상되었습니다.

대가속 시대의 DLSS 3와 광류 가속기

게임에는 풍부한 객체, 더 복잡한 기하학, 아름다운 세계, 물리적으로 사실적인 레이 트레이싱과 같은 기술 스택이 있기 때문에 기존 GPU 렌더링 성능은 현대 게임의 요구 사항을 따라잡을 수 없으므로 NVIDIA가 AI를 위한 DLSS 기술을 최초로 개발했습니다. 또한 딥 러닝 가속을 통해 다양한 GPU 제조업체가 자체 가속 기술을 출시하고 공식적으로 GPU 가속 시대를 열 수 있었습니다.

2018년 '배틀필드 V'가 수입 레이 트레이싱으로 나왔을 때는 픽셀당 레이 트레이싱이 39개에 불과했지만, 4년 뒤인 '일렉트릭 라이더 2077'은 픽셀당 635개의 레이 트레이싱에 도달할 수 있어 매우 효율적이다. 그러나 엄청난 변화.

RTX 40의 고유한 'DLSS 3'은 DLSS 2 기술을 기반으로 광학 흐름 가속기(Optical Flow Accelerator) 기능인 'AI 보조 프레임' 개념을 추가한 것이다. 광학 흐름(Optical Flow)은 연속 이미지에서 각 픽셀의 이동 방향과 양을 계산하기 위해 컴퓨터 비전에 사용되는 광학 흐름 방법입니다.

DLSS 3 기술은 게임 엔진이 저해상도 렌더링 이미지와 모션 벡터를 제공하고, DLSS의 딥러닝 네트워크를 통해 고해상도 이미지를 추론하고, 해당 이미지를 광학 흐름 가속기에 제공하여 각 픽셀의 이동 방향을 계산하는 기능을 제공해야 합니다. 움직임의 움직임, 그리고 마지막으로 광학 다중 프레임 생성을 통해 AI 보조 프레임 사진을 생성합니다.

DLSS 3는 Optical Flow Accelerator를 사용해 사진 픽셀의 광학 흐름 이동 방향과 벡터를 계산하고, Optical Multi Frame Generation의 AI를 사용해 자국어의 AI 보조 프레임인 Frame2의 이미지를 추론합니다.
AI 보완 프레임에 광학 흐름 가속기가 필요한 이유는 무엇입니까? 
주된 이유는 위 그림의 객체는 게임 엔진의 Motion Vector를 통해 모션 방향을 알 수 있지만, 땅에 있는 그림자가 객체가 아닌 경우 그림자의 모션 벡터가 누락되어 발생하게 되기 때문입니다. 프레임을 보완할 때 문제가 될 수 있습니다.
엔진의 모션 벡터와 광학 흐름의 픽셀 벡터를 결합하면 보다 안정적인 AI 보완 프레임을 생성할 수 있습니다.

게임에서 DLSS 3, Frame Generation을 켜고 Reflex를 통해 지연을 줄이면 게임 화면의 Frame1 픽셀 중 1/4이 게임에서 렌더링되고 나머지 3/4는 DLSS Super에서 추론된 픽셀이 됩니다. 해상도를 선택하고 다음 A 사진인 Frame2로 이동합니다. 이는 DLSS 프레임 생성에 의해 생성되므로 Frame1 Frame2의 총 7/8 사진이 DLSS 3의 AI에 의해 생성됩니다.

Frame1은 저해상도 이미지(1/4)를 렌더링하기 위해 엔진에서 렌더링되고 나머지 3/4 이미지는 DLSS로 생성된 다음 Frame2는 DLSS Frame Generation으로 완전히 그려지므로 총 2개의 이미지 중 7/8이 됩니다. 프레임은 DLSS에 의해 생성됩니다. DLSS의 AI 추론이 탄생했습니다.

DLSS 3는 네이티브 렌더링과 유사한 이미지 품질을 유지하면서 AI 프레임 보완을 통해 게임 성능을 2~4배 향상시킬 수 있지만, 전체 게임 지연 시간도 증가하므로 NVIDIA는 Render Queue를 취소하여 DLSS 3에 Reflex 기술을 포함하도록 강제합니다. CPU가 처리를 마친 후 GPU가 즉시 렌더링을 대신할 수 있어 시스템 지연 시간이 단축됩니다.

따라서 DLSS 3는 4세대 Tensor Core, Optical Flow Accelerator 및 NVIDIA가 AI 훈련에 사용하는 슈퍼컴퓨터를 기반으로 AI 초고해상도, 프레임 생성 및 ReFlex와 같은 기술을 결합하여 차세대 4K100fps의 궁극적인 성능을 충족합니다. 게이머.

DLSS 3 풀스택.

DLSS 3에서는 원하는 성능 향상을 달성하기 위해 프레임 생성을 활성화하는 Ada의 광학 흐름 가속기 하드웨어가 필요하므로 DLSS 3은 현재 RTX 40 시리즈의 독점 기능이며 DLSS 3를 지원하는 향후 게임도 DLSS 2와 호환될 것입니다. DLSS 슈퍼 해상도 및 NVIDIA Reflex는 GTX 900 이상에서 지원됩니다.

DLSS 3 = 초고해상도 프레임 생성 반사. 
원본 DLSS 2에는 초해상도만 필요합니다.

듀얼 AV1 오디오 및 비디오 인코딩, Portal RTX가 11월 출시됨

위에서 언급한 업그레이드 외에도 Ada Lovelace에는 듀얼 8세대 NVENC 인코딩 엔진이 탑재되어 주로 AV1의 오디오 및 비디오 인코딩 기능이 추가됩니다. 디코딩에 있어서는 5세대 NVDEC가 Ampere와 동일합니다. 결국 NVDEC는 이미 모든 종류의 오디오 및 비디오를 디코딩하는 기능을 완벽하게 지원합니다.

에이다 러브레이스.

RTX 40 시리즈에는 주로 AV1 오디오 및 비디오 인코딩 기능을 포함하는 듀얼 8세대 NVENC 인코딩 엔진이 탑재되어 있습니다. 이는 미래의 주류 오디오 및 비디오 스트리밍 인코딩이기도 하며 H.264보다 신호 대 잡음비가 더 좋습니다. 비트 전송률과 비교하면 AV1의 이미지 영상은 H.264 인코딩보다 더 좋습니다.

AV1 오디오 및 비디오 인코딩은 더 나은 화질과 성능 향상을 제공할 수 있으며 이는 향후 스트리밍을 위한 주요 오디오 및 비디오 인코딩이기도 합니다.
왼쪽 AV1과 오른쪽 H.264의 동일한 8Mbps 비트 전송률에서 플로어의 디테일이 상당히 다릅니다(4K SBS 비교).
왼쪽 AV1, 오른쪽 H.264 동일한 8Mbps 비트레이트에서 도로 질감의 차이가 확연히 드러납니다(4K SBS 비교).

듀얼 8세대 NVENC 인코딩 엔진은 비디오 출력 성능을 2배 향상시키기 위해 DaVinci Resolve, Voukoder와 같은 비디오 편집 소프트웨어 지원이 필요하며 Jianying은 처음으로 RTX 40 듀얼 인코딩 엔진을 지원할 예정입니다. Adobe Premiere Pro는 향후 업데이트를 기다려야 합니다.

예를 들어, 8K60 이미지를 녹화할 때 각각 7680 x 2160의 해상도를 담당하는 듀얼 인코더를 사용하여 성능을 향상할 수 있습니다.

듀얼 인코딩 엔진.

AV1 인코딩 및 듀얼 인코딩 엔진 외에도 NVIDIA Omniverse는 새로운 DLSS 3 기술은 물론 RTX Remix의 신 수준 게임 모드 제작 도구도 지원합니다.

그러나 플레이어의 경우 RTX가 포함된 클래식 게임 Portal이 11월에 무료 DLC를 출시하여 Vulkan RT 호환 GPU를 지원합니다. 물론 최고의 경험은 RTX 40 및 DLSS 3을 사용하는 것입니다.

Ada의 창의적인 초점.
Portal With RTX는 11월에 무료 DLC를 출시할 예정입니다. RTX Remix가 곧 출시될 예정입니다.

NVIDIA GeForce RTX 4090 Founders Edition 그래픽 카드는 기본적으로 다시 강화되었습니다.

Ada Lovelace 카드 이후 NVIDIA GeForce RTX 4090 창립 버전은 Ampere 세대가 개척한 GeForce가 개척한 "뒷면이 전면"이고 "적지만 더 나은" 새로운 그래픽 카드 미적 디자인을 유지합니다. Founders Edition은 X-프레임을 위한 견고하고 내구성이 뛰어난 알루미늄 합금 프레임을 특징으로 하며, 프리미엄 마감을 위한 양극 산화 마감과 황금색 금속 마감을 갖추고 있습니다.

미디어 에디션 NVIDIA RTX 4090 파운딩 에디션.
상자 안쪽에 특별한 디자인.

프레임 내부에는 방열 핀이 채워져 있으며, 내부에는 GPU와 VRAM의 열을 방출하는 증기 챔버가 있으며, 폐열은 히트 파이프를 통해 방열 핀으로 유도됩니다. 이번 세대의 RTX 4090 파운딩 버전은 더 커진 116mm, FDB, 7블레이드 듀얼 팬을 사용하고 그래픽 카드의 두께를 3슬롯으로 늘리고 그래픽 카드의 길이를 30.48cm(12인치)로 줄였습니다.

이 세대의 증기 챔버는 또한 최적화되어 있으며 증기 챔버가 GPU와 보다 균일하게 접촉할 수 있도록 메모리 전용 컷아웃을 갖추고 있으며 더 나은 열 전도 효과를 위해 메모리의 열 패드가 1.5mm로 감소되었습니다. 이 세대 라디에이터는 최대 650W Qmax 냉각 용량을 지원할 수 있습니다.

뒷면은 클래식한 앞면, RTX 4090, 그리고 그래픽 카드 앞쪽에 관통되는 냉각 공기 흐름이 있습니다.
오리지널 전면에도 냉각 핀과 후면 팬이 포함된 금속 프레임이 채워져 독특한 미적 디자인을 선사합니다.

RTX 4090은 PCIe 12 4핀(12VHPWR) 전원 인터페이스로 전면 교체돼 한 라인에 최대 600W의 전력 소비량을 전달할 수 있으며, 새 카드를 장착하면 라인 전체가 더욱 아름다워진다. 물론 기본 버전은 4개의 PCIe 6 2핀 케이블에 12VHPWR도 제공합니다.

일반적으로 변환을 위해 최소 3개의 PCIe 6 2핀을 연결하는 것이 좋습니다. 새로운 전원 공급 장치를 구입하는 경우 ATX12 V3.0 및 EPS12V V2.92 사양을 준수하는 새로운 전원 공급 장치를 선택하는 것이 좋습니다. 이러한 방식으로 12VHPWR 케이블이 그래픽 카드에 필요한 전력을 제공할 수 있는 한 보기 흉한 대포를 치울 수 있습니다.

RTX 4090은 전원 공급 장치로 PCIe 12 4 핀(12VHPWR)을 사용합니다.
4개의 PCIe 6 2핀 케이블(타워)에 대한 액세서리의 12VHPWR.
전문적인 새로운 전원 공급 장치는 단 하나의 케이블로 RTX 4090의 전원 공급 요구 사항을 충족할 수 있습니다.

RTX 4090 디스플레이 출력은 VRR, 4K120Hz/8K60Hz HDR을 지원하는 HDMI 2.1a 1개, 12비트 4K240Hz HDR/12비트 8K60Hz HDR 및 기타 출력 기능을 지원하는 DisplayPort 1.4a DSC 3개를 제공하며, 한 번에 최대 4개의 화면 출력을 연결할 수 있습니다. 동시.

RTX 4090 디스플레이 출력.

NVIDIA GeForce RTX 4090 크리에이티브 비디오 출력, GPU 렌더링 성능 테스트

이번 테스트에는 Adobe Premiere Pro 2020, DaVinci Resolve 18, Blender 등 크리에이티브 테스트가 포함되어 있으며 게임은 2160p, 1440p 해상도, 풀 이펙트, e스포츠, AAA 게임 및 조명에서 테스트되었습니다. 게임 성능을 추적하고 DLSS를 추가합니다. 3 사전 테스트를 통해 플레이어는 RTX 4090이 왜 강력한지(매우 비싼) 이유를 완전히 이해할 수 있습니다.

가장 강력한 그래픽 카드는 NVIDIA GeForce RTX 3090 Founders Edition입니다.

테스트 플랫폼
프로세서: 인텔 코어 i9-12900K
마더보드: ASRock Z690 PG Velocita
메모리: CORSAIR DOMINATOR PLATINUM RGB DDR5 32GBx2 5200MHz
그래픽 카드: NVIDIA GeForce RTX 4090 Founding Edition, NVIDIA GeForce RTX 3090 Founding Edition
시스템 디스크: Solidigm P41 Plus 1TB PCIe 4.0 SSD
쿨러: ASUS ROG STRIX LC II 280mm
전원 공급 장치: Seasonic PRIME PX-1000
운영 체제: Windows 11 Pro 21H2 64비트, 크기 조정 가능한 BAR 켜짐
드라이버 버전: NVIDIA 521.90

GPU-Z NVIDIA GeForce RTX 4090 정보, 4nm 프로세스의 AD102 GPU, 16384 렌더링 CUDA 코어 및 24576MB GDDR6X(Micron) 메모리를 볼 수 있으며 GPU는 클럭을 2235MHz로 사전 설정하고 부스트를 2520MHz로 설정합니다.

GPU-Z.
DXVA Check 디코더 테스트, 모든 비디오 코덱은 현재 다양한 해상도의 디코딩을 지원합니다.

다빈치 리졸브 18 강력한 색상 보정 및 특수 효과 기능을 포함하는 순수 GPU 가속 비디오 편집 프로그램이며 CUDA 코어 컴퓨팅을 직접 사용하므로 비디오 클립의 재생 및 출력 성능이 매우 좋습니다. 베타 버전에는 NVIDIA AV1 인코딩에 대한 지원이 포함되어 있습니다.

다빈치리졸브 18.

이 테스트는 두 부분으로 나누어져 있습니다. 첫 번째 테스트 프로젝트는 4K Blackmagic RAW 이미지를 사용했으며 각 이미지에는 Wedding_Heavy_Styles 타임라인이 있습니다. 이번 영상은 OFX: Light Rays / Glow / Sketch 등 Resolve 효과를 많이 사용해 꽤 하이스타일 영화 장르를 출력합니다.

Bride_FaceRefine_Selective_Color는 얼굴 추적을 위해 얼굴 구체화를 사용하고 색상으로 주 신부를 강조 표시합니다. 50% 리타임 및 광학 흐름 – 강화 둘 다 광학 흐름 기술을 사용하여 이미지 속도를 50% 줄입니다.

SuperScale2x 4K 소스는 4K ProRES 소스 비디오를 사용하여 2배 확대된 피사체의 4K 비디오 출력을 생성합니다. SuperScale4x HD_Source는 HD H.264 소스 비디오를 사용하고 Resolve Super Scale을 사용하여 4K 비디오를 출력합니다.

RTX 4090의 이 부분의 성능은 매우 뛰어나다고 할 수 있는데, 특히 Optical Flow 테스트에서는 출력 시간을 거의 2배나 절약해 창작자들이 더 빠른 출력 성능을 발휘할 수 있게 해준다.

DaVinci Resolve 18은 시간이 짧을수록 좋습니다.

두 번째 테스트는 듀얼 NVENC 인코딩을 사용한 AV1 및 HEVC 인코딩 테스트입니다. 테스트 프로젝트는 Blender Open Movie Project "Tears of Steel"의 44초 단편 영화이며, 8k Prores442HQ 30FPS 및 4K Prores422HQ 30FPS 비디오를 사용하여 HEVC, AV1 인코딩의 출력 성능을 테스트할 수 있습니다.

출력 설정은 주로 NVIDIA 인코더를 사용합니다. 품질: 80000Kb/s로 제한, 인코딩 프로필: 메인
속도 제어: 고정 비트 전송률, 사전 설정: 더 빠르게, 튜닝: 고품질, 2패스: 비활성화 및 기타 출력 설정.

성능적인 면에서는 4K30을 출력할 때 RTX 4090의 성능은 RTX 3090과 크게 다르지 않지만, 8K 출력을 처리할 때는 RTX 4090의 듀얼 인코딩 엔진이 HEVC 출력 시간을 2배 가속시키며, AV1 인코딩 속도는 또한 매우 빠르며, 비디오 편집 소프트웨어가 RTX 40 듀얼 인코딩 엔진을 지원하는 한 탁월한 인코딩 성능 향상을 달성할 수 있음을 알 수 있습니다.

DaVinci Resolve 18 듀얼 NVENC 인코딩 테스트는 짧을수록 좋습니다.

어도비 프리미어 프로 2022 자체 개발한 Mercury Playback Engine GPU 가속을 사용하는 비디오 편집 소프트웨어는 GPU의 인코딩 엔진을 사용하여 이미지 출력 속도를 가속화할 수 있습니다. 테스트 프로젝트 1은 회사의 1080p60fps 기본 비디오입니다. BigMix4K 프로젝트는 FinalAdjusted_MPE 1920×1080 이미지의 3개 세그먼트를 사용하여 H.264 및 HEVC 형식 출력을 위한 4K 타임라인을 형성합니다.

(테스트된 Premiere Pro 2022는 아직 RTX 4090 듀얼 인코딩 기능을 지원하지 않습니다.)

RTX 4090은 성능 면에서는 여전히 RTX 3090보다 출력 속도가 빠르지만, 지원되는 DaVinci Resolve와는 달리 놀라운 출력 시간 단축 효과를 얻을 수 있습니다. 따라서 이 테스트는 주로 참고용으로 제공됩니다.

어도비 프리미어 프로 2022.
Adobe Premiere Pro 2022 출력은 짧을수록 좋습니다.

블렌더 모델링, 리깅, 애니메이션, 시뮬레이션, 렌더링, 합성, 모션 추적 등 다양한 3D 작업을 지원하는 크로스 플랫폼 오픈 소스 3D 제작 도구입니다. 테스트를 위해 Blender Benchmark 3.3.0을 사용하여 Demo 프로젝트의 렌더링 작업을 테스트합니다.

Blender Benchmark 3.3.0 테스트에서는 3개 장면에서 RTX 4090의 분당 샘플 수(효율성)가 RTX 3090보다 약 2배 많은 것을 확인할 수 있어 Ada Lovelace의 3D 생성 강도를 보여줍니다.

블렌더는 성능이 높을수록 좋습니다.

V-Ray 벤치마크 카오스 그룹에서 개발했습니다. V-Ray는 물리 법칙을 기반으로 설계된 광선 렌더링 소프트웨어이며, 이 도구는 CPU 및 GPU에 대해 각각 광선 추적의 렌더링된 이미지에 대한 계산 테스트를 수행할 수 있습니다.

V-Ray GPU RTX이든 CUDA 계산이든 RTX 4090은 Vpath 수가 1.9배 더 많아 RTX 3090을 능가합니다.

V-Ray 벤치마크, 성능이 높을수록 좋습니다.

SPEC뷰퍼프 2020 전문 응용 프로그램에서 개발한 표준 도면 성능 테스트 도구를 기반으로 하며 3ds Max, Catia, Creo, Energy, Maya, Medical, SNX, SolidWorks 및 기타 도면 테스트 및 엔지니어링 시뮬레이션과 같은 다양한 전문 컴퓨터 그래픽 소프트웨어를 테스트합니다.

테스트는 1920 x 1080 해상도이며 결과는 FPS 입니다. 이 성능은 사용된 도구와 관련이 있습니다. RTX 4090의 성능은 프로그램과 테스트 상황에 따라 약 1~2.9배 향상된다.

SPECviewperf 2020은 FPS가 높을수록 좋습니다.

NVIDIA GeForce RTX 4090 – 3DMark 벤치마크 성능 테스트

3D마크 파이어 스트라이크 성능 테스트는 주류 DirectX 11 API 테스트 시나리오로, 각각 1080p, Extreme 1440p 및 Ultra 2160p의 성능을 테스트합니다.

RTX 4090은 Fire Strike 점수 54174점을 받았고, Ultra Graphics 점수는 RTX 3090보다 2배 빨랐으며 Extreme은 1.8배, FHD 1.6배였습니다.

3DMark Fire Strike는 점수가 높을수록 좋습니다.

3DMark 타임 스파이 AAA 게임 레벨에 고정된 DirectX 12 API로 설계된 테스트 시나리오로 각각 1440p와 Extreme 2160p의 성능을 테스트합니다.

RTX 4090은 Time Spy에서 총점 32638점을 달성했는데, 이는 RTX 3090보다 각각 1.8배, 1.9배 높은 수치입니다.

3DMark Time Spy는 점수가 높을수록 좋습니다.

광선 추적 테스트의 경우, 3D마크 포트 로얄AAA 게임의 장면에 레이 트레이싱을 추가하면 하드웨어 레이 트레이싱을 가속화하는 차세대 GPU의 능력을 테스트합니다. 동시에 XDR 테스트는 DirectX Raytracing API를 사용한 기능 테스트입니다.

DLSS가 없어도 RTX 4090은 상당히 놀라운 레이 트레이싱 성능을 발휘할 수 있습니다. Port Royal은 119FPS와 XDR 138FPS를 달성합니다. RTX 3090과 비교해도 1.95배, 2.44배 성능이 향상됐다.

3DMark Port Royal은 높을수록 좋습니다.

3DMark DLSS 기능 테스트 DLSS 3 및 DLSS 2에 대한 성능 테스트를 수행할 수 있습니다. 3840 x 2160 및 성능 가속으로 설정하면 RTX 4090은 DLSS 2에서 138 FPS/2.3x 성능 향상을 얻을 수 있습니다. DLSS 3가 AI를 사용하여 이미지를 생성한 후 최대 193FPS / 3.3배 성능 향상.

앞으로는 DLSS 3의 성능을 측정하기 위해 게임을 활용할 예정이다.

3DMark DLSS 기능 테스트는 높을수록 좋습니다.

NVIDIA GeForce RTX 4090 - 4개의 e스포츠 게임 성능 테스트

e스포츠 게임 4개: '레인보우 식스: 시즈', '리그 오브 레전드', 'APEX 히어로즈', 'CS:GO' 등은 모두 헤비 스킬, 팀워크 전술 경쟁 슈팅, DOTA 계열 게임이므로 게임 FPS 역시 게임 화질과 디테일이 낮은 조건에서 평균 100프레임 이상입니다. 2160p, 1440p 및 특수 효과에 대한 최고 설정에서 테스트되었습니다.

e스포츠 게임의 경우 RTX 4090이 가져온 성능 향상은 분명하지 않습니다. 결국 RTX 3090은 2160p에서 e스포츠 게임에도 매우 강력한 성능을 제공할 수 있습니다. 테스트에서는 '레인보우 식스: 시즈'만이 확실한 성능 향상을 보였다. , 나머지 세 개는 비교적 가깝습니다.

2160p e스포츠 게임 테스트로 FPS가 높을수록 좋습니다.
1440p 게임 테스트에서는 FPS가 높을수록 좋습니다.

NVIDIA GeForce RTX 4090 – 11개 게임 성능 테스트

11개 AAA 게임의 평균 성적 , 또한 2160p, 1440p에서 테스트되었으며 전체 효과가 적용되었습니다. 이 테스트는 F1에 대해 라이트 체이스만 사용하고 나머지 게임에는 라이트 체이스, DLSS 가속이 없으며 GPU 실제 기존 렌더링 게임 성능을 테스트합니다.

게임 테스트 목록에는 보급형 'F1 2021', 레이싱 게임 '포르자 호라이즌 5', 레이싱 게임 '툼 레이더: 섀도우', 영화 게임 '데스 스트랜딩', '기어스 오브 워 5', '디비전 2', ” Horizon: Expecting Dawn은 물론 Borderlands 3, Assassin's Creed: Viking Age, Red Dead 2, God of War와 같은 성능 중심 테스트도 진행됩니다.

RTX 4090은 2160p와 AAA 게임에서 상당히 좋은 성능 향상을 보여 11개 게임에서 평균 148FPS를 기록해 RTX 3090의 평균 89FPS 대비 약 1.7배 정도의 평균 성능 업그레이드를 이룰 수 있다.

그러나 1440p 해상도에서 RTX 4090은 평균 200FPS, RTX 3090은 평균 143FPS로 약 1.4배 성능이 향상됩니다.

기본 2160p 해상도에서 RTX 4090은 DLSS 가속에 의존하지 않고도 플레이어에게 약 1.7배의 성능 향상을 가져올 수 있다는 것을 알 수 있습니다. 백분율로 표시하면 평균 66%의 성능 향상이 있습니다.

2160p AAA 게임 테스트, FPS가 높을수록 좋습니다.
1440p AAA 게임 테스트, FPS가 높을수록 좋습니다.

NVIDIA GeForce RTX 4090 – 9가지 레이 체이싱 게임 테스트

9가지 광선 추적 DXR 게임 가장 인기 있는 '라이더 2077', '컨트롤', '와치독스: 리버티 리전', '스릴러: 엑자일', '마블 스파이더맨 리마스터 에디션', '마블 인터스텔라', '고스트 스레드: 도쿄'를 사용해 테스트했다. ”, “Polar Howl 6” 및 “Evil Castle Village” 및 기타 게임을 테스트합니다. 2160P, 1440p 해상도를 테스트하고 특수 효과/광 추적의 최고 설정 외에도 DLSS 가속도 활성화됩니다. 자세한 설정은 차트를 참조하세요.

RTX 4090은 "Dian Yu Ke 2077"의 DLSS 2 가속으로 평균 110FPS에 도달할 수 있습니다. 이는 RTX 3090의 평균 60FPS보다 훨씬 높습니다. 또한 '컨트롤', '고스트라인:도쿄' 등 빛추격 게임에서도 RTX 4090이 가져온 강력한 빛추격 게임 성능 업그레이드를 느낄 수 있다.

RTX 4090은 2160p 및 9가지 조명 추적 게임 테스트에서 평균 132.3FPS에 도달할 수 있습니다. RTX 3090과 비교하면 평균 82FPS를 자랑합니다. 광추격 게임 성능은 약 1.6배, 평균 65% 업그레이드로 향상됐다.

1440p의 경우 RTX 4090은 평균 169FPS, RTX 3090은 평균 119.8FPS로 약 1.4배, 41% 성능이 향상됐다.

2160p 라이트 체이싱 게임 테스트, FPS가 높을수록 좋습니다.
1440p 라이트 체이싱 게임 테스트, FPS가 높을수록 좋습니다. 엔비디아

GeForce RTX 4090 – DLSS 3 성능 테스트

테스트 기간 동안 NVIDIA는 주로 미디어에서 DLSS 3의 성능 향상을 엿볼 수 있도록 사전 출시 테스트 버전을 제공했습니다. 테스트된 게임에는 Microsoft Flight Simulator, A Plague Tale: Requiem, Unreal Engine 5: Lyra, F1® 22, Unity Enemies, Traitor 2077 및 Justice Online”은 2160p 해상도와 조명 추적에 가장 높은 설정을 사용합니다.

DLSS 3 게임 설정에는 "초해상도" 및 "프레임 생성"에 대한 명확한 옵션이 있습니다. DLSS 3 기술을 사용하려면 두 기능을 동시에 활성화해야 하지만 RTX 30/20 시리즈 플레이어만 활성화할 수 있습니다. 슈퍼 해상도 기능, 프레임 생성은 활성화되지 않습니다.

Microsoft Flight Simulator DLSS 3 설정.
“Electric Rider 2077”의 DLSS 3 설정.

RTX 4090은 DLSS 3에 의해 가속화되며 "Dian Yu Ren Ke 2077"의 성능은 140FPS의 평균 성능 향상을 약 3.5배 달성할 수 있습니다. Unity 엔진에서 출시된 Enemies 영화 애니메이션은 실시간 광선 추적 렌더링에서 DLSS 3을 사용하여 구현할 수도 있습니다. 103FPS 약 3.68배 성능 업그레이드.

DLSS 3 성능 설정에서 RTX 4090은 약 1.9배~4.7배의 성능 향상을 달성할 수 있으며, 평균은 약 2.95배로 NVIDIA가 공개했을 당시의 2~4배 성능과도 일치합니다.

하지만 RTX 40 시리즈 플레이어들에게 혜택을 주기 위해서는 게임이 DLSS 3 기술을 지원할 때까지 기다려야 하지만, RTX 4090은 초기에 DLSS 3 지원을 개발하다가 중급, 보급형이 되면 향후 RTX 4060이 출시되면 플레이어는 더 나은 게임 가속 성능 업그레이드를 얻을 수 있을 것입니다.

DLSS 3 게임 성능 테스트는 높을수록 좋습니다.

NVIDIA GeForce RTX 4090 전력 소비 및 온도 측정

Time Spy Stress 테스트와 "Electric Rider 2077"을 사용하여 그래픽 카드의 전력 소비 및 온도 테스트를 수행했습니다. 전력 소비는 NVIDIA에서 제공하는 PACT 도구를 사용하여 측정되며, PCIe 슬롯과 전원 공급 장치 12V에서 제공하는 전력량을 모니터링할 수 있습니다.

그래픽 카드 온도 측면에서는 RTX 4090 파운딩 버전은 스트레스 테스트에서 최대 온도 67.8°C를 유지했고, 2077 게임 중 온도는 65°C 소폭 낮아진 반면, 비교 RTX 3090 파운딩 버전은 온도가 변경됐다. 열 패드이므로 온도 성능이 비슷합니다.

RTX 4090 파운더스 에디션 GPU 온도.

그래픽카드의 TBP 소비전력 테스트, 타임스파이 스트레스 테스트에서 RTX 4090은 평균 소비전력 390W, 순간 최대 462W를 달성한 반면, 2077 게임은 평균 소비전력 358W, 순간 최대 소비전력을 기록했다. 398W.

RTX 4090은 Furmark Xtreme 번인을 사용하여 평균 전력 소비량 458W에 도달할 수 있으며, 이는 NVIDIA가 미리 설정한 전력 소비 상한선이기도 합니다. 브랜드 제작 카세트가 오버클럭된 경우 2개의 12VHPWR 전원 공급 장치를 사용하지 않는 한 약 500W여야 합니다.

RTX 4090 Founding Edition GPU 전력 소비.
Furmark Xtreme 번인은 평균 458W, 순간적으로 482W에 이릅니다.

요약하다

NVIDIA GeForce RTX 4090은 강력한 성능으로 다시 한번 이전 제품을 능가하여 DaVinci Resolve 18이 듀얼 NVENC의 가속화로 더 빠른 비디오 출력 성능을 제공할 뿐만 아니라 차세대 AV1 인코딩 기능을 지원하여 표준이 될 수 있습니다. RTX 40 시리즈, 3D Creation 성능 Blender 및 V-Ray는 거의 2배에 가까운 성능 업그레이드를 제공하며 이는 의심할 여지 없이 가장 강력한 창의적 무기입니다.

게임 성능 측면에서 다시 한번 2160p와 4K AAA 및 라이트 체이싱 게임의 성능을 압도합니다. AAA 게임은 평균 1.7배 업그레이드되고, 라이트체이싱 게임은 평균 1.6배 업그레이드됩니다. DLSS 3가 AI 프레임 보완을 대중화하면 평균 2.95배의 가속도를 가져올 수 있다. , 4K100fps 100 프레임이라는 플레이어의 꿈을 충족시키기 위해 의심할 여지없이 플러그인 수준의 게임 마법 무기입니다.

DLSS 3는 현재 최대 35개의 게임(프로그램 포함)을 지원하지만, 게임마다 출시 및 업데이트 시기가 다르기 때문에 신기술이 대중화되기까지는 시간이 걸린다.

35개 이상의 게임과 앱을 지원하는 NVIDIA DLSS 3 Momentum.

이번 세대는 거의 2배에 가까운 성능 업그레이드를 했으며, 앞으로도 RTX 4080의 성능은 여전히 ​​밝을 것으로 예상할 수 있지만, 상대적으로 2배의 성능 향상으로 RTX 4090의 가격은 이전 세대보다 비용 효율적이다. RTX 3090이지만 RTX 4080의 가격도 이에 따라 인상됩니다. 이러한 상황에서 플레이어는 이러한 궁극적인 성능을 추구하기 위해 얼마나 많은 예산을 확보해야 합니까? 특히 향후 주류 RTX 4060이 플레이어들의 기대를 충족할 수 있을지, 가격의 감미로움은 NVIDIA가 어떻게 계산하는지에 달려 있습니다.

RTX 4090은 내일 10월 12일 오후 9시에 판매될 예정입니다. 대만의 권장 가격은 NT$ 56,990부터 시작됩니다. 대만이 초기 버전을 판매할지 여부는 NVIDIA 대만이 직접 발표할 것입니다. RTX 4080은 11월까지 기다릴 예정입니다. 내년에는 RTX 40 노트북 GPU가 나올 것으로 예상할 수 있지만 첫 번째 플래그십의 가격은 상당히 높을 것입니다. 게이밍 노트북에 관심 있는 플레이어라면 내년 CES 소식도 주목해 볼 만하다.

저는 NVIDIA GeForce RTX 4090이기 때문에 4K 100fps는 꿈이 아닙니다.

이 기사가 도움이 되었다면 이 기사를 소셜 미디어에서 친구들과 공유해 주세요. 감사합니다!!

이 글은 리뷰어의 개성을 바탕으로 작성되었습니다. 내용이 사실이 아니거나 정확하지 않은 경우 사실확인에 대한 책임은 귀하에게 있습니다.

제목: 내 4K 100프레임! NVIDIA GeForce RTX 4090 그래픽 카드 테스트 보고서

ko_KRKorean