Ігрова магія NVIDIA: максимальний контроль, вища якість, більше FPS
Ресурсомісткість сучасних ігор настільки стрімко зростає, що з виходом кожного чергового AAA-проєкту перше на що доводиться звертати увагу – рекомендовані системні вимоги. Дійсно, з підвищенням реалістичності графіки, активним залученням трасування променів та якісних фізичних моделей, ігровим ПК потрібна все вища продуктивність. На щастя, майже всі подібні "важковаговики" підтримують графічні технології NVIDIA, що дозволяють радикально покращити ситуацію. З появою відеокарт серії GeForce RTX 50 на базі архітектури Blackwell, можливості для оптимізацій стали ще більшими. Звісно, насамперед йдеться про DLSS 4, множинну генерацію кадрів Multi Frame Generation та механізм зменшення затримок NVIDIA Reflex 2. Розбираємось детальніше, як саме працюють ці технології та перевіряємо їх дієвість на практиці.
Більше про архітектуру Blackwell та можливості ШІ-обчислень читайте в окремому матеріалі
DLSS 4 з "трансформерами"
Компанія NVIDIA вже понад 6 років розвиває технологію смарт-масштабування DLSS (Deep Learning Super Sampling) на основі нейронних мереж, яка дозволяє значно підвищити продуктивність в іграх та навіть покращити якість зображення.
З анонсом відеокарт GeForce RTX 50 розробники також зробили значний крок у розвитку DLSS, перейшовши від традиційних згорткових нейронних мереж (CNN, Convolutional Neural Network) до більш досконалих моделей трансформерів (Transformer models) у своїй останній ітерації – DLSS 4.
Хоча згорткові нейронні мережі (CNN) досить ефективні, вони аналізують лише сусідні пікселі зображення. Це обмежене сприйняття може призводити до таких недоліків, як залишкові зображення рухомих об'єктів, розмиття та мерехтіння, особливо в динамічних сценах або зі складною геометрією.
На відміну від CNN, трансформери можуть аналізувати кожен піксель у кадрі та оцінювати його відносну важливість в усьому кадрі і навіть між кількома послідовними кадрами. Трансформер "розуміє" контекст зображення в цілому, а не лише його локальні частини. Це призводить до меншої кількості артефактів, особливо при швидкому русі камери чи об'єктів. Рухомі об'єкти виглядають набагато чіткішими.
Нові моделі DLSS 4 використовують вдвічі більше параметрів порівняно з їхніми CNN-попередниками, що дозволяє їм мати глибше розуміння сцен. Хоча використання трансформерів потребує значно більшої кількості обчислень, підвищення якості фінальної картинки виправдовує такі витрати.
Модель трансформерів також зазвичай потребує відчутно більше пам’яті відеокарти. Тут також є місце для оптимізацій. Нещодавно розробники запропонували новий SDK 310.3.0 (Software Developer Kit), що дозволяє на ~20% зменшити витрати пам’яті для реалізації моделі трансформерів.
Із впровадженням нейронної моделі трансформерів вдалось досягти нового рівня збереження деталей зображення під час масштабування DLSS Super Resolution.
З використанням нової моделі також покращена технологія реконструкції променів (Ray Reconstruction). Трансформери забезпечують більш точне видалення шуму та краще відтворення світла, тіней та віддзеркалень, оскільки вони ефективніше захоплюють далекосяжні залежності по кадрах.
Трансформерні моделі будуть використовуватися і для реалізації DLAA (Deep Learning Anti-Aliasing), що фактично є режимом DLSS Super Resolution, який працює з коефіцієнтом масштабування 1x. Тобто, DLAA не масштабує зображення вгору, а просто застосовує ШІ для максимально якісного згладжування в нативній роздільній здатності.
Оскільки трансформерна модель покращує якість самого базового процесу реконструкції зображення, для DLAA це дозволяє зменшити "сходинки" та мерехтіння на краях об'єктів, а також зберегти дрібні деталі текстур, які могли бути трохи змазані в попередніх версіях DLAA на основі CNN. Трансформери краще обробляють рух та глобальний контекст, тож це мінімізує будь-які можливі артефакти, що могли виникати раніше.
Тож з переходом на модель трансформерів можемо розраховувати на покращену якість DLAA, що забезпечить надзвичайно чисте та реалістичне зображення без необхідності в масштабуванні, звісно якщо наявна відеокарта вже забезпечує достатній FPS у нативній роздільній здатності. В іншому випадку актуальніше буде залучати DLSS.
Представлена на початку поточного року DLSS Transformer Model до недавнього часу знаходилась у бета-статусі. Тепер рівень готовності технології дозволяє говорити про масове впровадження. Тож можна прогнозувати поступовий відхід від CNN та активніше застосування моделі трансформерів для якіснішої реалізації DLSS.
Multi Frame Generation
Принциповою особливістю рішень на архітектурі NVIDIA Blackwell та однією з основних опцій DLSS 4 стала підтримка технології множинної генерації кадрів Multi Frame Generation (MFG). Якщо попередня версія DLSS 3 з Frame Generation могла генерувати один додатковий кадр між тими, що рендеряться GPU, то MFG здатна генерувати до трьох ШІ-кадрів на кожен традиційно відрендерений.
Підтримка Frame Generation першого покоління з’явилась у відеокартах GeForce RTX 40, що оснащувались окремим апаратним блоком Optical Flow Accelerator (OFA), який використовувався для швидкого обчислення оптичного потоку (векторів переміщення пікселів) між двома кадрами.
У Blackwell NVIDIA відмовилася від окремого OFA, повністю переклавши цю функцію на високоефективні AI-моделі, що працюють на тензорних ядрах. Цей підхід до розрахунку оптичного потоку є значно гнучкішим та точнішим, що критично важливо для прогнозування руху при генерації одразу кількох проміжних кадрів. Продуктивні тензорні ядра Blackwell 5-го покоління з підтримкою формату FP4 здатні ефективно виконувати складні обчислення, необхідні для швидкої та точної генерації одразу трьох додаткових кадрів. Це дозволяє ШІ-моделі глибоко аналізувати сцену, рух та освітлення, створюючи "додаткові" кадри.
У конфігурації, коли використовується DLSS з режимом Performance Mode та використанням Multi Frame Generation (4x Mode), 15 з 16 пікселів є згенеровані за допомогою ШІ. Це до теми про вплив та загальну важливість потенціалу ШІ-прискорювача на основі тензорних ядер.
Підсумкове фактичне збільшення продуктивності в іграх дуже суттєве. При використанні DLSS 4 з MFG кількість fps може збільшуватись до восьми разів від початкового значення. Особливо, коли йдеться про випадки з максимально ресурсомісткими режимами з використанням якісного трасування променів чи ще якіснішу реалізацію трасування шляхів (path tracing).
Коли при використанні Multi Frame Generation генерується так багато додаткових кадрів, синхронізація їхньої подачі на монітор стає надзвичайно важливою. Як вже згадувалось, Blackwell має суттєво модернізований дисплейний рушій з новою апаратною функцією High Speed HW Flip Metering. Цей модуль дозволяє GPU надзвичайно точно контролювати "фліпи" (перемикання буферів кадрів) і таймінги відображення. Це гарантує, що всі згенеровані кадри (до трьох на кожен реально відрендерений) вставляються в потік плавно, без мікро-заїкань, зберігаючи низьку затримку.
Раніше, у DLSS 3 (на архітектурі Ada Lovelace), процес синхронізації та планування відображення згенерованих кадрів значною мірою покладався на центральний процесор (CPU) та програмні механізми. Втім, навіть якщо загальна частота кадрів була високою, моменти відображення кадрів на екрані могли бути нерівномірними, що візуально сприймалося як "мікро-заїкання" (micro-stuttering) або втрата плавності. До того ж це займало певний ресурс центрального процесора, що могло обмежувати продуктивність в іграх, які сильно залежать від CPU.
З появою Multi Frame Generation у DLSS 4, де генерується до трьох додаткових ШІ-кадрів на кожен традиційно відрендерений, проблема точного та плавного відображення кадрів стає ще більш критичною. Керувати таким великим потоком "штучних" кадрів програмними засобами стає вкрай складно. Саме тому NVIDIA розробила High Speed HW Flip Metering і інтегрувала його безпосередньо в модуль Display Engine.
NVIDIA заявляє, що Hardware Flip Metering зменшує варіативність (відхилення) часу кадру до 5 разів. Це означає, що кожен кадр відображається на екрані через дуже стабільні проміжки часу, що створює плавну картинку, навіть при дуже високих частотах кадрів.
Отже, окрім збільшеної продуктивності тензорних ядер 5-го покоління, саме наявність апаратного блоку High Speed HW Flip Metering є однією з найбільш вагомих причин, через яку DLSS 4 Multi Frame Generation реалізована виключно на відеокартах, заснованих на GPU з архітектурою Blackwell. Для обчислення та впорядкування виводу великої кількості кадрів, більшість з яких згенеровані за допомогою нейронних мереж, потрібні додаткові ресурси та апаратні рішення, які не реалізовані у відеокартах попередніх поколінь.
NVIDIA Reflex 2
Для динамічних ігор дуже важливим параметром є час відгуку системи на дію користувача. Особливо коли йдеться про змагальні проєкти, коли навіть частки секунди можуть грати визначальну роль та вирішувати долю принципового поєдинку – поразка чи перемога.
На рівні платформи йдеться про так звану системну затримку – час, який проходить від моменту вводу (наприклад, клік мишею) до моменту, коли відповідна дія відображається на моніторі. Цей час складається з кількох етапів:
- Затримка периферійних пристроїв: Час від натискання кнопки на миші/клавіатурі до моменту, коли сигнал досягає ПК.
- Ігрова затримка: Час, необхідний CPU для обробки вводу та підготовки нового кадру для GPU.
- Затримка рендерингу: Час, який потрібен GPU, щоб відрендерити кадр.
- Затримка дисплея: Час, який монітор витрачає на обробку та відображення кадру.
У підсумку, на всі етапи може витрачатись десятки мілісекунд. На практиці навіть такі відносно невеликі значення не дозволяють отримати відчуття повного контролю за ситуацією. Невеличкий лаг і запізнення реакції здебільшого не настільки принципові, але, знову ж таки, для змагальних проєктів це може бути важливим.
Щоб зменшити системну затримку, NVIDIA пропонує використовувати технологію NVIDIA Reflex. Даний механізм дозволяє усунути чергу рендерингу. Зазвичай, CPU може підготувати кадри швидше, ніж GPU їх відрендерить. Це призводить до утворення "черги рендерингу" – буфера кадрів, які чекають на обробку GPU. Чим більша ця черга, тим вища затримка. Reflex синхронізує CPU та GPU, запобігаючи надмірному випередженню CPU. Він гарантує, що CPU надсилає кадри GPU "точно вчасно" (just-in-time), усуваючи або значно зменшуючи цю чергу. У цьому випадку відгук системи може покращитись до 50%.
Одночасно з рішеннями на архітектурі Blackwell була представлена друга генерація технології зменшення затримки – NVIDIA Reflex 2. Окрім впорядкування черги рендерингу, Reflex 2 використовує механізм Frame Warp для специфічної деформації кадру.
Reflex 2 дозволяє CPU оцінити найновіші дані про рух миші та положення камери одразу перед тим, як відрендерений кадр буде відправлений на дисплей. На основі цих найновіших даних, вже майже готовий кадр "викривляється" або "деформується" (warped). Це означає, що пікселі кадру зміщуються таким чином, щоб відобразити найактуальнішу позицію камери або рух миші гравця. Наприклад, якщо ви швидко повернули мишу, коли кадр вже був майже готовий, Frame Warp "зсуне" картинку, щоб вона краще відповідала вашому останньому руху.
Оскільки "викривлення" може створювати порожні ділянки на краю кадру (коли він зміщується) або навколо певних об’єктів, Reflex 2 використовує прогнозувальні алгоритми рендерингу та технологію замальовування (Inрainting), щоб заповнити ці порожні місця, роблячи процес непомітним для ока.
У підсумку NVIDIA Reflex 2 дозволяє у певних випадках знизити системну затримку на 75%. Технологія спочатку дебютує на відеокартах серії GeForce RTX 50, але з оновленням будуть підтримуватись інші моделі лінійок GeForce RTX.
Практичні експерименти з GeForce RTX 5080
Щоб закріпити теоретичну частину та глибше дослідити можливості відеокарт на GPU з архітектурою NVIDIA Blackwell, ми поекспериментували з GeForce RTX 5080 16 ГБ. Передтопова модель, яка попри чималу вартість залишається у когорті рішень для вимогливих гравців з реалістичними потребами. Тож для практичної частини використаємо версію ASUS TUF Gaming GeForce RTX 5080 16GB OC.
Відеокарта такого класу безперечно заслуговує окремого огляду, але цього разу акцентуємось на загальних можливостях GeForce RTX 5080. Тут лише коротенько зазначимо, що маємо справу з 3,6-слотовою трьохвентиляторною "красунею", що отримала заводський розгін GPU.
Частотна формула графічного процесора замість рекомендованої 2295/2617 МГц має вигляд 2295/2700 МГц. Чипи пам’яті GDDR7 працюють на ефективних 30 000 МГц. За наявності 256-бітової шини, загальна пропускна спроможність пам’яті складає 960 ГБ/c. Нагадаємо, що ПСП для попередниці GeForce RTX 4080 складала 716 ГБ/c. І лише флагманська RTX 4090 з 384-бітовою шиною пропонувала ~1 ТБ/c.
Цікаво, що у лінійці RTX 50 саме GeForce RTX 5080 використовує мікросхеми GDDR7 з найвищою штатною робочою частотою – 1875 МГц (ефективні 30 000 МГц).
Масивний кулер з кремезним радіаторним блоком, трьома вентиляторами та технологією наскрізного продування напевно запропонують ефективне охолодження. Навіть з урахуванням того, що йдеться про відеокарту з TGP у 320 Вт.
Для тестування відеокарти ми використовували системний блок наступної конфігурації:
- Відеокарта: ASUS TUF Gaming GeForce RTX 5080 16GB GDDR7 OC Edition (TUF-RTX5080-O16G-GAMING)
- Процесор: AMD Ryzen 7 9800X3D (8/16; 4,7/5,2 ГГц; 96 МБ L3)
- Охолодження: ASUS ROG STRIX LC III 360 ARGB
- Материнська плата: ASUS TUF GAMING X870-PLUS WIFI
- Пам’ять: G.Skill Trident Z5 Neo RGB DDR5-6000 64GB (2x32GB) (F5-6000J2836G32GX2-TZ5NR)
- Накопичувач: Crucial E100 1TB (CT1000E100SSD8)
- БЖ: ASUS ROG STRIX 1000W 80+ Gold (ROG-STRIX-1000G)
- Корпус: ASUS TUF Gaming GT502 Horizon ARGB
Зазначимо використання найшвидшого ігрового процесора – Ryzen 7 9800X3D з 3D V-Cache. Додаткова кеш-пам’ять третього рівня в певних проєктах радикально впливає на кількість fps. Система рідинного охолодження для такого CPU – норма, а 64 ГБ пам’яті DDR5-6000 стають правилом доброго тону для платформ такого класу.
Системні блоки з відеокартами серії GeForce RTX 5080 розробник рекомендує оснащувати блоками живлення потужністю 850+ Вт. Отже "кіловатник" ASUS ROG STRIX 1000W 80+ Gold точно не буде зайвим, особливо, якщо виникне бажання поекспериментувати з розгоном компонентів.
Практичні експерименти ми розпочали зі складових тестів 3DMark. Окрім показників ASUS TUF Gaming GeForce RTX 5080 16GB OC на діаграмах також будуть представлені раніше отримані результати для представниці минулого покоління (ADA Lovelace) – GeForce RTX 4080 SUPER 16GB. А щоб мати наочний приклад прогресу в межах кількох поколінь, поряд знаходяться усереднені показники GeForce RTX 3080 10GB – представниці генерації відеокарт на GPU з архітектурою Ampere.
Класичні етапи 3DMark фіксують перевагу ASUS TUF Gaming GeForce RTX 5080 16GB OC над попередницею на рівні 16–26%. Тоді як різниця з GeForce RTX 3080 10GB виявляється ледь не двократною (87–97%). І це мова йде про відеокарти одного класу, лише з п’ятирічною різницею у строках анонсу.
Оцінюючи показники роботи DLSS й особливо у варіантах з генерацією кадрів, черговий раз залишається дивуватись, наскільки суттєвим може бути вплив ШІ-механізмів за допомогою яких показники fps "масштабуються" не на відсотки, а кратно.
В реальних іграх при використанні режиму 4К та максимальних налаштувань для класичного рендерингу без залучення трасувань променів, перевага GeForce RTX 5080 над RTX 4080 SUPER у середньому складає близько 17%. На жаль, не було змоги оцінити результати GeForce RTX 3080 10GB в подібних умовах. За наявними даними з мережі, фактична різниця продуктивності складає ~80%. При цьому напевно цілому ряду проєктів вже не вистачало б 10 ГБ пам’яті для використання максимальних налаштувань якості.
За бажання перевірити максимальні можливості відеокарт, варто використовувати режими з якісною реалізацією трасування променів. Втім, як бачимо на діаграмах, коли йдеться про RT у роздільності 4K, без додаткової "допомоги" не обійтись навіть GeForce RTX 5080. У грі Cyperpunk 2077 при використанні RT Overdrive на лічильнику кадрів/c можна побачити лише середні 20 fps. Тож тут вже всі сподівання на ШІ, та безпосередньо практичну його реалізацію у вигляді DLSS.
Але самої лише DLSS у цьому випадку недостатньо. Без технології генерації кадрів можна розраховувати на значно кращі за початкові результати (~50 fps), але межа комфортної гри досягається лише при активації Frame Generation. Модель на ADA Lovelace на цьому зупиняється, тоді як GeForce RTX 5080 на Blackwell лише набирає обертів. З активацією множинної генерації кадрів (Multi Frame Generation) маємо середні 166 fps. А це, нагадаємо, роздільність 4К та режим трасування RT Overdrive.
У Alan Wake 2 загалом ситуація схожа. При стартових 15–18 кадрів/c за допомогою генерації кадрів продуктивність вдалось "розігнати" до 50–60 fps, тоді як MFG дозволила RTX 5080 досягти 113 кадрів/c.
Ми також поекспериментували з DOOM: The Dark Ages, яка нещодавно офіційно отримала підтримку технології трасування шляху (Path Tracing) та DLSS 4, опцію Ray Reconstruction та, звісно, Multi Frame Generation. Максимально якісна реалізація трасування променів потребує відповідної продуктивності.
В базовому варіанті у роздільності 4К з максимальною якістю графіки та активованою Path Tracing навіть з GeForce RTX 5080 маємо середні 20 fps. Масштабування з профілем Performance дозволяє майже досягти рівня умовно комфортних 60 кадрів/c. Але якщо хочеться вільніше почуватись у динамічних сценах, знову без генерації кадрів не обійтись. Активація Frame Generation збільшує середні показники до 100 fps, а отримані 170 fps із MFG – вже привід обирати режими DLSS з меншим коефіцієнтом масштабування.
До речі, перед активацією MFG рекомендується довести базову частоту кадрів до рівня 60 fps. Це дозволить отримати найкращі результати.
Магія перетворення 20 FPS у 170 FPS — це яскравий приклад багатовимірного прогресу візуальних технологій. Активне залучення ШІ відкриває нові горизонти для оптимізацій та покращення досвіду у різних сферах. Оскільки Закон Мура у класичній інтерпретації втрачає актуальність через фізичні обмеження, подальший розвиток вимагає нових рішень. На прикладі архітектурних змін у Blackwell ми бачимо, як NVIDIA трансформує загальний підхід до обчислень, зміщуючи фокус на застосування нейронних мереж. Це дозволяє досягати значного прогресу, обходячи традиційні обмеження нарощування обчислювальної потужності.
Широкий вибір відеокарт NVIDIA GeForce RTX 50 доступний в інтернет-магазині Telemart.ua