Українська правда

NVIDIA Blackwell: ставка на "інтелект"

- 3 липня, 14:10

Кожна чергова зміна графічних поколінь NVIDIA, попри якісне загальне оновлення, має певні особливості. В одному випадку акценти зроблені на технічних параметрах – сучасніші техпроцеси, збільшення кількості функціональних блоків, підвищення робочих частот. В іншому – розробники витрачають більше зусиль, щоб отримати максимальну відносну продуктивність на такт чи покращити енергоефективність. Випадок з NVIDIA Blackwell дещо особливий. Поява генерації відеокарт припала на повсюдне впровадження алгоритмів штучного інтелекту (ШІ). Тож виробнику, який фактично започаткував та став рушієм ШІ-обчислень на користувацьких системах, потрібно було підлаштовуватись – "інтелектуальної" роботи для GPU значно побільшало. Процесори з графічною архітектурою NVIDIA Blackwell, що використовуються для відеокарт серії GeForce RTX 50, отримали чимало глибинних перетворень та цікавих можливостей. Осягнути всі зміни в одному матеріалі неможливо, але розглянемо найбільш визначні вдосконалення.

Архітектурні акценти

Нові рішення на базі архітектури NVIDIA Blackwell пропонують не лише у приріст обчислювальної потужності, а й несуть фундаментальні зміни у тому, як графічні процесори обробляють різні типи даних. З розвитком алгоритмів штучного інтелекту, що вимагають як високоточних обчислень, так і швидкої обробки цілих чисел, NVIDIA розробила рішення, яке оптимізує продуктивність для обох сценаріїв. Blackwell вперше пропонує уніфіковану обробку операцій з рухомою комою (FP32) та цілих чисел (INT32), що дозволяє GPU працювати значно ефективніше, адаптуючись до динамічних потреб сучасних ігор та ШІ-застосунків.

У попередніх архітектурах GPU NVIDIA потокові мультипроцесори Streaming Multiprocessors (SM) мали окремі шляхи або виділені блоки для виконання операцій з плаваючою комою (FP32) і цілочисельних операцій (INT32). Це означало, що, якщо, наприклад, GPU виконував багато FP32 операцій, а потім йому потрібно було виконати INT32 операції, ці INT32 обчислювальні блоки могли простоювати, або навпаки. Це створювало деякі "вузькі місця".

В архітектурі Blackwell NVIDIA переробила SM-блоки таким чином, що кожне шейдерне ядро (CUDA Core) може виконувати як FP32, так і INT32 операції одночасно і паралельно. Це означає, що немає окремих, жорстко виділених "FP32 ядер" і "INT32 ядер" у межах SM.

Подібна уніфікація приносить кілька значних практичних переваг, особливо в контексті сучасних робочих навантажень. У багатьох сучасних ігрових та ШІ-навантаженнях GPU часто доводиться перемикатися між FP32 (рендеринг, фізика, трасування променів) та INT32 (індексування текстур, розгалужень у коді, адресних обчислень, певних ШІ-операцій). З уніфікованими ядрами, GPU може виконувати обидва типи операцій, не чекаючи, поки звільняться спеціалізовані блоки. Таким чином ефективніше використовуються обчислювальні ресурси SM. До прикладу, пікова продуктивність INT32 для GeForce RTX 5090 складає 104,8 TOPS, порівняно з 41,3 TOPS для RTX 4090.

Архітектура стає більш гнучкою і здатною адаптуватися до нових типів робочих навантажень, які можуть з'явитися в майбутньому. Якщо нові технології будуть вимагати несподіваного співвідношення FP32 до INT32, Blackwell зможе впоратися з цим краще, ніж попередні архітектури.

Ще одна важлива архітектурна зміна у Blackwell стосується значного вдосконалення та глибшої інтеграції Tensor Cores – спеціалізованих ядер, розроблених NVIDIA для прискорення матричних обчислень. Нові GPU отримали п'яте покоління тензорних ядер, які не тільки пропонують підвищену швидкість для традиційних ШІ-завдань, але й вводять нові формати точності, такі як FP4, що подвоює пропускну здатність та ефективно розширює розмір моделей, які може обробляти GPU.

З появою архітектури Blackwell, NVIDIA робить значний крок до "нейронного рендерингу", де штучний інтелект стає не просто додатковим інструментом, а невід'ємною частиною процесу створення зображень. Це відбувається завдяки впровадженню нейронних шейдерів – спеціальних програмних блоків, які інтегрують невеликі нейронні мережі безпосередньо в GPU-шейдерний код. Це дозволяє досягти нового рівня реалізму, підвищити ефективність та знизити споживання ресурсів.

Щоб ефективніше розподіляти різнородні шейдери між обчислювальними блоками, архітектура Blackwell передбачає використання прискореного механізму Shader Execution Reordering 2.0. Оскільки загальний графічний конвеєр (пайплайн) тепер може містити комбінацію типових та нейронних шейдерів, SER допомагає швидко розділити завдання між CUDA-обчислювачами та тензорними ядрами.

В рішеннях з архітектурою Blackwell RT-ядра 4-го покоління отримали суттєве оновлення. Окрім значного підвищення продуктивності, блоки обробки алгоритмів трасування променів тепер оснащені спеціальними апаратними модулями: Triangle Cluster Intersection Engine та Triangle Cluster Decompression Engine. Ці рушії дозволяють ефективніше працювати з групами трикутників, об'єднаними у кластери, замість обробки кожного трикутника окремо.

Така "мега-геометрія" (Mega Geometry) радикально змінює підхід до роботи зі сценами, що містять величезну кількість полігонів. На відміну від традиційного, надзвичайно ресурсомісткого способу обчислення трасування променів, кластерний формат значно полегшує задачу. Це відбувається завдяки ефективнішій організації даних та швидшому пошуку перетинів променів з геометричними об'єктами.

RT-ядра 4-го покоління також отримали блок Linear Swept Spheres (LSS), що головним чином призначений для кардинального покращення та прискорення трасування променів складних, тонких геометричних об'єктів, зокрема волоссі та хутрі.

LSS у RT-ядрах Blackwell моделює тонкі об'єкти (як-от волосся) не трикутниками, а "проведеними сферами". Це значно зменшує обсяг геометричних даних, оскільки кожен сегмент волосини потребує лише дві сфери замість десятків трикутників. Апаратне прискорення перетинів з цими сферами робить трасування променів для таких об'єктів до 2 разів швидшим та економить пам’ять відеокарти.

Основною модернізацією тензорних ядер 5-го покоління стала підтримка формату FP4, що дозволяє виконувати удвічі більше обчислень порівняно з FP8 (і в 4 рази більше, ніж FP16) за той самий проміжок часу. Це критично важливо для інференсу великих мовних моделей (LLM) та генеративного ШІ, де потрібно швидко обробляти величезні обсяги даних. Практично це означає швидші відповіді чат-ботів, миттєву генерацію зображень, відео чи тексту. Для застосування багатьох моделей цілком достатньо точності, яку забезпечує формат FP4, тож подвоєння продуктивності тут принципово важлива річ.

Інтеграція моделей штучного інтелекту в ігри створює нові виклики у підтримці безперебійного та швидкого реагування. Щоб оптимізувати навантаження, максимально ефективно використовуючи ресурси відеокарти, запроваджений AI Management Processor (AMP) – спеціалізований сопроцесор, інтегрований безпосередньо в GPU Blackwell.

Сучасні робочі навантаження GPU все частіше включають як традиційний рендеринг (растеризація, трасування променів), так і інтенсивні ШІ-обчислення (наприклад, DLSS 4, нейронні шейдери, моделі поведінки NPC, генерація контенту). Ці завдання конкурують за одні й ті ж ресурси GPU (обчислювальні ядра, пам'ять), і їхня ефективна координація стає критично важливою. В умовах, коли графічний рендеринг і ШІ-обчислення відбуваються одночасно, AMP допомагає уникнути конфліктів за ресурси.

Він може пріоритизувати критично важливі для відгуку завдання (наприклад, DLSS Frame Generation в грі) над менш чутливими до затримки фоновими ШІ-процесами. Також забезпечується правильна синхронізація між різними етапами обробки, де результат одного ШІ-обчислення може бути входом для наступного графічного етапу, і навпаки.

Однією з визначних особливостей архітектури Blackwell є використання пам'яті стандарту GDDR7. Вона вдвічі швидша за GDDR6, при цьому споживає вдвічі менше енергії на біт переданих даних.

Найбільша зміна – технологія передачі сигналів. GDDR6X використовує сигналізацію PAM4, яка покладається на чотири рівні логіки для дискретизації тактового сигналу. GDDR7 використовує PAM3, з трьома рівнями логіки замість чотирьох. Сигналізація PAM3 може працювати на вищій швидкості, ніж PAM4, а це означає, що вона передаватиме більше даних за секунду, попри менший обсяг даних за такт.

Використання чипів GDDR7 дозволило значно підвищити загальну пропускну спроможність пам’яті для відеокарт серії GeForce RTX 50. Для флагманської моделі GeForce RTX 5090 32 ГБ цей показник склав вражаючі 1792 ГБ/c, порівняно з 1008 ГБ/c для GeForce RTX 4090 24 ГБ. Безперечно свій вклад тут мало використання 512-бітової шини замість 384-бітової у старшої моделі попередньої генерації.

NVIDIA чимало уваги приділила питанню енергоефективності рішень на архітектурі Blackwell. Була вдосконалена система регулювання потужності різних блоків на мікросхемі, що дозволяє дуже тонко контролювати потужність.

Нові можливості Clock Gating (синхронізації тактових імпульсів) дозволяють дуже швидко вимикати цілі кластери, заощаджуючи динамічне енергоспоживання навіть у тих ділянках роботи, де лише частина чіпа простоює, або де простоювання настільки коротке, що зазвичай вважається «активним».

Додано нову шину напруги, яка подає живлення окремо на ядра графічного процесора та систему пам'яті. Окремі шини забезпечують незалежне керування напругою на великих ділянках чіпа, які можна оптимізувати під робоче навантаження, що підвищує продуктивність. Це також дозволяє Blackwell вимикати невикористовувані частини чіпа під час невеликих періодів простою. Додатковим фактором зменшення енергоспоживання стало використання енергоефективних мікросхем пам'яті GDDR7.

Додаткових оптимізацій зазнала система динамічного регулювання робочої частоти. Прискорене перемикання частоти дозволяє реалізувати повну продуктивність графічного процесора в рамках заданого бюджету енергоспоживання.

Для мобільних рішень особливо важлива швидкість переходу між станами від активного до "глибокого сну". Скорочені фази на кожному етапі дозволяють економити енергію, а відповідно й заряд батареї ноутбука.

Рішення з архітектурою Blackwell оснащені суттєво модернізованим дисплейним рушієм. Відеокарти отримали DisplayPort 2.1 з підтримкою UHBR20 і пропускною здатністю до 20 Гб/c на одну лінію. Це дозволяє під’єднувати екрани з високою роздільністю та частотою оновлення.

Дисплейний рушій також отримав високошвидкісний вимірювач фліпів (High Speed HW Flip Metering) – апаратний модуль, що оптимізує темп передачі кадрів, забезпечуючи більш ефективну і плавну роботу в іграх і додатках, які використовують DLSS 4 з Frame Generation та особливо Multi Frame Generation.

Оновлені відеокодери/декодери отримали підтримку AV1 UHQ та MV-HEVC, також з’явилась можливість апаратного транскодування відео за стандартом субдискретизації 4:2:2.

Ще одним вагомим оновленням Blackwell стало використання інтерфейсу під’єднання PCI Express 5.0, що має вдвічі більшу пропускну здатність порівняно з шиною попереднього стандарту. Актуальні десктопні платформи вже якийсь час пропонували PCI-E 5.0, але саме GeForce RTX 50 стали першими відеокартами, які можуть отримувати перевагу від збільшення швидкості каналу між CPU та GPU.

Нейронний рендеринг

Використання нейронних шейдерів надає розробникам принципово нові можливості для додаткових візуальних експериментів, глибоких системних оптимізацій та практичної реалізації задумів, які раніше вважались нездійсненними через високі ресурсні потреби. NVIDIA пропонує розробниками набір RTX Kit, який вже дає змогу долучатись до нової парадигми візуалізації з активним залученням напрацювань зі штучного інтелекту.

RTX Mega Geometry – технологія NVIDIA, яка значно покращує ефективність трасування променів у 3D-сценах з надзвичайно високим рівнем геометричної деталізації. Вона призначена для вирішення однієї з найскладніших проблем у трасуванні променів: обробки величезної кількості трикутників.

У сучасних іграх та професійних додатках (таких як дизайн, архітектура, симуляція) кількість трикутників у сцені зростає до мільйонів, а подекуди й мільярдів. Це особливо актуально з появою таких технологій, як Nanite в Unreal Engine 5, яка дозволяє розробникам використовувати асети кінематографічної якості з надвисокою геометричною деталізацією. Blackwell забезпечує апаратну базу для безперешкодної роботи з таким рівнем складності.

Традиційні методи трасування променів, які покладаються на ієрархію обмежувальних об'ємів (BVH, Bounding Volume Hierarchy), стикаються з проблемами при роботі з такою величезною кількістю трикутників.

Завдяки здатності ефективно обробляти "мега геометрію", розробники можуть створювати світи з безпрецедентною складністю – густі ліси, деталізовані міста, складні моделі персонажів, де кожен листочок, камінець чи волосина можуть бути відрендерені з трасуванням променів.

Mega Geometry доступна для обробки всіма поколіннями відеокарт RTX, але за наявності спеціалізованих прискорювачів, моделі на GPU з архітектурою Blackwell будуть мати перевагу.

NVIDIA також пропонує RTX Neural Texture Compression (NTC) – спеціальний метод стиснення та декомпресії текстур за допомогою нейронних мереж. Замість традиційних блокових алгоритмів компресії (як BCn), які стискають дані фіксованими блоками і можуть втрачати деталі, NTC використовує невелику нейронну мережу (декодер) для кожного матеріалу. Оригінальні дані текстур перетворюються на комбінацію ваг (weights) для цієї мережі та прихованих ознак, які потім проходять через декодер для відновлення кольорів.

Текстури високої роздільної здатності займають величезний обсяг відеопам'яті (VRAM) та дискового простору. Тоді як NTC демонструє стиснення до 8 разів порівняно з традиційними методами, що дозволяє розробникам використовувати текстури вищої якості або збільшувати кількість асетів у сцені без вичерпання пам'яті.

RTX Neural Materials використовується для рендерингу надзвичайно складних матеріалів. Замість того, щоб описувати властивості матеріалу за допомогою складних математичних моделей або безлічі текстур, Neural Materials використовують навчену нейронну мережу для синтезу візуального вигляду матеріалу в реальному часі.

Деякі матеріали, такі як шкіра з підповерхневим розсіюванням, оксамит з його унікальним блиском, переливчастий шовк або складні метали, вимагають дуже великого обсягу обчислень та комплексних шейдерних моделей. Нейронна мережа може апроксимувати складні фізичні моделі з меншими витратами, прискорюючи обробку матеріалів до 5 разів та зменшуючи їхній обсяг у пам'яті. Подібно до Neural Textures, вони можуть стискати інформацію про матеріал, роблячи його компактнішим.

На додаток для RTX Global Illumination компанія NVIDIA розробила техніку Neural Radiance Cache (NRC) для ефективного обчислення непрямого глобального освітлення в реальному часі, особливо в сценах з трасуванням шляхів (path tracing). Традиційне трасування шляхів є дуже ресурсомістким, оскільки вимагає відстеження багатьох променів, що багаторазово відбиваються від поверхонь, для точного розрахунку освітлення.

Neural Radiance Cache використовує невелику нейронну мережу, яка навчається під час рендерингу в реальному часі, щоб кешувати та апроксимувати інформацію про непряме освітлення. Замість того, щоб повністю трасувати кожен промінь до нескінченності, NRC дозволяє перервати трасування після кількох відбиттів, а потім використовувати навчену нейронну мережу, щоб "додумати" решту непрямого освітлення для цієї точки.

Шкіра – складний об'єкт для рендерингу в іграх. На відміну від непроникних матеріалів на кшталт дерева чи металу, де світло лише відбивається від поверхні, напівпрозорі матеріали, такі як шкіра, поводяться інакше. Світло проникає в них, розсіюється всередині, а потім виходить в інших місцях.

Щоб реалістично відтворити шкіру, NVIDIA адаптувала кінематографічну технологію Subsurface Scattering (підповерхневе розсіювання світла) для рендерингу в реальному часі за допомогою трасування шляхів. RTX Skin – це перша реалізація підповерхневого розсіювання на основі трасування променів в іграх. Вона дозволяє художникам гнучко контролювати інтенсивність ефекту, досягаючи нового рівня фотореалізму.

RTX Neural Faces пропонує новий підхід до покращення якості відтворення обличчя за допомогою генеративного ШІ. Neural Faces бере просте растроване обличчя та 3D-дані про позицію в якості вхідних даних і використовує генеративну модель ШІ в реальному часі, щоб отримати більш природне обличчя. Згенероване обличчя навчається на тисячах згенерованих офлайн зображень цього обличчя під будь-яким кутом, при різному освітленні, емоціях та умовах оклюзії.

Це далеко не вичерпний перелік нових можливостей. Загалом нейронні шейдери дозволяють переосмислити, як створюються зображення, переходячи від чистого кодування до комбінації традиційних методів і потужності ШІ. Це шлях до нового рівня фотореалізму, ефективності та зниження вимог до пам'яті, що є критично важливим для наступного покоління ігор та професійних додатків. Тобто це не просто "ще одна фіча", а фундаментальна зміна підходу до графіки, де ШІ стає активним учасником візуального процесу.

Прискорення ШІ за допомогою мікросервісів NIM та AI Blueprints

Однією з головних особливостей запуску серії RTX 50 є прагнення NVIDIA перенести генеративні робочі процеси ШІ безпосередньо на ПК творців через використання NIM. NVIDIA Inference Microservices (NIM) – це готові сервіси, які дозволяють простіше запускати моделі ШІ на локальних графічних процесорах RTX.

Ці мікросервіси містять все необхідне (саму модель, оптимізації, API), щоб розробники та ентузіасти могли інтегрувати функції ШІ у свої програми за допомогою простого виклику API. Це значно знижує бар'єр для використання моделей ШІ на ПК – без необхідності боротися з налаштуванням або оптимізацією моделей, творці можуть використовувати такі можливості, як генерація зображень, перетворення тексту в мову або просунуті мовні моделі у своїх повсякденних творчих застосунках.

Щоб спростити творчість на основі штучного інтелекту, NVIDIA також представила AI Blueprints – готові до використання робочі процеси, побудовані на мікросервісах NIM. AI Blueprints – це, по суті, еталонні додатки, що поєднують кілька моделей та інструментів штучного інтелекту для виконання складних завдань.

Наприклад, на виставці CES 2025 компанія NVIDIA представила два перших Blueprints: один, що перетворює документ PDF в аудіоподкаст, та інший, що дозволяє генерувати зображення на основі 3D-моделей. У Blueprint для перетворення PDF у подкаст конвеєр використовує ШІ для вилучення тексту та зображень із PDF, генерування сценарію, а потім синтезу аудіо, що дозволяє користувачам ефективно створювати аудіоподкасти з письмового матеріалу.

Blueprint надає візуальним художникам інтуїтивний спосіб контролю над результатами згенерованих зображень: творець може створити просту сцену за допомогою 3D-об'єктів у Blender (розміщуючи фігури, щоб заблокувати композицію та кут камери), а ШІ (на базі моделі перетворення тексту в зображення FLUX) згенерує детальне зображення, яке відповідає цій 3D-сцені.

Цей проєкт ефективно поєднує 3D-макет із генерацією зображень, надаючи художникам більший контроль над ШІ-мистецтвом за допомогою просторового наведення замість текстових підказок. Такі ШІ-проєкти демонструють, як графічні процесори RTX 50 Series дозволяють творцям використовувати кілька ШІ-моделей разом для нових робочих процесів – і все це працює локально на їхньому власному обладнанні.

Точність FP4 – швидший штучний інтелект для творчої роботи

Серія відеокарт GeForce RTX 50 на базі GPU з архітектурою Blackwell підтримує точність FP4 (4-бітна плаваюча точка), що значно підвищує продуктивність локального штучного інтелекту. Традиційні ШІ-моделі часто використовують точність FP16 (16-бітна) або FP8; FP4 – це ще менший числовий формат, який служить формою агресивного стиснення моделі. Як вже раніше зазначалось, графічні процесори для графічних адаптерів лініки RTX 50 містять нові тензорні ядра 5-го покоління, здатні виконувати обчислення FP4, що ефективно дозволяє виконувати більше операцій паралельно з меншим використанням пам'яті.

На практиці FP4 може зменшити вимоги до пам'яті нейронних мереж удвічі порівняно з FP16 і подвоїти пропускну здатність виведення на графічному процесорі. NVIDIA зазначає, що це дозволяє запускати багато великих генеративних моделей на одному графічному процесорі RTX 50, для чого раніше міг бути необхідний цілий сервер центру обробки даних.

Конкретним прикладом є модель перетворення тексту в зображення FLUX.1 від Black Forest Labs: при повній точності FP16 для роботи FLUX.1 потрібно понад 23 ГБ VRAM, що означає, що вона може комфортно працювати тільки на графічних процесорах GeForce RTX 4090 або PRO. При квантуванні до FP4 та сама модель використовує менш як 10 ГБ – достатньо для більш скромних графічних процесорів і працює набагато швидше.

Фактично, на GeForce RTX 5090 з використанням FP4 FLUX.1 може генерувати зображення за ~4 секунди, порівняно з ~17 секундами при FP16 на RTX 4090 (або ~10 секундами при FP8). А завдяки передовим методам квантування NVIDIA (таким як у TensorRT Optimizer) це прискорення практично не супроводжується помітною втратою якості вихідних даних.

Для творчих людей це означає, що інструменти на базі штучного інтелекту (генератори зображень, апскейлери, ефекти штучного інтелекту в додатках тощо) працюють швидше та обробляють більші проєкти, не досягаючи меж пам'яті. Складні функції на базі штучного інтелекту – від синтезу зображень у програмах для дизайну до ефектів на базі машинного навчання у відеоредагуванні – тепер можна використовувати більш плавно в робочому процесі на настільному комп'ютері.

Завдяки підтримці FP4, серія RTX 50 фактично надає художникам і творцям контенту можливості штучного інтелекту класу дата-центрів, дозволяючи локально використовувати моделі штучного інтелекту, які раніше були недоступні на споживчому обладнанні.

Нові функції NVIDIA Broadcast для стрімерів

Творці контенту, які ведуть прямі трансляції або записують відео, отримали більше можливостей завдяки оновленню NVIDIA Broadcast 2.x для покоління RTX 50.

Програма NVIDIA Broadcast (частина пакета Studio) використовує штучний інтелект для поліпшення якості голосу та відео в режимі реального часу, а в останній версії представлено дві важливі бета-функції: Studio Voice та Virtual Key Light.

Studio Voice: цей ефект використовує штучний інтелект для значного поліпшення якості звуку мікрофона. Він не тільки усуває фоновий шум (на основі існуючої технології усунення шуму від NVIDIA), але й покращує чіткість і насиченість звуку, завдяки чому звичайний домашній мікрофон звучить як висококласний студійний мікрофон. Для подкастерів, відеоблогерів або стримерів Studio Voice означає, що аудиторія чує чіткий звук професійної якості без дорогого обладнання або складної постобробки. Навіть у шумному оточенні штучний інтелект фільтрує відволікаючі фактори (клацання клавіатури, відлуння в кімнаті тощо), зберігаючи голос мовця.

Virtual Key Light: хороше освітлення має вирішальне значення для якості відео, і ця функція використовує штучний інтелект для імітації професійного студійного світла, що освітлює обличчя об'єкта зйомки. Virtual Key Light автоматично аналізує зображення з вебкамери та освітлює ваше обличчя збалансованим світлом, ніби перед вами стоїть фізичний софтбокс або кільцеве світло. Результатом є більш привабливий, рівномірно освітлений вигляд на камері, що допомагає стримерам та учасникам відеодзвінків виглядати якнайкраще без складних налаштувань освітлення. Це особливо корисно для творців, які працюють в імпровізованих умовах – штучний інтелект може миттєво компенсувати тьмяне або нерівномірне освітлення приміщення.

Studio Voice і Virtual Key Light наразі перебувають у стадії бета-тестування і, через інтенсивну обробку штучним інтелектом, вимагають потужну відеокарту лінійки RTX (принаймні RTX 4080 або нову RTX 5080). Вони призначені для творчих трансляцій, таких як ток-шоу, вебінари або демонстрації мистецтва в прямому ефірі, а не для стримінгу ігор (де ресурси графічного процесора потрібні для самої гри). Поряд з цим, оновлення програми Broadcast покращує існуючі функції, такі як Background Noise Removal (тепер забезпечує ще чіткіше ізолювання голосу) та Eye Contact (що зберігає природний погляд мовця). Інтерфейс був оновлений для зручності використання, що дозволяє одночасно запускати кілька ефектів штучного інтелекту.

Варто зазначити, що NVIDIA спростила стороннім розробникам інтеграцію ефектів Broadcast у власне програмне забезпечення. Базова технологія (така як Studio Voice або Virtual Key Light) доступна через NVIDIA Maxine SDK або навіть як мікросервіси NIM для тих, хто хоче приєднати ці ефекти штучного інтелекту до власних додатків. Це означає, що в майбутньому творчі програми або платформи для стримінгу зможуть інтегрувати функції штучного інтелекту NVIDIA для трансляцій.

Наразі будь-хто, хто має сумісний графічний процесор RTX, може завантажити безкоштовний додаток NVIDIA Broadcast і відразу ж покращити якість аудіо та відео для створення контенту.

3D-анімація та візуалізація

Для 3D-художників, аніматорів та архітекторів серія GeForce RTX 50 пропонує значний стрибок у потужності рендерингу в реальному часі. Завдяки RT-ядрам четвертого покоління та збільшеній місткості пам’яті лінійка RTX 50 розроблена для обробки складних сцен та робочих навантажень з трасуванням променів з високою швидкістю. NVIDIA зазначає підвищення продуктивності 3D-додатків на 40% завдяки архітектурним вдосконаленням у GPU Blackwell.

На практиці такі завдання, як рендеринг з трасуванням променів, фізична симуляція та маніпуляції з вікном перегляду, стали більш плавними. Велика модель архітектурної візуалізації або щільна анімована сцена, яка, скажімо, на попередньому поколінні могла рендеритися зі швидкістю 20 кадрів в секунду, тепер може наближатися до 28–30 кадрів в секунду на еквівалентному графічному процесорі RTX 50 – це значний виграш для інтерактивної роботи.

Важливо, що GeForce RTX 5090 оснащена 32 ГБ надшвидкої пам'яті GDDR7 (RTX 5080 — 16 ГБ). Це означає, що творці можуть завантажувати в пам'ять надзвичайно великі 3D-ресурси, текстури з високою роздільністю або багатозадачні робочі процеси без обмежень. Це особливо корисно для архітектурної візуалізації та VFX, де файли проєктів мають великий розмір. GeForce RTX 5080 також здатна вмістити великі CAD-моделі або детальні середовища, забезпечуючи плавне панорамування та редагування, тоді як менш потужні графічні процесори можуть бути не настільки ефективними або мати недостатню місткість пам'яті.

Ще однією важливою функцією є DLSS 4 (Deep Learning Super Sampling 4), яка з'являється разом із поколінням RTX 50 і приносить користь як іграм, так і творчим робочим процесам. У підтримуваних програмах 3D-візуалізації та рендерингу DLSS 4 впроваджує Multi Frame Generation: штучний інтелект графічного процесора генерує додаткові проміжні кадри, щоб підвищити частоту кадрів для інтерактивного рендерингу.

Наприклад, у таких інструментах, як D5 Render або Chaos Vantage (популярних в архітектурі та анімації), DLSS 4 може інтерполювати до 3 додаткових кадрів на кожен 1 відтворений кадр, ефективно збільшуючи частоту відображення кадрів у чотири рази без необхідності повного повторного відтворення сцени кожного разу.

Аніматор, який працює з важкою сценою, або архітектор, який робить віртуальний огляд, побачать набагато плавніший результат – подібний до чотирикратного збільшення потужності рендерингу графічного процесора – при цьому зберігаючи точність візуалізації, оскільки кадри штучного інтелекту формуються на основі векторів руху та відрендерених кадрів. Це дозволяє здійснювати відтворення майже в реальному часі (60+ FPS) навіть з високими налаштуваннями якості, роблячи творчий процес більш WYSIWYG ("що бачиш, те й отримаєш") і скорочуючи час очікування попереднього перегляду. Коли настає час робити остаточний рендеринг кадрів, продуктивність трасування променів і ШІ-шумозаглушення на RTX 50 також скорочують час виробництва, що означає швидшу обробку високоякісних зображень або анімаційних послідовностей.

Драйвери NVIDIA Studio: оптимізовані для творців

В основі всіх цих апаратних інновацій лежить постійне прагнення NVIDIA до стабільності та оптимізації програмного забезпечення за допомогою програми Studio Drivers. Драйвери NVIDIA Studio – це спеціалізовані версії драйверів для графічних процесорів, орієнтовані на творчі програми, а не на ігри, що забезпечує художникам найнадійнішу та найвищу продуктивність у їхній роботі.

Для цього кожен драйвер Studio проходить ретельне тестування з використанням провідного програмного забезпечення для творчості – не тільки з одним додатком, але й у багатозадачних робочих процесах, що відтворюють реальне використання творцями (наприклад, редагування в Premiere, потім компонування в After Effects, а потім корекція кольору в DaVinci Resolve в одному проєкті). Така ретельна перевірка означає, що, встановлюючи драйвер Studio Driver, ви можете бути впевнені, що ваші програми Adobe, Autodesk, Blackmagic, Unreal Engine та інші творчі програми були перевірені на сумісність із цією версією драйвера.

Драйвери Studio Drivers випускаються з дещо меншою періодичністю порівняно з драйверами Game Ready, надаючи пріоритет стабільності та сумісності над оптимізацією ігор у перший день. Кожне оновлення драйвера Studio містить десятки виправлень помилок і налаштувань продуктивності, спеціально призначених для інструментів створення контенту.

Наприклад, драйвер Studio може збігатися з великими оновленнями, такими як випуск Adobe Creative Cloud або щорічне оновлення продуктів Autodesk, забезпечуючи прискорення будь-яких нових функцій за допомогою графічних процесорів RTX і усунення будь-яких нових помилок. NVIDIA часто повідомляє про покращення продуктивності у творчих програмах завдяки новим драйверам Studio – наприклад, попередні випуски забезпечили 8–12% підвищення продуктивності рендерингу або експорту для таких програм, як Blender Cycles і Photoshop.

9-е покоління NVENC і кодування відео 4:2:2

Карти RTX 50 оснащені кодером 9-го покоління (NVENC) і декодером 6-го покоління від NVIDIA, що додає підтримку субдискретизації кольору 4:2:2 і покращує якість кодування HEVC/AV1. Флагманська модель RTX 5090 має три апаратні кодери (і два декодери), що забезпечує на 40% швидший експорт відео порівняно з RTX 4090 і значно швидший, ніж у попередніх поколіннях.

Така конфігурація з декількома кодерами також вигідна для стримерів, оскільки забезпечує вищу якість трансляцій (приблизно на 5% краща якість зображення при тій самій швидкості передачі даних) у форматі AV1/HEVC для таких платформ, як Twitch і YouTube.

4:2:2 – це стандарт хрома-субдискретизації (chroma subsampling), який описує, як кольорова інформація (хрома) зберігається відносно інформації про яскравість (люма) у відеофайлі. Людське око більш чутливе до змін яскравості, ніж кольору, тому відеоформати часто "стискають" кольорові дані, щоб зменшити розмір файлу без значної втрати візуальної якості.

Позначення 4:2:2 означає, що на кожні 4 пікселі по горизонталі зберігається 4 значення яскравості (люма) і 2 значення кольору (хрома). Тобто, кольорова інформація семплюється з половинною горизонтальною роздільною здатністю, але з повною вертикальною.

4:2:2 забезпечує хороший баланс між якістю зображення та розміром файлу. Він зберігає значно більше кольорової інформації, ніж широко поширений 4:2:0 (який використовується у більшості споживчих відео та стримінгу), при цьому файл збільшується лише приблизно на 30% порівняно з 4:2:0.

Додаткова кольорова інформація дає відеоредакторам набагато більше гнучкості для точних і тонких налаштувань під час кольорокорекції. Формат дозволяє чистіше вирізати об'єкти з фону, забезпечуючи чіткіші та деталізовані краї, особливо на дрібних елементах, таких як волосся.

У відео, закодованому в 4:2:0, кольорова інформація може "розмиватися" навколо тексту, роблячи його важчим для читання. 4:2:2 зберігає текст значно чіткішим.

Апаратна підтримка кодування та декодування 4:2:2 у відеокартах серії NVIDIA GeForce RTX 50 (на архітектурі Blackwell) надає переваги творцям контенту та професіоналів. Обробка 4:2:2 відео – дуже ресурсомістке завдання для центрального процесора (CPU) або вимагає потужних професійних відеокарт. Blackwell надає апаратні відеокодери/декодери (NVENC/NVDEC) з повною підтримкою 4:2:2 для H.264, HEVC та AV1 (включно з MV-HEVC).

Завдяки цьому перетворення відеофайлів у формат 4:2:2 відбувається значно швидше, наприклад, до 10 разів швидше порівняно з лише CPU. Також стає можливим плавне відтворення та редагування кількох 4K 4:2:2 потоків одночасно. Наприклад, RTX 5090 може декодувати до 10 одночасних 4K 30fps потоків 4:2:2 відео на один декодер.

Таким чином, підтримка 4:2:2 на архітектурі Blackwell значно розширює можливості відеокарт RTX 50-ї серії для професіоналів та ентузіастів відео, роблячи їх ще більш потужними інструментами для створення високоякісного контенту.

Практичні експерименти з GeForce RTX 5080

Відеокарти вже тривалий час є основною обчислювальною потужністю навіть у складі звичайних користувацьких систем. Вони використовуються для таких ресурсомістких завдань, як транскодування відео, рендеринг, моделювання, обробка медіафайлів, а також для інших потреб, що вимагають значних обчислень. Відносно нещодавно до переліку "важких" завдань додалася робота з великими мовними моделями LLM (Large Language Model) для прикладних локальних застосувань.

Ми провели кілька експрес-тестувань, щоб оцінити роботу системи, оснащеною відеокартою GeForce RTX 5080 16GB. Використовувалась платформа з графічним адаптером ASUS TUF Gaming GeForce RTX 5080 16GB OC та центральним процесором Ryzen 7 9800X3D (8/16; 4,7/5,2 ГГц; 96 МБ L3).

Прискорена версія відеокарти отримала модифіковану частотну формулу графічного процесора – замість рекомендованих 2295/2617 МГц вона має вигляд 2295/2700 МГц. Максимальна обчислювальна продуктивність заявлена на рівні 1858 TOPs.

Чипи пам’яті GDDR7 працюють на 1875 МГц (ефективні 30 000 МГц). За наявності 256-бітової шини, загальна пропускна спроможність пам’яті складає 960 ГБ/c. Це майже як у флагмана NVIDIA минулого покоління – GeForce RTX 4090 24GB (1010 ГБ/c).

ASUS TUF Gaming GeForce RTX 5080 16GB OC має 3,6-слотовий дизайн з трьома вентиляторами та габаритним радіатором, тож вочевидь модель отримала ефективний кулер, що дозволяє підтримувати належний температурний режим навіть за умов максимального навантаження.

Під час експериментів у системі були встановлені драйвери NVIDIA Studio Driver (576.80), що мають високу стабільність та найкраще оптимізовані саме для робочих завдань.

MLPerf Client 0.5

Тест MLPerf Client 0.5 розроблений для оцінки продуктивності систем у роботі з завданнями штучного інтелекту, зокрема великими мовними моделями (LLM, Large Language Model). Дана версія використовує модель Meta Llama 2 7B, оптимізовану для зменшення пам'яті та обчислювальних вимог за допомогою 4-бітової квантизації. Це наближує тести до реальних сценаріїв використання LLM на локальному обладнанні.

Бенчмарк включає чотири основні тести, що імітують поширені сценарії використання LLM: генерація контенту (Content Generation), креативне письмо (Creative Writing), коротке резюмування (Summarization, Light), середнє резюмування (Summarization, Moderate). На всіх етапах генерується ШІ-текст, у відповідь на різні вхідні дані.

За підсумками тестування отримуємо наступні параметри. Time to First Token (TTFT) – час до першого токена. Це критично важлива метрика для інтерактивних ШІ-додатків, яка вимірює затримку між запитом і отриманням першого елемента відповіді. Для чат-ботів і генеративних завдань це забезпечує відчуття "відгуку". Tokens Per Second (TPS) – кількість токенів на секунду. Оцінює середню швидкість генерації токенів після отримання першого токена. Це показник стійкої пропускної здатності системи.

GeForce RTX 5080

Для GeForce RTX 5080 16GB маємо наступні середньогеометричні показники. Час до першого токена (TTFT) – 0,113 c, темп токенів (TPS) – 157,3 токенів/c.

GeForce RTX 4070 Ti SUPER

Для порівняння, система з GeForce RTX 4070 Ti SUPER 16GB пропонує TTFT на рівні 0,166 с, та середній темп у 120,44 токенів/c.

Якщо цікаво оцінити в даній дисципліні можливості топової моделі GeForce RTX 5090, наведемо відповідні результати MLPerf Client 0.5, отримані від NVIDIA. Показники RTX 5080 вже перевірені на практиці, тож значення флагманської відеокарти відверто вражають.

Procyon AI Text Generation

Розвиваючи "текстову" тему, ми також перевірили можливості системи у тесті Procyon AI Text Generation, який фокусується на оцінці продуктивності пристроїв під час виконання завдань генерації тексту за допомогою великих мовних моделей (LLM).

Тут використовується відразу декілька моделей різного розміру та архітектури, що дозволяє отримати більш комплексну та репрезентативну оцінку продуктивності ШІ на широкому спектрі пристроїв та сценаріїв використання LLM.

Microsoft Phi-3.5-mini: легка, ефективна модель, часто використовується для тестування на інтегрованих GPU (iGPU) або менш потужних пристроях.
Mistral 7B: дуже популярна 7-мільярдна модель, відома своєю ефективністю та високою продуктивністю. Тестується як на iGPU, так і на дискретних відеокартах.
Meta Llama 3.1-8B: Одна з останніх версій Llama від Meta, яка пропонує покращену продуктивність. Також використовується на iGPU та дискретних відеокартах.
Meta Llama 2-13B: Більша модель, яка, як правило, вимагає потужнішого обладнання (відеокарт зі збільшеною місткістю пам’яті).

GeForce RTX 5080 вже очікувано отримує дуже хороші результати. Звернемо увагу, на те, що при використанні Meta Llama 2-13B з інференсним рушієм ONNX Runtime процесу потребувалось понад 12 ГБ пам’яті відеокарти. Так, для можливості експериментувати з великими моделями, необхідні потужні графічні адаптери мінімум з 16 ГБ пам’яті.

Procyon AI Image Generation

Останнім часом дуже популярною моделлю використання ШІ-можливостей системи є генерація зображень за текстовим описом. Саме такі можливості платформи дозволяє перевірити тест Procyon AI Image Generaiton.

Бенчмарк використовує стандартизований набір текстових запитів (prompts) для генерації зображень, забезпечуючи послідовне навантаження. Тестування включає кілька етапів, побудованих на різних версіях моделі Stable Diffusion (1.5 та XL), що дозволяє вимірювати продуктивність як на потужних дискретних GPU, так і на менш вимогливих NPU.

Результати тестування платформи з GeForce RTX 5080 представлені на відповідних скриншотах. Серед переваг, що пропонують моделі на GPU з архітектурою Blackwell – підтримка формату FP4. Тож при використанні моделей з такою точністю, швидкість генерації подвоїться, порівняно з FP8.

Blender Benchmark 4.4.0

Бенчмарк переважно зосереджений на рендерингу за допомогою Cycles – фізично точного рендерера Blender. Cycles використовує трасування променів (ray tracing) для створення реалістичного освітлення, тіней та віддзеркалень, що робить його дуже вимогливим до апаратного забезпечення.

За підсумками складових етапів Monster, Junkshop та Classroom система з GeForce RTX 5080 набирає трохи більше 9000 балів.

Blender Benchmark також дозволяє використати центральний процесор для виконання аналогічних завдань. На відповідних скриншотах представлені результати роботи Ryzen 7 9800X3D. Підсумковий загальний показник у 327 балів – наочний приклад того, що у певних ресурсомістких завданнях вибір потужної відеокарти безальтернативний.

V-Ray 6 Benchmark

Для тестування можливостей відеокарти ми також використали V-Ray 6 Benchmark – безкоштовний інструмент від Chaos Group (розробників рендерера V-Ray), що дозволяє об'єктивно оцінити можливості GPU в умовах, наближених до реальної професійної діяльності.

Під час тестування використовується сам рендерер V-Ray, який застосовується для фотореалістичної візуалізації в архітектурі, дизайні, кіно та анімації.

За підсумками тестів, при рендерензі саме на GeForce RTX 5080 система набрала 9200 балів. Для порівняння, модель попередньго покоління – RTX 4080 зазвичай забезпечує на цьому єтапі ~7700 балів, RTX 4070 Ti SUPER – 6600.

Отже, що ж пропонує GeForce RTX 5080 для тих, хто працює з вимогливими завданнями? Завдяки архітектурі Blackwell, вона приносить відчутний приріст у продуктивності ШІ, що особливо важливо для роботи з великими мовними моделями (LLM) та генерацією зображень. Коли справа доходить до 3D-рендерінгу та візуалізації чи обробки відео, RTX 5080 також показує себе потужним інструментом, значно прискорюючи обчислення завдяки вдосконаленим тензорним та RT-ядрам.

При активній підтримці та постійному розвитку екосистеми обчислень на GPU, старші моделі лінійки GeForce RTX 50 дозволяють ефективно виконувати дійсно складні проєкти, забезпечуючи швидкість та стабільність, необхідні для комфортної роботи з сучасними додатками.

Широкий вибір відеокарт NVIDIA GeForce RTX 50 доступний в інтернет-магазині Telemart.ua

Load more