Ось перша ластівка із серії RTX 3000, яку ми зібрали разом з 2080 Ti, щоб з’ясувати, що означають два роки розробки.
Відстеження променя краще
Відстеження радіації було навмисно опущено з попередніх сторінок, оскільки воно заслуговує на трохи більше пояснення того, що змінилося. NVIDIA позначає блоки, відповідальні за процес, як так звані RT-ядра, і одним з них є процесор на мультипроцесор, тобто для мікросхеми 84. GA102. Насправді це складніше, оскільки ці RT-ядра мають контролер, і їх робота може бути інтерпретованим. З цієї причини ми вважаємо важливим описати, що коли ми говоримо про ядро RT, ми фактично обговорюємо частину завдання відстеження променів, а саме дослідження розрізу та обходу.
Але справа не лише в апаратному забезпеченні, Microsoft вносить суттєві зміни з точки зору програмного забезпечення. Коли було представлено перше DirectX Raytracing - ми називаємо його DXR 1.0, оскільки зацікавлені сторони це вже роблять, - воно запропонувало так званий динамічний шейдер на основі трасування. Він знав лише те, що це спрацьовувало, але зовсім не було оптимізовано для роботи. В основному система робила це, вистрілюючи промені, апаратне забезпечення шукало, куди вдарити трикутник, наприклад, якщо взагалі буде потрапляння, і потрапляння (у разі потрапляння) або промах (без удару) шейдер може прийти відповідно. Яку б програму не викликали, вона була прив’язана до відповідної таблиці підключень, і на основі цього система змогла обмінюватися необхідними даними із шейдером потрапляння або пропуску, тобто таким чином прослідковувався шлях променя.
H irde t і
Новий DirectX Raytracing, скорочене від DXR 1.1, вводить так зване вбудоване трасування. Це фундаментальна зміна порівняно з попереднім методом, оскільки електромонтажний стіл буде усунутий і більше не буде окремих динамічних шейдерів. Натомість оригінальний шейдер вже містить контекстну структуру та вказує обладнання розпочати крок сканування. Якщо промінь має звернення, функція повертається, і контекстна структура вже знаходиться в шейдері, який може почати працювати негайно, не потрібно переміщувати будь-які дані або запускати окремий динамічний шейдер.
На програмному рівні це дуже суттєва різниця, і вбудоване трасування променів, наприклад, припускає, що апаратний планувальник здатний слідувати шляху променя. Якщо ні, то потрібно написати якусь емуляцію, яка хоч і в невидимій формі збоку програми, але повертає плату проводки, навіть якщо свіжа конвеєрна лінія її витягла.
NVIDIA не розповідає стільки про апаратну реалізацію цього. Очевидно, що Тьюрінг був розроблений для динамічного відстеження променів на основі шейдерів, оскільки на той час він все ще здавався правильним напрямком, лише з тих пір Microsoft передумав і придумав альтернативне рішення. Немає точних даних про те, наскільки добре Ампер підготовлений до цього, однак, цілком ймовірно, що графік настільки склався, що апаратне забезпечення є оптимальним для вбудованого трасування променів.
В межах стрижнів RT вирощуються компоненти для обрізки та обходу вищезазначеного процесу. Якщо сказати дуже просто, останній допомагає променям, когерентно випромінюваним з камери, повністю пройти до місця події на певну відстань, і завдяки першому буде досліджено, в що вони потрапили.
Ядро Тьюрінга та Ампера RT [+]
У випадку з Ампером NVIDIA внесла дві зміни у відповідні ядра RT. Крім усього іншого, тест перетину трикутників став вдвічі швидшим, що є гарною новиною, оскільки Тюрінг не мав тут чогось комбінованого, і є новий компонент, який може інтерполювати положення цього трикутника як функцію часу. За допомогою останнього ефекти розмиття руху можуть бути апаратно прискореними.
Є ще одне нововведення, але воно не належить тісно до ядер RT. Як описано раніше, цей блок відповідає лише за частину всього процесу, але навіть трасування променів вимагає загальних процесорів (дуже багато), тому є частини завдань, які працюють на обчислювальних блоках мультипроцесорів. У випадку з Тьюрінгом вони відняли вільну обчислювальну здатність від графічної роботи, але в Ampere, завдяки підтримці FP32 для вторинного масиву обробки INT32, який вже детально описаний на першій сторінці, вони не піднімуть процесори за замовчуванням. Ця конкурентна форма виконання може дещо прискорити виконання ефекту відстеження радіуса. Однак ця функція насправді не працює автоматично, додатки повинні бути підготовлені до неї подібно до, наприклад, асинхронних обчислень.
Стаття ще не закінчена, прокрутіть, будь ласка!
- AMD окреслив можливості HSA - PROHARDWARE! Тест відеокарти - версія для друку
- Гравець дев'ятого покоління Acer Predator Triton 500 - ПРОГРАМНЕ ЗАБЕЗПЕЧЕННЯ! Тест із зошита
- Чотири обличчя Lenovo ThinkPad T430 - ПРОГРАМНЕ ЗАБЕЗПЕЧЕННЯ! Тест із зошита
- Чотири обличчя Lenovo ThinkPad T430 - ПРОГРАМНЕ ЗАБЕЗПЕЧЕННЯ! Тест із зошита
- Чотири обличчя Lenovo ThinkPad T430 - ПРОГРАМНЕ ЗАБЕЗПЕЧЕННЯ! Тест із зошита