Обзор видеокарты NVIDIA GeForce RTX 4080: шаг вперед и два назад / Видеокарты

Флагманский представитель 40-й серии GeForce — RTX 4090 — занял место в ряду самых впечатляющих релизов NVIDIA наравне с такими легендами, как GeForce GTX 980 Ti и GTX 1080 Ti. Благодаря тому, что создатели архитектуры Ada поставили во главу угла энергоэффективность и вычислительную мощность GPU, RTX 4090 совершил настоящий прорыв в игровой производительности, опередив 90-ю модель прошлого поколения на 62–72 %. В большинстве тайтлов ему даже не требуется масштабирование кадров для того, чтобы получить фреймрейт выше 60 FPS в 4К с рейтрейсингом. А главное, отношение быстродействия к цене тоже двинулось вверх по сравнению со старшими представителями 30-й серии. Тем не менее даже при рекомендованной стоимости $1 599 без учета ажиотажных накруток (в этот раз наверняка кратковременных) GeForce RTX 4090 чрезвычайно дорог. Мы посоветовали не спешить с покупкой, ведь обычно топовые модели не самые выгодные. Но после знакомства с RTX 4080 складывается впечатление, что придется подождать еще немного.

⇡#Технические характеристики, цены

В основе новых потребительских видеокарт NVIDIA лежит кремний Ada Lovelace, который производится силами тайваньской TSMC по техпроцессу 4N. Последний, вопреки названию, является разновидностью 5-нанометрового узла N5, заточенной специально под «зеленые» чипы. Тем не менее переход с нормы 8 нм, которой NVIDIA пользовалась ранее, обеспечил колоссальный рост плотности транзисторов и позволил создать такой графический процессор, как AD102 — его компонентный бюджет составляет ни много ни мало 76,3 млрд транзисторов. Именно на масштабе, а также высоких тактовых частотах зиждется производительность чипов Ada, ведь по сравнению с Ampere архитектура «зеленых» GPU не претерпела больших структурных изменений. Можно подчеркнуть лишь увеличенную пропускную способность блоков рейтрейсинга, тензорных ядер и возможность кодирования видео AV1 силами выделенного ASIC. В остальном Ada является продуктом экстенсивного развития — настолько, что инженеры NVIDIA пренебрегли двумя ожидаемыми функциями: поддержкой PCI Express пятого поколения и выходами DisplayPort 2.0.

Как бы то ни было, если судить по достижениям флагманского GeForce RTX 4090, вклад в чистую производительность GPU окупился сполна. Однако побочным эффектом чрезвычайно высокой вычислительной мощности стало то, что даже передовые десктопные CPU не в состоянии раскрыть потенциал RTX 4090 в любых режимах, кроме игры на 4К-экране (и лучше еще и с трассировкой лучей). Решение проблемы было найдено в алгоритме DLSS версии 3.0, который не только масштабирует кадры, прошедшие полный конвейер рендеринга, но и генерирует промежуточные при помощи оптического потока — специально для этого блок Optical Flow в чипах Ada был усилен, а с GPU прошлого поколения (по крайней мере формально) DLSS 3.0 не совместим.

Ключевые признаки и некоторые другие, не столь заметные нововведения архитектуры Ada Lovelace мы обсуждали подробно в обзоре GeForce RTX 4090. Сегодня же сосредоточимся на характеристиках и производительности второй по старшинству модели серии, GeForce RTX 4080.

Производитель	NVIDIA
Название	AD104	AD103	AD102
Где используется	Н/Д	GeForce RTX 4080	GeForce RTX 4090
Микроархитектура	Ada Lovelace	Ada Lovelace	Ada Lovelace
Техпроцесс, нм	TSMC 4N	TSMC 4N	TSMC 4N
Число транзисторов, млрд	35,8	45,9	76,3
Площадь чипа, мм²	295	378,6	608,6
Число SM/TPC/GPC
Streaming Multiprocessors (SM)	60	80	144
Thread Processing Clusters (TPC)	30	40	72
Graphics Processing Clusters (GPC)	5	7	12
Конфигурация потокового мультипроцессора (SM)
CUDA-ядра FP16	Нет	Нет	Нет
CUDA-ядра FP32	4 × 32	4 × 32	4 × 32
CUDA-ядра FP64	2	2	2
CUDA-ядра INT32	4 × 16	4 × 16	4 × 16
ALU специального назначения (SFU)	4 × 4	4 × 4	4 × 4
Тензорные ядра	4 × 1	4 × 1	4 × 1
RT-ядра	1	1	1
Блоки наложения текстур (TMU)	4	4	4
Объем регистрового файла, Кбайт	256	256	256
Объем кеша L1/разделяемой памяти, Кбайт	128	128	128
Программируемые вычислительные блоки GPU
CUDA-ядра FP16	Нет	Нет	Нет
CUDA-ядра FP32	7 680	10 240	18 432
CUDA-ядра FP64	120	160	288
CUDA-ядра INT32	3 840	5 120	9 216
ALU специального назначения (SFU)	960	1 280	2 304
Тензорные ядра	240	320	576
RT-ядра	60	80	144
Блоки GPU фиксированной функциональности
Блоки наложения текстур (TMU)	240	320	576
Блоки операций растеризации (ROP)	80	112	192
Конфигурация памяти
Объем кеша L2, Мбайт	48	64	96
Разрядность шины RAM, бит	192	256	384
Тип микросхем RAM	GDDR6X SGRAM	GDDR6X SGRAM	GDDR6X SGRAM

Интерфейс NVLINK	Нет	Нет	Нет
Интерфейс PCI Express	4.0 x16	4.0 x16	4.0 x16

В отличие от 30-й серии, вся верхушка которой укомплектована кристаллами GA102, 80-я и 90-е позиции нового поколения опираются на разные графические процессоры: AD102 и AD103 соответственно. Чип второго эшелона содержит всего лишь 62 % компонентного бюджета AD102 — 45,9 млрд транзисторов, что, тем не менее, на 62 % больше, чем у крупнейшего чипа Ampere — GA102. При этом AD103 приближен к формуле основных вычислительных блоков GA102: 80 потоковых мультипроцессора и, соответственно, 10 240 CUDA-ядер стандартной точности, а также 320 блоков наложения текстур и 112 блоков операций растеризации. Значительная часть дополнительных транзисторов ушла на массивный кеш второго уровня, объем которого в AD103 составляет 64 Мбайт. Таким образом создатели Ada уменьшили требования к пропускной способности VRAM — в результате AD103 довольствуется нехарактерно узкой для мощных видеокарт 256-битной шиной памяти.

В GeForce RTX 4080 не используется полностью функциональный кристалл AD103: чип урезали на 4 SM, оставив в распоряжении пользователя 9 728 CUDA-ядер FP32, 304 текстурных блока и 112 ROP. Таким образом, по формуле GPU новинка оказалась в промежутке между GeForce RTX 3080 и RTX 3080 Ti, однако благодаря чрезвычайно высоким тактовым частотам (консервативный параметр Boost Clock составляет 2 505 МГц) по теоретической вычислительной мощности RTX 4080 превосходит не только RTX 3080 (на 64 %), но и даже RTX 3090 Ti (на 34 %).

Локальная память GeForce RTX 4080 набрана микросхемами GDDR6X с номиналом 22,4 Гбит/с (выше, чем 21 Гбит/с у GeForce RTX 4090) но в связи с узкой 256-битной шиной общая пропускная способность VRAM оказалась даже ниже, чем у GeForce RTX 3080, — что и должен компенсировать большой кеш второго уровня. Объем памяти, напротив, составляет достаточные всем современным играм и многим рабочим задачам 16 Гбайт.

Производитель	NVIDIA
Модель	GeForce RTX 3080	GeForce RTX 3080 Ti	GeForce RTX 3090 Ti	GeForce RTX 4080	GeForce RTX 4090
Графический процессор
Название	GA102	GA102	GA102	AD103	AD102
Микроархитектура	Ampere	Ampere	Ampere	Ada Lovelace	Ada Lovelace
Техпроцесс	Samsung 8N	Samsung 8N	Samsung 8N	TSMC 4N	TSMC 4N
Число транзисторов, млрд	28,3	28,3	28,3	45,9	76,3
Тактовая частота, МГц: Base Clock / Boost Clock	1 440/1 710	1 365/1 665	1 395/1 695	2 210/2 505	2 230/2 520
Шейдерные ALU FP32	8 704	10 240	10 752	9 728	16 384
Блоки наложения текстур (TMU)	272	320	336	304	512
Блоки операций растеризации (ROP)	96	112	112	112	176
Тензорные ядра	272	320	336	304	512
RT-ядра	68	80	84	76	128
Оперативная память
Разрядность шины, бит	320	384	384	256	384
Тип микросхем	GDDR6X SGRAM	GDDR6X SGRAM	GDDR6X SGRAM	GDDR6X SGRAM	GDDR6X SGRAM
Тактовая частота, МГц (пропускная способность на контакт, Мбит/с)	1 188 (19 000)	1 188 (19 000)	1 313 (21 000)	1 400 (22 400)	1 313 (21 000)
Объем, Мбайт	10 240	12 288	24 576	16 384	24 576
Объем кеша L2, Мбайт	6	6	6	64	96
Шина ввода/вывода	PCI Express 4.0 x16	PCI Express 4.0 x16	PCI Express 4.0 x16	PCI Express 4.0 x16	PCI Express 4.0 x16
Производительность
Пиковая производительность FP32, GFLOPS (из расчета максимальной указанной частоты)	29 768	34 099	36 449	48 737	82 575
Производительность FP64/FP32	1/64	1/64	1/64	1/64	1/64
Производительность FP16/FP32	1/1	1/1	1/1	1/1	1/1
Пропускная способность оперативной памяти, Гбайт/с	760	912	1 008	717	1 008
Вывод изображения
Интерфейсы вывода изображения	DisplayPort 1.4a, HDMI 2.1	DisplayPort 1.4a, HDMI 2.1	DisplayPort 1.4a, HDMI 2.1	DisplayPort 1.4a, HDMI 2.1	DisplayPort 1.4a, HDMI 2.1
TBP/TDP, Вт	320	350	450	320	450
Розничная цена (США, без налога), $	699 (рекоменд. в момент выхода)	1 199 (рекоменд. в момент выхода)	1 999 (рекоменд. в момент выхода)	1 199 (рекоменд. в момент выхода)	1599 (рекоменд. в момент выхода)
Розничная цена (Россия), руб.	63 490 (рекоменд. в момент выхода)	116 900 (рекоменд. в момент выхода)	Н/Д	Н/Д	Н/Д

80-е модели 30-го и 40-го семейства рассчитаны на одинаковую потребляемую мощность в пределах 320 Вт, при том что GeForce RTX 3090 Ti и GeForce RTX 4090 расходуют вплоть до 450 Вт. Как следствие, GeForce RTX 4080 не только сулит большую абсолютную производительность, чем любая видеокарта прошлого поколения, но и в то же время превосходит их по быстродействию на ватт. А вот преимущество новинки в игровых FPS на доллар стоимости под сомнением, ведь несмотря на то, что RTX 4080 основан на GPU второго эшелона, ему назначили такую же рекомендованную цену, как RTX 3080 Ti, — $1 199, а RTX 3080 и вовсе намеревались продавать за $699. Конечно, большую часть своего жизненного цикла ускорители 30-й серии не были доступны по MSRP из-за повышенного спроса и дефицита полупроводников, но получается, что теперь NVIDIA возвела цену кризисного периода в норму, а для геймерской 80-й модели это более чувствительное изменение, чем для просьюмерского ускорителя RTX 4090.

Что касается российского рынка, то на старте продаж GeForce RTX 4080 отдавали как минимум за 103 999 руб., в то время как стоимость RTX 4090 в данный момент составляет 157 787 руб. и выше.

⇡#Palit GeForce RTX 4080 GameRock OC: конструкция

Рассмотрим GeForce RTX 4080 на примере видеокарты, которая, собственно, и является одной из самых доступных версий новинки в России. Хотя потребляемая мощность предтоповой модели на целых 130 Вт меньше, чем у RTX 4090, на вид Palit GeForce RTX 4080 GameRock OC трудно отличить от старшего устройства под маркой GameRock. Ускоритель также занимает в корпусе ПК четыре слота расширения, насчитывает почти 33 см в длину и 138 в высоту, а весит чуть меньше 2 кг.

Систему охлаждения GameRock OC обслуживают три вентилятора диаметром 90 мм. Всю фронтальную панель кожуха занимает прозрачная накладка с рельефом, имитирующим хрустальную друзу, через которую сияют разноцветные LED. На торце видеокарты подсвечены надписи «GameRock» и «GeForce RTX », а паттерн работы светодиодов настраивается фирменной программой ThunderMaster. Однако Palit предлагает альтернативную модификацию GeForce RTX 4080 с пометкой OmniBlack, у которой все кристаллы черные, а подсветки нет.

Обратная поверхность печатной платы защищена металлической пластиной с отверстиями, через которые радиатор продувается насквозь. При низкой загрузке и температуре GPU видеокарта охлаждается пассивно.

Сам радиатор GeForce RTX 4080 GameRock OC устроен так же, как у RTX 4090 той же серии, с одним отличием: место испарительной камеры занимает никелированная медная площадка. К теплосъемнику примыкает не только кристалл графического процессора, но и микросхемы памяти GDDR6X, хотя чипы емкостью 16 Гбит нагреваются значительно меньше своих предшественников, которые NVIDIA использовала в ускорителях 30-й серии. Отдельные плоские выступы радиатора прижаты к силовым каскадам и дросселям VRM, а тепло по радиатору распределяют восемь термотрубок.

Толстая рамка, заложенная по периметру PCB, обеспечивает всей конструкции жесткость, однако к видеокарте прилагается еще и сборная подпорка. Другая деталь в комплекте поставки — кабель для синхронизации внешней светодиодной подсветки. Как и GeForce RTX 4090, предтоповая модель питается через разъем 12VHPWR. К блокам питания нового образца ее можно подключить напрямую, а старым нужен переходник — в данном случае с трех восьмиконтактных разъемов на один 12VHPWR.

⇡#Palit GeForce RTX 4080 GameRock OC: печатная плата

PCB для GeForce RTX 4080 в исполнении Palit имеет такие же размеры, как плата GeForce RTX 4090 GameRock, и такую же разводку под VRM графического процессора, которая предусматривает вплоть до 24 фаз питания. Однако задействованы лишь 15 фаз, а регулятор напряжения видеопамяти изначально задуман как трехфазный. В обоих VRM используются силовые каскады OnSemi NCP302150 с номинальным током 50 А. В остальном видеокарта довольствуется упрощенной элементной базой: фазы VRM графического процессора подключены параллельно к восьмифазному ШИМ-контроллеру uPI uP9512R, а на входе и выходе фаз установлены конденсаторы сквозного монтажа вместо более дорогих SMD.

Микросхемы памяти GDDR6X производства Micron рассчитаны на пропускную способность 24 Гбит/с, то есть больше положенных GeForce RTX 4080 22,4 Гбит/с, а значит, наверняка поддаются эффективному разгону.

Видеокарта имеет две микросхемы BIOS. «Тихая» прошивка устанавливает тактовые частоты, максимально приближенные к спецификациям NVIDIA — 2 205/2 505 МГц, — и не позволяет увеличить резерв мощности сверх номинальных 340 Вт. «Производительный» BIOS задействует фабричный разгон до 2 205/2 640 МГц, а TBP поддается регулировке в пределах 400 Вт. Тем не менее дальнейшие тесты мы провели с использованием «тихого» BIOS, чтобы продемонстрировать референсную производительность GeForce RTX 4080.