Год 2013-й принес второе поколение мощных GPU, построенных по отточенному техпроцессу 28 нм, — NVIDIA GK110 и AMD Hawaii (последние, между прочим, невиданного до той поры физического размера), а 2014-й мы встретили в ожидании первых продуктов на базе нового техпроцесса. В итоге конвейер 20 нм действительно заработал на тайваньской TSMC, но только лишь для мобильных систем-на-чипе. Как NVIDIA, так и AMD пока стоят в сторонке, хотя и были слухи, что «красные» по традиции первыми сделают рывок и выпустят 20-нанометровые GPU в конце 2014 года. Эти планы теперь отложены на 2015 год, но — если верить слухам, которые все лучше согласуются друг с другом по мере того, как приближается вероятная дата релиза новых устройств, — ожидание сполна вознаградится.
Но будем последовательными. Вспомним же наиболее яркие события в целом застойного для индустрии графики 2014 года, а затем обобщим все, что мы надеемся увидеть в следующем.
Дебют NVIDIA Maxwell
Для NVIDIA потенциал техпроцесса 28 нм далеко не исчерпан. В рамках архитектуры Kepler удалось выпустить такой крупный процессор, как GK110, состоящий из 7,1 млрд транзисторов, не выйдя за рамки теплового пакета 250 Вт, который является ориентиром для мощных дискретных GPU. Но Maxwell показал, что еще есть пространство для дополнительных оптимизаций.
В чипах Maxwell NVIDIA переработала топологию потокового мультипроцессора (SMM) — унифицированного строительного блока GPU, упростив логику планировщиков нагрузки. В результате удалось существенно сократить площадь SMM, сохранив около 90% исходной производительности. Как итог — практически удвоенный показатель производительности на единицу мощности в сравнении с Kepler, причем не только на бумаге, но и на практике.
Пока существует четыре десктопных видеоадаптера семейства Maxwell — GeForce GTX 750/750 Ti, GeForce GTX 970 и GTX 980. Остальные позиции в модельном ряду NVIDIA занимают продукты на базе Kepler. В целом «зеленая» линейка сейчас довольно сложно структурирована и включает одновременно представителей серий GeForce 600, GeForce 700 и GeForce 900. Путаницу усиливает тот факт, что NVIDIA пропустила серию GeForce 800 для десктопных адаптеров.
Игровые видеокарты начального уровня GeForce GTX 750 и GTX 750 Ti на чипе GM107 стали пробным шаром для Maxwell, который впервые продемонстрировал потрясающую энергоэффективность новой архитектуры. В тестах GTX 750 Ti одержал победу над GeForce GTX 650 Ti и Radeon R7 260X, энергопотребление которых практически вдвое выше.
Гораздо более важно, что NVIDIA удалось перенести преимущества Maxwell на более крупный GPU — GM204. Согласно действующей номенклатуре, это второй по старшинству чип в линейке: он включает 5,2 млрд транзисторов (для сравнения: GK110 — 7,1 млрд). Несмотря на это, GeForce GTX 980 стал эквивалентной заменой GeForce GTX 780 Ti по производительности, притом что по энергопотреблению эта карта сравнима с GeForce GTX 770. Но если посмотреть другой стороны, то на практике GTX 980 не дает практически никакого прироста быстродействия по сравнению с GTX 780 Ti. Единственная реальная польза — это то, что благодаря удешевлению производства цена флагманской платы с одним GPU на момент релиза опустилась до привычной отметки $549.
GeForce GTX 970, в котором у GM204 отключена часть вычислительных блоков, — в практическом плане куда более интересная карта, чем GTX 980. Блоки, конечно, отключены, но в результате GTX 970 мало уступает в реальной производительности своему старшему родственнику и играет на равных с Radeon R9 290X. При этом официальная цена карты — скромные для без пяти минут флагмана $329.
AMD могла ответить на эту атаку только одним способом — сбросить цены на Radeon R9 290/290X до такого же уровня. Выставить равного соперника для GeForce GTX 980 «красные» пока не в состоянии. Тем не менее AMD сохраняет прочную позицию в сфере GP-GPU (неграфических вычислений), поскольку архитектура GCN изначально заточена под такие приложения. NVIDIA, напротив, в последних итерациях своего кремния сократила управляющую логику, которая имеет большое значение для большинства расчетных задач.
GM204 также наделили специфическими функциями рендеринга, которые NVIDIA использует для ускорения VXGI (Voxel Global Illumination) — метода глобального освещения на базе вокселов, работающего в реальном времени. Демонстрации весьма впечатляют, но, как обычно бывает с эксклюзивными технологиями, внедрение VXGI в реальных играх зависит от того, войдут ли необходимые алгоритмы в новый feature level DirectX 12 (об этом мы поговорим ниже).
⇡#Двухчиповые видеоадаптеры на NVIDIA GK110 и AMD Hawaii
Когда одиночные GPU не могут обеспечить прогресс вычислительной мощности, на помощь приходит проверенное решение — двухпроцессорные графические карты. И хотя систему SLI/CrossFire можно было собрать из двух отдельных видеокарт GeForce GTX 780/780 Ti или Radeon R9 290/290X сразу, как только они появились в продаже, двухголовый монстр — это вопрос престижа производителя.
NVIDIA было легче справиться с задачей, ведь GK110 — более холодный чип по сравнению с Hawaii, гордостью AMD. Трехслотовая система охлаждения выглядит пугающе, но благодаря ей GTX TITAN Z может заменить сборку из двух дискретных GTX TITAN Black в одном корпусе. TITAN Z позиционируется как микс игровой и профессиональной видеокарты, что подкрепляют полностью разблокированные блоки FP64 в графических процессорах. Вот только цена обескураживает: ни много ни мало 3 тысячи долларов (на тысячу дороже пары TITAN Black). TITAN Z может быть востребован как ускоритель неграфических вычислений для компактных рабочих станций, но не будем кривить душой: это притянутое за уши оправдание для такой безумной наценки.
Работая над конкурирующим продуктом — R9 295X2 — AMD пошла на радикальные меры: два GPU Hawaii на одной плате ничуть не потеряли в частотах по сравнению с одиночными видеокартами, а стало быть, и тепловыделение достигает 300 Вт на брата. Но вместо того чтобы наращивать габариты воздушного кулера, Radeon R9 295X2 сделали первым графическим адаптером, который оснащается системой жидкостного охлаждения в референсной конфигурации.
С практической точки зрения Radeon R9 295X2, оцененный в $1 500 при близкой к показателям TITAN Z производительности, явно выигрывает у последнего. Правда, купить два R9 295X2 для игр по цене одного TITAN Z — бессмысленное предприятие. Сборки из четырех GPU никогда не были рекомендованы для этой цели, и ПО просто не оптимизировано под такие конфигурации. А вот для компактного вычислительного кластера AMD предложила идеальное железо. Благо «красные» не ограничивают GPU Hawaii по производительности в расчетах FP64 в любых продуктах.
DirectX 12
Выпустив API Mantle, AMD простимулировала развитие DirectX. До этого момента уже складывалось впечатление, что для наиболее универсального API наступил конец истории. Действительно, крупного обновления DirectX не знал с 2009 года. Грядущий релиз DirectX 12 сосредоточен не на расширении функций рендеринга, а на оптимизации runtime-библиотеки API.
AMD показала, что при определенной нагрузке DirectX 11 является бутылочным горлышком, ограничивающим производительность системы. Речь идет о ситуациях, когда экранное пространство наполнено множеством отдельных объектов, пусть и с простой геометрией. В таком случае время центрального процессора расходуется совсем не так эффективно, как при использовании того же Mantle.
Переработанный конвейер рендеринга Direct3D 12 лишен этого недостатка. Кроме того, API в целом стал более низкоуровневым, чем Direct3D 11. Некоторые функции, которые библиотека Direct3D 11 выполняет сама, теперь возложены на графический движок приложения, что, с одной стороны, дает возможность более эффективно распоряжаться ресурсами, а с другой — усложняет задачу разработчика.
Потенциально все GPU, работающие под управлением DirectX 11, совместимы с DirectX 12. Но следует различать собственно runtime-библиотеку API и новый feature level — набор функций рендеринга. Microsoft приняла в стандарт несколько технологий, которые, впрочем, не будут особо заметны на экране. В будущие GPU их будут внедрять на аппаратном уровне.
Cпецификации API уже финализированы в достаточной степени, чтобы разработчики приложений могли заранее приступить к внедрению DX12. Mircosoft пообещала появление первых игр с поддержкой DX12 в конце 2015 года. Будущее Mantle в связи с этой новостью выглядит туманным, хотя игры с его поддержкой продолжают выходить.
AMD внедряет техпроцесс 20 нм и «трехмерную» память
В 2015-м AMD твердо намерена выпустить коммерчески доступные видеокарты, произведенные по техпроцессу 20 нм. Согласно неофициальным источникам, уже в первой половине года ожидается выход нового флагмана «красных» — Radeon R9 390X на чипе Bermuda. Примечательно, что в качестве подрядчика по производству микросхем слухи указывают не TSMC, а компанию GlobalFoundries, которой AMD некогда владела.
Ожидается, что R9 390X, как и положено наследнику, превзойдет Radeon R9 290X, основанный на GPU Hawaii, по числу вычислительных блоков. Данные совершенно спекулятивные (основаны они отчасти на результатах просочившихся в прессу бенчмарков): 4224 потоковых процессора, 264 текстурных блока, 96 ROP. Напомним, что действующий лидер среди GPU AMD — Hawaii — содержит 2816 потоковых процессоров, 176 текстурных блоков, 64 ROP.
В норме для того, чтобы столь крупный GPU, как Bermuda, смог работать на адекватных частотах, без перехода на более тонкий производственный узел не обойтись. Смущает одно. Если судить по очередному «сливу», AMD укомплектует Radeon R9 390X гибридной воздушно-водяной системой охлаждения. Столь массивное тепловыделение — это явно не то, чего следует ожидать от нового прогрессивного техпроцесса, поэтому оптимисты, ждущие в лице R9 390X первый крупный кристалл, выпущенный по норме 20 нм, могут все же проиграть свои ставки.
Кстати, прогрессивный техпроцесс — это еще не все, чем нас поразит будущий флагман AMD. Предположительно в R9 390X будет применяться оперативная память типа HBM (High Bandmidth Memory — то же, что и Stacked DRAM) производства SK hynix. В этой технологии несколько кристаллов памяти соединяются сквозными контактами. За счет экономии площади чипа и упрощения разводки платы ширину шины устройства многократно увеличили. Сборка чипов GDDR 5 общей емкостью 1 Гбайт обладает 1024-битной шиной с пропускной способностью 128 Гбайт/с. Radeon R9 390X располагает четырьмя такими сборками, что дает в совокупности 512-533 Гбайт/с (в зависимости от частоты). Для сравнения: в GeForce GTX 780 Ti этот параметр составляет 336 Гбайт/с, а в GTX 980 — всего 224 Гбайт/с.
Графический процессор под кодовым названием Fiji, некогда считавшийся кандидатом на роль нового флагмана AMD, обрел очертания в виде чипа второго эшелона с 3840 потоковыми процессорами, который ляжет в основу адаптера Radeon R9 380X. Как и флагман, R9 380X также получит высокоскоростную память HBM.
NVIDIA: от 28 к 16 нм
Согласно номенклатуре GPU NVIDIA, чип GM204, лежащий в основе действующего флагмана «зеленых», — это продукт второго эшелона. «Инсайды» и следы в базах бенчмарков говорят, что топовый графический процессор в линейке Maxwell получит кодовое название GM200. По свежей информации, чип несет 3072 ядра CUDA и обладает 384-битной шиной памяти. Тактовая частота GPU составляет 1,1/1,39 ГГц. На плате найдут место 12 Гбайт памяти GDDR 5 с эффективной частотой 6 ГГц. Также засветился облегченный вариант адаптера с 2688 ядрами CUDA.
Ожидается, что GM204 повторит путь GK110, топового GPU семейства Kepler, и сперва увидит свет под маркой GeForce GTX TITAN II. Альтернативный вариант позиционирования — GeForce GTX 980 Ti. В архитектуре Maxwell NVIDIA совершила маленькое чудо, увеличив производительность на единицу мощности практически вдвое по сравнению с архитектурой Kepler. Высказываются ожидания, что ускоритель на базе полностью разблокированного чипа GM200 на 50% превзойдет GeForce GTX TITAN Black по вычислительной способности.
Благодаря достоинствам Maxwell NVIDIA в общем-то не испытывает настоятельной необходимости переходить на техпроцесс 20 нм. Скорее всего, GM200 займет нишу с энергопотреблением в районе 250 Вт, которую покинул GK110.
Если судить по предварительным результатам бенчмарков (принимать которые следует со здоровой долей скептицизма), GM200 в полновесной конфигурации можно рассматривать как соперника AMD Bermuda топовой версии XT. И все же продукт AMD имеет зримое преимущество, которое можно отнести на счет высокопроизводительной памяти.
Если предсказания не разойдутся с реальностью, то это значит, что NVIDIA придется уступить лидерство в сфере дискретной графики вплоть до внедрения технологии FinFet 16 нм в топовых GPU. Такая производственная линия уже действует на TSMC, и в конце 2015 — начале 2016 года NVIDIA может пожать первые плоды. Скорее всего, новый техпроцесс будут испытывать на GPU помельче: на сжатой версии GM204 и чипе третьего эшелона семейства Maxwell — GM206.
NVIDIA Pascal
В отдаленной перспективе маячит архитектура Pascal. Нечто похожее на опытный образец NVIDIA показала на GPU Developers Conference в этом году. Плата размером с две кредитки демонстрирует новый форм-фактор для вычислительных кластеров с шиной NVLINK. По сравнению с PCIe 3.0 NVLINK обеспечит троекратное увеличение энергоэффективности и пропускную способность в 5-12 раз больше. NVIDIA заручилась поддержкой IBM, которая внедрит NVLINK в будущих поколениях процессоров Power. С другими производителями CPU ведутся переговоры. Для десктопных компьютеров Pascal будет выпущен в привычном формате платы расширения PCIe.
GPU Pascal, как и будущие продукты AMD, оснащается трехмерными чипами DRAM и принесет радикальное увеличение производительности на ватт по сравнению с архитектурой Maxwell. Никаких подробностей о финальных устройствах и сроках выхода не сообщают.
Приложение. Актуальные линейки дискретных видеоадаптеров AMD и NVIDIA
Дискретные видеоадаптеры AMD | ||||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
Модель |
Графический процессор |
Видеопамять |
Шина ввода/вывода |
TDP, Вт |
||||||||||
Кодовое название |
Число транзис-торов, млн |
Тех-процесс, нм |
Тактовая частота, МГц: High State / Boost State |
Число потоковых процессоров |
Число текстурных блоков |
Число ROP |
Разряд-ность шины, бит |
Тип микросхем |
Тактовая частота: реальная (эффективная), МГц |
Объем, Мбайт |
||||
Radeon R5 230 |
Caicos |
370 |
40 |
625/– |
160 |
8 |
4 |
64 |
GDDR3 SDRAM |
533 (1066) |
1024/2048 |
PCI Express 2.1 x16 |
19 |
|
Radeon R7 240 |
Oland PRO |
1040 |
28 |
730/780 |
320 |
20 |
8 |
128 |
GDDR3/GDDR5 SDRAM |
900 (1800) / 1125 (4500) |
1024/2048 |
PCI Express 3.0 x16 |
30 |
|
Radeon R7 250 |
Oland XT |
1040 |
28 |
1000/1050 |
320 |
20 |
8 |
128 |
GDDR3/GDDR5 SDRAM |
900 (1800) / 1150 (4600) |
1024/2048 |
PCI Express 3.0 x16 |
75 |
|
Radeon R7 250X |
Cape Verde XT |
1500 |
28 |
1000/- |
640 |
40 |
16 |
128 |
GDDR5 SDRAM |
1125 (4500) |
1024/2048 |
PCI Express 3.0 x16 |
95 |
|
Radeon R7 260 |
Bonaire |
2080 |
28 |
-/1000 |
768 |
48 |
16 |
128 |
GDDR5 SDRAM |
1500 (6000) |
1024/2048 |
PCI Express 3.0 x16 |
95 |
|
Radeon R7 260X |
Bonaire XTX |
2080 |
28 |
-/1100 |
896 |
56 |
16 |
128 |
GDDR5 SDRAM |
1625 (6500) |
1024/2048 |
PCI Express 3.0 x16 |
115 |
|
Radeon R7 265 |
Curacao PRO |
2800 |
28 |
900/925 |
1024 |
64 |
32 |
256 |
GDDR5 SDRAM |
1400 (5600) |
2048 |
PCI Express 3.0 x16 |
150 |
|
Radeon R9 270 |
Curacao PRO |
2800 |
28 |
900/925 |
1280 |
80 |
32 |
256 |
GDDR5 SDRAM |
1400 (5600) |
2048 |
PCI Express 3.0 x16 |
150 |
|
Radeon R9 270X |
Curacao XT |
2800 |
28 |
1000/1050 |
1280 |
80 |
32 |
256 |
GDDR5 SDRAM |
1400 (5600) |
2048 |
PCI Express 3.0 x16 |
180 |
|
Radeon R7 280 |
Tahiti PRO |
4313 |
28 |
827/933 |
1792 |
112 |
32 |
384 |
GDDR5 SDRAM |
1250 (5000) |
3072 |
PCI Express 3.0 x16 |
200 |
|
Radeon R9 280X |
Tahiti XT2 / Tahiti XTL |
4313 |
28 |
850/1000 |
2048 |
128 |
32 |
384 |
GDDR5 SDRAM |
1500 (6000) |
3072 |
PCI Express 3.0 x16 |
250 |
|
Radeon R9 285 |
Tonga PRO |
НД |
28 |
918/- |
1792 |
112 |
32 |
256 |
GDDR5 SDRAM |
1375 (5500) |
2048 |
PCI Express 3.0 x16 |
190 |
|
Radeon R9 290 |
Hawaii PRO |
6020 |
28 |
-/947 |
2560 |
160 |
64 |
512 |
GDDR5 SDRAM |
1250 (5000) |
4096 |
PCI Express 3.0 x16 |
250 |
|
Radeon R9 290X |
Hawaii XT |
6020 |
28 |
-/1000 |
2816 |
176 |
64 |
512 |
GDDR5 SDRAM |
1250 (5000) |
4096 |
PCI Express 3.0 x16 |
250 |
|
Radeon R9 295X2 |
Vesuvius (2 × Hawaii XT) |
2 × 6020 |
28 |
НД/1018 |
2 × 2816 |
2 × 176 |
2 × 64 |
2 × 512 |
GDDR5 SDRAM |
1250 (5000) |
2 × 4096 |
PCI Express 3.0 x16 |
500 |
Дискретные видеоадаптеры NVIDIA | |||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|
Модель |
Графический процессор |
Видеопамять |
Шина ввода/вывода |
TDP, Вт |
|||||||||
Кодовое название |
Число транзисторов, млн |
Тех-процесс, нм |
Тактовая частота, МГц: Base Clock / Boost Clock |
Число ядер CUDA |
Число текстурных блоков |
Число ROP |
Разряд- ность шины, бит |
Тип микросхем |
Тактовая частота: реальная (эффективная), МГц |
Объем, Мбайт |
|||
GeForce GT 610 |
GF119 |
292 |
40 |
810/- |
48 |
8 |
4 |
64 |
GDDR3 SDRAM |
900 (1800) |
1024 |
PCI Express 2.0 x16 |
29 |
GeForce GT 730 (128-bit) |
GF108 |
585 |
40 |
700/- |
96 |
16 |
4 |
128 |
GDDR3 SDRAM |
900 (1800) |
1024 |
PCI-Express 2.0 x16 |
49 |
GeForce GT 720 |
GK208 |
1300 |
28 |
797/- |
192 |
16 |
8 |
64 |
GDDR3 / GDDR5 SDRAM |
900 (1800) / 1250 (5000) |
1024/2048 |
PCI-Express 2.0 x16 |
19 |
GeForce GT 730 (64-bit) |
GK208 |
1300 |
28 |
902/- |
384 |
16 |
8 |
64 |
GDDR3 / GDDR5 SDRAM |
900 (1800) / 1250 (5000) |
1024/2048 |
PCI-Express 2.0 x16 |
23/25 |
GeForce GT 740 |
GK107 |
1300 |
28 |
902/- |
384 |
32 |
16 |
128 |
GDDR3 / GDDR5 SDRAM |
900 (1800) / 1250 (5000) |
1024/2048 |
PCI-Express 3.0 x16 |
65 |
GeForce GTX 750 |
GM107 |
1870 |
28 |
1020/1085 |
512 |
32 |
16 |
128 |
GDDR5 SDRAM |
1250 (5000) |
1024 |
PCI-Express 3.0 x16 |
55 |
GeForce GTX 750 Ti |
GM107 |
1870 |
28 |
1020/1085 |
640 |
40 |
16 |
128 |
GDDR5 SDRAM |
1350 (5000) |
2048 |
PCI-Express 3.0 x16 |
60 |
GeForce GTX 660 |
GK106 |
2 540 |
28 |
980/1033 |
960 |
80 |
24 |
192 |
GDDR5 SDRAM |
1502 (6008) |
2048 |
PCI-Express 3.0 x16 |
140 |
GeForce GTX 760 |
GK104 |
3 540 |
28 |
980/1033 |
1152 |
96 |
32 |
256 |
GDDR5 SDRAM |
1502 (6008) |
2048 |
PCI-Express 3.0 x16 |
170 |
GeForce GTX 670 |
GK104 |
3 540 |
28 |
915/980 |
1344 |
112 |
32 |
256 |
GDDR5 SDRAM |
1502 (6008) |
2048 |
PCI-Express 3.0 x16 |
170 |
GeForce GTX 970 |
GM204 |
5 200 |
28 |
1050/1178 |
1664 |
104 |
64 |
256 |
GDDR5 SDRAM |
1750 (7000) |
4096 |
PCI-Express 3.0 x16 |
145 |
GeForce GTX 980 |
GM204 |
5 200 |
28 |
1126/1216 |
2048 |
128 |
64 |
256 |
GDDR5 SDRAM |
1750 (7000) |
4096 |
PCI-Express 3.0 x16 |
165 |
GeForce GTX TITAN Black |
GK110 |
7 100 |
28 |
889/980 |
2880 |
240 |
48 |
384 |
GDDR5 SDRAM |
1750 (7000) |
6144 |
PCI-Express 3.0 x16 |
250 |
GeForce GTX TITAN Z |
GK110 |
7 100 |
28 |
705/876 |
2880 |
240 |
48 |
2 × 384 |
GDDR5 SDRAM |
1750 (7000) |
2 × 6144 |
PCI-Express 3.0 x16 |
375 |