реклама
Процессоры и память

AMD Trinity для десктопа. Часть 2. Платформа и процессор

⇣ Содержание

В прошлом обзоре Trinity мы подробно знакомились с архитектурой графического ядра Devastator и пришли к выводу, что произошедшая смена его архитектуры на VLIW4 – положительный шаг. Теперь настало время поговорить про вычислительные ядра. По сравнению с Llano изменения в них тоже крупномасштабные. Вместо x86-ядер Husky с микроархитектурой Stars теперь используются модули с микроархитектурой Piledriver – очередная итерация в развитии Bulldozer. Как известно, при внедрении Bulldozer процессорная команда AMD сменила приоритеты. Эта микроархитектура по сравнению со Stars уменьшила количество исполняемых за такт инструкций, но зато позволила развивать более высокие тактовые частоты. Однако достигнутым эффектом остались довольны далеко не все, поэтому спустя три квартала с момента появления на рынке первых версий Bulldozer, AMD подготовила обновление микроархитектуры – своеобразную работу над ошибками – Piledriver.

В процессорах Trinity как раз и используются ядра с дизайном Piledriver, и это – первое появление данной микроархитектуры на публике. AMD считает, что сделанных усовершенствований вполне достаточно для того, чтобы Trinity работали заметно быстрее процессоров Llano. Означает ли это, что новая версия вычислительных ядер позволит продукции AMD полноценно конкурировать с интеловскими предложениями? Актуальность этого вопроса связана в первую очередь с тем, что буквально через три-четыре недели будут представлены свежие процессоры серии FX, использующие аналогичные ядра Piledriver. И если про Trinity ещё можно говорить, что их производительность в традиционных задачах «вполне достаточна», скрывая реальный уровень x86-быстродействия за высокой скоростью графического ядра, то с процессорами FX этот фокус не пройдёт. Поэтому начать знакомство с Piledriver мы решили с выяснения превосходства этой версии микроархитектуры над «классическим» Bulldozer.

Впрочем, не стоит возлагать на Piledriver какие-то особенные ожидания. Структурно эта микроархитектура полностью повторяет Bulldozer, то есть основывается на использовании условно-двухъядерных модулей, в которых имеется по два набора целочисленных исполнительных устройств, но часть ресурсов представлена лишь в единственном на два ядра экземпляре. К числу таких разделяемых компонентов относится кеш-память, блок выборки инструкций, их декодер и блок операций с плавающей точкой. В результате, модуль может обрабатывать два потока одновременно, но его пиковая производительность ограничена пропускной способностью объединённого декодера, способного декодировать не более четырёх инструкций за такт на два ядра. Для сравнения: в интеловских процессорах семейства Core декодер имеет сравнимый темп работы, но там он для каждого ядра индивидуален. Это значит, что число обрабатываемых за такт инструкций в Piledriver серьёзно увеличиться не могло. Качественные изменения произойдут только в следующем поколении микроархитектуры, Steamroller: предполагается, что в будущем AMD снабдит собственным декодером инструкций каждое из двух ядер в модуле. Пока же все улучшения Piledriver основываются на оптимизациях в алгоритме работы отдельных внутренних блоков, но не затрагивают дизайн в целом.

AMD к основным усовершенствованиям, выполненным в Piledriver, относит:

  • Улучшение точности предсказания переходов за счёт внедрения гибридного двухуровневого предсказателя;
  • Расширение набора инструкций трёхоперандными 128- и 256-битными инструкциями FMA3 (fused multiply–add) и инструкциями из подмножества SSE5 – преобразованием вещественных данных с половинной точностью F16C;
  • Оптимизацию работы планировщиков;
  • Ускорение выполнения операций деления за счет переделки соответствующего исполнительного устройства;
  • Увеличение L1 TLB;
  • Улучшение алгоритмов предварительной выборки данных в L1- и L2-кеши, позволяющих работать с паттернами переменной длины, в том числе и находящимися на границах страниц;
  • Увеличение эффективности L2-кеша за счёт более агрессивного его освобождения от неиспользуемых данных, ошибочно загруженных вследствие работы алгоритмов предварительной выборки.

Темп декодирования инструкций все перечисленные нововведения нарастить не в состоянии, но, тем не менее, определённое ускорение они обеспечить могут. Для того чтобы представить себе, насколько микроархитектура Piledriver эффективнее своей предшественницы, мы провели небольшое сравнение на практических бенчмарках. В нём один на один сошлись четырёхъядерный процессор A10-5800K с микроархитектурой Piledriver и четырёхъядерный процессор FX-4170 с микроархитектурой Bulldozer. Для наглядности сравнения оба процессора были настроены на работу при фиксированной частоте 4,0 ГГц, а технология Turbo Core была выключена. Заметим, что в отличие от A10-5800K, имеющего двухуровневую кеш-память, FX-4170 снабжён 8-мегабайтным L3-кешем, который никак нельзя деактивировать. Поэтому просто будем иметь в виду, что носитель микроархитектуры Bulldozer выступал с небольшим гандикапом. В обеих сравниваемых системах была установлена память DDR3-1867 с таймингами 9-11-9-27-1T и видеокарта NVIDIA GeForce GTX 680.

В первую очередь взглянем на скорость работы подсистемы памяти, измеренную тестом Cache & Memory Benchmark из пакета Aida64.

Bulldozer

Trinity

У процессора A10-5800K, как видим, дела со скоростью работы с данными обстоят не самым лучшим образом. Bulldozer обеспечивает более высокие практические пропускные способности и более низкие латентности. Но дело тут, конечно, не в каких-то недостатках микроархитектуры Piledriver. Просто мы сравниваем процессоры, работающие в разных платформах. Особенность же Trinity в том, что их дизайн оптимизирован в первую очередь под совместное использование памяти графическим и вычислительными ядрами. Более сложные алгоритмы работы контроллера DDR3 SDRAM, учитывающие необходимость дополнительного арбитража запросов, вносят определённые задержки, и как раз из-за этого Trinity и уступает Bulldozer. К сожалению, даже в том случае, когда в Socket FM2-системе установлена дискретная графическая карта, а встроенное в APU графическое ядро не используется, скорость работы x86-ядер Trinity с системной памятью остаётся на том же недостаточно высоком уровне.

Давайте посмотрим теперь, как обстоит дело с вычислительной производительностью.

Piledriver
4 ядра, 4,0 ГГц

Bulldozer
4 ядра, 4,0 ГГц

Преимущество Piledriver

PCMark 7

4309

4147

+3,9%

PCMark 7, Computation

3462

3228

+7,2%

3DMark 11, Physics

4176

4105

+1,7%

Fritz Chess Benchmark

7009

7064

-0,8%

TrueCrypt 7.1, AES-Twofish-Serpent, MB/s

127

122

+4,1%

7-zip 9.20 Benchmark, MIPS

11533

11660

-1,1%

WinRAR 4.2 Benchmark, KB/s

4148

4594

-9,7%

x264 FHD Benchmark 1.0.1, fps

11,47

10,91

+5,1%

SVPmark 3.0.2, Real-life/FHD

1019

989

+3,0%

Cinebench R11.5, CPU

3,35

3,31

+1,2%

FRYbench

653,12

664,72

-1,7%

Crysis 2, 1280x800 DX11 UHQ

75,1

73,5

+2,2%

Far Cry 2, 1280x800 UHQ

95,74

91,86

+4,2%

Metro 2033, 1280x800 DX11 UHQ

58,4

58,6

-0,3%

F1 2012, 1280x800 UHQ

67,4

64,6

+4,3%

Borderlands 2, 1280x800 UHD

63,1

67,2

-6,1%

Как можно судить по результатам, микроархитектура Piledriver с практической точки зрения превосходит Bulldozer незначительно. Максимальный наблюдаемый прирост скорости достигает лишь 7 процентов, а в среднем превосходство нового дизайна выражается примерно в полуторапроцентном преимуществе в бенчмарках. Впрочем, из внимания не следует упускать отсутствие в протестированном нами варианте Piledriver кеш-памяти третьего уровня, а также его более медленный контроллер памяти. Именно из-за этого в некоторых тестах, интенсивно работающих с большими объёмами данных, наблюдается не увеличение, а падение производительности. Однако мы не склонны полагать, что с появлением процессоров с новой микроархитектурой в Socket AM3+ исполнении ситуация серьёзно изменится. Заметному увеличению числа обрабатываемых за такт инструкций взяться попросту неоткуда, так что 5-10 процентов прироста в удельной производительности – это, пожалуй, тот максимум, на который могут рассчитывать поклонники продукции AMD и при предстоящем появлении на рынке процессоров с кодовым именем Vishera.

Следующая страница → ← Предыдущая страница
⇣ Содержание
Если Вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Вечерний 3DNews
Каждый будний вечер мы рассылаем сводку новостей без белиберды и рекламы. Две минуты на чтение — и вы в курсе главных событий.
window-new
Soft
Hard
Тренды 🔥
Скрытые возможности Microsoft Bing Wallpaper напугали пользователей 5 мин.
«Дальше будет больше»: сотрудник Rockstar заинтриговал фанатов «абсолютно крышесносными вещами» в GTA VI 11 мин.
WhatsApp научился расшифровывать голосовые сообщения в текст — русский язык поддерживается 54 мин.
Новая игра создателей The Invincible отправит в сердце ада выживать и спасать жизни — первый трейлер и подробности Dante’s Ring 2 ч.
Центр ФСБ по компьютерным инцидентам разорвал договор с Positive Technologies 4 ч.
Android упростит смену смартфона — авторизовываться в приложениях вручную больше не придётся 4 ч.
OpenAI обдумывает создание собственного интернет-браузера и поисковых систем для противостояния Google 4 ч.
Apple разрабатывает LLM Siri — она будет больше похожа на человека и выйдет с iOS 19 5 ч.
Новая статья: Верные спутники: 20+ полезных Telegram-ботов для путешественников 11 ч.
Итоги Golden Joystick Awards 2024 — Final Fantasy VII Rebirth и Helldivers 2 забрали больше всех наград, а Black Myth: Wukong стала игрой года 12 ч.
Одна из структур Минпромторга закупит ИИ-серверы на 665 млн рублей 6 мин.
Kioxia подала заявку на IPO — третьего крупнейшего производителя флеш-памяти оценили всего в $4,85 млрд 43 мин.
«Джеймс Уэбб» первым в истории нашёл «зигзаг Эйнштейна» — уникальное искривление пространства-времени 45 мин.
Второй электромобиль Xiaomi выйдет через год после первого и будет заметно от него отличаться 2 ч.
Oracle объявила о доступности облачного ИИ-суперкомпьютера на базе NVIDIA H200 2 ч.
Positive Technologies получила сертификат ФСТЭК на межсетевой экран PT NGFW 4 ч.
Google снова уходит с рынка планшетов, сворачивая разработку Pixel Tablet 2 4 ч.
Представлен внешний SSD SanDisk Extreme на 8 Тбайт за $800 и скоростной SanDisk Extreme PRO с USB4 12 ч.
Представлен безбуферный SSD WD_Black SN7100 со скоростью до 7250 Мбайт/с и внешний SSD WD_Black C50 для Xbox 12 ч.
Новая статья: Обзор ноутбука ASUS Zenbook S 16 (UM5606W): Ryzen AI в естественной среде 12 ч.