За последние годы на рынке серверов и суперкомпьютеров произошли серьезные изменения, и главное из них — появление гетерогенных вычислений и микросерверов.
Когда смотришь на рейтинг суперкомпьютеров TOP500, становится ясно, что с каждым годом не только растет количество гетерогенных суперкомпьютеров, но и «классические» суперкомпьютеры на базе ЦП опускаются всё ниже и ниже, сдавая позиции гетерогенным кластерам. То есть современному рынку суперкомпьютеров требуются не унифицированные мощные процессоры, а узкоспециализированные, которые позволяют поднять и производительность, и энергоэффективность вычислительного комплекса на новый уровень — например, не так давно система на базе процессоров Xeon Е5 и сопроцессоров Xeon Phi показала рекордный уровень энергоэффективности в TOP500.
Игнорировать данные тенденции нельзя, если хочешь остаться на рынке, — компания AMD, купив производителя графических карт ATI в далеком 2006 году, решила проблему с сопроцессорами, выпустив профессиональные устройства для GPGPU-вычислений. Компания Intel, не имея под своим крылом разработчика графических ускорителей, пошла своим путем — начала с нуля разработку амбициозного проекта Larrabee, который впоследствии трансформировался в Intel MIC и высокопроизводительные сопроцессоры Xeon Phi. Де-факто Intel сумела ответить на потребности рынка суперкомпьютеров и, очевидно, весьма успешно — согласно ноябрьскому рейтингу TOP500 2013 года, самый производительный суперкомпьютер основан на процессорах Xeon E5 и сопроцессорах Xeon Phi.
Рынок микросерверов также нуждался в специализированном устройстве, как и рынок суперкомпьютеров. Поскольку необходимы были процессоры с небольшим энергопотреблением и высокой энергоэффективностью, классические мощные и сложные х86-ядра как у Xeon E3/E5/E7 и Itanium явно не подходили. Компания AMD пошла по пути наименьшего сопротивления — купила лицензию на ARM-архитектуру, которая отличается своей «простотой» и высокой энергоэффективностью. Решение Intel было понятно сразу — если уж на рынке мобильных телефонов, планшетов, суперкомпьютеров она не отказалась от х86-архитектуры, то что уж говорить про микросерверы? Поскольку реагировать на запросы рынка надо оперативно, то не было и речи о разработке архитектуры с нуля — в качестве отправной точки был взят «вездесущий» Atom. Адаптировав под серверные нужды в 2012 году микроархитектуру Saltwell, Intel получила серию процессоров S1200 с кодовым именем Centerton. Это были двухъядерные процессоры, произведенные по 32-нм техпроцессу. Ввиду невысокой производительности, необходимости в дополнительной обвязке (контроллеры Ethernet, SATA, USB) и ограничения максимального объема ОЗУ отметкой в 8 Гбайт данная серия не получила особого распространения. Это решение было пробой пера на рынке микросерверов, так что ему был отмерен краткий срок.
В 2013 году, сделав работу над ошибками, Intel выпускает в свет новую линейку процессоров Atom С2000 — теперь в состав чипа входят не только восемь процессорных ядер с переработанной архитектурой и ИКП, но и контроллеры SATA, USB, Ethernet и PCI Express, то есть речь идет о полноценной SoC.
Несмотря на то, что Intel значительно переработала ядро «Атома», от предшественника осталась несимметричная компоновка кешей первого уровня: кеш инструкций объемом 32 Кбайт, кеш данных — 24 Кбайт. Что весьма странно.
Само процессорное ядро Atom С2000 имеет архитектуру Silvermont, которую мы не так давно рассматривали. Поэтому нет смысла делать это еще раз, а вот строение SoC ввиду кардинальных изменений стоит детально разобрать.
В состав SoC Bay Trail входит до четырех процессорных ядер, графическое ядро Intel HD с четырьмя EU, контроллеры USB 3.0 и 2.0, SATA 2.0, PCI Express 2.0 с четырьмя линиями и двухканальный контроллер памяти с поддержкой DDR3-1333. В микросервере как таковой необходимости в графическом ядре нет, поэтому первое, что было исключено из SoC, — это графика Intel HD. Хотя здесь стоит сделать поправку — графическое ядро в целом серверу необходимо, но от него требуются другие функции, например, IPMI — для этого используются специализированные устройства вроде Aspeed AST2400. Теоретически можно было оставить Intel HD, «прикрутив» к нему все необходимые функции, в том числе и IPMI, — это позволило бы не только снизить количество дополнительного оборудования (а значит, и упростить разводку материнской платы), но и иметь поддержку OpenCL «на всякий случай» для гетерогенных вычислений «завтрашнего дня». Безусловно, это бы несколько увеличило площадь SoC, а следовательно, и транзисторный бюджет, который, как правило, ограничен на моменте проектирования процессора, но вариант все равно интересный — конкурент в лице AMD двигается именно в этом направлении. Однако это все теории. Итого в состав SoC Atom C2000 входит:
Следует остановиться на самой серии процессоров С2000, ведь в ней формально присутствуют два типа SoC — Rangeley и Avoton. По сути, это одни и те же чипы с одинаковой архитектурой, разница между которыми заключается в том, что процессоры Rangeley имеют поддержку технологии Intel QuickAssist, а Avoton — нет. Для различения процессоров в рамках серии компания Intel использует разный числовой индекс в конце названия: цифра 8 означает принадлежность SoC к Rangeley, а 0 — к Avoton.
У Rangeley и Avoton разные сегменты рынка: первые предназначены для облачных хранилищ и устройств коммутации, а вторые — для микросерверов. Стоит заметить, что Rangeley за счет Intel QuickAssist имеет рекомендованную стоимость на 37 долларов больше, чем Avoton (на примере С2758 и С2750). Безусловно, процессоры Rangeley можно также использовать в микросерверах, переплатив за криптографический сопроцессор.
Модельный ряд серии С2000 на данный момент времени содержит восемь процессоров Rangeley и пять процессоров Avoton. Количество ядер в линейке варьируется от двух до восьми, а TDP — от 6 до 20 ватт.
⇡#Спецификации процессора Atom C2758
Тестирование производительности Rangeley будем выполнять на примере материнской платы SuperMicro A1SRM-2758F. Стоит заметить, что плата имеет «сестру-близняшку», на которой распаян SoC Avoton, — SuperMicro A1SAM.
Atom C2758 | Atom C2750 | |
---|---|---|
Кодовое название | Rangeley | Avoton |
Техпроцесс, нм | 22 | |
Количество ядер/потоков, шт | 8/8 | |
Тактовая частота, ГГц | 2,4 | |
Максимальная тактовая частота с Turbo Boost | - | 2,6 |
Кеш-память L1i/L1d, Кбайт | 8х 32/8х 24 | |
Кеш L2, Мбайт | 4х 1 | |
Набор инструкций | Intel 64, MMX, SSE, SSE2, SSE3, SSSE3, SSE 4.1, SSE4.2, VT-x, AES-NI, EPT | |
Поддержка Intel QuickAssist | Есть | Нет |
Максимальный объем ОЗУ, Гбайт | 64 | |
Тип поддерживаемой памяти | DDR3, DDR3L | |
Максимальная эффективная частота ОЗУ, МГц | 1600 | |
Количество каналов памяти | 2 | |
Поддержка ECC | Есть | |
Количество линий PCI Express | 16 | |
Редакция PCI Express | 2.0 | |
Количество портов USB 2.0 | 4 | |
Количество портов SATA 2.0/3.0 | 4/2 | |
Интегрированный сетевой контроллер | 4 х 1000 Мбит/с или 4 х 2,5 Гбит/с |
|
TDP, Вт | 20 | |
Рекомендованная стоимость, $ | 208 | 171 |
Из таблицы спецификаций видно, что Avoton (Atom C2750) имеет поддержку Turbo Boost и несколько меньшую стоимость, в свою очередь Rangeley (Atom C2758) поддерживает технологию Intel QuickAssist. В остальном же перед нами одинаковые чипы.
Если говорить о поддерживаемых наборах инструкций, то Atom C2000 выглядит вполне современно: Intel 64, MMX, SSE, SSE2, SSE3, SSSE3, SSE 4.1, SSE4.2, VT-x, EPT, AES-NI. Для полного счастья не хватает только AVX, AVX2 и FMA3, но поддержка данного набора инструкций вылилась бы в кардинальное изменение и усложнение ядра и кешей в силу 256-битной разрядности. Возможно, в следующих поколениях Atom получит поддержку 256-битных расширений — ведь будущее поколение Xeon Phi, базирующееся на схожем с Avoton ядре, имеет поддержку 512-битных AVX-инструкций. Отдельно стоит сказать, что, как и в Haswell, в Rangeley предусмотрен аппаратный цифровой генератор случайных чисел DRNG, обеспечивающий высокую скорость генерации случайных чисел — например для криптографических задач (с помощью инструкции RDRAND). Также присутствует поддержка набора инструкций виртуализации Intel VT-x2, в состав которого входят: Intel VT FlexMigration, Intel VT FlexPriority, VPID, VT Real Mode, VMFUNC.
⇡#Спецификации материнской платы SuperMicro A1SRM-2758F
Процессор | Atom C2758 |
---|---|
Оперативная память | Четыре 240-контаных слота для DDR3 SDRAM DIMM Поддерживается память типа DDR3 1333/1600 Возможен двухканальный доступ к памяти Максимальный объем 64 Гбайт Поддержка коррекции ошибок ECC |
Возможности расширения | 2 x SATA 2.0 4 x SATA 3.0 3 x USB 2.0 1 x Fast UART 16550 Serial Port 1 x SATA DOM TPM 1.2 Header |
Интерфейсная панель | 1 x COM 4 x USB 2.0 1 x IPMI LAN 4 x LAN 1 x D-Sub 1 x UID Switch |
BIOS | 128 Мбайт SPI Flash EEPROM with AMI UEFI BIOS DMI2.3 ACPI5.0 USB Keyboard Support SMBIOS 2.7.1 UEFI |
Разное | 3 х 4-pin коннектора для подключения вентиляторов |
Питание | Основной 24-контактный разъем питания ATX |
Мониторинг | Мониторинг напряжений ядер процессора, +1,8V, +3,3V, +5V, +12V, +5V Standby, VBAT, ОЗУ Мониторинг тахометров вентиляторов Мониторинг температур ядер процессора |
Форм-фактор и размер | uATX, 24,4x19,05 см |
Перед осмотром материнской платы ознакомимся со схемой коммутации интерфейсов на ней.
А также со схемой расположения слотов и разъемов.
Поставляется материнская плата в лаконичной и невзрачной упаковке — стоит заметить, что материнские платы для Xeon имеют аналогичный дизайн. Конечно, не стоит забывать, что это серверное решение, а не геймерское, тем не менее «фирменный» стиль, на наш взгляд, стоит переработать — хотя бы сделать лицевую сторону более информативной.
Комплектация материнской платы в целом обычна: шесть кабелей SATA, крепежно-усилительная пластина, краткий информационный листок и «чек-лист». Необходимы драйверы и мануал? Добро пожаловать в Сеть. Кстати, это даже к лучшему — пользователь всегда получает свежие драйверы с сайта производителя, а не «50-летней давности», записанные на диске.
Материнская плата имеет форм-фактор MicroATX и, соответственно, размеры 24,4х19,05 см. Безусловно, такой форм-фактор позволяет получить плотную компоновку в стойке, но небольшие габариты выливаются в огрехи дизайна — например, защелки двух из четырех слотов для ОЗУ труднодоступны, так как им мешает интерфейсная панель. Плата питается от 24-контактного разъема ATX, но если не использовать слоты PCI Express, то подойдет и 20-контактный. Также на плате можно заметить нераспаянный слот PCI Express x4, который устанавливается опционально.
Примечательной особенностью SuperMicro A1SRM является распаянный прямо на плате порт USB 2.0, рядом с которым расположились порты SATA: два белых SATA 3.0 и четыре SATA 2.0 — три черных и желтый.
В качестве графического адаптера выступает ASPEED AST2400, поэтому о 3D стоит забыть, но в нем, в принципе, и необходимости нет, особенно в случае NAS.
Как мы помним, в SoC интегрирован контроллер Intel I347 с поддержкой четырех сетевых интерфейсов со скоростью 1000/2500 Мбит/с, а в качестве приемопередатчика выступает распаянная на плате микросхема Marvell Alaska 88E1543.
SuperDoctor 5
Программное обеспечение SuperDoctor 5 предоставляет удаленно всю необходимую информацию о компьютере: температуры и вольтаж различных компонентов, скорости вентиляторов, а также потребление электроэнергии. Все данные записываются в лог-файл, также предусмотрены оповещения по e-mail.
WatchDog
Технология WatchDog автоматически совершает перезагрузку сервера при его зависании, не требуя постороннего вмешательства.
IPMI
Технология IPMI (Intelligent Platform Management Interface) предоставляет интерфейс удаленного мониторинга и управления компьютером и позволяет включать/выключать/перезагружать сервер. А для повсеместного контроля сервера существует Android-приложение IPMIView, позволяющее им управлять с мобильного телефона или планшета.
Intel QuickAssist
Сопроцессор Intel QuickAssist имеет аппаратное ускорение криптографии и сжатия данных и поддерживает:
Аппаратное ускорение не только позволяет значительно поднять производительность в ряде задач, но и разгрузить центральный процессор, высвободив вычислительные ресурсы, — так, например, сопроцессор QAT может обрабатывать шифры со скоростью до 10 Гбайт/с. Для работы Intel QuickAssist требуется набор библиотек Intel DPDK.
Несмотря на то, что материнская плата оснащается UEFI BIOS, графическая оболочка осталась от старого, доброго, всем привычного AMI BIOS. Естественно, ни о какой поддержке мышки и красивом интерфейсе, как в десктопных материнских платах, речи быть не может — ностальгия по былым временам?
В целом BIOS вполне стандартен в плане функциональности и не содержит ничего особенного.
Прежде чем приступить к тестированию Atom C2758, необходимо определиться с вопросом — с чем же конкурирует 8-ядерный Atom C2758. Безусловно, решения на базе процессоров Xeon E5-2600 о восьми ядрах стоят значительно дороже, да и мощность их несравнимо выше, поэтому стоит смотреть в сторону 4-ядерных Xeon E3-1200. Стоимость платформы на базе Rangeley относительно невысокая, так что единственным возможным конкурентом может быть только Xeon E3-1225 v3 — самый дешевый процессор с интегрированной графикой в серии.
К сожалению, в нашем распоряжении имеется только Xeon E3-1245 v3, который значительно дороже «атомной» платформы. Но выход есть — отключение НТ и ТВ поставит процессор в один ряд с Xeon E3-1225 v3, базовая частота которого составляет 3,2 ГГц, а в турборежиме доходит до 3,6 ГГц. Эффективная же частота Xeon E3-1245 v3 с отключенной ТВ составляет 3,4 ГГц, что, в принципе, равняется средней частоте Xeon E3-1225 v3 при многопоточной нагрузке с активным ТВ. Поскольку материнская плата SuperMicro A1SRM-2758F оснащается четырьмя сетевыми картами, общая стоимость платформы Xeon E3-1225v3 с подобной материнской платой будет несколько выше: Xeon E3-1225v3 с материнской платой с четырьмя сетевыми контроллерами обойдется в 17 000-20 000 рублей, в то время как материнская плата с процессором Rangeley стоит 15 000-17 000, а Avoton — и вовсе 13 000-15 000. Нужно также учесть и дополнительные расходы — например, необходимость использования более мощного и дорогого блока питания на платформе Xeon.
Сравнивая Atom и Xeon, следует также помнить, что TDP Atom C2758 составляет 20 ватт, а Xeon — 84 ватта. Стоит заметить, что TDP 8-ядерного Rangeley распространяется на весь чип, в который интегрированы контроллеры не только памяти и PCI Express, но и SATA, Ethernet и USB, а также криптографический сопроцессор аппаратного ускорения шифрования и дешифрования Intel QuickAssist. У Xeon TDP распространяется только на процессор, а ведь есть еще PCH, который добавляет в общую копилку дополнительные ватты. Как видите, Atom C2758 имеет минимум в четыре раза меньшее TDP, то есть с точки зрения энергоэффективности (производительность/ватт) он может иметь в четыре раза меньшую производительность, чем Xeon, — тогда они будут находиться на одном уровне. Уже сейчас, не приступая к тестированию, можно сказать, что Rangeley выгоднее там, где вопросы энергоэффективности стоят на первом месте.
В целом было бы интересно сравнить архитектуру Rangeley с Haswell на равных частотах, но поскольку на серверной платформе нельзя заниматься оверклоком или даунклоком, то сравнить эффективность архитектур можно лишь методом экстраполяции Xeon до 2,4 ГГц. Экстраполировать правильнее Xeon, а не Atom, потому что вниз процессоры достаточно точно экстраполируются, а вверх — не всегда, так как с ростом частоты, а следовательно, вычислительной мощности у процессора появляются узкие места, сдерживающие пропорциональный линейный равномерный рост производительности.
7zip 7.20 х64: Тестирование скорости сжатия и распаковки проводилось встроенным бенчмарком с размером словаря 32 Мбайт. В многопоточном тесте количество потоков равнялось количеству логических ядер.
winRAR 5.01: Тестирование проводилось встроенным бенчмарком.
Cinebench R15: В многопоточном тесте количество потоков равнялось количеству логических ядер.
Crystal Mark 2004 R3: В Crystal Mark 2004 R3 тестирование проводилось по трем субтестам — ALU, FPU, MEM.
Fritz 4.2: В многопоточном тесте количество потоков равнялось количеству логических ядер.
wPrime 2.10: В многопоточном тесте количество потоков равнялось количеству логических ядер.
x264 benchmark HD 5.0.1: Тестирование скорости транскодирования видео.
AIDA64 Extreme Edition 4.3: Тестирование проводилось встроенными бенчмарками: чтение из памяти, запись в память, копирование в памяти, задержка памяти, тест кеша и памяти, CPU Queen, CPU PhotoWorxx, Zlib, CPU AES, CPU Hash, FPU VP8, FPU Julia, FPU Mandel, FPU SinJulia.
MaxxMEM2M: Тестирование скорости памяти. Подтесты: Stream 1T, Stream 2T, Stream 3T, MMX 1T, MMX 2T, MMX 3T, SSEx 1T, SSEx 2T, SSEx 3T.
SiSoftware Sandra 2014: Комплексное тестирование производительности. Подтесты: арифметический тест процессора, мультимедийный тест процессора, производительность криптографии, финансовый анализ, арифметика .NET, мультимедия .NET, кеш и память, транзакционная память.
LinX 0.6.4: Количество потоков равнялось количеству логических ядер, объем задачи 12000. Замер энергопотребления производился без жесткого диска, то есть конфигурация стенда была следующей: материнская плата, процессор, оперативная память, блок питания, клавиатура, мышь и необходимое количество вентиляторов. Загрузка тестовой среды происходила с USB-флешки. Таким образом, блок питания был подключен к ваттметру — дисплей подключался отдельно. Итоговая величина — это среднее энергопотребление при прохождении теста.
⇡#В качестве тестовой платформы используется компьютер с материнской платой SuperMicro A1SRM-2758F, процессором Intel Atom C2758 и 16 Гбайт RAM DDR3 ECC 1600 МГц. Операционная система — Windows 7 SP1 Максимальная x64.
Конфигурация №1: В BIOS активированы два ядра из восьми. Конфигурация работы ИКП: 2х64 bit, 1600 МГц, объем 16 Гбайт.
Конфигурация №2: В BIOS активированы четыре ядра из восьми. Конфигурация работы ИКП: 2х64 bit, 1600 МГц, объем 16 Гбайт.
Конфигурация №3: В BIOS активированы все восемь ядер. Конфигурация работы ИКП: 1 х 64 bit, 1333 МГц, объем 16 Гбайт.
Конфигурация №4: В BIOS активированы все восемь ядер. Конфигурация работы ИКП: 1 х 64 bit, 1600 МГц, объем 16 Гбайт.
Конфигурация №5: В BIOS активированы все восемь ядер. Конфигурация работы ИКП: 2х64 bit, 1333 МГц, объем 16 Гбайт.
Конфигурация №6: В BIOS активированы все восемь ядер. Конфигурация работы ИКП: 2х64 bit, 1600 МГц, объем 16 Гбайт.
В качестве тестовой платформы используется компьютер с материнской платой SuperMicro X10SAE, процессором Intel Xeon E3-1245 v3 и 16 Гбайтами RAM DDR3 ECC 1600 МГц. Операционная система — Windows 7 SP1 Максимальная x64.
Конфигурация №1: Активированы HT и TB.
Конфигурация №2: Отключены HT и TB для эмуляции Xeon E3-1225 v3.
Конфигурация №3: Гипотетический Xeon, функционирующий на частоте 2,4 ГГц, полученный методом экстраполяции.
Объем и скорость передачи данных в бенчмарках указываются в бинарных единицах (1 Кбайт = 1024 байт).
7zip
Однопоточное сжатие не создает серьезной нагрузки для контроллеров памяти современных процессоров, поэтому результаты одинаковые для всех конфигураций Atom. Тем не менее на примере однопоточной нагрузки можно проследить эффективность ядра, то есть самой архитектуры: микроархитектура Haswell почти втрое быстрее Rangeley. Но не стоит забывать, что процессоры функционируют на разных частотах — Xeon E3-1245v3 как минимум имеет на 42% большую тактовую частоту. Равночастотный гипотетический Xeon E3-1245v3 показывает вдвое большую производительность, что еще раз говорит о высокой эффективности микроархитектуры Haswell.
При однопоточной распаковке ситуация в целом не меняется — стоит лишь заметить, что разрыв между Rangeley и Haswell сокращается.
Постепенное увеличение количества активных ядер у Atom C2758 приводит к пропорциональному росту скорости сжатия: переход с дуэта на квартет ядер увеличивает скорость на 129%, а с 4 до 8 — еще на 99%. В целом Atom масштабируется идеально — увеличение количества ядер вчетверо увеличивает скорость в 4,6 раза. Несмотря на двухуровневую схему кеширования, далеко не самый быстрый кеш (относительно Haswell) и его невысокую емкость, восемь ядер не показывают сильно выраженной зависимости от пропускной способности памяти — увеличение ПСП с 10,7 Гбайт/с до 25,6 Гбайт/с дает прирост на уровне 7%, причем наибольший прирост происходит при переходе с одноканальной DDR3-1333 на DDR3-1600. Де-факто для многопоточного сжатия восьми ядрам одного канала хватает с головой.
Посоперничать с Xeon E3-1245v3 у Atom C2758 не получается — первый в два с лишним раза быстрее. А вот на равных частотах «Атому» не хватает лишь 13% до паритета с Xeon.
При многопоточной распаковке в целом всё повторяется — Atom хорошо масштабируется, поднимая планку производительности в 4,6 раза относительно 2-ядерной конфигурации.
Восемь ядер всё-таки приносят свои дивиденды — Atom C2758 показывает 2%-е отставание от Xeon E3-1245v3 с отключенными TB и HT, при этом TDP Rangeley вчетверо ниже. Что касается гипотетического Xeon, то он отстает на 28% от восьмиядерного «Атома».
winRAR
Однопоточная нагрузка в winRAR неспособна загрузить ИКП — поэтому все конфигурации Rangeley выстроились в ряд, показывая одинаковые результаты в рамках погрешности. Ядро Haswell развивает в два с лишним раза большую производительность — Atom C2758 не может тягаться даже с гипотетическим равночастотным Xeon.
Масштабируемость Rangeley не дотянула до идеала — переход с 2 на 8 ядер показывает рост производительности в 3,5 раза, а не в 4, как хотелось бы. Учитывая увеличение производительности на 36% с ростом ПСП, можно заключить, что 8 ядрам просто тесно на двухканальном контроллере памяти.
В многопоточном окружении Atom C2758 отстает от Xeon значительно меньше, чем в однопоточном режиме, — и даже догоняет гипотетический Xeon.
Cinebench R15
Как и прежде, однопоточная нагрузка никак не реагирует на ПСП — хватает и одноканальной DDR3-1333 с ECC. Что касается уровня производительности, то эффективность Rangeley значительно ниже, чем у Haswell, — даже на равных частотах Xeon уходит далеко в отрыв.
Многопоточный запуск Cinebench не меняет картины относительно ПСП — Rangeley вполне хватает одноканального доступа, а его масштабируемость идеальна — восемь ядер в 4,5 раза быстрее двух, а четыре — в 2,2 раза.
Несмотря на наличие 8 ядер, Atom C2758 всё равно не смог дотянутся даже до гипотетического равночастотного Xeon, что уж говорить про реальный.
Crystal Mark
Смотря на итоги подтеста ALU в Crystal Mark, можно заключить, что он не использует более четырех ядер, — результаты четырех 8-ядерных конфигураций и одной 4-ядерной одинаковы. Сравнивать с Xeon нет смысла, так как конкурент работает в полсилы, но можно предположить, что при использовании 8 ядер Atom C2758 догонит лишь гипотетический Xeon, но до полноценного явно не дотянется.
Подтест FPU подтверждает предположение, что Crystal Mark не задействует более четырех ядер Atom C2758. Экстраполируя, можно понять, что Rangeley всё же удастся догнать гипотетический Xeon, но до реального никак не дотянуться.
Подтест MEM показывает, насколько эффективнее работает кеш и память в процессорах Haswell, чем в Rangeley.
Fritz
Однопоточная нагрузка, как уже говорилось ранее, не требовательна к ПСП — хватает и одноканального доступа. Гипотетический Xeon вдвое быстрее Rangeley, а реальный — втрое. Стоит заметить, что чудовищно пожилой Pentium III, добавленный сюда для наглядности, лишь вдвое медленнее нашего героя.
Масштабируется Rangeley идеально — увеличение количества ядер вчетверо повышает производительность в четыре раза. Зависимости от ПСП не наблюдается — хватает и одноканальной медленной DDR3-1333 с ECC.
До гипотетического Xeon «Атому» не хватает 9%, а до реального — 36%.
wPrime
Один поток, как и обычно, не реагирует на увеличение ПСП. Гипотетический Xeon почти в два раза быстрее, а реальный — в два с копейками.
В очередном бенчмарке Rangeley показывает идеальную масштабируемость — переход с двух на восемь ядер поднимает планку производительности в 4,1 раза. Увеличение пропускной способности памяти при этом ничего не дает. Восемь «атомных» ядер на секунду с небольшим опережают гипотетический Xeon, а от реального отстают на две секунды.
x264
Первый бенчмарк, где наш герой показал скверную масштабируемость — производительность выросла всего лишь в 2,7 раза, а не в 4, как положено. Реакции на увеличение ПСП практически нет.
Противостоять Xeon наш Atom C2758 не в состоянии — даже гипотетическому, но не стоит забывать об энергопотреблении последнего.
Бенчмарк чтения из памяти говорит о многом — два ядра «Атома» могут реализовать лишь 24% от теоретического максимума двухканальной DDR3-1600 ECC. Увеличение количества ядер вдвое поднимает планку эффективности контроллера памяти, а 8-ядерная конфигурация останавливается на 77%, что довольно-таки неплохо (особенно если вспомнить AMD). Стоит заметить, что эффективность контроллера памяти в одноканальном режиме отличная: DDR3-1333 — 91%, а DDR3-1600 — 88%. Увеличение числа каналов снижает эффективность ИКП, чего не скажешь про Haswell.
С записью в память ситуация несколько хуже — переход с двух ядер на четыре, как и раньше, поднимает эффективность вдвое — до 47%, а вот дальнейшее увеличение ядер не приводит к значительному росту скорости. ИКП Haswell показывает вдвое большую эффективность, впритык подбираясь к теоретическому максимуму — 98%.
При копировании в памяти 8-ядерная конфигурация «Атома» показывает эффективность интегрированного контроллера памяти на уровне 64%, в то время как Xeon — 92%. Стоит заметить, что в одноканальном режиме эффективность контроллера достаточно высока — на уровне 80% и выше, а вот дальнейшее увеличение ПСП путем наращивания каналов уже не показывает такой большой эффективности.
Несмотря на то, что в тестовых стендахиспользуется одинаковые модули памяти, ИКП Atom C2758 показывает значительно более высокую латентность, чем Xeon E3-1245v3. Активация двухканального режима прибавляет почти 10 наносекунд. Однозначно, контроллер памяти Rangeley отличается от ИКП Haswell — с одной стороны, это плохо, дескать, могли же использовать высокоэффективное проверенное решение, а с другой — как показали тесты, «Атому» зачастую с головой хватает и одного канала. Тем не менее латентность ИКП можно было сделать и ниже — ведь у Rangeley нет трехуровневой системы кеширования и таких больших кешей, как у Haswell, то есть он зависит от задержек в большей мере, чем Xeon.
В подтесте CPU Queen Rangeley показывает идеальную масштабируемость — 8-ядерная конфигурация в 4,1 раза быстрее 2-ядерной. Примечательно, что Atom C2758 не реагирует на увеличение ПСП — в сущности, ему хватает и одного канала DDR3-1333 ЕСС.
Мощности восьми ядер достаточно, чтобы значительно опередить гипотетический Xeon и вплотную приблизиться к реальному.
CPU PhotoWorxx примечателен по нескольким причинам: во-первых, Atom C2758 не показывает хорошей масштабируемости — всего лишь в 2,7 раза при переходе от 2 ядер к 8; во-вторых, увеличение ПСП вдвое повышает производительность на 63%, то есть данный субтест имеет ярко выраженную зависимость от ПСП — возможно, невысокая масштабируемость объясняется недостаточной пропускной способностью памяти.
Что касается противостояния Rangeley с Xeon, то его попросту нет — 4 ядра Haswell вдвое мощнее.
В CPU Zlib Rangeley показывает превосходную масштабируемость — увеличение количества ядер вчетверо поднимает планку производительности в 4,3 раза, при этом не наблюдается зависимости от ПСП.
Восьми «атомным» ядрам удается опередить гипотетический Xeon, а вот до реального не хватает 20%.
Масштабируемость Rangeley, как и прежде, — в 4,3 раза. И он все так же абсолютно безразличен к росту ПСП.
Что касается противостояния Atom и Xeon, оно не получается — даже гипотетический Xeon почти втрое быстрее, а реальный — во все четыре раза.
На протяжении большинства тестов Rangeley стабильно показывает: во-первых, идеальную масштабируемость, во-вторых, безразличие к росту ПСП. И CPU Hash — не исключение.
Противостояние процессоров снова не задалось — Xeon E3-1245v3 в два с лишним раза быстрее Atom C2758, гипотетический равночастотный Xeon — на 45%.