Наши читатели, интересующиеся современными компьютерными технологиями, наверняка с нетерпением ожидают очередной Форум Intel для разработчиков, который стартует в Шанхае в самом начале апреля. Обычно подобные мероприятия ориентированы на схемотехников, конструкторов, проектировщиков вычислительных систем; руководителей, принимающих решения в области внедрения новых технологий. Несомненно, новые анонсы также дадут пищу для размышлений аналитикам отрасли высоких технологий. Не менее интересны события Форума и для потребителей, ведь именно на IDF мы имеем возможность узнать о готовящихся к выходу на рынок продуктах и разрабатываемых технологиях, как говорится, из первых уст.
Что же ждёт нас на весеннем IDF 2008 в Шанхае? Руководители ключевых направлений компании Intel расскажут о разработке и распространении мобильных интернет-устройств (Mobile Internet Device, MID), ноутбуков и беспроводных технологий нового поколения; внедрении аппаратной и программной архитектуры FSB-FPGA на базе технологии Intel QuickAssist для серверных платформ. Кроме того, посетители Форума получат информацию о новом процессоре класса SoC (System-on-Chip, "система на чипе"), известном нам под кодовым обозначением Tolapai, микроархитектуре следующего поколения Intel Nehalem, решениях Intel для встраиваемых систем и общих положениях по проектированию платформ Ruggedized Embedded Computing, Digital Security Surveillance и Network Security; про обновления спецификации отраслевого стандарта UEFI и дальнейших направлениях его развития; о технологиях виртуализации и визуализации с высоким разрешением; о твердотельных устройствах хранения данных на базе флэш-памяти.
В преддверии апрельского IDF компания Intel провела пресс-брифинг, посвященный следующему поколению чипов Itanium, известному нам под кодовым именем Tukwila, первому шестиядерному процессору Dunnington, новой микроархитектуре Nehalem, а также архитектуре для визуальных вычислений Larrabee Architecture. Сегодня мы внимательно рассмотрим новшества архитектур Nehalem и Dunnington; о других архитектурах и технологиях расскажем позже.
Dunnington - первые шестиядерные процессоры Intel
Если придерживаться хронологического порядка появления новых продуктов Intel, первыми героями нашей статьи должны стать шестиядерные процессоры, уже упоминавшиеся в нашей новостной ленте под кодовым обозначением Dunnington. Эти чипы будут основаны на базе 45-нм версии микроархитектуры Core и, судя по всему, станут последними представителями поколения Penryn.
Чипы Dunnigton являются решениями для многопроцессорных серверов и будут представлены в рамках платформы Caneland под брендом Intel Xeon. Для производства шестиядерных чипов Intel применит 45-нм технологию с использованием металлических затворов и High-K диэлектриков, что позволит разместить на одном кристалле 1,9 млрд транзисторов. Все шесть ядер совместно с массивами ячеек кэш-памяти разместятся на одном кристалле, хотя ранее некоторые обозреватели полагали, что Intel просто упакует три двухъядерных кристалла Wolfdale в один корпус.
В процессорах Dunnington применена концепция многоуровневого разделяемого кэша. На каждую пару ядер приходится по одному массиву ячеек кэш-памяти второго уровня емкостью 3 Мб, соответственно, общий объем кэша L2 достигает 9 Мб. Также на кристалле разместится разделяемый кэш третьего уровня, емкость которого будет составлять до 16 Мб. Отметим, что предшественники Dunnington, четырехъядерные чипы серии Xeon 7300 (Tigerton) для многопроцессорных серверов, имеют до 8 Мб кэша L3.
Из других технических особенностей Dunnington, известных нам сегодня, отметим шину FSB с производительностью 1066 мегатранзакций в секунду, схему 40-разрядной адресации физической памяти; привычную корпусировку mPGA604; TDP 130 Вт; поддержку технологии виртуализации VT FlexMigration с широкими возможностями совместимости и поддержкой миграции на будущие платформы с архитектурой Core или последующими микроархитектурами.
Завершая рассказ о чипах Dunnington, скажем пару слов о сроках их появления на рынке. По официальным данным, дата релиза намечена на второе полугодие 2008. Учитывая, что шестиядерные чипы должны стать неким промежуточным решением между современными четыёхъядерными Xeon (Core) и процессорами следующего поколения микроархитектуры Nehalem, которые должны появиться в четвертом квартале текущего года, выход в свет Dunnington можно ожидать уже в третьем или самом начале четвертого квартала.
Микроархитектура Intel Nehalem
С момента нашего первого
основательного знакомства с микроархитектурой Nehalem прошел год. За это время различные источники регулярно "подпитывали" нас самой разной информацией о новой микроархитектуре, но сведения частично были противоречивыми и, к тому же, не могли помочь понять детали реализации Nehalem.
Предвосхищая анонсы шанхайского IDF Spring 2008, на днях с докладами о ключевых особенностях Nehalem выступили Патрик Гэлсингер (Pat Gelsinger), старший вице-президент и главный управляющий подразделения Digital Enterprise Group (DEG), вице-президент и директор Digital Enterprise Group Operations Стэфен Смит (Stephen L. Smith) и главный инженер DEG Ронак Сингэл (Ronak Singhal).
Итак, выделим главные особенности и усовершенствования в микроархитектуре Intel Nehalem, после чего приступим к их детальному разбору:
- масштабируемость до восьми ядер;
- унаследованная от микроархитектуры Core способность обработки четырёх команд за один тактовый цикл;
- технология параллельной обработки потоков Simultaneous Multi-Threading (SMT);
- интегрированный контроллер памяти (ИКП);
- использование общей кэш-памяти третьего уровня с инклюзивным механизмом вытеснения;
- новая шина общения с внешними устройствами - QuickPath Interconnect (QPI);
- динамическое управление питанием;
- новый набор расширений SSE4.2.
На данный момент максимальное количество ядер в процессорах Intel для настольных систем не превышает четырех. Появление ядра Dunnington во второй половине года позволит увеличить это число до шести. С внедрением новой микроархитектуры максимальное количество ядер возрастёт до восьми, хотя первое поколение процессоров Nehalem, возможно, не будет включать восьмиядерные модели. Возможно, Intel придержит выпуск "восьмиядерников" до 2009 года, когда состоится плановая миграция на новый 32-нм техпроцесс, с помощью которого будет проще уместить все восемь ядер на монолитном кристалле.
Интересным нововведением является технология Simultaneous Multi-Threading. Детали реализации SMT и её отличия от Hyper-Threading пока не разглашаются. В рекламных буклетах отмечаются лишь общие положения, связанные с SMT:
- каждое ядро будет способно одновременно обрабатывать два потока (таким образом, восьмиядерные процессоры смогут параллельно обрабатывать до 16 потоков);
- увеличится энергоэффективность процессоров;
- повысится производительность на 20-30% при выполнении задач, оптимизированных под многопоточность (мультимедийные приложения, базы данных, поисковые системы).
Особый акцент компания Intel делает на масштабируемости микроархитектуры Nehalem, которая позволит обеспечить оптимальное соотношение трёх ключевых показателей: цена, производительность, энергопотребление. При проектировании процессоров Nehalem будет применяться так называемый модульный подход, суть которого наглядно демонстрирует следующая иллюстрация.
Как видим, структура процессора Nehalem условно разбивается на пять основных строительных блоков: процессорное ядро, интегрированный контроллер памяти, массив ячеек кэш-памяти, шина QuickPath Interconnect (подробнее о ней мы расскажем чуть позже) и видеоядро iGraphics. Объединяя все эти компоненты в разных комбинациях, производитель выведет на рынок целый ряд продуктов для разных сегментов рынка.
Интегрированный контроллер памяти будет включать три канала и поддерживать до трёх слотов DIMM на канал. Как и ожидалось, ИКП сможет работать с памятью типа DDR3, включая DDR3-800, DDR3-1066, DDR3-1333, хотя отмечается возможность реализации поддержки и более скоростных модулей памяти, причём предусмотрена поддержка как традиционных небуферизированных модулей UDIMM для установки в настольные ПК и ноутбуки, так и регистровой памяти RDIMM для серверных систем.
В Intel обещают существенное уменьшение задержек и радикальное увеличение пропускной способности памяти. По внутренним тестам компании, выигрыш в ПСП системы на базе Nehalem по сравнению с Harpertown будет более чем четырехкратным.
Перейдём к детальному рассмотрению подсистемы кэширования, принятой в рамках новой микроархитектуры и представляющей собой дальнейшее развитие технологии Intel Smart Cache. Структура кэш-памяти первого уровня осталась без изменений - 32 Кб для хранения команд и 32 Кб - для данных. Подсистема кэш-памяти второго уровня предусматривает выделение отдельного массива ячеек емкостью 256 Кб каждому ядру, при этом отмечается низкая латентность кэш-памяти. Кроме того, предусмотрен также кэш третьего уровня емкостью до 8 Мб, который будет общим для всех ядер процессора.
Особенностью подсистемы кэширования является применение инклюзивного способа вытеснения информации. По утверждениям Intel, такой подход позволяет существенно сократить так называемый снуп-траффик (snoop traffic), что особенно актуально для систем с большим количеством ядер. Еще одним важным архитектурным усовершенствованием является внедрение двухуровневого буфера преобразования адресов (TLB, Translation Look-aside Buffer) размером 512 записей, что, по утверждению Intel, также позитивно сказывается на производительности.
К важным микроархитектурным усовершенствованиям отнесём также следующие, которые Intel условно разбивает на три ключевых направления:
- дальнейшее развитие параллелизации - увеличение количества микроопераций, хранимых в буфере реорганизации/переупорядочивания (ReOrder Buffer), на 33% по сравнению с Core (увеличение емкости ROB с 96 до 128 записей);
- совершенствование алгоритмов - использование так называемого не выровненного доступа к кэшу, а также повышение скорости выполнения элементарных функций (примитивов) синхронизации, что должно улучшить производительность многопоточных приложений;
- улучшение механизма предсказания ветвлений - в рамках этого направления отмечается добавление второго уровня в целевой буфер ветвлений (BTB, branch target buffer), что должно повысить точность предсказания, уменьшение времени простоя (пенальти) в случае неправильного предсказания, а также добавление нового буфера Renamed Return Stack Buffer, который призван уменьшить количество ошибок предсказания адресов возврата.
Пришло время приступить к описанию одного из наиболее важных и горячо обсуждаемых нововведений - замены традиционной шины FSB новым высокоскоростным соединением QuickPath Interconnect, ранее известным также под кодовым обозначением Common System Interface (CSI).
Появление всё более мощных процессоров приводит к тому, что потенциальным "бутылочным горлышком" системы оказывается системная шина, которая играет ключевую роль во взаимодействии CPU и остальных компонентов компьютера. Другими словами, когда процессор выполняет команды быстрее, чем они к нему приходят, он работает не в полную силу, простаивает в ожидании.
В настоящее время в платформах Intel используется внешняя двунаправленная шина, известная нам как FSB (Front-Side Bus). Она представляет собой связующее звено между процессорными ядрами и чипсетом, который включает контроллер памяти и выступает в качестве точки доступа к другим шинам (например, PCI, AGP и т.п.) материнской платы. Основными способами увеличения производительности системной шины FSB является повышение её частоты и объединение сразу нескольких FSB в одной системе. Для уменьшения нагрузки на FSB компания Intel также оснащает свои процессоры более ёмкой кэш-памятью с большей степенью ассоциативности.
Потенциал FSB иссякает, пришло время внедрять совершенно новую системную архитектуру. В рамках QuickPath Architecture предполагается размещать контроллер памяти непосредственно в процессоре, а также использовать принципиально новую системную шину QuickPath Interconnect. Шина QPI будет использоваться также в процессорах Tukwila (Itanium), но о них мы поговорим уже в другом материале.
Организация QuickPath Architecture позволяет обеспечить высокоскоростной обмен данными между процессором и внешней памятью, между процессором и концентратором ввода/вывода. Ключевой особенностью архитектуры является применение концепции масштабируемой разделяемой памяти (scalable shared memory) вместо традиционного единого пула памяти, к которому процессоры имеют доступ по единственной шине - FSB. В рамках новой архитектуры каждый CPU будет иметь собственную выделенную память, к которой он будет обращаться напрямую, через свой ИКП. В случае, если процессору потребуется доступ к выделенной памяти другого CPU, он сможет связаться с ней посредством одного из каналов QuickPath Interconnect (Intel обещает, что такой доступ займет ненамного больше времени, так как QPI обеспечивает очень высокую скорость передачи данных). Как и шина HyperTransport, уже несколько лет применяемая в процессорах компании AMD, QPI будет использовать последовательную связь по схеме "точка-точка" (point-to-point), что обеспечит высокую скорость при малой латентности.
Интересно отметить, что QuickPath Architecture не является первой реализацией концепции масштабируемой разделяемой памяти в продуктах Intel. Подобный подход был применён еще в серверах на базе чипсетов серии Intel 8870 (хотя интегрированный контроллер памяти используется впервые).
Перечислим ключевые характеристики Intel QuickPath Architecture:
- производительность каналов QuickPath Interconnect достигает 6,4 гигатранзакций в секунду, благодаря чему общая пропускная способность может достигать 25,6 Гб/с (именно гигабайт, не гигабит; на презентационном слайде Intel, приведённом ниже, - опечатка);
- QPI уменьшает количество служебной информации, необходимой для функционирования многопроцессорных систем, что, соответственно, позволяет повысить скорость передачи полезных данных;
- реализация контроля при помощи циклического избыточного кода (CRC) и повторной передачи при обнаружении ошибок на канальном уровне, что позволяет обеспечить целостность данных без ощутимого влияния на производительность;
- возможность реализации высокоуровневых функций обеспечения надежности, готовности и удобства обслуживания (RAS, Reliability, Availability and Serviceability) благодаря реконфигурации каналов в случае повреждения отдельных участков, поддержке "горячей замены".
В Intel отмечают, что многие разработчики чипсетов уже работают над решениями для серверов с использованием QPI. Для поддержки процессоров Nehalem компания представит набор системной логики, известный под кодовым обозначением Tylersburg. Он будет использоваться в серверах, рабочих станциях и настольных ПК класса High-End.
Напоследок осталось рассмотреть новый набор расширений SSE4.2. Он включает поддержку всех сорока семи команд SSE4, о которых мы рассказывали в нашем предыдущем материале о 45-нм процессорах Intel, а также
семь новых программно-ориентированных ускорителей (ATA, Application Targeted Accelerator) обработки строк и текстовой информации. По утверждению разработчиков, дополнительные ускорители будут полезны, например, в задачах лексического и синтаксического анализа, при работе с регулярными выражениями, поиске вирусов.
Послесловие
Пока компания AMD только демонстрирует первые работоспособные образцы 45-нм чипов, Intel массово производит свои 45-нм процессоры на нескольких фабриках. В своём недавнем выступлении президент и пятый по счету
CEO компании Intel Пол Отеллини заявил о выпуске более четырёх миллионов 45-нм процессоров семейства Penryn с момента их выхода на рынок в конце прошлого года. Темпы производства впечатляют - 100 тыс. 45-нм процессоров ежедневно.
Конечно же, лидер процессорной отрасли не собирается останавливаться на достигнутом и продолжает следовать своей модели развития "тик-так". Конец прошлого года ознаменовался очередным успешным "тиком" с выходом на рынок первых 45-нм процессоров семейства Penryn. В текущем году Intel планирует перейти на новый этап "так", в рамках которого будет представлена микроархитектура Nehalem, включающая, как мы могли убедиться, множество многообещающих инноваций.
Материалы по теме:
Источники информации, использованные при подготовке статьи: