Эволюция многоядерной процессорной архитектуры Intel Core: Conroe, Kentsfield, далее по расписанию / Процессоры и память

Одна из самых интересных IT-интриг нынешнего сезона – несомненно, в близящемся анонсе нового поколения многоядерной процессорной архитектуры Intel Core. Благодаря благожелательной PR-политике Intel в целом и открытому общению с прессой в частности, уже сейчас, до официального анонса моделей розничных процессоров, мы знаем об этих чипах очень и очень много. По крайней мере, более чем достаточно, чтобы сегодня представить вниманию наших читателей обзорный рассказ об архитектурных изменениях и усовершенствованиях, реализованных в новом поколении процессоров с архитектурой Intel Core. Уже давно ни для кого не секрет, что новые двухъядерные процессоры с рабочими названиями Merom, Conroe и Woodcrest, для рынков мобильных, настольных и серверных компьютеров соответственно, будут иметь в своей основе единые архитектурные построения под сводным названием Intel Core (ранее - Architecture 101), разве что, с дополнениями в соответствии со специфическими требованиями каждого рыночного сегмента. Тем не менее, представляя сегодня новое поколение архитектуры Intel Core, основной упор будет делаться на чипы для настольных ПК – Conroe.

Сразу же уточню, что этот рассказ посвящён исключительно архитектурным особенностям новых процессоров Intel. Поэтому не стоит ожидать в материале каких-либо слухов, утечек или намёков на маркировку чипов Conroe, сроки их анонса и появления в рознице, ожидаемые цены и тому подобное. Максимум, что автор позволил себе в рамках этого рассказа – это предположения о возможном приросте производительности в тех или иных приложениях. Всю остальную информацию, сопровождаемую сравнительным тестированием новых чипов, наши читатели получат в соответствующее время. Вот сейчас фактически тот самый момент, когда лучше семь раз отмерить и подать только проверенную информацию, чем до поры до времени пускать "жёлтые" слухи. Надеюсь, что наши читатели, заранее "переварив" архитектурные особенности нового поколения процессоров Intel, смогут в последствии не отрешённо разглядывать количество "попугаев", полученных при тестировании, но лучше понимать причины и следствия, закономерно ведущие к тому или иному результату. Приступим.

Основополагающие формулы, определяющие эффективность современной процессорной архитектуры

Как известно, несколько лет назад компания Intel отказалась от "гонки мегагерцев" и взяла курс на разработку эффективных процессорных микроархитектур с экономным энергопотреблением. А этом свете максимальная эффективность работы процессора напрямую зависит не столько от тактовой частоты, сколько от количества инструкций, выполняемых за один такт. Иными словами, тактовая частота процессора – лишь один из множителей в простой формуле: [Производительность] = [Тактовая частота] x [Количество инструкций, выполняемых за один такт] Таким образом, на практике совсем не обязательно "гнать частоту", есть множество других эффективных способов значительно поднять производительность. Одно из подмножеств таких способов в частности - столь популярное нынче использование многоядерности, хотя, как показывает практика, просто так взять и распараллелить вычисления на множество ядер - тоже задачка не из простых, так просто "в лоб" не решается.

Другим весьма эффективным способом повышения одного из множителей выше приведённой формулы расчёта производительности можно назвать метод снижения количества инструкций, необходимых для исполнения той или иной задачи, иными словами, оптимизация потока команд. Нагляднейший пример тому – SIMD-команды (single instruction multiple data) MMX, используемые Intel в виде целочисленных 64-битных SIMD инструкций с 1996 года, начиная чипами Pentium с поддержкой MMX, а также представленные чуть позже 128-битные SIMD инструкции с плавающей запятой и одинарной точностью, впервые представленные пакетом SIMD-расширений SSE в чипе Pentium III и дополненные впоследствии наборами SSE2 и SSE3. Ещё один яркий пример технологии оптимизации потока команд – так называемая технология микрослияния команд (microfusion), в результате чего несколько внутренних микроопераций (micro-ops) процессора могут быть скомбинированы в одну микрооперацию, чем также значительно сокращается общее количество микроопераций для выполнения конкретной задачи. В то же время нынешняя индустриальная установка на выпуск экономичных процессоров требует других расчётов. Таким образом, появляется понятие оптимальной производительности, отражающее количество энергии, затрачиваемое процессором на выполнение той или иной задачи. Получается, что энергопотребление можно оценить как произведение динамической ёмкости (соотношение электростатического заряда проводника к разнице потенциалов между проводниками, обеспечивающими этот заряд) на эффективность исполнения инструкций за такт, квадрат напряжения питания и тактовую частоту: [Энергопотребление] = [Динамическая ёмкость] x [Напряжение] x [Напряжение] x [Тактовая частота] Соотнося это уравнение расчёта энергопотребления с предыдущей формулой, разработчики процессоров могут взвешенно подойти к оценке оптимального баланса между эффективностью количества выполняемых за такт инструкций, динамической ёмкости с одной стороны, подходящего напряжения питания ядра и буферных цепей в связке с тактовой частотой чипа с другой стороны, таким образом можно достичь оптимальной производительности и эффективного энергопотребления.

Прошу прощения за затянувшееся вступление и растолковывание прописных истин, но благодаря этому введению будет проще понять цели и методы, применённые при разработке нового поколения микроархитектуры Intel Core с улучшенной производительностью и, что, возможно, ещё более важно, с улучшенной производительностью на ватт.

Основные особенности архитектуры Intel Core

Достаточно точная и подробная информация о внутреннем строении нового поколения процессоров Intel для настольных ПК, появление которых ожидается в самое ближайшее время, была представлена в дни весенних форумов Intel для разработчиков - Intel Developer Forum, в том числе, в дни Московского IDF Spring 2006. Именно тогда впервые было чётко сказано, что Intel планирует начать поставки процессоров на базе архитектуры Intel Core с нормами 65 нм техпроцесса уже в третьем квартале 2006 года. Именно тогда также точно стало известно, что новая архитектура станет основой для процессоров всех сегментов рынка – настольных ПК (Conroe), мобильных ПК (Merom) и серверов (Woodcrest).

Новые чипы на базе архитектуры Intel Core обещают значительный прирост производительности - от 40% для Conroe до 80% для Woodsrest, при одновременном снижении энергопотребления на 35-40%. Появление на нашем сайте материала, объясняющего суть этих инноваций только сейчас, обусловлено сразу несколькими причинами. Во-первых, компания Intel наконец-то закончила ребрендинг процессорных линеек и теперь с полной определённостью можно сказать, что новые чипы для настольных ПК будут представлены именно под торговыми марками Intel Core 2 Extreme (Conroe XE) и Intel Core 2 Duo (Conroe, Merom). Во-вторых, прошедшее со времени проведения весеннего IDF время дало возможность осмыслить изменения архитектуры и уточнить особенности её работы, чтобы максимально достоверно донести суть новшеств до наших читателей. И, наконец, в третьих, прошедшая в первой декаде июня выставка Computex 2006, на которой были представлены работающие прототипы систем на базе чипов Conroe, расставила всё по своим местам: новое поколение архитектуры уже достаточно давно существует не только на бумаге, но и в виде вполне готовых к розничным продажам образцов. Так что вполне возможно, что выбор грядущей даты анонса чипов Conroe обусловлен не столько производственными аспектами, сколько "политическими" маркетинговыми соображениями. Новая процессорная архитектура наследует философию эффективного энергопотребления, впервые реализованную в процессорах Intel Pentium M для мобильных ПК с рабочим названием Banias. В новом поколении возможности процессоров улучшены не только благодаря совершенно новым технологиям, но также за счет использования наработок, с успехом применявшихся в яипах с архитектурой Intel NetBurst. И всё же ключевая роль отводится инновациям, впервые реализованным в новом поколении процессорной архитектуры Intel:

Технология Intel Wide Dynamic Execution призвана обеспечить выполнение большего количества команд за каждый такт, повышая эффективность выполнения приложений и сокращая энергопотребление. Каждое ядро процессора, поддерживающего эту технологию, теперь может выполнять до четырех инструкций одновременно с помощью 14-стадийного конвейера.
Технология Intel Intelligent Power Capability, активируя отдельные узлы чипа только по мере необходимости, значительно снижает энергопотребление системы в целом.
Технология Intel Advanced Smart Cache подразумевает наличие общей для всех ядер кэш-памяти L2, совместное использование которой снижает энергопотребление и повышает производительность. При этом, по мере необходимости, одно из ядер процессора может использовать весь объём кэш-памяти при динамическом отключении другого ядра.
Технология Intel Smart Memory Access повышает производительность системы, сокращая время отклика памяти и оптимизируя, таким образом, использование пропускной способности подсистемы памяти.
Технология Intel Advanced Digital Media Boost позволяет обрабатывать все 128-разрядные команды SSE, SSE2 и SSE3, широко используемые в мультимедийных и графических приложениях, за один такт, что увеличивает скорость их выполнения.

Вот, собственно, и определены главные изменения, привнесённые в новое поколение микроархитектуры Intel Core. Теперь самое время остановиться подробнее на каждом из них.

Intel Wide Dynamic Execution

Под технологией Intel Wide Dynamic Execution подразумевается комплекс новшеств – расширенный анализ данных, спекулятивное, внеочередное исполнение команд и т.п., впервые реализованный Intel в архитектуре P6, использовавшийся в процессорах Pentium Pro, Pentium II и Pentium III. В архитектуре Intel NetBurst для этих целей использовался модуль Advanced Dynamic Execution, обеспечивавший загрузку исполнительных модулей процессора и обладающий улучшенным алгоритмом предсказания ветвлений для снижения количества неверных предсказаний ветвлений. На уровне архитектуры Intel Core всё это объединено в расширенный комплекс технологий под названием Intel Wide Dynamic Execution, позволяющий обеспечить исполнение большего количества команд за один такт, благодаря чему экономится время и энергия.

Теперь каждое ядро процессора позволяет единовременно обрабатывать не три, как в архитектуре Intel NetBurst, а до четырёх команд, что выражается в 33% приросте по сравнению с предыдущими поколениями. Среди дополнительных функций, реализованных в комплексе технологий Intel Wide Dynamic Execution, также стоит упомянуть более точное предсказание ветвлений и более глубокое буферирование команд, придающее дополнительную гибкость процессу исполнения.

Наряду с этим Intel Wide Dynamic Execution подразумевает эффективное использование технологии макро-слияния - Macro-Fusion (Macro-OPs Fusion), объединяющей микро- и макрооперации в единые исполняемые макрооперации. Если в предыдущих поколениях процессоров Intel каждая входящая инструкция декодировалась и исполнялась отдельно, то теперь использование принципа макро-слияния в процессе декодирования команд позволяет объединять пары некоторых инструкций в единую внутреннюю инструкцию-микрооперацию (micro-op).

Исполнение двух инструкций под видом единой микрооперации позволяет снизить суммарную загрузку процессора и увеличить количество инструкций, обрабатываемых за один такт. Более того, арифметико-логические блоки (ALU, Arithmetic Logic Unit), используемые в процессорах с микроархитектурой Intel Core, также доработаны с расчётом обработки объединённых в макрооперации команд, что также отражается на общем снижении энергопотребления чипа.

Таким образом, по данным Intel, в общем случае удаётся снизить нагрузку операций до 15% и сократить число микроопераций до 10%. Как видно на иллюстрации ниже, модули префетча (предварительной выборки) подготавливают ряд x86 команд, при этом до пяти из них могут одновременно обрабатываться четырьмя блоками декодирования. В случае возможности слияния двух команд (Macro-Fusion), появляется фактическая возможность параллельной обработки пяти инструкций за такт (единовременно может образовываться не более одной макрокоманды).

Intel Intelligent Power Capability

Другая инновация под сводным названием Intel Intelligent Power Capability представляет собой комплекс мер, направленных на снижение энергопотребления чипа и оптимизации общих конструктивных требований. Технологии, координирующие потребление энергии всеми исполнительными узлами процессора, включают в себя расширенные и оптимизированные по времени выборки данных функции слежения за загруженностью тех или иных логических цепей.

Что важно отметить, в архитектуре Intel Core снижение нагрузки производится не отключением неиспользуемых цепей, напротив – следящая логика Intel Intelligent Power Capability включает необходимые логические подсистемы процессора по мере их востребованности. В дополнение к этому многие внутренние шины и массивы логических узлов процессора теперь разнесены и запитываются через отдельные ключи, что позволило переводить их при обработке некоторых видов данных в дополнительный экономичный режим энергопотребления. Основной задачей при реализации такой "точечной", адресной схемы питания было добиться быстрой реакции системы, например, при возвращении в режим полной мощности. В результате взвешенный подход при реализации возможностей Intel Intelligent Power Capability позволил добиться дополнительного снижения энергопотребления без ущерба для быстроты реагирования системы и повысить суммарную энергетическую оптимизацию архитектуры Intel Core.

Intel Advanced Smart Cache

В новой архитектуре Intel Core реализована весьма и весьма эффективная модель совместного использования ядрами процессора общего кэша L2. Технология Intel Advanced Smart Cache оптимизирована таким образом, чтобы каждое ядро двухъядерного процессора могло получать доступ данным с максимальной эффективностью. Не все современные многоядерные процессоры обладают возможностью распределения доступа к общей кэш-памяти L2. На практике это означает, что каждое ядро вынуждено оперировать с одинаковыми данными, расположенными в собственном кэше L2. Более того, простой одного из ядер при использовании раздельной схемы использования кэша L2 автоматически обозначает простой кэш-памяти L2 этого ядра, то есть, недостаточно эффективное использование ресурсов – в то время, как второе ядро, вполне возможно, "захлёбывается" без дополнительных ресурсов кэша L2.

В случае архитектуры Intel Core, когда оба ядра имеют доступ к единому кэшу L2 и обладают возможностью динамического – до 100%! - перераспределения ресурсов кэша L2 в свою пользу в зависимости от текущей загрузки, технология Multi-Core Optimized Cache позволяет добиться оптимального использования ресурсов подсистемы кэш-памяти. Дополнительный плюс Multi-Core Optimized Cache – более быстрая выборка данных из кэша.

Intel Smart Memory Access

Технология под названием Intel Smart Memory Access, то есть, "интеллектуальный доступ к памяти", позволяет повысить производительность системы с помощью оптимизации производительности при обмене данными с подсистемой памяти при общем снижении задержек доступа к памяти.

Совершенно новая функция, впервые реализованная при разработке технологии Intel Smart Memory Access, называется достаточно сложным для произношения термином Memory Disambiguation, что на русский язык можно перевести примерно как "устранение противоречий при доступе к памяти". На деле функция Memory Disambiguation обладает возможностью увеличить эффективность out-of-order обработки данных, обеспечивая ядра процессора спекулятивной выборкой данных для исполнения инструкций - до того, как будет исполнен ряд ранее поставленных в очередь на исполнение инструкций.

Обычно, когда out-of-order процессор переупорядочивает инструкции, он не может переставить Load до Store, поскольку ещё нет информации о расположении соответствующих данных. В случае использования принципа Memory Disambiguation, устранение противоречий производится с помощью специальных алгоритмов, определяющих, может ли команда Load быть исполнена до предшествующего Store, и в случае положительного результата очерёдность может быть изменена для достижения лучшего распараллеливания процесса обработки инструкций. В тех редких случаях, когда это невозможно, технология определяет конфликт, перезагружает корректные данные и повторно исполняет инструкцию. Наряду с Memory Disambiguation технология Intel Smart Memory Access также включает в себя усовершенствованные узлы префетча, "предсказывающие" содержимое памяти и, будучи помещёнными в кэше, оперативно используемые при нужде. Разумеется, увеличение загрузок из кэша против выборки из системной памяти положительно сказывается на снижении задержек и улучшении производительности.

Архитектура Intel Core предусматривает наличие двух узлов префетча на каждый кэш L1 и два на кэш L2, они детектируют потоки и совместно распределяют доступ, что позволяет добиться своевременного размещения данных в кэше L1. Префетчеры кэша L2 анализируют обращения ядер и обеспечивают наличие данных в кэше L2, которые могут понадобиться ядрам в перспективе.

Intel Advanced Digital Media Boost

Термином Intel Advanced Digital Media Boost названа функция, повышающая производительность процессора при исполнении инструкций SSE. Оба класса операций - 128-битные целочисленные арифметические SIMD и 128-битные SIMD с плавающей запятой и двойной точностью призваны уменьшить общее количество инструкций, необходимых для исполнения специфических программных задач, они позволяют ускорить работу множества приложений класса обработки видео и фото, распознавания речи, шифрования, финансовых, инженерных и научных расчётов.

Во многих процессорах предыдущих поколений обработку каждой 128-битной инструкции SSE, SSE2 и SSE3 можно рассматривать как одну инструкцию, исполняемую за два такта. Благодаря технологии Intel Advanced Digital Media Boost исполнение таких 128-битных инструкций стало возможно на пиковой скорости за один такт. Особенно эффективно использование технологии Intel Advanced Digital Media Boost в случае обработки мультимедийного контента вроде графики, видео, аудио и других данных с интенсивным использованием SSE, SSE2 и SSE3.

Итого. Перспективы развития микроархитектуры Intel Core

Вот, вкратце, весь ряд основных усовершенствований, реализованных в новой микроархитектуре Intel Core с многоядерной оптимизацией. Как видите, каждая из этих технологий по отдельности способна значительным образом повысить эффективность процессора, а все вместе они значительная сила для установления новых стандартов производительности в сочетании с экономным энергопотреблением.

Таким образом, новая микроархитектура Intel Core задействовала все плюсы, уже реализованные в первых поколениях мобильных процессоров Intel Pentium M, взяла всё самое лучшее из наработок архитектуры Intel NetBurst, и, в дополнение, обогатилась самыми свежими инновационными идеями разработчиков. Сегодня мы не будем говорить о конкретной производительности архитектуры Intel Core в той или иной ипостаси. Время ещё не пришло. Однако даже по факту того, что Intel будет использовать Intel Core во всех ключевых сегментах компьютерной техники – серверных, настольных и мобильных системах, говорить о том, что многое поставлено компанией на эту архитектуру. По различным косвенным данным уже можно сделать достаточно точные выводы, что оно действительно того стоит, но… сегодня об этом молчок, дождёмся анонса и результатов лабораторных тестов. Ещё раз напомню, что архитектура Intel Core будет реализована в конкретных розничных продуктах для различных сегментов рынка уже во втором полугодии 2006. Процессоры с рабочим названием Conroe для рынка настольных ПК ожидаются раньше всех. Очевидно, что экономичные чипы нового поколения позволят системным интеграторам заняться разработкой нового поколения тихих, тонких и производительных ПК в совершенно неожиданных форм-факторах.

Что касается ближайшего обозримого будущего, то там на горизонте уже "маячит" следующее поколение чипов на базе архитектуры Intel Core, с ещё большим количеством ядер. В частности, для рынка настольных ПК таким процессором станет Kentsfield - первый четырехъядерный процессор Intel для сегмента наиболее высокопроизводительных настольных ПК, основанный на архитектуре Intel Core с передовыми показателями энергоэффективной производительности. Начало поставок этих процессоров запланировано на первый квартал 2007 года. На этом с вами прощаюсь, но, надеюсь, ненадолго, ибо грядёт…