Вычислительная техника и микропроцессоры Тема 4 32++ разрядные МП и МК и

advertisement
Вычислительная техника
и микропроцессоры
Тема 4
32++ разрядные МП и МК и
системы на их основе
Лекция 12 Содержание



Методы повышения производительности
современных МП
Иерархия памяти МПС, организация кешпамяти
Архитектура Pentium и др.
Тенденции развития
микропроцессоров


Современный уровень развития
микропроцессорной техники достиг
такого уровня что, в течение 5 лет
происходит смена двух-трех поколений
микропроцессоров.
По прогнозам аналитиков (2004 года) к
2012 году число транзисторов в
микропроцессоре достигнет до 1 млрд.,
тактовая частота возрастет до 10 ГГц, а
производительность достигнет 100 млрд.
оп/с.
4.1 Методы повышения производительности МП и
МПС
Делятся на несколько групп
 Технологические
 Архитектурные
 Уровня системы команд
 Усовершенствование
системных шин,
многоуровневая
организация памяти и.т.д.
4.1 Технологические методы
повышения производительности МП




повышение тактовой частоты,
увеличение числа транзисторов в
кристалле,
увеличение числа слоев металлизации
Каждый из этих методов сталкивается со
своими трудностями
Повышение тактовой частоты



Несмотря на рост быстродействия ключей,
прекратился рост тактовых частот процессоров, хотя
раньше это был синоним производительности.
Остается только увеличивать число ядер - 2, 4, 8, 80,
кто больше?
Несколько лет назад Intel штурмовала вершины
тактовых частот, и в обиходе были цифры 10 ГГц и
выше. В начале прошлого года снизили планку до 4-:5 ГГц. Но прошел год, пропали упоминания и о 5 ГГц.
С некоторого времени существует тенденция, когда
максимальная тактовая частота процессоров с
переходом на более тонкие технологические
процессы, по крайней мере, не растет. (См. таблицу).
Повышение тактовой частоты
Год
1
Технология мкм
2
Длина
канала
нм
3
Макс.
тактовая
частота
процессора
МГц
/Модель
1993
1995 1997
2003
2005
2007
2009
0.5
0.35
0,09
0,065
0,045
0.03
45
35
30
15
3800/
Pentium 4
673
3160*
/
Прогноз
3000
200/
Pent
200
450/
Pent
ium
Pro
0.25
1000/
Pentium III
QuadCore
Xeon
Повышение тактовой частоты
При переходе с 130нм на 90нм тех. процесс прирост
тактовой частоты непропорционален, а при переходе
с 90нм тех. процесса к 65 нм прироста вообще не
было. Это бросается в глаза.
 Еще одно явное подтверждение сказанного, Intel была
вынуждена сообщить о снятии из своих планов
производства процессора Pentium 4 с тактовой
частотой 4ГГц. Это сделано не только по причине
тепловыделения, но и из-за их нестабильной работы.
 Вместо повышения тактовой частоты фирма
применила многоядерность.
Помехи при повышении
частоты



Помехи в цепях питания микросхем известны, это
явление всегда рассматривалось с точки зрения
помехоустойчивости узлов выполненных на
быстродействующих интегральных микросхемах.
Появление чипов с сотнями миллионов ключей,
каждый из которых имеет быстродействие на много
порядков большее приобрело качественно новое
значение.
Изменился не только уровень помехи, но она
приобрела еще и энергетическую составляющую,
расширился спектральный диапазон. Старыми
методами проблема стала нерешаема.
Потребление мощности



Для увеличения скорости вычислений производители
применили известный способ повышения
производительности, используемый в серверах. Это
параллельное вычисление на нескольких процессорах
или многоядерных процессорах, что иногда является
полным аналогом многопроцессорных серверов. Пока
ядер 2 и 4.
И как предел стремления повысить производительность,
это 80 ядерный чип представленный Intel. Он
представляет собой 32-битный процессор, содержащий
100 млн. транзисторов, с рабочим напряжением питания
0,95В, работающий на частоте 3,16 ГГц и потребляющий
98 Вт.
После поднятия тактовой частоты до 4ГГц
производительность возросла, но мощность превысила
120 Вт.
Увеличение числа транзисторов


Для увеличение числа транзисторов используются
более совершенные технологические процессы с
меньшими проектными нормами а также более
плотная компоновка функциональных блоков
кристалла.
Но при минимальном размере деталей внутренней
структуры интегральных схем 0,1-0,2 мкм
достигается оптимум, ниже которого все
характеристики транзистора быстро ухудшаются.
При этом начинают проявляться эффекты
квантовой связи и пр.
Ограничения

Снижение размера транзистора процессора
ограничено:
•
•
•
Чисто технологическими сложностями, влияющими
на стабильность и повторяемость структур
процессоров.
Физическими закономерностями,
ограничивающими минимальные размеры КМОП
транзистора.
Помехами, генерируемыми процессорами. Верхняя
граничная частота, которых растет со снижением
технологических норм. Что в свою очередь
приводит к саморазогреву структуры процессора.
Увеличение числа транзисторов



Проектная норма 0,05-0,1 мкм (50-100 нм) - это
нижний предел твердотельной микроэлектроники,
основанной на классических принципах синтеза схем.
Сейчас работы в области нанотехнологий ведутся в
четырех основных направлениях:
- молекулярная электроника;
- биохимические и органические решения;
- квазимеханические решения на основе нанотрубок;
- квантовые компьютеры.
Три последних пребывают пока еще в значительной
степени на уровне теоретических работ. Наибольшие
практические результаты достигнуты в области
молекулярной электроники.
Число слоев металлизации

Увеличение числа слоев
металлизации (от 4-5 до 10-12)– тоже
не панацея. Кстати, различные фирмы
по-разному подходят к этой
технологии.
4.1 Архитектурные методы повышения
производительности МП



Конвеерная обработка
Суперскалярная
архитектура (Увеличение
числа функциональных
устройств)
Увеличение объема
внутрикристальной
памяти
Конвеерная обработка команд
Повышение степени
внутреннего параллелизма
Каждое семейство микропроцессоров
демонстрирует в следующем поколении
увеличение числа функциональных
исполнительных устройств и улучшение их
характеристик, как временных
(сокращение числа ступеней конвейера и
уменьшение длительности каждой ступени),
так и функциональных (введение ММХ
расширений системы команд и т.д.).
Упрощенная структура суперскалярного
МП
Увеличение числа
функциональных устройств
(ограничения)


Основное препятствие на пути повышения
производительности за счет увеличения числа
функциональных устройств – это организация
загрузки этих устройств полезной работой, которую
можно проводить динамически путем исследования
программного кода на стадии исполнения и
статически на уровне компиляции программ.
Первый подход используется в суперскалярных
микропроцессорах, второй – в микропроцессорах с
длинным командным словом
Методы уровня системы команд




Команды, выбранные на исполнение, могут следовать
друг за другом в неизменном порядке, определяемом
при их выборке из памяти, либо их порядок может
изменяться, позволяя исполнять команды, для
которых готовы операнды. Внеочередное исполнение
команд предполагает следующие механизмы:
переименование регистров с целью устранения
ресурсных зависимостей «запись после чтения» и
«запись после записи»;
предсказание переходов;
динамическое назначение команд на исполнительные
устройства, включая изменение порядка исполнения
по сравнению с порядком, в котором эти команды
были извлечены
Увеличение объема
внутрикристальной памяти
Современное состояние микроэлектроники характеризуется
растущим разрывом между скоростью обработки данных в
микропроцессорах и быстродействием внешней
оперативной памяти.
Время выполнения однотактной команды микропроцессора на
порядок меньше времени доступа к памяти вне кристалла.
В таких условиях прибегают к построению многоуровневой
иерархической памяти с использованием внутрикристальной
кэш-памяти и применению мультитредовой архитектуры
МТА, в которой задержка доступа в память в одном
процессе «скрывается» за временем выполнения других
процессов
Иерархия памяти в современных МПС
Регистровый файл
Кеш 1 уровня
Кеш 2 уровня
Основная память
Внешние носители
Флеш-память
HDD
CD/DVD
FDD и др.
Разновидности кеш-памяти
Существует несколько типов Кеш-памяти. По типу записи кеш
может быть со сквозной записью, с обратной записью, либо
комбинацией того и другого. При записи в кеш со сквозной
записью обновляется как кеш-память, так и основная
память; кеширование с обратной записью обычно
обновляет только кеш-память.
Кеширование с обратной записью обновляет главную память
только при выполнении операции обратной записи, которая
запускается при необходимости, например для
распределения новых строк памяти в уже заполненном
кеше. Операции обратной записи также запускаются
механизмами, используемыми для поддержания
непротиворечивости кеша.
Разновидности кеш-памяти
По типу хранения наиболее сложным является ассоциативный кеш.
Ассоциативная кеш-память имеет дополнительную область для
каждого блока памяти, которая называется тегом. Когда в
ассоциативную память передается адрес, каждый тег
одновременно сравнивается с этим адресом.
Если тег совпадает с адресом, то обеспечивается доступ к блоку
памяти, связанному с этим тегом. Это называется кеш-попаданием.
Если такое совпадение не произошло, то кеш сообщает о кешпромахе.
В случае кэш-промаха требуется дополнительный цикл шины для
обращения в основную оперативную память.
Разновидности кеш-памяти
Кеши в мультипроцессорных системах требуют особого
рассмотрения. Если один процессор выполняет доступ к
данным, кешируемым в другом процессоре, требуется
обеспечить правильность принимаемых им данных.
Если же он выполняет модификацию данных, то все
остальные процессоры, обращающиеся к этим данным,
должны верно принять модифицированные данные. Это
свойство называется непротиворечивостью кеша.
В многопроцессорных системах обеспечение
непротиворечивости кеша может потребовать
вмешательства со стороны системного программного
обеспечения.
Параметры кеш-памяти
Pentium
Pentium был первым CISC процессором
использующим суперскалярную архитектуру.
Pentium имеет два конвейера, которые могут
выполнять две инструкции одновременно.
Каждый конвейер имеет свое арифметическологическое устройство (ALU), совокупность
устройств генерации адреса и интерфейс кэширования данных.
Pentium
Двойной конвейер Pentiumа выполняет
простую команду за пять этапов:
предварительная подготовка,
первое декодирование,
второе декодирование ( генерация адреса ),
выполнение
обратная выгрузка результата.
Упрощенная схема 32-разр х86
Pentium


u-конвейер — основной, выполняет все
операции над целыми и вещественными
числами;
v-конвейер — вспомогательный,
выполняет только простые операции над
целыми и частично над вещественными.
Чтобы старые программы (для 486) в
полной мере использовали возможности
такой архитектуры, необходимо их
перекомпилировать.
Особенности Pentium


64-битная шина данных. Позволяет процессору
Pentium обмениваться вдвое большим объемом
данных с оперативной памятью, чем 486 за один
шинный цикл (при одинаковой тактовой частоте).
Механизм предсказания адресов ветвления.
Применяется для сокращения времени простоя
конвейеров, вызванного задержками выборки команд
при скачкообразном изменении счетчика адреса во
время выполнения команд ветвления. Для этого в
процессоре используется буфер адреса ветвления
BTB (Branch Target Buffer), использующий алгоритмы
предсказания адресов ветвления.
Особенности Pentium



В процессорах Pentium используется кэшпамять первого уровня (кэш L1) объемом
16Кб, разделенная на 2 сегмента: 8Кб для
данных и 8Кб для инструкций. По сравнению
с 486 МП изменён и механизм кэширования.
Улучшенный блок вычислений с плавающей
запятой (FPU, сопроцессор).
Cимметричная многопроцессорная работа
(SMP).
Intel Pentium II



процессор архитектуры x86, анонсированный 7 мая 1997
года. Ядро Pentium II представляет собой
модифицированное ядро P6 (впервые использованное
в процессорах Pentium Pro).
Основными отличиями от предшественника являются
увеличенный с 16 до 32 Кб кэш первого уровня и наличие
блока SIMD-инструкций MMX (появившихся немногим
ранее в Pentium MMX), повышена производительность
при работе с 16-разрядными приложениями.
В системах, построенных на базе процессора Pentium II,
повсеместное применение нашли память SDRAM и шина
AGP.
Три основных направления




Начиная с Pentium II, Intel выделяет три
основных направления в производстве
процессоров:
Pentium – высокопроизводительный
процессор для рабочих станций и
домашнего применения,
Celeron – бюджетный вариант для офиса
или дома,
Xeon – серверный вариант, обладающий
повышенной производительностью.
Download