Помехоустойчивое кодирование для субмикронных динамических ОЗУ К.А. Петров НИИ системных исследований РАН, Москва Содержание • • • • • • • Цели Динамическая память Помехоустойчивое кодирование Технология CHIPKILL Кодирование с исправлением смежных ошибок Кодирование с восстановлением байта Заключение 2 Цели • • • Обзор существующих методов защиты подсистемы динамической памяти от сбоев и функциональных отказов Совершенствование этих методов средствами помехоустойчивого кодирования Сравнительный анализ полученных решений и представление набора рекомендаций по их применению в современных подсистемах динамической памяти микропроцессорных систем 3 Многократные сбои в динамической памяти + 110нм Δ 90 нм Сбоев/Гб □ 170/180 нм Количество сбоев от одного события 4 Динамическая память • • • Наибольший объем в микропроцессорной системе Относительно небольшая скорость обмена Множество кристаллов Как 5 Помехоустойчивое кодирование 6 Помехоустойчивое кодирование • • • • • Хэмминг SEC – single-error-correction Хсяо SEC-DED – single-error-detection, double-error-correction S4EC-DED single-4-error-correction, double-error-correction SEC-DAEC single-error-correction, double-adjacent-error-correction Scrubbing - самовосстановление информации 7 Технология CHIPKILL • • Количество кристаллов равно количеству кодовых битов Только пакетные обращения 8 Технология CHIPKILL+DAEC/SbEC • • Количество кристаллов в два раза меньше количества кодовых битов Только пакетные обращения 9 SbER-кодирование Single-byte-error-repair Кодирование с восстановлением байта 10 Сравнительный анализ Вид кодирования №1 №2 №3 №4 №5 Количество СБИС Пакетное чтение и запись 72 Да 36 Да 38 Да 19 Да 9 Нет Обнаружение всех двукратных ошибок Стойкость к многократным сбоям Да Нет Да Да Да Да Да Да Да Нет №1 – Chipkill №2 – Chipkill+SEC-DAEC №3 – Chipkill+SEC-DED-DAEC №4 – Chipkill+S4EC-DED №5 – SbER 11 Сравнительный анализ 80 SEC-DED Количество кристаллов 70 60 50 SEC-DED-DAEC 40 30 SEC-DAEC S2EC S4EC-DED 20 Reed-Solomon 10 SbER 0 0 10 20 30 40 50 60 70 Относительная схемотехническая сложность и время работы кодер-декодера 12 Заключение (1/2) • • Для защиты субмикронных ДОЗУ от сбоев наилучшим по критериям аппаратурной избыточности, количества СБИС ДОЗУ и быстродействия методом при отсутствии многократных сбоев является метод, использующий коды с восстановлением байта При наличии многократных сбоев наилучшим по критерию количества СБИС ДОЗУ является метод, использующий технологию Chipkill с кодом, исправляющим пакетные ошибки кратности четыре (Chipkill+S4EC-DED). Он также является наилучшим по критерию сбоеустойчивости без учета размера и быстродействия кодер-декодера 13 Заключение (2/2) • • • При разработке устойчивой к SEFI одного из кристаллов ДОЗУ необходимо либо снижать стойкость к многократным сбоям, либо увеличивать количество кристаллов. Нахождение оптимума – отдельная задача Перспективным направлениями являются: • каскадное кодирование для компенсации недостатков SbER-кодов • помехоустойчивые коды для исправления пакетных ошибок И Chipkill, и SbER-коды можно использовать как в динамической, так и в статической памяти 14