Снижение влияния радиации на ПЛИС, выполненные по технологии статического ОЗУ

На протяжении многих лет эффекты, связанные с воздействием радиационного излучения, доставляли много проблем  разработчикам электронных систем. К сожалению, это влияние становится все более критическим, поскольку в процессах изготовления интегральных схем используются все меньшие и меньшие технологические нормы. Проблема особенно остро стоит в случае ПЛИС, которые содержат в числе прочего конфигурационную память на основе статического ОЗУ (SRAM).

Современные системы, необходимые для поддержания жизнедеятельности нашей цивилизации, требуют огромных вычислительных мощностей. Существуют различные варианты реализации вычислительных модулей в таких системах. Например, с использованием  микроконтроллеров (MCU), микропроцессорных блоков (MPU), графических процессоров (GPU), систем на кристалле (SoC - которые можно рассматривать как MCU / MPU c памятью  и аппаратными ускорителями, реализованными в одном кристалле), ПЛИС (FPGA) и ПЛИС со встроенными микроконтроллерами / микропроцессорами (SoC FPGA).

Применение ПЛИС целесообразно тогда, когда требуется осуществлять высокоскоростную параллельную обработку больших массивов данных.

ПЛИС,  выпускаемые  по  технологии  статического ОЗУ (SRAM), содержат в том числе и конфигурационную память. Поскольку эта память отвечает за конфигурацию устройства, любое изменение ее содержимого может вызвать ошибку. Одним из решений, способных уменьшить влияние радиационного излучения на ПЛИС, может стать использование новых технологических процессов производства ИС.

Радиационные воздействия.

Различают несколько видов радиационных воздействий. Одним из них является электромагнитное излучение (ЭМИ) – распространяющееся в пространстве возмущение электромагнитных полей. Электромагнитное излучение принято делить по частотным диапазонам (рис.1.).

Рис.1. Электромагнитный спектр

В ультрафиолетовой полосе частот и выше фотон обладает достаточной энергией, чтобы при ударе об атом или молекулу, оторвать от них электрон, оставив положительный ион, и тем самым ионизировать вещество. Потоки фотонов, способные ионизировать вещество, называют «ионизирующим излучением».

Другой вид излучения основан на таких элементарных частицах, как электроны (также известные как бета-частицы), протоны, нейтроны и атомные ядра. И точно также, если одна из этих частиц движется достаточно быстро, при контакте с атомом или молекулой она может передать достаточно энергии, чтобы оторвать электрон от этого атома или молекулы, тем самым создав положительный ион.

Ионизирующее излучение способно оказывать самые разные неблагоприятные воздействия на полупроводниковые приборы. Например, со временем излучение может разрушить кристаллическую решетку полупроводника или вызвать накопление электрического заряда между различными слоями микросхемы. Результатом может быть изменение порогов переключения транзисторов, увеличение  токов утечки, увеличение энергопотребления и снижение производительности. По этой причине проектировщики, которые намереваются использовать полупроводниковые устройства в агрессивной радиационной среде, должны учитывать общую накопленную дозу (TID - Total Ionizing Dose), которой устройство подвергается с течением времени.

Другой класс радиационных воздействий, называемый однократными эффектами (SEE-Single Event Effects), вызывает последствия мгновенно. SEE вызывает немедленный отклик в интегральной схеме, который может привести к непреднамеренному изменению состояния ее функциональных узлов (например, бит регистра или ячейка памяти переключаются из состояния 0 в состояние 1 или наоборот). Такое событие (Рис.2.) называют однократным сбоем (SEU - Single Event Upset).

Рис.2. Однократный сбой (SEU), приводящий к изменению бита регистра

SEE также может стать причиной возникновения однократных переходных процессов (SET- Single Event Transient) – ложных импульсов тока в комбинаторной логике схемы. Когда такой всплеск (SET) непреднамеренно загружается в регистр или элемент памяти, он вызывает однократный сбой SEU (Рис.3).

В отличие от проблем, вызванных общей накопленной дозой излучения (TID), однократный сбой (SEU) считается «мягкой ошибкой» (soft error), поскольку ее можно исправить. Есть и другие потенциальные проблемы, такие как однократное тиросторное защелкивание (SEL- Single Event Latch-up), однократные сбои множества ячеек (MCU - Multiple Cell Upsets) и однократные сбои множества битов (MBU- Multiple Bit Upsets).

Рис.3. Однократный переходный процесс (SET) в комбинаторной логике

Сложности применения ПЛИС в радиационной среде

Все полупроводниковые интегральные схемы восприимчивы к воздействию радиации, и ПЛИС не исключение. ПЛИС, выпускаемые по различным полупроводниковым технологиям, различаются производительностью, стойкостью к радиационным воздействиям и стоимостью. Разработчикам приходится искать компромисс между этими параметрами. Производители ПЛИС стремятся удовлетворять растущие запросы разработчиков аппаратуры по производительности и радиационной стойкости микросхем, внедряя для этого  новые технологические процессы.

Классификация ПЛИС по технологии производства

Обычно  ПЛИС состоит из конфигурируемых логических блоков, реализующих требуемую логическую функцию; программируемых электронных связей между конфигурируемыми логическими блоками; программируемых блоков ввода/вывода, обеспечивающих связь внешних выводов микросхемы с внутренней логикой. Таким образом, ПЛИС можно представить как множество маленьких «островков» программируемой логики в «море» программируемых межсоединений.  В современных ПЛИС могут быть дополнительно встроены блоки памяти, блоки DSP или умножители, PLL и другие компоненты (Pис.4.). Главной особенностью ПЛИС является то, что логика ее работы определяется не на фабрике, изготовителем микросхемы, а путем дополнительного программирования микросхемы с помощью специальных средств.

Рис.4. Упрощенное изображение программируемой матрицы ПЛИС

По технологии производства ПЛИС можно выделить три основных класса: микросхемы, выполненные по технологии пережигаемых перемычек (antifuse), микросхемы, выполненные на основе ячеек флэш-памяти (Flash) и микросхемы на основе ячеек статического ОЗУ (SRAM). ПЛИС, выполненные по технологии antifuse, практически невосприимчивы к воздействию радиации, но они являются однократно программируемыми (OTP – one time programmable), а это означает, что после того, как устройство сконфигурировано, невозможно будет изменить прошивку. С другой стороны, эти ПЛИС энергонезависимы (они сохраняют свою конфигурацию при отключении питания), и соответственно имеют быстрое время включения. ПЛИС, выполненные на основе флэш-памяти, также энергонезависимы, и также «мгновенно включаются». Помимо всего прочего, это делает их весьма удобным решением для построения  приложений управления питанием, в которых эти ПЛИС являются первым устройством, которое включается, и последним, которое выключается. В отличие от ПЛИС, выполненных по технологии antifuse, ПЛИС на основе флэш-памяти можно перепрограммировать. ПЛИС, основанные на ячейках SRAM-памяти, – энергозависимые, их конфигурация теряется при отключении питания. Соответственно, каждый раз при включении питания конфигурация должна загружаться в них из внешнего источника. Одним из основных преимуществ ПЛИС на основе SRAM является то, что они могут быть созданы с использованием передовых процессов КМОП производства по самым современным проектным нормам. Для сравнения - ПЛИС, выполненные по технологии antifuse или флэш-памяти, требуют дополнительных этапов производства, поэтому они обычно отстают от своих аналогов на основе SRAM-памяти на одну или две технологических нормы. Считается, что ПЛИС, основанные на технологии флэш-памяти, менее восприимчивы к воздействию ионизирующего излучения, чем ПЛИС, основанные на ячейках SRAM-памяти, но они существенно уступают вторым по возможностям и ресурсам.

Однократные сбои (SEU)  и методы борьбы с ними

Ионизирующее воздействие может вызвать однократный сбой (SEU) в цепях интегральной схемы, когда происходит непреднамеренное изменение состояния регистра или ячейки памяти (содержимое изменяется с 0 на 1 или наоборот).

В случае с регистром одним из способов борьбы с однократными сбоями (SEU) является реализация принципа мажоритарного резервирования с троированием (TMR - Triple Modular Redundancy). Эта схема подразумевает параллельное включение трех  регистров с последующим подключением их выходов к мажоритарной схеме (Рис.5.), для выбора большинства (двух из трех) состояний регистров. В этом случае одиночный сбой будет ограничен затронутым регистром и не повлияет на работоспособность системы.

Рис.5. Мажоритарное резервирование с троированием (TMR) на уровне регистров

Ионизирующее воздействие также может стать причиной возникновения переходных процессов - ложных импульсов тока в выходных цепях элементов ПЛИС (SET- Single Event Transient).

Если переходный процесс (SET) закончился до прихода очередного тактового сигнала (и не нарушает время установки (Tsetup) или удержания (Thold) регистра на выходе комбинаторной логики), то это не повлияет на работоспособность схемы. Однако, если такой переходный процесс (SET) произойдет на входе регистра во время изменения состояния тактового сигнала, то регистр войдет в метастабильное состояние и  переходный процесс (SET) вызовет одиночный сбой (SEU). Один из способов борьбы с переходными процессами (SET) – внесение дополнительных задержек на входе регистров TMR. Таким образом гарантируется, что как минимум два из трех регистров TMR не войдут в метастабильное состояние и переходный процесс, вызванный ионизирующим излучением, не вызовет сбой системы (Рис.6.).

Рис. 6. Уменьшение влияния переходных процессов (SET), путем внесения дополнительных задержек

В недалеком прошлом радиационное излучение считалось в первую очередь проблемой для аэрокосмической промышленности. Разработчикам таких систем приходилось платить непомерные суммы денег за специализированные радиационностойкие ПЛИС. Эти микросхемы были основаны на технологии antifuse, которая является однократно программируемой (OTP – One Time Programmable). Это позволяло свести  к минимуму проблемы связанные с радиационным излучением, но это также означало, что разработчики потеряли одно из ключевых преимуществ, предлагаемых  ПЛИС. В наши дни даже военная и аэрокосмическая промышленность начинают считать деньги, а это значит, что они все больше склоняются  к использованию готовых коммерческих устройств (COTS - Commercial Off-The-Shelf). При использовании коммерческих микросхем методом борьбы с однократными сбоями является создание схемы TMR в проекте ПЛИС. К счастью, современные средства проектирования позволяют реализовать такие схемы без больших трудозатрат. Здесь следует отметить, что на самом деле TMR может не потребоваться для всех частей проекта. Предположим, у нас есть спутник, делающий снимки с высоким разрешением. Каждое изображение может быть сначала сохранено и предварительно обработано в ПЛИС. Теперь предположим, что ионизирующее воздействие  вызывает изменение одного бита в изображении. Полученное изображение может быть отфильтровано любыми алгоритмами обработки, и однократный сбой не повлияет на качество изображения. Для сравнения: в случае возникновения однократного сбоя в блоке памяти, содержащем какие-либо критически важные переменные и процедуры управления полетом, последствия такого сбоя сбой можут привести к самым неприятным последствиям, поэтому крайне необходимо предусмотреть защиту этого блока для поддержания целостности данных.

Однократные сбои SEU и переходные процессы SET относят к «мягким ошибкам» (soft errors), потому, что их можно исправить, используя стандартные механизмы обнаружения (SED- Soft Error Detection)  и исправления ошибок (SEC- Soft Error Correction). Для защиты от ионизирующих излучений был разработан особый вид памяти с аппаратной коррекций ошибок (ECC – память). Память с коррекцией ошибок может обнаружить и исправить 1 бит измененных данных. Подобная функциональность требует особой поддержки со стороны контроллера памяти.

Существуют и другие методы борьбы с однократными сбоями, такие как мажоритарное резервирование с учетверением (QMR), при котором для повышения надежности используются четыре регистра вместо трех. В самых экстремальных случаях можно реализовать несколько версий проекта, каждая из которых реализована со своим механизмом защиты от радиационного излучения. Но даже такая система не исключает возникновения ошибок и сбоев.

 

Однократные сбои множества ячеек (MCU),  тиристорное защелкивание (SEL)  и методы борьбы с ними

Под действием ионизирующей частицы (Рис.7, красная стрелка) в КМОП-микросхемах происходит образование воронки из электронно-дырочных пар. В электрическом поле дырки и электроны  разделяются и в подзатворном диэлектрике МОП-транзистора может образоваться заряд (Рис.7, синие стрелки), который будет влиять на работу транзистора как дополнительно приложенное напряжение. МОП-транзистор будет открываться, что приведет к возникновению однократного сбоя (Рис. 9, слева).

Рис.7. Образование воронки из электронно-дырочных пар под действием ионизирующего излучения

Постоянно уменьшающиеся производственные процессы приводят к тому, что такой заряд может образоваться одновременно у нескольких расположенных рядом транзисторов. Это в свою очередь может нарушить работу нескольких ячеек памяти или изменению состояний нескольких регистров (Рис.8.) Такое событие называют однократным сбоем множества ячеек (MCU- Multiple Cell Upsets).

Рис. 8. Влияние ионизирующего излучения: а) на одну ячейку памяти; б) на несколько ячеек памяти

Однократный сбой множества ячеек (MCU), который возникает в одной части схемы или в одном блоке памяти, может негативно повлиять на способность системы исправлять ошибки.

При ионизирующем воздействии может возникнуть не только однократный сбой, но и условно жесткий отказ, вызванный защелкиванием (тиристорным эффектом) (SEL – Single Event Latch-up). Результатом будет формирование короткого замыкания между землей и питанием, потеря работоспособности пораженного элемента и резкий рост тока потребления, способный привести к «выгоранию» пораженного элемента и функциональному отказу. При возникновении SEL необходимо немедленно выключить и снова включить питание микросхемы, чтобы предотвратить серьезное повреждение. Само собой разумеется, что выключение и включение питания может быть проблематичным для многих систем.

Снижение влияния радиационных воздействий в ИС, выполненные по технологии SRAM

Из-за особенностей технологического процесса  ПЛИС, выполненные по технологии SRAM-памяти, обладают наибольшими ресурсами и производительностью, но больше подвержены влиянию ионизирующих воздействий. Существует много различных механизмов борьбы с радиационными воздействиями для этого технологического процесса. Одним из методов является иcпользование циклических избыточных кодов (CRC – Cyclic  Redundancy Check).  Суть этого метода заключается в том что, при записи в ячейки памяти к данным добавляется короткое контрольное значение, основанное на содержимом записываемых данных. При считывании ячеек памяти  расчет повторяется, и, если контрольные значения не совпадают, можно предпринять корректирующие действия для восстановления поврежденых данных.

В 2011 компания Xilinx представила свою радиационностойкую ПЛИС Virtex-5QV, выполненную по проектной норме 65 нм. В отличие от 6-транзисторных (6T) ячеек конфигурационной памяти, используемых в обычных ПЛИС на основе SRAM, радстойкая ПЛИС Virtex-5QV содержала 12-транзисторные (12T) ячейки конфигурационной памяти. При такой реализации конфигурационной памяти каждый транзистор в одной части ячейки имеет комплементарную пару в другой части, и однократный сбой  может произойти только при ионизации комплементарной пары транзисторов. Это очень эффективный метод, но он требует увеличения количества транзисторов конфигурационной памяти в два раза, что приводит к увеличению площади кристалла микросхемы и увеличению ее стоимости.

ПЛИС, выполненные по технологии флэш-памяти, относительно невосприимчивы к воздействию излучения, но во многих случаях конфигурационная флэш-память реализована в виде отдельного блока на кристалле. Помимо этого блока такие микросхемы имеют «теневые» ячейки конфигурационной памяти на основе  SRAM, которые распределены по всей площади кристалла. Когда на такие ПЛИС подается питание, конфигурация копируется из флеш-памяти в «теневые»  ячейки конфигурационной памяти на основе  SRAM. И мы снова приходим к необходимости использования защиты от радиационных воздействий.

Методы борьбы с радиационным воздействием на технологическом уровне

Использование специальных методов защиты на аппаратном или программном уровне существенно уменьшает влияние ионизирующих воздействий на ПЛИС, но приводит к увеличению площади кристалла и соответственно к удорожанию микросхем. Инженеры компании Lattice  Semiconductor предложили принципиально другое решение – на технологическом уровне. Они представили новую платформу  ПЛИС - Lattice Nexus, выполненную по технологическому процессу компании Samsung 28 нм Кремний-на-Изоляотре (К-н-И - Fully Depleted Silicon On Insulator, FD-SOI). Этот технологический процесс по своей природе устойчив к радиации. Нештатный пробой может произойти только при попадании ионизирующей частицы непосредственно в область канала, а ионизация в остальной подложке никакой роли не играет (Pис.6.). В микросхемах, изготовленных по технологии 28 нм К-н-И область канала настолько мала, что в ней  попросту не может накопиться достаточный заряд для изменения порогового напряжения транзистора. Помимо всего прочего, этот процесс также невосприимчив к  тиристорному защелкиванию (SEL). Напомним, что для микросхем, выполненных по технологии объемного кремния (КМОП), в случае возникновения тиристорного эффекта необходимо немедленно снять питание, а затем подать его вновь во избежание повреждений микросхемы. Это означает, что система с такой микросхемой перестанет функционировать на какое-то время, что может быть критичным для многих приложений.

Благодаря особенностям технологического процесса платформы Lattice  Nexus, изменяя напряжение смещения подложки,  разработчики могут выбирать режим работы ПЛИС: высокопроизводительный (HP- high performance) или низкопотребляющий (LP – low power). Более того, это можно делать динамически в режиме реального времени.

Рис. 9. Сравнение воздействия радиоционного излучения на одиночную ячейку, выполненную: а) по технологии объемного кремния; б) по технологии к-н-и

Технологический процесс к-н-и также невосприимчив к сбоям множества ячеек (MCU). Рассмотрим воздействие радиационного излучения на микросхемы, выполненные по технологии КМОП (слева) и по технологии к-н-и (Рис. 10). Ионизирующее воздействие (красная стрелка) создает воронку из электронно-дырочных пар. В случае технологии КМОП, помимо накопления заряда в канале одного транзистора (синие стрелки), заряд может также накапливаться в канале соседнего (фиолетовые стрелки), что может привести к возникновению  сбоя в обоих транзисторах.

Рис.10. Сравнение воздействия радиоционного излучения на одиночную ячейку, выполненную: а) по технологии объемного кремния; б) по технологии к-н-и

В случае технологии К-н-И слой изолятора (желтый) значительно уменьшает критическую область каждой ячейки, тем самым значительно затрудняя влияние ионизирующего воздействия на несколько ячеек.

Снижение количества отказов (FIT) до минимума

Разработчики систем, критических к безопасности, оперируют параметром failure in time (FIT), который показывает количество отказов за один миллиард  часов работы устройства. Для ПЛИС, выполненных по технологическому процессу КМОП 28-нм, FIT составляет около 100. Для сравнения, ПЛИС компании Lattice, выполненные по технологическому процессу  К-н-И 28 нм, коэффициент FIT составляет всего 1. Но это только начало, разработчики Lattice ставят перед собой задачу снизить показатель FIT до нуля.

Первым семейством ПЛИС разработанным с использованием платформы Lattice Nexus, является CrossLink-NX.  Это семейство содержит блоки памяти с кодами коррекции ошибок (ECC- error correction code), а также аппаратные блоки обнаружения и исправления случайных сбоев (SED/SEC – soft error detection/correction), что в свою очередь повышает  надежность ПЛИС. Хотя в ПЛИС, выполненных по технологии 28 нм КнИ, такие сбои чрезвычайно редки. Теоретически они возможны, но даже если ионизирующее воздействие каким-то образом вызовет однократный сбой, аппаратные блоки обнаружат и исправят ошибку.

Выводы

Влияние радиационного излучения на интегральные схемы – огромная тема для исследований. Уже разработано множество методов борьбы с ионизирующим излучением.  Много эффектов еще не изучено до конца. Существуют различные технологии производства ПЛИС,  все они имеют свои преимущества и недостатки. Платформа Lattice Nexus, разработанная по технологическому процессу 28 нм К-н-И, безусловно, заслуживает внимания.

Статья опубликована в журнале КиТ №2`2021 (февраль)