Byte/RE ИТ-издание

Аналоговый ИИ-процессор IBM на базе памяти с фазовым переходом

Разрабатываемый в IBM Research многоядерный ИИ-процессор на основе резистивной памяти со сменой фазового состояния – одна из реализаций платформы, производящей вычисления непосредственно в памяти, не расходуя время на пересылку аргументов между ОЗУ и собственно процессорами.

Работа вычислительных моделей так называемого генеративного искусственного интеллекта (ИИ) сводится по сути к взвешенному суммированию (сложению чисел, предварительно помноженных на некие весовые коэффициенты). В терминологии высшей алгебры – это операция скалярного умножения векторов или матриц. Отсюда понятие “тензорных вычислений”: тензор – многомерная матрица.

Вычислительные ресурсы, необходимые каждой отдельной процедуре такого суммирования, ничтожны, однако для решения действительно сложных задач (распознавание образов, генерация речи, создание изображений по текстовым описаниям и т. п.) требуются многие миллиарды таких процедур.

В результате основным ограничителем скорости ИИ-систем становится не вычислительная мощность отдельного процессорного ядра, а пропускная способность шины данных, по которой предназначенные для взвешенного суммирования аргументы загружаются в оперативную память. Собственно, по этой причине для адекватного (по времени) исполнения ИИ-задач используют самые современные графические адаптеры с десятками гигабайт видеопамяти на борту: они располагают тысячами элементарных вычислительных ядер, способными эффективно производить несложные операции, и чрезвычайно широким каналом сопряжения этих ядер с видеоОЗУ, если сравнивать с характерной пропускной способностью подсистемы обычной оперативной памяти в рамках архитектуры х86. Ведь, принцип работы канала видеоОЗУ – быстро передавать большие блоки данных в GPU. Принцип же обмена данными между ОЗУ и CPU общего применения (типа x86) – скорее ориентирован на точечный доступ к конкретной ячейке памяти.

Довольно перспективной альтернативой х86-системам с мощными видеокартами для решения ИИ-задач видятся компьютерные платформы, которые производят вычисления непосредственно в памяти – не расходуя время на пересылку аргументов взвешенного суммирования между ОЗУ/видеоОЗУ и собственно выполняющими сложение и вычитание компонентами (процессорами). Одно из физических воплощений такого рода вычислительных систем – разрабатываемый в IBM Research аналоговый многоядерный процессор на основе резистивной памяти со сменой фазового состояния (PCM resistive memory).

Входящие в состав такого процессора наноразмерные резисторы под воздействием слабого электроимпульса частично меняют свою структуру, переходя из аморфной в кристаллическую фазу и обратно вблизи точек приложения управляющего напряжения. В результате сопротивление резистора определенным образом меняется, и если в цепь включено несколько таких резисторов, то взвешенное суммирование проводится с ее помощью совершенно натуральным, аналоговым способом. Процедуры записи аргументов в память (изменение сопротивление отдельных резисторов) и собственно вычисления взвешенной суммы (замер сопротивления итоговой цепи) реализуются в данном случае на одной и той же элементной базе, что и позволяет говорить о выполнении вычислений непосредственно в памяти.

Исследователи из IBM Research создали действующий инженерный прототип 64-ядерного аналогового ИИ-процессора на основе памяти со сменой фазового состояния, управляющие КМОП-схемы которого получены с применением весьма зрелого 14-нм технологического процесса, а наноразмерные резисторы наносятся затем на полупроводниковую основу в ходе дополнительной процедуры. Такая конструкция (в состав каждого ядра входит матрица из 256х256 ячеек с нанорезисторами) позволяет с легкостью выполнять, к примеру, такую чрезвычайно затратную в рамках линейных вычислений операцию, как умножение 8-разрядной матрицы на соответствующий вектор, причем в зависимости от требуемой точности результата производительность системы составляет от 16,1 до 63,1 тераопераций (триллионов операций) в секунду, TOPS. Для сравнения, серверная видеокарта Nvidia Tesla T4 оперирует с теми же 8-разрядными целочисленными аргументами со скоростью 130 TOPS, потребляя притом несоизмеримо больше энергии и обходясь заказчику в десятки тысяч долларов.

Инженерный прототип 64-ядерного аналогового ИИ-процессора, созданного IBM Research в лаборатории Albany NanoTech Complex. Источник: IBM.

Дополнительное преимущество аналогового ИИ-процессора IBM Research состоит в том, что нанорезисторы, изменив свою проводимость под воздействием приложенного напряжения, сохраняют ее состояние до получения следующего управляющего импульса, т. е. загруженные в память вычислителя веса генеративной модели будут сохраняться там без дополнительных усилий даже в случае отключения питания.

О планах запуска новинки в серийное производство информации пока нет.

Вам также могут понравиться