AI-технологии Сбера – в открытом доступе

--> Дата: Дек 18, 2024 150

Большие текстовые модели (Transformers / GPT и проч.)Дообучение нейросетевых моделей Искусственный интеллект (AI)Машинное обучение (ML)Нейросетевая модель ПО с открытым кодом (Open Source)Распознавание/синтез речи (ML SpeechToText / TextToSpeech)Сбер (Sber / бывш Сбербанк)

По сообщению Сбера, в открытом доступе появились базовая и инструктивная версии самой быстрой модели GigaChat Lite и самая сильная, согласно бенчмарку ruMTEB, модель на русском языке GigaEmbeddings-instruct. Большое обновление получило и семейство open-source моделей машинного обучения для распознавания речи и эмоций GigaAM (Giga Acoustic Model).

В новой версии акустических моделей GigaAM улучшены подготовка данных и технология предобучения базовой модели. За счет этого удалось значительно снизить количество ошибок в словах (Word Error Rate) при распознавании русскоязычных запросов. Для самой сильной модели семейства GigaAM-RNNT этот показатель улучшен на 25% относительно предыдущей версии и на 56% превосходит OpenAI-Whisper-large-v3.

Кроме того, за счет перехода на другое позиционное кодирование обновленная линейка моделей GigaAM поддерживает дообучение и инференс с Flash Attention, что дает существенное ускорение на современных видеокартах. Для повышения доступности использования моделей команда упростила код, снизила число зависимостей и подготовила конвертацию в формат ONNX (открытая библиотека ПО). Новые модели публикуются с лицензией MIT, что допускает их коммерческое использование.

Разработчикам и бизнесу также стали доступны в open-source базовая и инструктивная версии GigaChat Lite. Эта модель, отмечают в Сбере, очень сильная в своем классе, она хорошо справляется с решением типовых задач, где важна скорость. Архитектура Lite 20B MoE (Mixture-of-Experts) имеет 3.3 млрд активных параметров, при этом качество ее работы соответствует уровню более мощных моделей.

Еще одна модель, GigaEmbeddings-instruct, также выложенная в open-source, преобразует текст в его числовое представление (вектор), кодируя всю информацию, содержащуюся в запросе. Она подходит для решения задач с применением технологии RAG (Retrieval Augmented Generation). GigaEmbeddings-instruct по данным бенчмарка ruMTEB является лучшей в своем классе.

Вся линейка больших языковых моделей, в том числе самая мощная GigaChat MAX, уже доступны бизнесу через облачный API. Теперь самую быструю модель из семейства – GigaChat Lite – можно использовать в своих проектах в открытом доступе, а также присоединиться к исследованию по ее интерпретируемости. Российское AI-сообщество сможет экспериментировать и с GigaEmbeddings-instruct и GigaAM, которые не требуют больших вычислительных мощностей.