Categories: Технологии

Сбер открыл доступ к нейросетевой модели генерации текста для русского языка

Также доступ открыт к расширенной версии нейросети mGPT, способной генерировать тексты на 61 языке

Фото: РИА Новости / Максим Блинов

Сбер открыл доступ к нейросетевой модели генерации текста для русского языка ruGPT-3.5 13B. Её дообученная версия лежит в основе сервиса GigaChat. Также банк выложил новую версию модели mGPT 13B — самую большую из семейства многоязычных моделей Сбера, способную генерировать тексты на 61 языке. Обе модели доступны на HuggingFace, и их могут использовать все разработчики (модели опубликованы под открытой лицензией MIT*).

ruGPT-3.5

Внутри GigaChat находится целый ансамбль моделей — NeONKA (NEural Omnimodal Network with Knowledge-Awareness). Для его создания нужно было выбрать базовую языковую модель, которую потом можно было обучать на инструктивных данных. Russian Generative Pretrained Transformer версии 3.5 с 13 млрд параметров (ruGPT-3.5 13B) — новая версия нейросети ruGPT-3 13B.

Это современная модель генерации текста для русского языка на основе доработанной исследователями Сбера архитектуры GPT-3 от OpenAI. Модель ruGPT-3.5 13B содержит 13 миллиардов параметров и умеет продолжать тексты на русском и английском языках, а также на языках программирования. Длина контекста модели составляет 2048 токенов. Она обучена на текстовом корпусе размером около 1 Тб, в который, помимо уже использованной для обучения ruGPT-3 большой коллекции текстовых данных из открытых источников, вошли, например, часть открытого сета с кодом The Stack от коллаборации исследователей BigCode и корпусы новостных текстов. Финальный чекпоинт модели — это базовый претрейн для дальнейших экспериментов.

Модель также доступна на российской платформе ML Space в хабе предобученных моделей и датасетов DataHub. В обучении модели участвовали команды SberDevices и Sber AI при поддержке Института искусственного интеллекта AIRI.

mGPT

Также в открытом доступе опубликована многоязычная модель mGPT 13B под открытой лицензией MIT. Версия mGPT 13B содержит 13 млрд параметров и способна продолжать тексты на 61 языке, включая языки стран СНГ и малых народов России. Длина контекста модели составляет 512 токенов. Она была обучена на 600 Гб текстов на разных языках, собранных из очищенных и подготовленных датасетов multilingual C4 и других открытых источников.

Модель может использоваться для генерации текста, решения различных задач в области обработки естественного языка на одном из поддерживаемых языков путём дообучения или в составе ансамблей моделей.

Модель также доступна на российской платформе ML Space в хабе предобученных моделей и датасетов DataHub.

Андрей Белевцев, старший вице-президент, CTO, руководитель блока «Технологии» Сбербанка:

«Сбер как ведущая технологическая компания выступает за открытость технологий и обмен опытом с профессиональным сообществом, ведь любые разработки и исследования имеют ограниченный потенциал в замкнутой среде. Поэтому мы уверены, что публикация обученных моделей подстегнёт работу российских исследователей и разработчиков, нуждающихся в сверхмощных языковых моделях, создавать на их базе собственные технологические продукты и решения. Пробуйте, экспериментируйте и обязательно делитесь полученными результатами».

Делегация Якутии в ЛНР приняла участие в круглом столе по сохранению памяти защитников Отечества

Мероприятие состоялось в Луганске накануне 83-й годовщины освобождения столицы ЛНР от немецко-фашистских захватчиков

15.02.2026

Гороскоп

Гороскоп для всех знаков зодиака на 16 февраля 2026 года

Во второй половине дня возможны приятные сюрпризы или неожиданные известия от старых друзей

15.02.2026

Погода

Небольшой снег и потепление до -10 градусов: прогноз погоды в Якутии на 16 февраля

В Якутске днем потеплеет до -21…-23 °C

15.02.2026

Избранное
Традиции

Починки 16 февраля: что можно и нельзя делать — традиции и приметы

16 февраля 2026 года православные вспоминают святых Симеона Богоприимца и благочестивую Анну

15.02.2026

Общество
Основное

Топ-10 новостей недели: Первенство по художественной гимнастике, медведь-пестун и якутянин на Супербоуле

Самые яркие события уходящей недели в республике

15.02.2026

Криминал

Убийства, мошенничество и трагедия в гараже: сводка происшествий в Якутии за сутки

Сводка дежурного прокурора

15.02.2026

Сбер открыл доступ к нейросетевой модели генерации текста для русского языка

Recent Posts

Делегация Якутии в ЛНР приняла участие в круглом столе по сохранению памяти защитников Отечества

Гороскоп для всех знаков зодиака на 16 февраля 2026 года

Небольшой снег и потепление до -10 градусов: прогноз погоды в Якутии на 16 февраля

Починки 16 февраля: что можно и нельзя делать — традиции и приметы

Топ-10 новостей недели: Первенство по художественной гимнастике, медведь-пестун и якутянин на Супербоуле

Убийства, мошенничество и трагедия в гараже: сводка происшествий в Якутии за сутки