Яндекс выложил в открытый доступ большую языковую модель (LLM) YandexGPT 5 Lite Pretrain. Новая модель на 8 млрд параметров с поддержкой контекста в 32 тыс. токенов будет полезна разработчикам и представителям бизнеса. Компании могут дообучить ее под задачи, не тратя время на создание собственной модели.
Pretrain-версия имеет обширные знания о мире, понимает контекст и закономерности языка. Модель обучали с помощью технологий Яндекса в два этапа.
На первом этапе использовали русскоязычные и англоязычные тексты, код, вычисления и другие данные общим объемом 15 трлн токенов. На втором этапе модель обучали на высококачественных данных объемом 320 млрд токенов.
Базовую (Pretrain) версию модели можно адаптировать под любые нужды. Она имеет максимально широкое применение и может быть использована в разработке, бизнесе и научных исследованиях. Кроме того, благодаря своей компактности YandexGPT 5 Lite Pretrain не требует больших вычислительных мощностей и будет полезна тем, кому нужна небольшая русскоязычная модель, – говорится в сообщении Яндекса.
YandexGPT 5 Lite Pretrain входит в новое поколение нейросетей Яндекса – YandexGPT 5 – и доступна бесплатно на HuggingFace. Вторая модель семейства, YandexGPT 5 Pro, доступна представителям бизнеса на облачной платформе Yandex Cloud, а пользователям – в чате с Алисой.
Напомним, в последний раз Яндекс выкладывал в открытый доступ большую языковую модель в 2022 году – это была YaLM-100B.
Источник: пресс-релиз Яндекса
Комментарии закрыты, но трэкбэки и Pingbacks открыты.