Новости

В замере по бенчмарку тестировали 20 AI-моделей

В первом замере по бенчмарку MERA приняли участие более 20 AI-моделей

MERA (Multimodal Evaluation for Russian-language Architectures) - это независимый бенчмарк для оценки фундаментальных моделей для русского языка, совместно разработанный на площадке Альянса в сфере искусственного интеллекта исследователями индустрии и MTS AI и Сбером. Первые результаты представлены на основе сравнения более 20 моделей, подавших заявку на участие

Для независимой оценки моделей организаторы бенчмарка разработали систему, которая включает 21 задачу в инструктивном формате, замеры ряда популярных открытых моделей для сравнения, кодовую базу, веб-сайт с личным кабинетом и системой оценки, а также человеческий бенчмарк — средняя оценка того, как эти же задания выполняют люди. Бенчмарк будет дорабатываться по результатам работы с экспертами. Подробнее о методологии организаторы бенчмарка рассказали в научной статье. 

Сейчас в лидерборде представлены более 20 опенсорсных моделей и модель GigaChat PRO. Он постоянно пополняется, так как создать сабмит на проверку может любой разработчик AI-модели или участники Альянса. Результаты проверки обрабатываются и появляются в личном кабинете. При желании разработчики могут сделать их публичными, после модерации и дополнительной проверки логов и параметров модели организаторами.

На данный момент среди AI-моделей, принявших участие в первых замерах, лидирует GigaChat PRO, разработанная Сбербанком.

Концепция бенчмарка MERA была анонсирована на международной конференции Сбера AI Journey 2023. В создании тестов участвовали ряд компаний-участниц Альянса, а также академические партнеры Skoltech AI и НИУ ВШЭ. Бенчмарк позволяет оценивать предобученные модели (формат претрейнов), а также модели дополнительно дообученные на инструкционных данных (SFT формат). 

Перейти к архиву >>

НАШИ ПАРТНЕРЫ

           

Создание сайтов NewMark