По результатам бенчмарка, которыми поделились с VN.ru в пресс-службе Авито, созданная специалистами компанией большая языковая модель A-Vibe обошла вошедшие в число лидеров международные аналоги от OpenAI, Google и Anthropic.
В частности, российская разработка обошла такие модели, как GPT-4o mini, Gemma 3 27B, Claude 3.5 Haiku, Mistral Large и другие известные небольшие нейросети.
Тестирование включало задачи различной сложности - от базового понимания текста до продвинутых лингвистических задач, требующих глубокой работы с контекстом.
ИИ-модель хорошо понимает запросы, генерирует код и поддерживает осмысленный диалог. Отмечается, что разработчики сделали модификации модели и теперь она обрабатывает русский текст. Кроме того, улучшилось понимание и генерация русскоязычных предложений.
«Мы рассматриваем возможность выпуска модели в открытый доступ, что станет нашим вкладом в развитие российского рынка ИИ. Важно, чтобы у малого бизнеса была возможность внедрять передовые технологии без значительных инвестиций, образовательным учреждениям создавать прикладные программы, а независимым разработчикам строить современные сервисы на базе отечественных технологий», — отмечает руководитель разработки больших языковых моделей компании Анастасия Рысьмятова.
Технология, кстати, уже протестирована на написание описаний и ускорении договоров о сделках в мессенджере. До конца года компания планирует добавить ещё 20 новых сценариев, а в будущем может открыть код модели для всех.
«Важно создать оптимальное соотношение между качеством, скоростью работы и затратой ресурсов. Такой баланс позволяет обеспечивать быструю обработку запросов даже в периоды пиковой нагрузки и масштабировать технологию на всю аудиторию», – отметил старший директор по данным и аналитике компании Андрей Рыбинцев.
*бенчмарк - задача, служащая эталонным тестом производительности компьютерной системы.
Познакомиться с рейтингом можно на сайте MERA https://mera.a-ai.ru/ru/leaderboard. В фильтре «Размер модели» нужно выбрать «≥5B — 10B», чтобы получить рейтинг среди небольших моделей. Цифры Human Benchmark — это результат тестирования реальных людей.
Комментарии