Бенчмарк Стрижа

Последняя дата обновления статьи: 01.06.2026

В Стриже доступно несколько языковых моделей, и у каждой свой баланс качества, скорости и стоимости. Чтобы выбрать, какие модели подключить к сервису, мы прогоняем их через собственный бенчмарк на юридических вопросах. Ниже — результаты для моделей, которые в итоге вошли в список доступных.

Как мы проводили тестирование

Готовых бенчмарков, которые бы оценивали работу ассистента именно по российскому праву, нет, поэтому мы построили свой.

  • Эксперты-юристы подготовили тестовые вопросы по разным отраслям права и составили к каждому эталонный ответ — образец того, как на вопрос ответил бы квалифицированный юрист.
  • Мы прогнали Стрижа на этих вопросах поочередно с каждой моделью в одинаковых условиях — с одними и теми же источниками и настройками.
  • Каждый ответ независимо оценивался по нескольким аспектам — корректность, полнота и обоснованность, структура и качество приведенной судебной практики — путем сравнения с эталонным ответом.

Все оценки приведены к 100-балльной шкале: чем выше значение, тем ближе ответ модели к эталону.

Тестирование мы проводили в стандартном режиме без «Расширенного рассуждения» и с единым для всех моделей ограничением на число шагов, которые Стриж может потратить на подготовку одного ответа.

Что означают столбцы

  • Σ оценка — итоговая взвешенная оценка модели, в которой корректности придается наибольший вес. Складывается из оценок по аспектам ниже.
  • Корректность — юридическая точность выводов и ссылок на нормы.
  • Полнота+обосн. — насколько полно раскрыт вопрос и аргументирован ответ.
  • Структура — логичность, читаемость и оформление ответа.
  • Суд. практика — релевантность и точность приведенной судебной практики.
  • Успешно — доля вопросов, на которые модель довела ответ до конца. В режиме «Все вопросы» прогоны, где модель не справилась, не отбрасываются, а получают минимальный балл, поэтому итоговая оценка учитывает и надежность модели.
  • Стоимость, у.е. — относительная стоимость обработки одного вопроса в условных единицах. Пропорционально этому значению расходуется лимит вашей подписки в Стриже: чем больше число, тем быстрее списывается лимит.
  • Время, с — среднее время ответа на один вопрос, в секундах.
  • Кол-во приведенных первоисточников — среднее число источников, которые модель привлекла к финальному ответу.

Результаты

Как считать оценку:

Модель Σ оценка Коррект­ность Полнота+­обосн. Струк­тура Суд. практика Успешно Стои­мость, у.е. Время, с Кол-во приведенныхпервоисточников
Gemini 3 Flash 80 81 79 93 66 100% 4,3 38,6 11,5
GPT-5.4 Mini 79 82 74 91 66 100% 8,6 65,6 14,5
DeepSeek V4 Pro 77 77 77 85 69 88% 23,4 145,8 15,7
DeepSeek V4 Flash 77 77 78 84 70 86% 3,2 104,7 18,1
Qwen 3.5 397B 73 72 71 81 66 82% 7,4 86,1 27,3
Gemini 3.1 Pro 71 76 68 79 58 96% 18,3 52,9 8,8

Качество ответов оценивается по шкале до 100 — чем выше балл, тем лучше. Стоимость (в условных единицах) и время (в секундах) — наоборот: чем меньше, тем лучше.

Как читать эти результаты

Некоторые цифры могут показаться неожиданными. Например, более легкая Gemini 3 Flash оказалась и точнее, и доступнее, чем более «старшая» Gemini 3.1 Pro, а Qwen 3.5 реже других доводила ответ до конца в сложном агентском сценарии. Это нормально, и вот почему.

Бенчмарк — это статистическая оценка на конкретном наборе вопросов. Языковые модели по своей природе не дают двух абсолютно одинаковых ответов, поэтому от прогона к прогону результаты могут немного меняться. Это не ошибка, а особенность работы с ИИ, поэтому к цифрам стоит относиться как к ориентиру, а не как к рейтингу, высеченному в камне.

Еще один важный момент: все метрики мы снимали не с «голых» моделей, а именно с работы Стрижа — с нашими промптами, поиском по источникам и агентским сценарием. То есть цифры показывают не столько саму модель, сколько то, как она ведет себя внутри Стрижа.

А то, что модели в итоге почти выровнялись по результатам, мы считаем хорошим знаком. Это значит, что Стриж спроектирован так, чтобы выдавать стабильный и качественный результат даже на бюджетных моделях: продуманный поиск по источникам, структура ответа и проверка фактов «подтягивают» более легкие модели и сглаживают разницу. Поэтому вы можете спокойно работать на доступных моделях, а более дорогие подключать там, где этого действительно требует задача.

К тому же у каждой модели свой характер и своя специфика: одна аккуратнее выстраивает структуру ответа, другая точнее работает с судебной практикой, третья отвечает быстрее, но иногда не доводит до конца длинную цепочку рассуждений и поиска. Единственной «лучшей модели на все случаи» просто не существует — оптимальный выбор зависит от вашей задачи. Именно поэтому мы оставляем в сервисе сразу несколько моделей, чтобы вы могли подобрать подходящую.

Мы продолжим развивать Стрижа и адаптировать его под разные модели, чтобы находить лучшие сочетания качества, скорости и доступности для вас, наших пользователей. И, конечно, будем развивать сам бенчмарк, чтобы оценивать работу Стрижа все точнее и честнее. Нам важно, чтобы вы доверяли результатам и видели, как сервис становится лучше.

Почему доступны не все протестированные модели

Мы протестировали больше моделей, чем в итоге включили в сервис. Часть из них в финальный список не вошла по одной или нескольким причинам:

  • слишком медленные для комфортной работы;
  • слишком дорогие при сопоставимом качестве ответов;
  • не дают заметного преимущества перед уже доступными моделями;
  • хуже справляются с юридическими задачами;
  • не поддерживают агентский сценарий работы — самостоятельный поиск и обращение к источникам, на котором построен Стриж.

В итоге мы оставили модели, которые дают лучший баланс качества, скорости и стоимости, и продолжаем пересматривать этот список по мере выхода новых моделей.

Закажите бенчмарк под свои задачи

Бенчмарк — это открытый процесс, и вы можете на него влиять:

  • Прислать свой набор вопросов и эталонных ответов. Мы прогоним через него доступные модели и поделимся результатами. Это особенно полезно, если у вас своя специфика, например узкая отрасль права или типовые формулировки запросов.
  • Запросить интересующую вас модель. Если хотите узнать, как конкретная нейросеть справляется с вашими задачами, мы можем добавить ее в прогон бенчмарка.

Напишите нам на support@strizh-legal.ru — приложите вопросы с эталонными ответами или укажите модель, которую хотите протестировать.

Важно понимать

Результаты отражают работу моделей на нашем наборе вопросов и могут отличаться от ваших задач. Бенчмарк — это ориентир для выбора модели, а не гарантия результата по каждому конкретному вопросу. Поэтому мы рекомендуем пробовать разные модели на ваших типичных задачах, а ключевые выводы ответа всегда проверять по кликабельным ссылкам на первоисточники.