Бенчмарк Стрижа
Последняя дата обновления статьи: 01.06.2026
В Стриже доступно несколько языковых моделей, и у каждой свой баланс качества, скорости и стоимости. Чтобы выбрать, какие модели подключить к сервису, мы прогоняем их через собственный бенчмарк на юридических вопросах. Ниже — результаты для моделей, которые в итоге вошли в список доступных.
Как мы проводили тестирование
Готовых бенчмарков, которые бы оценивали работу ассистента именно по российскому праву, нет, поэтому мы построили свой.
- Эксперты-юристы подготовили тестовые вопросы по разным отраслям права и составили к каждому эталонный ответ — образец того, как на вопрос ответил бы квалифицированный юрист.
- Мы прогнали Стрижа на этих вопросах поочередно с каждой моделью в одинаковых условиях — с одними и теми же источниками и настройками.
- Каждый ответ независимо оценивался по нескольким аспектам — корректность, полнота и обоснованность, структура и качество приведенной судебной практики — путем сравнения с эталонным ответом.
Все оценки приведены к 100-балльной шкале: чем выше значение, тем ближе ответ модели к эталону.
Тестирование мы проводили в стандартном режиме без «Расширенного рассуждения» и с единым для всех моделей ограничением на число шагов, которые Стриж может потратить на подготовку одного ответа.
Что означают столбцы
- Σ оценка — итоговая взвешенная оценка модели, в которой корректности придается наибольший вес. Складывается из оценок по аспектам ниже.
- Корректность — юридическая точность выводов и ссылок на нормы.
- Полнота+обосн. — насколько полно раскрыт вопрос и аргументирован ответ.
- Структура — логичность, читаемость и оформление ответа.
- Суд. практика — релевантность и точность приведенной судебной практики.
- Успешно — доля вопросов, на которые модель довела ответ до конца. В режиме «Все вопросы» прогоны, где модель не справилась, не отбрасываются, а получают минимальный балл, поэтому итоговая оценка учитывает и надежность модели.
- Стоимость, у.е. — относительная стоимость обработки одного вопроса в условных единицах. Пропорционально этому значению расходуется лимит вашей подписки в Стриже: чем больше число, тем быстрее списывается лимит.
- Время, с — среднее время ответа на один вопрос, в секундах.
- Кол-во приведенных первоисточников — среднее число источников, которые модель привлекла к финальному ответу.
Результаты
| Модель | Σ оценка | Корректность | Полнота+обосн. | Структура | Суд. практика | Успешно | Стоимость, у.е. | Время, с | Кол-во приведенныхпервоисточников |
|---|---|---|---|---|---|---|---|---|---|
| Gemini 3 Flash | 80 | 81 | 79 | 93 | 66 | 100% | 4,3 | 38,6 | 11,5 |
| GPT-5.4 Mini | 79 | 82 | 74 | 91 | 66 | 100% | 8,6 | 65,6 | 14,5 |
| DeepSeek V4 Pro | 77 | 77 | 77 | 85 | 69 | 88% | 23,4 | 145,8 | 15,7 |
| DeepSeek V4 Flash | 77 | 77 | 78 | 84 | 70 | 86% | 3,2 | 104,7 | 18,1 |
| Qwen 3.5 397B | 73 | 72 | 71 | 81 | 66 | 82% | 7,4 | 86,1 | 27,3 |
| Gemini 3.1 Pro | 71 | 76 | 68 | 79 | 58 | 96% | 18,3 | 52,9 | 8,8 |
| DeepSeek V4 Pro | 88 | 89 | 88 | 94 | 82 | 88% | 7,4 | 128,9 | 15,6 |
| DeepSeek V4 Flash | 86 | 86 | 87 | 94 | 79 | 86% | 1,0 | 115,8 | 17,5 |
| Qwen 3.5 397B | 86 | 86 | 83 | 95 | 79 | 82% | 2,3 | 78,1 | 25,6 |
| GPT-5.4 Mini | 83 | 85 | 78 | 92 | 73 | 100% | 2,7 | 58,9 | 14,5 |
| Gemini 3 Flash | 82 | 82 | 80 | 94 | 70 | 100% | 1,3 | 35,7 | 11,8 |
| Gemini 3.1 Pro | 75 | 78 | 71 | 82 | 66 | 96% | 5,9 | 51,0 | 8,1 |
Качество ответов оценивается по шкале до 100 — чем выше балл, тем лучше. Стоимость (в условных единицах) и время (в секундах) — наоборот: чем меньше, тем лучше.
Как читать эти результаты
Некоторые цифры могут показаться неожиданными. Например, более легкая Gemini 3 Flash оказалась и точнее, и доступнее, чем более «старшая» Gemini 3.1 Pro, а Qwen 3.5 реже других доводила ответ до конца в сложном агентском сценарии. Это нормально, и вот почему.
Бенчмарк — это статистическая оценка на конкретном наборе вопросов. Языковые модели по своей природе не дают двух абсолютно одинаковых ответов, поэтому от прогона к прогону результаты могут немного меняться. Это не ошибка, а особенность работы с ИИ, поэтому к цифрам стоит относиться как к ориентиру, а не как к рейтингу, высеченному в камне.
Еще один важный момент: все метрики мы снимали не с «голых» моделей, а именно с работы Стрижа — с нашими промптами, поиском по источникам и агентским сценарием. То есть цифры показывают не столько саму модель, сколько то, как она ведет себя внутри Стрижа.
А то, что модели в итоге почти выровнялись по результатам, мы считаем хорошим знаком. Это значит, что Стриж спроектирован так, чтобы выдавать стабильный и качественный результат даже на бюджетных моделях: продуманный поиск по источникам, структура ответа и проверка фактов «подтягивают» более легкие модели и сглаживают разницу. Поэтому вы можете спокойно работать на доступных моделях, а более дорогие подключать там, где этого действительно требует задача.
К тому же у каждой модели свой характер и своя специфика: одна аккуратнее выстраивает структуру ответа, другая точнее работает с судебной практикой, третья отвечает быстрее, но иногда не доводит до конца длинную цепочку рассуждений и поиска. Единственной «лучшей модели на все случаи» просто не существует — оптимальный выбор зависит от вашей задачи. Именно поэтому мы оставляем в сервисе сразу несколько моделей, чтобы вы могли подобрать подходящую.
Мы продолжим развивать Стрижа и адаптировать его под разные модели, чтобы находить лучшие сочетания качества, скорости и доступности для вас, наших пользователей. И, конечно, будем развивать сам бенчмарк, чтобы оценивать работу Стрижа все точнее и честнее. Нам важно, чтобы вы доверяли результатам и видели, как сервис становится лучше.
Почему доступны не все протестированные модели
Мы протестировали больше моделей, чем в итоге включили в сервис. Часть из них в финальный список не вошла по одной или нескольким причинам:
- слишком медленные для комфортной работы;
- слишком дорогие при сопоставимом качестве ответов;
- не дают заметного преимущества перед уже доступными моделями;
- хуже справляются с юридическими задачами;
- не поддерживают агентский сценарий работы — самостоятельный поиск и обращение к источникам, на котором построен Стриж.
В итоге мы оставили модели, которые дают лучший баланс качества, скорости и стоимости, и продолжаем пересматривать этот список по мере выхода новых моделей.
Закажите бенчмарк под свои задачи
Бенчмарк — это открытый процесс, и вы можете на него влиять:
- Прислать свой набор вопросов и эталонных ответов. Мы прогоним через него доступные модели и поделимся результатами. Это особенно полезно, если у вас своя специфика, например узкая отрасль права или типовые формулировки запросов.
- Запросить интересующую вас модель. Если хотите узнать, как конкретная нейросеть справляется с вашими задачами, мы можем добавить ее в прогон бенчмарка.
Напишите нам на support@strizh-legal.ru — приложите вопросы с эталонными ответами или укажите модель, которую хотите протестировать.
Важно понимать
Результаты отражают работу моделей на нашем наборе вопросов и могут отличаться от ваших задач. Бенчмарк — это ориентир для выбора модели, а не гарантия результата по каждому конкретному вопросу. Поэтому мы рекомендуем пробовать разные модели на ваших типичных задачах, а ключевые выводы ответа всегда проверять по кликабельным ссылкам на первоисточники.