Бенчмарк Стрижа

Последняя дата обновления статьи: 18.07.2026

В Стриже доступно несколько языковых моделей, и у каждой свой баланс качества, скорости и стоимости. Чтобы выбрать, какие модели подключить к сервису, мы проверяем их собственным бенчмарком на юридических вопросах. Ниже — результаты для моделей, которые в итоге вошли в список доступных, а также для флагманской GPT-5.6 Sol: она показала лучший результат бенчмарка, но в список доступных пока не вошла из-за высокой стоимости.

Как мы проводили тестирование

Готовых бенчмарков, которые бы оценивали работу ассистента именно по российскому праву, нет, поэтому мы построили свой.

Эксперты-юристы подготовили тестовые вопросы по разным отраслям права и составили к каждому эталонный ответ — образец того, как на вопрос ответил бы квалифицированный юрист.
Мы прогнали Стрижа на этих вопросах поочередно с каждой моделью в одинаковых условиях — с одними и теми же источниками и настройками.
Каждый ответ независимо оценивался по нескольким аспектам — корректность, полнота и обоснованность, структура и качество приведенной судебной практики — путем сравнения с эталонным ответом.

Все оценки приведены к 100-балльной шкале: чем выше значение, тем ближе ответ модели к эталону.

Тестирование мы проводили в стандартном режиме без «Расширенного рассуждения» и с единым для всех моделей ограничением на число шагов, которые Стриж может потратить на подготовку одного ответа.

Новые модели — семейство GPT-5.6 (Sol, Terra, Luna) и Gemini 3.5 Flash — тестировались на репрезентативной выборке из того же набора вопросов: она сохраняет пропорции простых и сложных вопросов и воспроизводит итоговые показатели полного набора, поэтому значения в таблице сопоставимы между собой.

Что означают столбцы

Σ оценка — итоговая взвешенная оценка модели, в которой корректности придается наибольший вес. Складывается из оценок по аспектам ниже.
Корректность — юридическая точность выводов и ссылок на нормы.
Полнота+обосн. — насколько полно раскрыт вопрос и аргументирован ответ.
Структура — логичность, читаемость и оформление ответа.
Суд. практика — релевантность и точность приведенной судебной практики.
Стоимость, у.е. — относительная стоимость обработки одного вопроса в условных единицах: 1 у.е. соответствует самой доступной модели (DeepSeek V4 Flash). Пропорционально этому значению расходуется лимит вашей подписки в Стриже: чем больше число, тем быстрее списывается лимит.
Время, с — среднее время ответа на один вопрос, в секундах.
Кол-во приведенных первоисточников — среднее число источников, которые модель привлекла к финальному ответу.

Результаты

В таблице — актуальный список моделей Стрижа. Для качества лучше большее значение, для стоимости и времени — меньшее. Таблицу можно сортировать кликом по заголовку столбца.

Модель	Σ оценка	Корректность	Полнота+обосн.	Структура	Суд. практика	Стоимость, у.е.	Время, с	Кол-во приведенныхпервоисточников
GPT-5.6 Sol недоступна в сервисе	87	88	88	85	85	35,11	103,3	23,6
DeepSeek V4 Flash	85	85	86	92	75	1,00	79,7	28,3
GPT-5.6 Terra	85	87	84	85	83	13,46	52,8	17,5
GPT-5.6 Luna	85	85	83	90	81	5,38	41,2	21,0
Gemini 3.5 Flash	85	84	84	90	81	6,73	193,3	14,3
DeepSeek V4 Pro	84	84	85	92	76	5,29	183,9	22,9
Gemini 3.1 Pro	78	83	76	89	61	7,61	96,5	9,5

Qwen 3.5 397B	81	80	80	96	72	2,54	125,5	19,0
Gemini 3 Flash	80	80	79	93	71	2,83	67,5	19,5
GPT-5.4 Mini	79	80	74	90	70	2,92	77,0	21,7

Качество ответов оценивается по шкале до 100 — чем выше балл, тем лучше. Стоимость (в условных единицах) и время (в секундах) — наоборот: чем меньше, тем лучше. GPT-5.6 Sol протестирована в бенчмарке, но не входит в список доступных моделей сервиса из-за высокой стоимости обработки запросов. Архивные модели выведены из основного списка — их заменили более новые поколения; они по-прежнему доступны в разделе «Архивные модели» селектора, а их результаты приведены для справки.

Как читать эти результаты

Лучший общий результат показала флагманская GPT-5.6 Sol — но и стоимость одного вопроса у нее в десятки раз выше, чем у самой доступной модели, поэтому в список доступных моделей сервиса она пока не вошла. При этом DeepSeek V4 Flash при минимальной стоимости идет вровень с куда более дорогими моделями — это лучшее соотношение цены и качества в каталоге. Такие расклады — нормальная картина, и вот почему.

Бенчмарк — это статистическая оценка на конкретном наборе вопросов. Языковые модели по своей природе не дают двух абсолютно одинаковых ответов, поэтому при повторных замерах результаты могут немного меняться. К цифрам стоит относиться как к ориентиру, а не как к рейтингу, высеченному в камне.

Еще один важный момент: все метрики мы снимали не с «голых» моделей, а именно с работы Стрижа — с нашими промптами, поиском по источникам и агентским сценарием. То есть цифры показывают не столько саму модель, сколько то, как она ведет себя внутри Стрижа.

А то, что модели в итоге почти выровнялись по результатам, мы считаем хорошим знаком. Это значит, что Стриж спроектирован так, чтобы выдавать стабильный и качественный результат даже на бюджетных моделях: продуманный поиск по источникам, структура ответа и проверка фактов «подтягивают» более легкие модели и сглаживают разницу. Поэтому вы можете спокойно работать на доступных моделях, а более дорогие подключать там, где этого действительно требует задача.

К тому же у каждой модели свой характер и своя специфика: одна аккуратнее выстраивает структуру ответа, другая точнее работает с судебной практикой, третья отвечает быстрее, но иногда не доводит до конца длинную цепочку рассуждений и поиска. Единственной «лучшей модели на все случаи» просто не существует — оптимальный выбор зависит от вашей задачи. Именно поэтому мы оставляем в сервисе сразу несколько моделей, чтобы вы могли подобрать подходящую.

Мы продолжим развивать Стрижа и адаптировать его под разные модели, чтобы находить лучшие сочетания качества, скорости и доступности для вас, наших пользователей. И, конечно, будем развивать сам бенчмарк, чтобы оценивать работу Стрижа все точнее и честнее. Нам важно, чтобы вы доверяли результатам и видели, как сервис становится лучше.

Почему доступны не все протестированные модели

Мы протестировали больше моделей, чем в итоге включили в сервис. Часть из них в финальный список не вошла по одной или нескольким причинам:

слишком медленные для комфортной работы;
слишком дорогие при сопоставимом качестве ответов;
не дают заметного преимущества перед уже доступными моделями;
хуже справляются с юридическими задачами;
не поддерживают агентский сценарий работы — самостоятельный поиск и обращение к источникам, на котором построен Стриж.

Свежий пример — флагманская GPT-5.6 Sol: лидер нашего бенчмарка по качеству, который мы пока не включили в сервис из-за высокой стоимости обработки запросов. Ее результаты мы публикуем в таблице выше, чтобы картина была полной.

В итоге мы оставили модели, которые дают лучший баланс качества, скорости и стоимости, и продолжаем пересматривать этот список по мере выхода новых моделей. Устаревающие модели при этом не исчезают в один день: сначала они переводятся в раздел «Архивные модели» селектора (свернутый список), и лишь затем выводятся из сервиса.

Закажите бенчмарк под свои задачи

Бенчмарк — это открытый процесс, и вы можете на него влиять:

Прислать свой набор вопросов и эталонных ответов. Мы протестируем на нём доступные модели и поделимся результатами. Это особенно полезно, если у вас своя специфика, например узкая отрасль права или типовые формулировки запросов.
Запросить интересующую вас модель. Если хотите узнать, как конкретная нейросеть справляется с вашими задачами, мы можем добавить ее в наш бенчмарк.

Напишите нам на support@strizh-legal.ru — приложите вопросы с эталонными ответами или укажите модель, которую хотите протестировать.

Важно понимать

Результаты отражают работу моделей на нашем наборе вопросов и могут отличаться от ваших задач. Бенчмарк — это ориентир для выбора модели, а не гарантия результата по каждому конкретному вопросу. Поэтому мы рекомендуем пробовать разные модели на ваших типичных задачах, а ключевые выводы ответа всегда проверять по кликабельным ссылкам на первоисточники.