Бенчмарк 13 больших языковых моделей на 31 верифицированной задаче Qlik Set Analysis из трёх доменов: Sports, HR, Sales. Двухфазная методология, двойной независимый LLM-судья. До 77% решений возвращают верное число — но только 22–34% используют логику, эквивалентную эталонной формуле.
Задачи — с обучающей платформы QATA. Реальные, с эталонными выражениями и автопроверкой результата. Никаких выдуманных исследователем кейсов.
31 верифицированная задача Set Analysis из трёх доменов: Sports, HR, Sales. Использовали платформу QATA для автопроверки результатов с эталонами. Платформа доступа: OpenRouter (единый API к 300+ моделям), бюджет $20.
Отбор. Каждая из 13 моделей решает все 31 задачу с одним стандартным промптом. На выходе — leaderboard по двум проверкам и шорт-лист топ-5 моделей.
Топ-5 моделей × 31 задача × 3 уровня промпта (минимальный / стандартный / обогащённый). Цель — измерить эффект промпт-инжиниринга.
Каждый ответ модели прогоняли через двух LLM-судей. Один смотрел что получилось, второй — как это написано. Когда расходятся — появляется «логический разрыв».
Судья запускает выражение модели в Qlik и сверяет полученное число с эталонным KPI из тренинговой платформы. Если число совпало — засчитано, логика выражения не анализируется.
Топ-модели: 65–77%Судья сравнивает Set Analysis-выражение с эталонным с qata.datanomix.pro. Засчитано только если выражения семантически эквивалентны. Совпало число «случайно» через другую логику — не засчитано.
Топ-модели: 22–34%Не брали устаревшие версии (Llama 2, GPT-3.5), variant fine-tunes (для roleplay/медицины), мелкие модели (≤8B параметров).
| Категория | Модели | Обоснование |
|---|---|---|
| Топ-премиум | Claude Opus 4.7 · GPT-5 · Gemini 2.5 Pro | Флагманы. Проверить оправданность цены. |
| Средние | Sonnet 4.6 · GPT-5 mini · Gemini 2.5 Flash · Mistral Large · Grok 3 | Sweet spot для production. |
| Бюджетные | Haiku 4.5 · Llama 3.3 70B · Qwen 2.5 72B | Экономия при сохранении качества. |
| Спец. для кода | DeepSeek Coder V3 · Qwen 2.5 Coder 32B | Может ли специализация на коде дать преимущество. |
Один стандартный промпт × 31 задача. Колонка Coincidental — сколько раз модель «угадала» число через выражение, отличающееся от эталона.
| # | Model | Provider | Number OK | Logic OK | Coinc. | Tier |
|---|---|---|---|---|---|---|
| 01 | Gemini 2.5 Pro | 24/31 (77%) | 13/31 (42%) | 6 | Top | |
| 02 | GPT-5 | OpenAI | 24/31 (77%) | 9/31 (29%) | 9 | Top |
| 03 | Claude Opus 4.7 | Anthropic | 21/31 (68%) | 9/31 (29%) | 4 | Top |
| 04 | Claude Sonnet 4.6 | Anthropic | 19/31 (61%) | 9/31 (29%) | 5 | Mid |
| 05 | Grok 3 | xAI | 17/31 (55%) | 8/31 (26%) | 6 | Mid |
| 06 | Claude Haiku 4.5 | Anthropic | 14/31 (45%) | 6/31 (19%) | 6 | Mid |
| 07 | DeepSeek V3 LOCAL | DeepSeek | 13/31 (42%) | 6/31 (19%) | 3 | Mid |
| 08 | Mistral Large | Mistral | 11/31 (35%) | 7/31 (23%) | 3 | Mid |
| 09 | Gemini 2.5 Flash | 8/31 (26%) | 2/31 (6%) | 5 | Low | |
| 10 | GPT-5 mini | OpenAI | 6/31 (19%) | 4/31 (13%) | 2 | Low |
| 11 | Qwen 2.5 72B LOCAL | Alibaba | 6/31 (19%) | 3/31 (10%) | 5 | Low |
| 12 | Llama 3.3 70B LOCAL | Meta | 3/31 (10%) | 2/31 (6%) | 2 | Low |
| 13 | Qwen 2.5 Coder 32B LOCAL | Alibaba | 4/31 (13%) | 1/31 (3%) | 2 | Low |
* DeepSeek Coder V3 исключён — API broken (0/31).
Топ-5 моделей × 31 задача × 3 уровня промпта = 93 ответа на модель. Ранжировано по совпадению логики.
| Модель | Logic OK | Number OK | Комментарий |
|---|---|---|---|
| GPT-5 | 32/93 (34%) | 51/93 (55%) | Единственный явный лидер |
| Gemini 2.5 Pro | 30/93 (32%) | 43/93 (46%) | Close 2nd |
| Claude Opus 4.7 | 24/93 (26%) | 45/93 (48%) | Top tier |
| Claude Sonnet 4.6 | 20/93 (22%) | 43/93 (46%) | Sweet spot |
| DeepSeek V3 | 14/93 (15%) | 27/93 (29%) | Budget |
При первом прогоне GPT-5 = 0/31, Gemini 2.5 Pro = 2/31. Эти reasoning-модели тратят токены на скрытое размышление (thinking), которое не возвращается пользователю, но расходует тот же лимит токенов.
При max_tokens=500 весь бюджет уходит на reasoning, и модели
возвращали либо пустой ответ (GPT-5), либо обрезанное выражение (Gemini Pro).
Решение: max_tokens=4000 + reasoning_effort=low. После фикса:
GPT-5 → 24/31 (77%),
Gemini 2.5 Pro → 24/31 (77%).
Из 868 ответов в Phase 1 + Phase 2 нашли 114 случаев, когда модель вернула верное число, но через выражение с другой логикой. Два типичных паттерна:
Паттерн А · ID вместо Name (Sports task #2):
count(distinct {<Sex={"M"}>} Name) / count(distinct Name)
Count({<Sex={'M'}>} DISTINCT ID) / Count(DISTINCT ID)
Совпало потому что в датасете ID уникальный per-athlete. На данных где
у одного атлета несколько ID — даст другой результат.
Паттерн Б · Games вместо Year+Season (Sports task #1):
{<Year = {'1996'},
Season = {'Summer'}>}
{<Games = {'1996 Summer'}>}
Совпало потому что Games — конкатенация Year+Season в этом датасете. Не обобщается.
Часть «coincidental» случаев — легитимные альтернативные решения, которые на этих
данных дают тот же результат и могут считаться допустимыми в production. Если в схеме
ID гарантированно уникален per-athlete, Count(distinct ID) =
Count(distinct Name) всегда.
Реалистичная оценка точности — между «по числу» и «по логике» интерпретациями.
В Phase 2 тестировали 3 уровня промпта: минимальный (только вопрос), стандартный (схема + роль), обогащённый (плюс примеры + best practices + chain-of-thought).
Обогащённый промпт ухудшил 3 из 5 моделей: Sonnet, Gemini Pro, DeepSeek V3. Только премиум reasoning-модели (Opus, GPT-5) выиграли от обогащения.
Средние модели «слепо копируют» структуру из примеров few-shot, теряют гибкость на нестандартных задачах.
DeepSeek V3 с обогащённым промптом показал более низкий результат, чем со стандартным: V1 45% → 36%, V2 15%.
Гипотеза «дешёвая модель + умный промпт = дорогая» не подтвердилась. Промпт-инжиниринг не сокращает разрыв между бюджетными и премиум моделями.
На одинаковых задачах с temperature=0:
Источники шума: модели не строго детерминированы при temperature=0, плюс LLM-судья тоже даёт разные вердикты. Утверждения «X лучше Y на 3-5 п.п.» по нашим данным не доказываются — это в пределах шума.
~4 300 запросов, ~2.7M токенов. 70% бюджета съел LLM-as-judge (Claude Opus в Phase 1) — при повторе с Sonnet стоимость в 14 раз ниже за то же количество ответов.
| Модель · Роль | Spend | Requests | Tokens |
|---|---|---|---|
| Claude Opus 4.7 · судья V1 | $12.30 | 1,980 | 1.81M |
| Gemini 2.5 Pro · кандидат | $1.91 | 253 | 247K |
| GPT-5 · кандидат | $1.46 | 253 | 199K |
| Sonnet 4.6 · кандидат + судья V2 | $0.85 | 870 | ~150K |
| Остальные 9 моделей | $0.83 | 950 | 320K |
| Итого | $17.35 | ~4,300 | ~2.7M |
Подтверждена гипотеза «использовать Sonnet/Haiku в роли судьи» — экономия 5–14× без потери качества оценки.
Три сценария интеграции с реалистичной точностью (с обязательным человеческим ревью) и стоимостью на 1 000 запросов.
| Сценарий | Модель | Промпт | Точность* | $/1000 |
|---|---|---|---|---|
| Базовый ассистент | Claude Sonnet 4.6 | стандартный | ~30–50% | ~$2 |
| Премиум · критич. задачи | GPT-5 | стандартный | ~35–55% | ~$20 |
| Прототипирование | DeepSeek V3 | стандартный | ~15–30% | ~$0.30 |
* С обязательным человеческим ревью.
max_tokens=4000 + reasoning_effort=low. Иначе систематически заниженные результаты.Отдельный вопрос: если LLM в облаке нельзя по политике безопасности — что брать on-prem.
Из локальных моделей, которые мы протестировали, лучший — DeepSeek V3 с ~19% точности по логике (когда сгенерированное выражение совпадает с эталоном). Qwen 2.5 72B заметно хуже — около 10%. Qwen 2.5 Coder 32B вообще слабо — 3%: для длинных цепочек CALCULATE/SUMX в Set Analysis 32B параметров не хватает. GLM мы не тестировали.
Один важный нюанс: даже у лидера правильная логика выражения — в 1 из 5 случаев. То есть в продакшене любую open-source модель надо обязательно использовать с валидацией. Без неё пока сыровато.
Исследование подтверждает: LLM могут генерировать корректный Qlik Set Analysis — но с серьёзной оговоркой по строгости оценки. При проверке только по числу — 65–77% точности у топ-моделей. При проверке по эквивалентности логики эталону — 22–34%. Реалистичная оценка для production — между ними, ~30–50%.
Главная рекомендация — использовать только в режиме «ассистент для человека», не в режиме автоматической генерации без валидации. Главный технический инсайт — про настройку reasoning-моделей — критически важен для любой команды, которая будет интегрировать GPT-5 / Gemini Pro / o1 / o3 в production.
Главный методологический инсайт — про двойную проверку (число + логика) — должен стать стандартом для любых будущих LLM-бенчмарков в команде.
| Критерий | Модель | Инсайт |
|---|---|---|
| Лучшая для строгой генерации (V2) | GPT-5 | Лидер по строгой оценке — 34%. |
| Базовый ассистент | Claude Sonnet 4.6 | Sweet spot, ~30–50% (с ревью). |
| Стоимость Sonnet 4.6 / 1 000 запросов | ~$2 | Экономия до 14× по сравнению с Opus. |
| Причина выбора Sonnet | Баланс точности и стоимости | Приемлемая точность при низкой стоимости. |