QSABench· v1.0
Datanomix · Open Research · Updated May 2026

Какая LLM лучше всех пишет Qlik Set Analysis?

Бенчмарк 13 больших языковых моделей на 31 верифицированной задаче Qlik Set Analysis из трёх доменов: Sports, HR, Sales. Двухфазная методология, двойной независимый LLM-судья. До 77% решений возвращают верное число — но только 22–34% используют логику, эквивалентную эталонной формуле.

Models13 Tasks31 Domains3 Budget$17.35 ByDatanomix
TL;DR

Резюме в четырёх пунктах.

Если время поджимает, читайте это.

Ключевые цифры

Models tested
13
OpenAI · Anthropic · Google · …
Tasks
31
verified set analysis
Number-match
65–77%
top tier
Logic-match
22–34%
top tier · strict
Цели исследования

Четыре цели.

  1. Понять, какие LLM-модели реально справляются с генерацией Qlik Set Analysis.
  2. Сравнить модели по точности, стоимости, скорости и стабильности.
  3. Проверить гипотезу: можно ли промпт-инжинирингом дешёвую модель довести до уровня дорогой.
  4. Сформировать data-driven рекомендации для возможной интеграции LLM в продукт.
Методология

Двухфазная схема, двойной судья.

Задачи — с обучающей платформы QATA. Реальные, с эталонными выражениями и автопроверкой результата. Никаких выдуманных исследователем кейсов.

Источник задач

31 верифицированная задача Set Analysis из трёх доменов: Sports, HR, Sales. Использовали платформу QATA для автопроверки результатов с эталонами. Платформа доступа: OpenRouter (единый API к 300+ моделям), бюджет $20.

Phase 1 + Phase 2

Phase 1

13 моделей × 31 задача × 1 промпт

Отбор. Каждая из 13 моделей решает все 31 задачу с одним стандартным промптом. На выходе — leaderboard по двум проверкам и шорт-лист топ-5 моделей.

Phase 2

5 финалистов × 3 промпта

Топ-5 моделей × 31 задача × 3 уровня промпта (минимальный / стандартный / обогащённый). Цель — измерить эффект промпт-инжиниринга.

Двойной независимый судья

Каждый ответ модели прогоняли через двух LLM-судей. Один смотрел что получилось, второй — как это написано. Когда расходятся — появляется «логический разрыв».

Проверка №1 · Claude Opus 4.7

«Совпало ли итоговое число с эталонным KPI?»

Судья запускает выражение модели в Qlik и сверяет полученное число с эталонным KPI из тренинговой платформы. Если число совпало — засчитано, логика выражения не анализируется.

Топ-модели: 65–77%
Проверка №2 · Claude Sonnet 4.6

«Эквивалентно ли выражение эталонной формуле?»

Судья сравнивает Set Analysis-выражение с эталонным с qata.datanomix.pro. Засчитано только если выражения семантически эквивалентны. Совпало число «случайно» через другую логику — не засчитано.

Топ-модели: 22–34%
Кандидаты

13 моделей · 4 категории.

Не брали устаревшие версии (Llama 2, GPT-3.5), variant fine-tunes (для roleplay/медицины), мелкие модели (≤8B параметров).

Категория Модели Обоснование
Топ-премиумClaude Opus 4.7 · GPT-5 · Gemini 2.5 ProФлагманы. Проверить оправданность цены.
СредниеSonnet 4.6 · GPT-5 mini · Gemini 2.5 Flash · Mistral Large · Grok 3Sweet spot для production.
БюджетныеHaiku 4.5 · Llama 3.3 70B · Qwen 2.5 72BЭкономия при сохранении качества.
Спец. для кодаDeepSeek Coder V3 · Qwen 2.5 Coder 32BМожет ли специализация на коде дать преимущество.
Phase 1 · Leaderboard

13 моделей, ранжированы по совпадению числа.

Один стандартный промпт × 31 задача. Колонка Coincidental — сколько раз модель «угадала» число через выражение, отличающееся от эталона.

# Model Provider Number OK Logic OK Coinc. Tier
01Gemini 2.5 ProGoogle24/31 (77%)13/31 (42%)6Top
02GPT-5OpenAI24/31 (77%)9/31 (29%)9Top
03Claude Opus 4.7Anthropic21/31 (68%)9/31 (29%)4Top
04Claude Sonnet 4.6Anthropic19/31 (61%)9/31 (29%)5Mid
05Grok 3xAI17/31 (55%)8/31 (26%)6Mid
06Claude Haiku 4.5Anthropic14/31 (45%)6/31 (19%)6Mid
07DeepSeek V3 LOCALDeepSeek13/31 (42%)6/31 (19%)3Mid
08Mistral LargeMistral11/31 (35%)7/31 (23%)3Mid
09Gemini 2.5 FlashGoogle8/31 (26%)2/31 (6%)5Low
10GPT-5 miniOpenAI6/31 (19%)4/31 (13%)2Low
11Qwen 2.5 72B LOCALAlibaba6/31 (19%)3/31 (10%)5Low
12Llama 3.3 70B LOCALMeta3/31 (10%)2/31 (6%)2Low
13Qwen 2.5 Coder 32B LOCALAlibaba4/31 (13%)1/31 (3%)2Low

* DeepSeek Coder V3 исключён — API broken (0/31).

Phase 2 · 5 finalists × 3 prompts

Кто держится при варьировании промпта.

Топ-5 моделей × 31 задача × 3 уровня промпта = 93 ответа на модель. Ранжировано по совпадению логики.

Модель Logic OK Number OK Комментарий
GPT-532/93 (34%)51/93 (55%)Единственный явный лидер
Gemini 2.5 Pro30/93 (32%)43/93 (46%)Close 2nd
Claude Opus 4.724/93 (26%)45/93 (48%)Top tier
Claude Sonnet 4.620/93 (22%)43/93 (46%)Sweet spot
DeepSeek V314/93 (15%)27/93 (29%)Budget
Findings

Шесть технических открытий.

⚠ 4.1 Reasoning trap

Reasoning-модели нужно настраивать иначе.

При первом прогоне GPT-5 = 0/31, Gemini 2.5 Pro = 2/31. Эти reasoning-модели тратят токены на скрытое размышление (thinking), которое не возвращается пользователю, но расходует тот же лимит токенов.

При max_tokens=500 весь бюджет уходит на reasoning, и модели возвращали либо пустой ответ (GPT-5), либо обрезанное выражение (Gemini Pro). Решение: max_tokens=4000 + reasoning_effort=low. После фикса: GPT-5 → 24/31 (77%), Gemini 2.5 Pro → 24/31 (77%).

★ 4.2 Coincidental correctness — главное открытие

Верное число из выражения, не совпадающего с эталоном — 114 случаев.

Из 868 ответов в Phase 1 + Phase 2 нашли 114 случаев, когда модель вернула верное число, но через выражение с другой логикой. Два типичных паттерна:

Паттерн А · ID вместо Name (Sports task #2):

Эталон
count(distinct {<Sex={"M"}>} Name)
/ count(distinct Name)
LLM (совпало случайно)
Count({<Sex={'M'}>} DISTINCT ID)
/ Count(DISTINCT ID)

Совпало потому что в датасете ID уникальный per-athlete. На данных где у одного атлета несколько ID — даст другой результат.

Паттерн Б · Games вместо Year+Season (Sports task #1):

Эталон
{<Year = {'1996'},
   Season = {'Summer'}>}
LLM (совпало случайно)
{<Games = {'1996 Summer'}>}

Совпало потому что Games — конкатенация Year+Season в этом датасете. Не обобщается.

◆ 4.3 Нюанс

Не все 114 случаев — строго неправильные.

Часть «coincidental» случаев — легитимные альтернативные решения, которые на этих данных дают тот же результат и могут считаться допустимыми в production. Если в схеме ID гарантированно уникален per-athlete, Count(distinct ID) = Count(distinct Name) всегда.

Реалистичная оценка точности — между «по числу» и «по логике» интерпретациями.

⚠ 4.4 Prompt effect · counter-intuitive

Обогащённый промпт ухудшает результаты у средних моделей.

В Phase 2 тестировали 3 уровня промпта: минимальный (только вопрос), стандартный (схема + роль), обогащённый (плюс примеры + best practices + chain-of-thought).

Обогащённый промпт ухудшил 3 из 5 моделей: Sonnet, Gemini Pro, DeepSeek V3. Только премиум reasoning-модели (Opus, GPT-5) выиграли от обогащения.

Средние модели «слепо копируют» структуру из примеров few-shot, теряют гибкость на нестандартных задачах.

✗ 4.5 Гипотеза не подтвердилась

Умный промпт не превращает дешёвую модель в дорогую.

DeepSeek V3 с обогащённым промптом показал более низкий результат, чем со стандартным: V1 45% → 36%, V2 15%.

Гипотеза «дешёвая модель + умный промпт = дорогая» не подтвердилась. Промпт-инжиниринг не сокращает разрыв между бюджетными и премиум моделями.

∿ 4.6 Stability noise ±5–15 п.п.

Повторный прогон даёт другие числа.

На одинаковых задачах с temperature=0:

Источники шума: модели не строго детерминированы при temperature=0, плюс LLM-судья тоже даёт разные вердикты. Утверждения «X лучше Y на 3-5 п.п.» по нашим данным не доказываются — это в пределах шума.

Cost breakdown

$17.35 на весь бенчмарк.

~4 300 запросов, ~2.7M токенов. 70% бюджета съел LLM-as-judge (Claude Opus в Phase 1) — при повторе с Sonnet стоимость в 14 раз ниже за то же количество ответов.

Модель · Роль Spend Requests Tokens
Claude Opus 4.7 · судья V1$12.301,9801.81M
Gemini 2.5 Pro · кандидат$1.91253247K
GPT-5 · кандидат$1.46253199K
Sonnet 4.6 · кандидат + судья V2$0.85870~150K
Остальные 9 моделей$0.83950320K
Итого$17.35~4,300~2.7M

Подтверждена гипотеза «использовать Sonnet/Haiku в роли судьи» — экономия 5–14× без потери качества оценки.

Production guidance

Если LLM пойдёт в продукт.

Три сценария интеграции с реалистичной точностью (с обязательным человеческим ревью) и стоимостью на 1 000 запросов.

Сценарий Модель Промпт Точность* $/1000
Базовый ассистентClaude Sonnet 4.6стандартный~30–50%~$2
Премиум · критич. задачиGPT-5стандартный~35–55%~$20
ПрототипированиеDeepSeek V3стандартный~15–30%~$0.30

* С обязательным человеческим ревью.

Production requirements

Четыре правила, без которых не идти в прод.

  1. Никогда без ревью. Никогда не использовать без человеческого ревью или Qlik runtime-валидации. Лучшая модель даёт ~34% строго-правильных ответов — каждый второй ответ требует проверки.
  2. Настроить reasoning-модели. GPT-5, Gemini 2.5 Pro требуют max_tokens=4000 + reasoning_effort=low. Иначе систематически заниженные результаты.
  3. Не перегружать few-shot. Для большинства моделей обогащённый промпт снижает точность. Простой промпт + строгая валидация работают лучше.
  4. Sonnet/Haiku в роли судьи. Не Opus. Экономия 5–14× без потери качества оценки — проверено на 868 ответах.
On-prem deployment

Какую open-source модель развернуть локально?

Отдельный вопрос: если LLM в облаке нельзя по политике безопасности — что брать on-prem.

★ Local deployment recommendation

Из локальных моделей, которые мы протестировали, лучший — DeepSeek V3 с ~19% точности по логике (когда сгенерированное выражение совпадает с эталоном). Qwen 2.5 72B заметно хуже — около 10%. Qwen 2.5 Coder 32B вообще слабо — 3%: для длинных цепочек CALCULATE/SUMX в Set Analysis 32B параметров не хватает. GLM мы не тестировали.

Один важный нюанс: даже у лидера правильная логика выражения — в 1 из 5 случаев. То есть в продакшене любую open-source модель надо обязательно использовать с валидацией. Без неё пока сыровато.

Заключение

Что мы узнали.

Исследование подтверждает: LLM могут генерировать корректный Qlik Set Analysis — но с серьёзной оговоркой по строгости оценки. При проверке только по числу — 65–77% точности у топ-моделей. При проверке по эквивалентности логики эталону — 22–34%. Реалистичная оценка для production — между ними, ~30–50%.

Главная рекомендация — использовать только в режиме «ассистент для человека», не в режиме автоматической генерации без валидации. Главный технический инсайт — про настройку reasoning-моделей — критически важен для любой команды, которая будет интегрировать GPT-5 / Gemini Pro / o1 / o3 в production.

Главный методологический инсайт — про двойную проверку (число + логика) — должен стать стандартом для любых будущих LLM-бенчмарков в команде.

Краткое резюме по моделям

Критерий Модель Инсайт
Лучшая для строгой генерации (V2)GPT-5Лидер по строгой оценке — 34%.
Базовый ассистентClaude Sonnet 4.6Sweet spot, ~30–50% (с ревью).
Стоимость Sonnet 4.6 / 1 000 запросов~$2Экономия до 14× по сравнению с Opus.
Причина выбора SonnetБаланс точности и стоимостиПриемлемая точность при низкой стоимости.