QSABench v1.0

Какая LLM лучше всех пишет Qlik Set Analysis?

memory MODELS=13
task TASKS=31
category DOMAINS=3
attach_money BUDGET=$17.35
BY_DATANOMIX

Leaderboard

Updated: May 2026
#Позиция модели в лидерборде по Overall. ModelНазвание модели и её версия. ProviderКомпания-разработчик. OverallСреднее по двум проверкам: (Number OK + Logic OK) ÷ 2. Сводная метрика для ранжирования. Number OKДоля задач, где сгенерированное моделью выражение возвращает то же итоговое число, что эталонное Set Analysis-выражение из qata.datanomix.pro. Проверяет Claude Opus 4.7. Logic OKДоля задач, где выражение модели семантически эквивалентно эталонной формуле — те же поля, фильтры, та же логика множеств. Проверяет Claude Sonnet 4.6. CoincidentalСколько раз модель «угадала» число через выражение, отличающееся от эталона. Часть таких случаев — допустимые альтернативы, часть — совпадение, которое не обобщится на других данных. Tasks passedСколько задач из 31 модель решила по Number OK.
01 Gemini 2.5 Pro Google 60% 77% 42% 6 24/31
02 GPT-5 OpenAI 53% 77% 29% 9 24/31
03 Claude Opus 4.7 Anthropic 49% 68% 29% 4 21/31
04 Claude Sonnet 4.6 Anthropic 45% 61% 29% 5 19/31
05 Grok 3 xAI 41% 55% 26% 6 17/31
06 Claude Haiku 4.5 Anthropic 32% 45% 19% 6 14/31
07 DeepSeek V3 LOCAL DeepSeek 31% 42% 19% 3 13/31
08 Mistral Large Mistral 29% 35% 23% 3 11/31
09 Gemini 2.5 Flash Google 16% 26% 6% 5 8/31
10 GPT-5 mini OpenAI 16% 19% 13% 2 6/31
11 Qwen 2.5 72B LOCAL Alibaba 15% 19% 10% 5 6/31
12 Llama 3.3 70B LOCAL Meta 8% 10% 6% 2 3/31
13 Qwen 2.5 Coder 32B LOCAL Alibaba 8% 13% 3% 2 4/31
// Методология

Как мы это считали — в четырёх абзацах.

// Phase 1 · Phase 2

Двухфазная схема

Phase 1 — 13 моделей × 31 задача × 1 стандартный промпт (отбор). Phase 2 — топ-5 финалистов × 31 задача × 3 уровня промпта (минимальный / стандартный / обогащённый). Цель Phase 2 — измерить эффект промпт-инжиниринга.

// Dual judge

Два независимых LLM-судьи

Claude Opus 4.7 проверяет, совпадает ли итоговое число с эталонным KPI. Claude Sonnet 4.6 проверяет, эквивалентно ли само выражение эталонной формуле. Разница и есть «логический разрыв».

// Tasks · qata.datanomix.pro

Реальные задачи с автопроверкой

31 верифицированная задача Set Analysis из трёх доменов: Sports (13 простых, Олимпиады), HR (10 сложных, зарплаты), Sales / Tensini (8 средних). С эталонными выражениями и автопроверкой результата.

// Budget

$17.35 из $20 на OpenRouter

~4 300 запросов, ~2.7M токенов. 70% бюджета съел LLM-as-judge (Opus в Phase 1) — при повторе с Sonnet стоимость в 14× ниже. Reasoning-модели потребовали max_tokens=4000 + reasoning_effort=low.

// FULL_REPORT · PDF · ~1 MB

Хотите углубиться?

Скачайте полный отчёт. Внутри — детальный разбор coincidental correctness с примерами кода, разбивка по доменам, эффект разных промптов, тест на стабильность ±5–15 п.п., таблица стоимости и production-рекомендации по сценариям.

  • Phase 1 + Phase 2 со всеми числами
  • 114 случаев coincidental correctness · 2 паттерна с кодом
  • Cost breakdown по моделям
  • 3 production-сценария: Sonnet / GPT-5 / DeepSeek
  • On-prem рекомендации (DeepSeek V3, Qwen, Llama)

Без маркетинговых рассылок. Email используется, чтобы понимать кто читает бенчмарк. Локально храним отправленные данные в браузере под ключом qsabench_leads.

REPRODUCE_ON_GITHUB