Какая LLM лучше всех пишет Qlik Set Analysis?

Name: QSABench: LLM × Qlik Set Analysis Benchmark
Creator: Datanomix
Published: 2026-05-15
License: https://creativecommons.org/licenses/by/4.0/
Keywords: Qlik Set Analysis, LLM benchmark, GPT-5, Claude Opus, Gemini 2.5 Pro, DeepSeek V3, LLM evaluation, Set Analysis, Qlik, business intelligence

memory MODELS=13

task TASKS=31

category DOMAINS=3

attach_money BUDGET=$17.35

BY_DATANOMIX

Leaderboard

Updated: May 2026

#Позиция модели в лидерборде по Overall.	ModelНазвание модели и её версия.	ProviderКомпания-разработчик.	OverallСреднее по двум проверкам: (Number OK + Logic OK) ÷ 2. Сводная метрика для ранжирования.	Number OKДоля задач, где сгенерированное моделью выражение возвращает то же итоговое число, что эталонное Set Analysis-выражение из qata.datanomix.pro. Проверяет Claude Opus 4.7.	Logic OKДоля задач, где выражение модели семантически эквивалентно эталонной формуле — те же поля, фильтры, та же логика множеств. Проверяет Claude Sonnet 4.6.	CoincidentalСколько раз модель «угадала» число через выражение, отличающееся от эталона. Часть таких случаев — допустимые альтернативы, часть — совпадение, которое не обобщится на других данных.	Tasks passedСколько задач из 31 модель решила по Number OK.
01	Gemini 2.5 Pro	Google	60%	77%	42%	6	24/31
02	GPT-5	OpenAI	53%	77%	29%	9	24/31
03	Claude Opus 4.7	Anthropic	49%	68%	29%	4	21/31
04	Claude Sonnet 4.6	Anthropic	45%	61%	29%	5	19/31
05	Grok 3	xAI	41%	55%	26%	6	17/31
06	Claude Haiku 4.5	Anthropic	32%	45%	19%	6	14/31
07	DeepSeek V3 LOCAL	DeepSeek	31%	42%	19%	3	13/31
08	Mistral Large	Mistral	29%	35%	23%	3	11/31
09	Gemini 2.5 Flash	Google	16%	26%	6%	5	8/31
10	GPT-5 mini	OpenAI	16%	19%	13%	2	6/31
11	Qwen 2.5 72B LOCAL	Alibaba	15%	19%	10%	5	6/31
12	Llama 3.3 70B LOCAL	Meta	8%	10%	6%	2	3/31
13	Qwen 2.5 Coder 32B LOCAL	Alibaba	8%	13%	3%	2	4/31

Хотите углубиться?

Скачайте полный отчёт. Внутри — детальный разбор coincidental correctness с примерами кода, разбивка по доменам, эффект разных промптов, тест на стабильность ±5–15 п.п., таблица стоимости и production-рекомендации по сценариям.

→ Phase 1 + Phase 2 со всеми числами

→ 114 случаев coincidental correctness · 2 паттерна с кодом

→ Cost breakdown по моделям

→ 3 production-сценария: Sonnet / GPT-5 / DeepSeek

→ On-prem рекомендации (DeepSeek V3, Qwen, Llama)

Какая LLM лучше всех пишет Qlik Set Analysis?

Leaderboard

Как мы это считали — в четырёх абзацах.

Двухфазная схема

Два независимых LLM-судьи

Реальные задачи с автопроверкой

$17.35 из $20 на OpenRouter

Хотите углубиться?