Какая LLM лучше всех пишет Qlik Set Analysis?
Leaderboard
Updated: May 2026| #Позиция модели в лидерборде по Overall. | ModelНазвание модели и её версия. | ProviderКомпания-разработчик. | OverallСреднее по двум проверкам: (Number OK + Logic OK) ÷ 2. Сводная метрика для ранжирования. | Number OKДоля задач, где сгенерированное моделью выражение возвращает то же итоговое число, что эталонное Set Analysis-выражение из qata.datanomix.pro. Проверяет Claude Opus 4.7. | Logic OKДоля задач, где выражение модели семантически эквивалентно эталонной формуле — те же поля, фильтры, та же логика множеств. Проверяет Claude Sonnet 4.6. | CoincidentalСколько раз модель «угадала» число через выражение, отличающееся от эталона. Часть таких случаев — допустимые альтернативы, часть — совпадение, которое не обобщится на других данных. | Tasks passedСколько задач из 31 модель решила по Number OK. |
|---|---|---|---|---|---|---|---|
| 01 | Gemini 2.5 Pro | 60% | 77% | 42% | 6 | 24/31 | |
| 02 | GPT-5 | OpenAI | 53% | 77% | 29% | 9 | 24/31 |
| 03 | Claude Opus 4.7 | Anthropic | 49% | 68% | 29% | 4 | 21/31 |
| 04 | Claude Sonnet 4.6 | Anthropic | 45% | 61% | 29% | 5 | 19/31 |
| 05 | Grok 3 | xAI | 41% | 55% | 26% | 6 | 17/31 |
| 06 | Claude Haiku 4.5 | Anthropic | 32% | 45% | 19% | 6 | 14/31 |
| 07 | DeepSeek V3 LOCAL | DeepSeek | 31% | 42% | 19% | 3 | 13/31 |
| 08 | Mistral Large | Mistral | 29% | 35% | 23% | 3 | 11/31 |
| 09 | Gemini 2.5 Flash | 16% | 26% | 6% | 5 | 8/31 | |
| 10 | GPT-5 mini | OpenAI | 16% | 19% | 13% | 2 | 6/31 |
| 11 | Qwen 2.5 72B LOCAL | Alibaba | 15% | 19% | 10% | 5 | 6/31 |
| 12 | Llama 3.3 70B LOCAL | Meta | 8% | 10% | 6% | 2 | 3/31 |
| 13 | Qwen 2.5 Coder 32B LOCAL | Alibaba | 8% | 13% | 3% | 2 | 4/31 |