AI-benchmark på norsk: dagens beste modeller
Testet og rangert hver morgen — norsk språkkvalitet, hastighet og verdi.
Les ukesrapporter → Sammenlign modeller → ChatGPT vs Claude → Gemini vs ChatGPT →
Beste i sin klasse
Er premium verdt det?
For norsk tekst og enkle oppgaver holder mid-range svært godt. Premium lønner seg ved kompleks reasoning, lange dokumenter og når presisjon er kritisk.
Alle resultater
| # | Modell | Tier | Norsk | Instr | Score | Pris/1M |
|---|---|---|---|---|---|---|
| 1 | Mistral: Mistral Small 3 mistralai | Budsjett | 8.0 | 10.0 | 9.0 | $0.05 ≈0 kr |
| 2 | Google: Gemma 3 4B google | Budsjett | 8.0 | 10.0 | 8.5 | $0.05 ≈0 kr |
| 3 | Mistral Large 2407 mistralai | Mid-range | 8.0 | 10.0 | 8.2 | $2.00 ≈19 kr |
| 4 | Anthropic: Claude Sonnet 4.6 anthropic | Premium | 8.0 | 10.0 | 7.5 | $3.00 ≈28 kr |
| 5 | Perplexity: Sonar Pro Search perplexity | Premium | 8.0 | 10.0 | 7.2 | $3.00 ≈28 kr |
| 6 | Cohere: Command R7B (12-2024) cohere | Budsjett | 8.0 | 8.0 | 7.1 | $0.04 ≈0 kr |
| 7 | Google: Gemini 3.1 Pro Preview google | Mid-range | 8.0 | 4.0 | 5.0 | $2.00 ≈19 kr |
| 8 | Meta: Llama 3.1 8B Instruct meta-llama | Budsjett | 6.0 | 10.0 | 8.1 | $0.02 ≈0 kr |
| 9 | OpenAI: GPT-5.5 openai | Premium | 6.0 | 10.0 | 7.9 | $5.00 ≈47 kr |
| 10 | OpenAI: GPT-5.4 Mini openai | Mid-range | 6.0 | 10.0 | 7.1 | $0.75 ≈7 kr |
| 11 | Anthropic: Claude Haiku 4.5 anthropic | Mid-range | 6.0 | 10.0 | 6.9 | $1.00 ≈9 kr |
| 12 | Cohere: Command A cohere | Premium | 6.0 | 8.0 | 6.8 | $2.50 ≈24 kr |
Responstid siste 14 dager
Slik tester vi
Vi evaluerer over 350 AI-modeller og presenterer de beste resultatene hver morgen. Scoren kombinerer språkforståelse, kvalitet, hastighet, pris og stabilitet. Den nøyaktige vektingen er proprietær.
Les mer om metodikken →Vanlige spørsmål
Modellene velges automatisk fra OpenRouter sin modellkatalog basert på pris. Vi deler inn i tre prisgrupper: Premium (>$2/M tokens), Mid-range ($0.10–$2/M) og Budsjett (<$0.10/M). Fra hver gruppe velges maks 4 modeller med én per leverandør. Dette sikrer bred dekning av markedet uten å hardkode modellnavn.
Norsk-scoren viser andelen av oppgavene modellen svarte på norsk bokmål. Vi bruker franc-min (n-gram språkdeteksjon) for lengre svar og stopword-analyse for korte svar. Scoren vises som x/5 (normalisert).
Instruksjonscoren viser andelen av oppgavene der modellen fulgte instruksjonen korrekt. For eksempel: svarte med riktig antall setninger, inneholdt korrekte fakta, eller fulgte spesifikke formatkrav. En score på 5/5 betyr perfekt instruksjonsfølging (normalisert til 5-skala).
Scoren kombinerer språkforståelse, kvalitet, hastighet, pris og stabilitet. Den nøyaktige vektingen er proprietær.
Verdiscoren viser hvilke modeller som gir sterke resultater i forhold til pris. Den nøyaktige beregningen er proprietær.