Q: Hva betyr "Norsk"-poengsummen?

Norsk-scoren viser andelen av oppgavene modellen svarte på norsk bokmål. Vi bruker franc-min (n-gram språkdeteksjon) for lengre svar og stopword-analyse for korte svar. Scoren vises som x/5 (normalisert).

Q: Hva betyr "Instruksjon"-scoren?

Instruksjonscoren viser andelen av oppgavene der modellen fulgte instruksjonen korrekt. For eksempel: svarte med riktig antall setninger, inneholdt korrekte fakta, eller fulgte spesifikke formatkrav. En score på 5/5 betyr perfekt instruksjonsfølging (normalisert til 5-skala).

Q: Hva er "hvilkenAI-scoren"?

Scoren kombinerer språkforståelse, kvalitet, hastighet, pris og stabilitet. Den nøyaktige vektingen er proprietær.

Q: Hva er "Beste verdi"-modellen?

Verdiscoren viser hvilke modeller som gir sterke resultater i forhold til pris. Den nøyaktige beregningen er proprietær.

Q: Hva er "kjente modeller"?

Kjente modeller er fra de store, etablerte leverandørene: OpenAI, Anthropic, Google, Meta, Mistral og DeepSeek. Benchmarken inkluderer også modeller fra mindre kjente leverandører – disse filtreres ut med "Kjente"-knappen.

Q: Er disse målingene representative for vanlig bruk?

Benchmark-resultater gir en god indikasjon, men responstid kan variere med serverbelastning, tidspunkt og oppgavetype. Resultatene er nyttige for å sammenligne modeller over tid, ikke som absolutte sannheter.

Q: Er premium-modeller verdt ekstraprisen?

Det avhenger av bruksområde. For norsk tekst og enkle oppgaver presterer mid-range-modeller ofte like bra som premium. Premium-modeller skinner på komplekse reasoning-oppgaver, lange dokumenter og presise instruksjoner der man trenger den beste kvaliteten.

Question 1

Hvordan velges modellene som testes?

Accepted Answer

Modellene velges automatisk fra OpenRouter sin modellkatalog basert på pris. Vi deler inn i tre prisgrupper: Premium (>$2/M tokens), Mid-range ($0.10–$2/M) og Budsjett (<$0.10/M). Fra hver gruppe velges maks 4 modeller med én per leverandør. Dette sikrer bred dekning av markedet uten å hardkode modellnavn.

Question 2

Hva betyr "Norsk"-poengsummen?

Accepted Answer

Norsk-scoren viser andelen av oppgavene modellen svarte på norsk bokmål. Vi bruker franc-min (n-gram språkdeteksjon) for lengre svar og stopword-analyse for korte svar. Scoren vises som x/5 (normalisert).

Question 3

Hva betyr "Instruksjon"-scoren?

Accepted Answer

Instruksjonscoren viser andelen av oppgavene der modellen fulgte instruksjonen korrekt. For eksempel: svarte med riktig antall setninger, inneholdt korrekte fakta, eller fulgte spesifikke formatkrav. En score på 5/5 betyr perfekt instruksjonsfølging (normalisert til 5-skala).

Question 4

Hva er "hvilkenAI-scoren"?

Accepted Answer

Scoren kombinerer språkforståelse, kvalitet, hastighet, pris og stabilitet. Den nøyaktige vektingen er proprietær.

Question 5

Hva er "Beste verdi"-modellen?

Accepted Answer

Verdiscoren viser hvilke modeller som gir sterke resultater i forhold til pris. Den nøyaktige beregningen er proprietær.

Question 6

Hva er "kjente modeller"?

Accepted Answer

Kjente modeller er fra de store, etablerte leverandørene: OpenAI, Anthropic, Google, Meta, Mistral og DeepSeek. Benchmarken inkluderer også modeller fra mindre kjente leverandører – disse filtreres ut med "Kjente"-knappen.

Question 7

Er disse målingene representative for vanlig bruk?

Accepted Answer

Benchmark-resultater gir en god indikasjon, men responstid kan variere med serverbelastning, tidspunkt og oppgavetype. Resultatene er nyttige for å sammenligne modeller over tid, ikke som absolutte sannheter.

Question 8

Er premium-modeller verdt ekstraprisen?

Accepted Answer

Det avhenger av bruksområde. For norsk tekst og enkle oppgaver presterer mid-range-modeller ofte like bra som premium. Premium-modeller skinner på komplekse reasoning-oppgaver, lange dokumenter og presise instruksjoner der man trenger den beste kvaliteten.

#	Modell	Tier	t/s	TTFT	Norsk	Instr	Score	Orch.	Verdi	EU	Pris/1M
1	Mistral: Mistral Small 3 mistralai	Budsjett	286	70 ms	8.0	10.0	9.0	8.0	150.0	🇪🇺 EU	$0.05 ≈0 kr
2	Google: Gemma 3 4B google	Budsjett	206	89 ms	8.0	10.0	8.5	8.0	150.0	~EU	$0.05 ≈0 kr
3	Mistral Large 2407 mistralai Stabil	Mid-range	186	95 ms	8.0	10.0	8.2	8.0	4.5	🇪🇺 EU	$2.00 ≈19 kr
4	Anthropic: Claude Sonnet 4.6 anthropic Stabil	Premium	100	152 ms	8.0	10.0	7.5	8.0	3.0	🇪🇺 EU	$3.00 ≈28 kr
5	Perplexity: Sonar Pro Search perplexity Stabil	Premium	48	307 ms	8.0	10.0	7.2	8.0	3.0	~EU	$3.00 ≈28 kr
6	Cohere: Command R7B (12-2024) cohere Stabil	Budsjett	153	108 ms	8.0	8.0	7.1	6.4	160.0	—	$0.04 ≈0 kr
7	Google: Gemini 3.1 Pro Preview google Stabil	Mid-range	68	157 ms	8.0	4.0	5.0	3.2	3.0	~EU	$2.00 ≈19 kr
8	Meta: Llama 3.1 8B Instruct meta-llama	Budsjett	250	64 ms	6.0	10.0	8.1	6.0	266.7	—	$0.02 ≈0 kr
9	OpenAI: GPT-5.5 openai	Premium	223	75 ms	6.0	10.0	7.9	6.0	1.6	—	$5.00 ≈47 kr
10	OpenAI: GPT-5.4 Mini openai	Mid-range	153	87 ms	6.0	10.0	7.1	6.0	10.5	—	$0.75 ≈7 kr
11	Anthropic: Claude Haiku 4.5 anthropic Stabil	Mid-range	115	120 ms	6.0	10.0	6.9	6.0	7.9	🇪🇺 EU	$1.00 ≈9 kr
12	Cohere: Command A cohere	Premium	187	73 ms	6.0	8.0	6.8	4.8	2.8	—	$2.50 ≈24 kr

AI-benchmark på norsk: dagens beste modeller

Beste i sin klasse

Er premium verdt det?

Alle resultater

Responstid siste 14 dager

Slik tester vi

Vanlige spørsmål

Les også