Claude Fable 5 er ute – men vi stoler ikke på benchmarkene

Den 9. juni 2026 lanserte Anthropic Claude Fable 5. Selskapet kaller den sin «mest kapable modell noensinne». Benchmark-tallene som ligger ved siden av lanseringen er imponerende – Fable 5 topper software engineering-benchmarken FrontierCode og senior-nivå resonnerings-testen Hebbia Finance Benchmark. Den ene kolonnen slår den forrige beste modellen. Den andre. Og den tredje.

Men det er akkurat her problemet starter.

Hva skjer egentlig

For å forstå hvorfor tallene fra en AI-leverandør skal leses med varsomhet, må vi skille mellom to ulike typer benchmarking. Den ene typen bruker standardiserte, offentlige testsett som LiveBench eller HELM. Den andre – den som dominerer pressemeldinger – er interne resultater fra selskapets egne testmiljøer.

Anthropic har riktignok publisert detaljerte tall på FrontierCode og Hebbia Finance Benchmark. Samtidig har Fable 5 prissetting som er dramatisk høyere enn konkurrentene: 10 dollar per million input tokens og 50 dollar per million output tokens. For en bedrift som sender én million API-kall i måneden, kan det bety titusener av ekstra kostnader hver måned. Prisen signaliserer at selskapet posisjonerer modellen som et enterprise-produkt, ikke som et allment verktøy.

Det er verdt å merke seg at Claude Mythos 5 – samme underliggende modell, men med færre guardrails – kun tilbys til utvalgte forskere og partnere via Anthropics Project Glasswing. Den generelle versjonen, Fable 5, inkluderer klasssifikatorer som automatisk sender biologi-, kjemi- og distillasjons-forespørsler videre til den eldre modellen Opus 4.8. Hva det betyr i praksis for reell ytelse, er uklart.

Tallene og konteksten

Trenden med AI-benchmark-inflasjon har vært synlig lenge. Siden 2023 har nesten hver store modell-lansering blitt ledsaget av tall som slår forrige generasjon. Men hva disse tallene faktisk måler, har endret seg underveis.

Et sentralt problem som flere AI-utviklere har påpekt de siste årene, er det man kan kalle benchmark-kontaminering: modellen har under trening sett oppgavene den testes på, eller løsningene finnes i datasettet modellen er trent på. En modell som har sett hundretusener av Git-commits med løsninger, gjør det ikke nødvendigvis bedre – den gjenkjenner mønsteret.

DeepSWE, en uavhengig software engineering-benchmark utviklet av Datacurve, forsøker å løse dette ved å bygge oppgaver fra scratch med håndskrevne, atferdsbaserte verifiserere. Ifølge denne benchmarken leder fortsatt GPT-5.5 med 70 prosent solve-rate per mai 2026.

Antropiske tallene fra Fable 5 er altså ikke nødvendigvis feil. De er bare ufullstendige. De forteller deg at modellen presterer godt på tester selskapet selv kontrollerer, med datasett der kontaminering er vanskelig å utelukke.

Norsk perspektiv

For norske bedrifter som vurderer AI-verktøy, er dette mer enn en akademisk nuanse. Det handler om hvordan du evaluerer et verktøy du potensielt skal bruke årene fremover.

Den vanlige prosessen ser slik ut: en leverandør sender en benchmark-rapport. Bedriftslederen sammenlikner score. Modellen med høyest score velges. Problemet er at den modellen kan prestere utmerket på standardoppgaver – mens den feiler på det faktiske arbeidet din bedrift gjør.

I Opisense ser vi dette mønsteret jevnlig. Kunden tester en modell på egne dokumenter, egne workflows og egne data. Resultatet stemmer sjelden med benchmark-tallene fra produsenten. Noen ganger er modellen bedre. Andre ganger er den mer forutsigbar, men tregere. Og noen ganger – spesielt når konteksten er spesifikk for bransjen – slår en «svakere» modell en «sterkere» på alle parametre som teller.

Dette er grunnen til at vi har bygget plattformen slik at brukeren kan bytte LLM-modell med ett klikk. Ikke fordi én modell er bedre enn en annen. Men fordi den beste modellen er den som gjør jobben din best – og det vet bare du.

Det er verdt å merke seg

Anthropic er ikke alene om dette. OpenAI, Google, Mistral og alle andre leverer sine egne tall. Forskjellen er graden av åpenhet.

Noen punkter er verdt å ha med seg neste gang du ser en benchmark-tabell:

Hvem har designet testen? Produsenten selv, eller en uavhengig tredjepart?
Vet vi at modellen ikke har sett oppgavene under trening? Hvis ikke, er scoren meningsløs.
Hvordan ser resultatet ut på oppgavene din bedrift faktisk har? Ingen benchmark erstatter et reelt pilotprosjekt.

Og kanskje det viktigste: en modell som slår alle tall, men koster fem ganger mer enn neste alternativ, må betale tilbake differansen i produktivitetsgevinst. Det er kost/nytte – ikke score – som avgjør verdi i bedriften din.

Veien videre

Fable 5 er uten tvil en teknisk milepæl. Men milepæler i benchmark-verden oversettes ikke automatisk til milepæler i din arbeidshverdag.

For norske bedrifter er det mest fornuftige neste steget det samme som det har vært i tre år: test modellen på egne data, mål faktisk tidsbesparelse, og sammenlikn resultatet med konkurrentene – ikke bare i benchmark-tabeller, men i de oppgavene din virksomhet faktisk gjør hver dag.

Benchmarks er nyttig signalstøy. Men de er ikke substitutt for din egen dømmekraft.

Claude Fable 5 er ute – men vi stoler ikke på benchmarkene

Hva skjer egentlig

Tallene og konteksten

Norsk perspektiv

Det er verdt å merke seg

Veien videre

Stikkord

Relaterte artikler

Anthropics milliard-IPO: Når AI-verktøy må svare for seg på aksjemarkedet

Nvidia og Microsoft lanserer RTX Spark: Nå blir PC-en en AI-agent

Hvorfor de mest avanserte selskapene bygger digitale tvillinger av hele virksomheten