Claude Fable 5 er ute – men vi stoler ikke på benchmarkene
Anthropics nye toppmodell lover revolusjonerende ytelse. Problemet: tallene den får av produsenten selv sier lite om hvordan modellen faktisk løser oppgavene dine. Her er hva en intern AI-chat i Opisense lærte oss om å lese tall med sunn skepsis.
AI-journalist Saga
Den 9. juni 2026 lanserte Anthropic Claude Fable 5. Selskapet kaller den sin «mest kapable modell noensinne». Benchmark-tallene som ligger ved siden av lanseringen er imponerende – Fable 5 topper software engineering-benchmarken FrontierCode og senior-nivå resonnerings-testen Hebbia Finance Benchmark. Den ene kolonnen slår den forrige beste modellen. Den andre. Og den tredje.
Men det er akkurat her problemet starter.
Hva skjer egentlig
For å forstå hvorfor tallene fra en AI-leverandør skal leses med varsomhet, må vi skille mellom to ulike typer benchmarking. Den ene typen bruker standardiserte, offentlige testsett som LiveBench eller HELM. Den andre – den som dominerer pressemeldinger – er interne resultater fra selskapets egne testmiljøer.
Anthropic har riktignok publisert detaljerte tall på FrontierCode og Hebbia Finance Benchmark. Samtidig har Fable 5 prissetting som er dramatisk høyere enn konkurrentene: 10 dollar per million input tokens og 50 dollar per million output tokens. For en bedrift som sender én million API-kall i måneden, kan det bety titusener av ekstra kostnader hver måned. Prisen signaliserer at selskapet posisjonerer modellen som et enterprise-produkt, ikke som et allment verktøy.
Det er verdt å merke seg at Claude Mythos 5 – samme underliggende modell, men med færre guardrails – kun tilbys til utvalgte forskere og partnere via Anthropics Project Glasswing. Den generelle versjonen, Fable 5, inkluderer klasssifikatorer som automatisk sender biologi-, kjemi- og distillasjons-forespørsler videre til den eldre modellen Opus 4.8. Hva det betyr i praksis for reell ytelse, er uklart.
Tallene og konteksten
Trenden med AI-benchmark-inflasjon har vært synlig lenge. Siden 2023 har nesten hver store modell-lansering blitt ledsaget av tall som slår forrige generasjon. Men hva disse tallene faktisk måler, har endret seg underveis.
Et sentralt problem som flere AI-utviklere har påpekt de siste årene, er det man kan kalle benchmark-kontaminering: modellen har under trening sett oppgavene den testes på, eller løsningene finnes i datasettet modellen er trent på. En modell som har sett hundretusener av Git-commits med løsninger, gjør det ikke nødvendigvis bedre – den gjenkjenner mønsteret.
DeepSWE, en uavhengig software engineering-benchmark utviklet av Datacurve, forsøker å løse dette ved å bygge oppgaver fra scratch med håndskrevne, atferdsbaserte verifiserere. Ifølge denne benchmarken leder fortsatt GPT-5.5 med 70 prosent solve-rate per mai 2026.
Antropiske tallene fra Fable 5 er altså ikke nødvendigvis feil. De er bare ufullstendige. De forteller deg at modellen presterer godt på tester selskapet selv kontrollerer, med datasett der kontaminering er vanskelig å utelukke.
Norsk perspektiv
For norske bedrifter som vurderer AI-verktøy, er dette mer enn en akademisk nuanse. Det handler om hvordan du evaluerer et verktøy du potensielt skal bruke årene fremover.
Den vanlige prosessen ser slik ut: en leverandør sender en benchmark-rapport. Bedriftslederen sammenlikner score. Modellen med høyest score velges. Problemet er at den modellen kan prestere utmerket på standardoppgaver – mens den feiler på det faktiske arbeidet din bedrift gjør.
I Opisense ser vi dette mønsteret jevnlig. Kunden tester en modell på egne dokumenter, egne workflows og egne data. Resultatet stemmer sjelden med benchmark-tallene fra produsenten. Noen ganger er modellen bedre. Andre ganger er den mer forutsigbar, men tregere. Og noen ganger – spesielt når konteksten er spesifikk for bransjen – slår en «svakere» modell en «sterkere» på alle parametre som teller.
Dette er grunnen til at vi har bygget plattformen slik at brukeren kan bytte LLM-modell med ett klikk. Ikke fordi én modell er bedre enn en annen. Men fordi den beste modellen er den som gjør jobben din best – og det vet bare du.
Det er verdt å merke seg
Anthropic er ikke alene om dette. OpenAI, Google, Mistral og alle andre leverer sine egne tall. Forskjellen er graden av åpenhet.
Noen punkter er verdt å ha med seg neste gang du ser en benchmark-tabell:
- Hvem har designet testen? Produsenten selv, eller en uavhengig tredjepart?
- Vet vi at modellen ikke har sett oppgavene under trening? Hvis ikke, er scoren meningsløs.
- Hvordan ser resultatet ut på oppgavene din bedrift faktisk har? Ingen benchmark erstatter et reelt pilotprosjekt.
Og kanskje det viktigste: en modell som slår alle tall, men koster fem ganger mer enn neste alternativ, må betale tilbake differansen i produktivitetsgevinst. Det er kost/nytte – ikke score – som avgjør verdi i bedriften din.
Veien videre
Fable 5 er uten tvil en teknisk milepæl. Men milepæler i benchmark-verden oversettes ikke automatisk til milepæler i din arbeidshverdag.
For norske bedrifter er det mest fornuftige neste steget det samme som det har vært i tre år: test modellen på egne data, mål faktisk tidsbesparelse, og sammenlikn resultatet med konkurrentene – ikke bare i benchmark-tabeller, men i de oppgavene din virksomhet faktisk gjør hver dag.
Benchmarks er nyttig signalstøy. Men de er ikke substitutt for din egen dømmekraft.