For hver af 500 afgørelser modtog Vivian et faktum-resumé og det relevante lovgrundlag — men ikke domskonklusionen. En LLM-dommer holdt mappens svar op mod den faktiske afgørelse på tre dimensioner: retsgrundlag, ræsonnement, konklusion. Resultatet er ikke akademisk præcision. Det er en operationel indikator.
Executive summary · 1 minut
For hver sag fik Vivian faktum og lov — aldrig domskonklusionen. Hun skulle selv finde retsgrundlag, ræsonnement og udfald.
En automatiseret dommer holdt Vivians svar op mod den faktiske dom på retsgrundlag, ræsonnement og konklusion — uden adgang til web eller anden kontekst.
I ~80 % af sagerne følger Vivians ræsonnement samme logiske struktur som Højesterets begrundelse. En operationel indikator — ikke en præcisionsmåling.
Begrænsninger og transparens
Evalueringen er foretaget af én LLM-dommer med én prompt. Der er ikke foretaget inter-rater reliabilitetstest med flere dommere eller flere promptvarianter.
Scoring-kriterierne — hvad der tæller som "korrekt retsgrundlag", hvor stramt "samme ræsonnement" skal være — er ikke gennemgået eller valideret af et uafhængigt juridisk panel.
Grundmodellerne bag Vivian kan have set Højesteret-afgørelser i deres pretraining. Det kan påvirke ræsonnement-lighed uden, at der er reel juridisk forståelse i spil.
Højesteret 2015–2023. Resultatet generaliserer ikke automatisk til landsret, byret, voldgift eller andre retsinstanser — og slet ikke til retsområder uden for de evaluerede.
Tidligere versioner sammenlignede Vivian med en ~20 % frontier-model baseline og talte et 60 pp gap. Den metodologiske dokumentation, vi vil stå inde for offentligt, er ikke færdig. Tallene er derfor fjernet — ikke fordi de er ufordelagtige, men fordi vi ikke vil stå med dem uden ryggrad af dokumentation. Vil du køre en kontrolleret baseline på 20–30 sager med os, kan tallene genindføres med fuld transparens.
Vivians output er i ~80 % af tilfælde strukturelt i overensstemmelse med Højesterets juridiske argumentation, bedømt af en automatiseret dommer. Det er ikke en garanti for korrekthed i den enkelte sag.
Metodologi · hvad tallet konkret betyder
For at gøre tallet uafhængigt fortolkbart oplistes her, hvad der er fastlagt i denne version, og hvad der dokumenteres i det fulde metodologibilag.
Bilaget kan rekvireres til ekstern verifikation. Tallene i denne rapport står på de afgrænsninger, der er listet ovenfor — ikke mere, ikke mindre.
Hvorfor det betyder noget
I en verserende sag findes der ingen domskonklusion at sammenligne med. Advokaten skal handle på Vivians analyse, før retten har talt. Det er præcis dér, reasoning alignment tæller.
Når vi i 500 afsluttede sager kan vise, at Vivians ræsonnement ofte følger samme logiske struktur som Højesterets, giver det et konkret empirisk grundlag for at bruge analysen som kvalificeret arbejdsgrundlag i verserende sager — ikke som garanti for korrekthed i den enkelte sag.
Du får et arbejdsgrundlag, hvor den indledende retskildeidentifikation og argumentationsstruktur allerede er kvalificeret — så din tid kan bruges på kontrol, klientkontekst og strategi frem for nulpunktssøgning. Den dispositive bestemmelse er identificeret. De bærende præjudikater er trukket ind. Du leverer det sidste lag — den juridiske verifikation, klientviden og taktik, kun du har.
Det er dét, en systematisk test mod Højesterets begrundelser kan give: ikke garanti for korrekthed, men et bedre grundlag for tillid.
Hvad måler vi?
Reasoning alignment = Vivians juridiske argumentation følger samme logiske trin som Højesterets — samme bestemmelse, samme vægtning, samme retning.
Ikke en præcisionsmåling i akademisk forstand. Et svar på det praktiske spørgsmål: kan en advokat tage analysen som kvalificeret arbejdsgrundlag og bruge sin tid på kontrol, klientkontekst og strategi — frem for nulpunktssøgning?
Når strukturen holder — den dispositive bestemmelse er identificeret, fortolkningen følger samme retning, og konklusionen peger samme vej — kan advokaten bruge analysen som kvalificeret arbejdsgrundlag i stedet for nulpunkt. Den juridiske verifikation forbliver advokatens.
Hver sag bedømmes individuelt af en LLM-dommer, der får adgang til Vivians svar og Højesterets dom — men ikke til web-søgning eller ekstern kontekst. Bedømmelsen er bevidst snæver og falder i tre adskilte spørgsmål.
Har Vivian peget på den dispositive bestemmelse? Trækker hun de relevante forarbejder, præjudikater og fortolkningsdata ind, som Højesteret faktisk lagde vægt på?
Følger Vivians argumentation samme logiske trin? Vægter hun de samme momenter, og afviser hun de samme modargumenter, som Højesteret afviste?
Når argumentationen er foldet ud — peger den i samme retning som domskonklusionen? Bemærk: terminologiske forskelle ("medhold" vs. "stadfæstede") tæller som mismatch, aldrig som hit.
Sådan læses tallene
Vægtet højest. Pegede Vivian på den dispositive bestemmelse? Forkert lov = forkert alt.
Følger ræsonnementet samme logiske trin som Højesterets begrundelse?
Vægtet lavest. Substansen tæller mest; label-præcision er stadig en del af kravet — terminologiske mismatches koster point, men ikke alt.
2/2 · 2/2 · 2/2 = 10/10. Et label-tab på konklusionen (2 · 2 · 1) giver 9/10. En forkert bestemmelse koster mest. ~80 % af 500 sager opnår 9 eller 10 — strukturel overensstemmelse med Højesterets begrundelse.
Substans vs. label. Konklusionsscoren afspejler den materielle disposition. "Outcome label" er en separat pipeline-diagnostik fra automatiseret label-matching. Pure terminologi-forskelle ("medhold" vs. "stadfæstede") registreres som label-mismatch men koster ikke point, når den materielle konklusion er identisk. Label-tab opstår, når terminologi-forskellen indebærer en reel forskel i den retlige disposition (f.eks. "Ophævede" vs. "Hjemvist", hvor procesvejen ikke er ækvivalent).
Ikke en redaktørs vurdering. Ikke en juridisk database. Ikke en panel-konsensus. Vivians ræsonnement holdes op mod den faktiske domsbegrundelse — ord for ord, hvor det er muligt.
Det betyder også, at vi accepterer Højesterets fortolkning som korrekt for testens formål, selv hvor den måtte være kontroversiel.
LLM-dommeren har ikke adgang til web-søgning eller anden ekstern kontekst i evalueringen. Bedømmelsen sker alene på baggrund af Vivians output og den fremlagte dom som eksplicit kontekst — ikke session-hukommelse på tværs af sager eller adgang til øvrige sagsakter.
Bemærk: modellen har stadig sin pretraining-viden, jf. forbeholdet om pretraining-kontaminering ovenfor. Den måler reasoning-overensstemmelse mellem Vivians output og dommens begrundelse — ikke "hukommelsesfri" gendigtning.
Spørgsmål om adgang til anden forlængelse af tidsbegrænset foranstaltning — hvor "særlige omstændigheder" kræves, og proportionalitetskravet efter § 72 skal være opfyldt.
Vivian citerer korrekt § 68 a, stk. 1, 3. pkt. og følger Højesterets ræsonnement: særlige omstændigheder skal foreligge, og proportionalitetskravet efter § 72 skal være opfyldt. Vivian konkluderer, at anklagemyndigheden får medhold under disse betingelser, hvilket stemmer med Højesterets stadfæstelse.
Spørgsmål om RF Holding hæfter for ikke-indeholdt udbytteskat efter kildeskattelovens § 69, stk. 1, når dokumentationen for udlodningen til det luxembourgske moderselskab udelukkende består af interne koncerndokumenter og udlodningen sker i form af fordringer på et Cayman-selskab — alene af bogholderimæssig karakter.
Vivian anvender korrekt kildeskattelovens § 69, stk. 1 som hæftelsesbestemmelse og følger Højesterets ræsonnement præcist: RF Holding havde ikke godtgjort, at det luxembourgske moderselskab opfyldte betingelserne for fritagelse (herunder reel modtagelse og retmæssigt ejerskab), og bevisbyrden påhvilede selskabet. De tre kumulative faktorer (manglende regnskabsføring, ensidig intern dokumentation, rent bogholderimæssig udlodning) understøtter, at hæftelsen under § 69, stk. 1 var berettiget. Konklusionen stemmer med Højesterets stadfæstelse af landsrettens dom.
Spørgsmål om en kontraanke fra anklagemyndigheden var rettidigt iværksat efter rpl. § 907, stk. 1, 3. pkt., når underretningen var sendt som almindeligt brev til varetægtsfængslet inden fristens udløb — men T først fik den udleveret efter overflyttelse til en anden arrest.
80 % betyder, at ~100 sager ud af 500 ikke rammer rent. Det her er én af dem. Vivian havde bestemmelsen, ræsonnementet og den vindende part — men kaldte dispositionen "Ophævede" hvor Højesteret kaldte den "Hjemvist". Substantielt ækvivalent, terminologisk forkert. Vores målemetode tæller den som tab — bevidst, fordi label-præcision er en del af, hvad en advokat skal kunne stole på i en plan.
De følgende eksempler ligger uden for de 500 højesteretsafgørelser, der danner grundlag for ~80 %-tallet, og indgår ikke i beregningen. De er medtaget for at illustrere, hvordan Vivians ræsonnement holder på sagstyper og instanser uden for hovedkorpus — byretsag (multi-tiltalt) og en civil sag fra 2024 med subordinationsanalyse. De er ikke evidens for, at ~80 %-tallet generaliserer ud over Højesteret 2015–2023.
Spørgsmål om en forælder, der havde indgået aftale med Aarhus Kommune om 30 timers ugentlig støtte til sin voksne handicappede søn i eget hjem, var lønmodtager efter arbejdstidsloven § 2, stk. 1 — og dermed berettiget til godtgørelse efter § 8, stk. 1 for overskridelse af 48-timersgrænsen i § 4, idet han gjorde gældende, at han reelt passede sønnen døgnet rundt.
Vivians svar identificerer korrekt arbejdstidsloven § 4 som det centrale retsgrundlag og følger Højesterets samme ræsonnement: der var ikke etableret et over- og underordnelsesforhold, derfor var A ikke lønmodtager, og arbejdstidslovens regler var ikke applicerbare. Vivian går videre end Højesteret ved også at diskutere § 8 og servicelovens § 118 som sekundær hjemmel — begge ender ved korrekt frifindelse af kommunen.
Spørgsmål om medvirken i forening efter strl. § 285, stk. 1, jf. § 276 a, jf. § 21 — herunder afgrænsning af den ene tiltaltes bevisrolle samt udvisning af EU-borgere efter udl. § 24, nr. 2 og proportionalitet under § 26 b og opholdsdirektivet.
Vivian citerer korrekt strl. § 285, stk. 1, § 276 a, § 21 og § 75, stk. 2, nr. 1 samt udl. § 24 og § 32, stk. 4. Vivian følger rettens ræsonnement om bevisførelse (hundespor, signalement, forpustelse, udstyr), forsøgskvalificering og medvirken i forening. Vivian behandler udvisningen for Tiltalte 1 som retligt usikker og med "proportionalitetsusikkerhed", mens retten konkluderer, at proportionalitetskravet efter § 26 b og opholdsdirektivet er opfyldt.
Vivian rammer ikke 80 % fordi hun husker udfald — hun ser dem ikke. Hun rammer fordi hun læser sagen som en advokat: identificerer den dispositive bestemmelse, vejer landsrettens præmisser og finder de retskilder, der bærer afgørelsen. Sæt Vivian sammen med din ekspertise, og den 20 % hun mangler, leverer du selv.