Lærer AI fra data, som AI selv har skabt?

Hvis AI lærer fra data, som AI selv har skabt, kan der opstå risiko for spiraler af selvforstærkende misinformation. Det er således relevant at overveje, om vi kan sikre den demokratiske diskurs i en AI tidsalder. For stadig flere mennesker får deres nyhedsfeeds via sociale medier på nettet. Det påvirker deres virkelighedsfortolkning. Stadig flere brugere på sociale medier er syntetiske AI bots. Deres mål er ofte kommercielt til at markedsføre bestemte produkter eller at sikre, at brugerne på sociale medier forbliver engagerede. Men AI bots har også et enormt politiske potentiale.

Dette er andet indlæg i trilogien om, hvordan AI kan påvirke vore virkelighedsopfattelser. Indlægget handler om, at AI ofte lærer fra data, som AI selv har skabt. Det første indlæg handlede om, at hvis AI kan lære os så godt at kende, at det kan hyperpersonalisere sin kommunikation, kan det så også forudsige os og dermed manipulere os? Det sidste indlæg handler om det grundlæggende dilemma om, hvad der overhovedet er virkeligt. Har mennesker f.eks. fri vilje, eller er virkeligheden grundlæggende deterministisk?

Økonomisk vækst bygger på demokratiseret viden

Siden oplysningstiden i 1700-tallet har mennesker øget vores innovation ved at demokratisere og distribuere vor viden. Det har muliggjort den specialisering og samarbejde, der i dag regnes som den væsentligste årsag til vores økonomiske vækst og velstandsniveau.

AI vil på mange måder vende dén decentralisering af viden i løbet af en ultrakort årrække. For mens en Google søgning f.eks. viser flere tusinde relevante links til et spørgsmål, sammenfatter LLMere som ChatGPT indholdet af alle disse links til ét svar. Det er bekvemt for brugeren. Men det giver også risiko for, at enkelheden får brugeren til at opfatte svaret som sandheden. Brugeren risikerer således langsomt at suspendere dele af sin kritiske tænkning. Kritisk tænkning er en generel forudsætning for udvikling, herunder kognitiv udvikling.

AI kan vende dén forudsætning på hovedet, dels fordi det bliver sandhedsfilter, …

LLMere skaber deres svar ved at anvende chain-of-thought reasoning på store datagrundlag. Og deres ræsonnementsmønstre er samtidig udledt fra træning på store datagrundlag. Derfor er det afgørende, hvilke data (virkelighed) de får stillet til rådighed. AI bliver kun så redeligt, som den virkelighed vi lader det lære fra. Ligesom hos mennesker.

Ind til 2024 var AI udbyderne forpligtede til kildevalidering, at vægte efterprøvede kilder højere samt at indføre audit mekanismer for AI. Desuden skulle de sikre, at der var (en vis) transparens for, hvordan AI modellerne justerede for bias og traf beslutninger.

… og dels fordi AI trænes på stadigt ringere datakvalitet

Men effektiviteten af AI algoritmer stiger generelt jo større datamængder, som de lærer fra. Hér mener AI udbyderne, at man har nået grænsen for, hvor mange data der er efterprøvede, fuldstændige eller afbalancerede. Siden starten af 2025 vil de store hyperscalers og LLM udbydere derfor bruge alle deres brugerdata som træningsgrundlag for deres AI modeller.

I praksis betyder det, at Meta f.eks. træner deres AI på data fra Instagram, Facebook og WhatsApp, og at Amazon træner på cloud data fra Amazon Web Services. Disse data er i bedste fald udtryk for befolkningernes gennemsnitlige fortolkninger af fakta. De repræsenterer ikke egentlige fakta eller nødvendigvis dét, som er efterstræbelsesværdigt.

Derfor er det bl.a. relevant at overveje kvaliteten af disse data og herunder, hvem der har skabt disse. For mange af disse data er skabt eller fremhævet af AI selv.

Men desuden føder AI måske sig selv med data

Én af de personer, der længe har interesseret sig mest for, hvordan data på nettet opstår, er professor i Informatik ved Indiana University, Filippo Menczer. Menczers forskning har især fokuseret på, hvordan vi kan beskytte grundlaget for demokratiet, den demokratiske diskurs. Der er to centrale områder for Menczers forskning:

Hvorfor falsk information spreder sig hurtigere end sand. Hér har Menczer bl.a. afdækket hvordan emotionelt ladet og polariserende indhold spreder sig hurtigere og bredere på sociale medier, uanset sandhedsværdien. Som løsning efterlyser Menczer bl.a. gennemsigtighed omkring algoritmer.
Hvordan offentlig diskurs (samtale) kan manipuleres af bots og koordinerede netværk med politisk eller økonomisk interesse. Det kan skabe kunstig konsensus og forstærke spiraler af misinformationer (“infodemics” som bl.a. sås under Covid-19 pandemien). Menczers løsninger handler om, at regulere automatiserede konti samt at indføre menneskelig oversigt, der er uddannet i digital kildekritik.

AI risikerer således at lære fra AI bots, der kan være politisk motiverede

For nogle år siden opstod en hypotese kendt som “dead internet”. Hypotesen har fået meget opmærksomhed og påstår, at næsten alle samtaler på nettet er AI genererede fra chatbots. Hypotesen er udokumenteret og bør derfor tolkes varsomt. Men ifølge Fil Menczer er det underliggende budskab dog meget seriøst: Der er en reel risiko for, at det kan blive virkelighed, medmindre Big Tech selskaberne aktivt forebygger det. Fil Menczer er derfor “very worried”.

Risikoen stiger, fordi AI er centralt for bl.a. USAs strategi

Dén opgave er dog ikke ligetil for AI udbyderne. Blandt andet giver amerikansk lovgivning samme rettigheder til juridiske enheder, f.eks. selskaber, som det giver til fysiske personer. Det betyder, at en AI agent i princippet har samme rettigheder, herunder ytringsfrihed, som en stemmeberettiget vælger. Juridisk er det således kompliceret at forebygge “dead internet”.

Men vigtigere endnu er AI centralt for USAs ambition om, at (gen)skabe sin globalt centrale førerrolle, dets geopolitiske krumtap. Ved dette års AI Action Summit I februar udtalte JD Vance således: “The AI race is not going to be won by hand wringing about safety”. Dén udtalelse blev fulgt i juli måned, da USA udgav sin AI Action Plan (AAP).

USA er klar over risikoen, men vægter AI kapløbet meget højt

AAP skal bl.a. sikre en øget AI udvikling ved at afskaffe (næsten) alle regler, der kan bremse AI udviklingen herunder sikkerhedshensyn. Det hvide hus er dog klar over risikoen, og nævner i indledningen specifikt, at “our AI systems must be free from ideological bias and be designed to pursue objective truth rather than social engineering agendas when users seek factual information or analysis. AI systems are becoming essential tools, profoundly shaping how Americans consume information, but these tools must also be trustworthy.”

Det Hvide Hus er således klar over, at det står med et tveægget sværd, hvor balancegangen i praksis nemt kan blive selvmodsigende. Hvad vægter de højest?

Derfor er det stadig vigtigere, at tilgå AL information med skepsis og kritik

AI kommer således til at definere vores beskrivelse af nutiden og af fortiden. I romanen “1984” skrev George Orwell i 1949 bl.a.: “Who controls the past controls the future. Who controls the present controls the past”.

Fremover bliver det således ekstra vigtigt, at vi forholder os kritisk til svar fra LLMere. AI er ikke vidensbanker, de er statistiske modeller for vidensbanker.

10/08/2025
AI, Geopolitik, Topledelse

Relaterede indlæg

AIs effekt på klima- og meteoforskning

AIs regnekraft og evne til at samkøre store mængder af data fra klima- og meteoforskning...

AIs effekt på robotics og udvikling

Robotics og sanser skal nå op på og overgå menneskers niveau for at skabe bevidstheder,...

Hvorfor er AI disruptivt?

Hvorfor AI er disruptivt handler om, at teknologien gør det muligt at mangedoble hastigheden for...

Hvor påvirker AI i dag?

Svaret på, hvor meget AI i dag påvirker virksomheder, afhænger især af, hvem man spørger....

AI som katalysator for liv

AI kan udløse et kvantespring i udviklingen af syntetisk biologi som katalysator for liv og...

Er mennesker deterministiske, er AI?

Er mennesker unikke, eller er vi lige så deterministiske og replikérbare som AI algoritmer? Har...