Waarom PDF's niet werken met AI (en wat je eraan doet)

Het ziet er goed uit. Maar de AI leest het verkeerd.

Je uploadt een campagnerapport als PDF naar Gemini of ChatGPT. Mooie tabellen, nette kolommen, logo in de hoek. Je vraagt om een samenvatting van de kwartaalcijfers. Het antwoord klinkt overtuigend, de zinnen lopen, het formaat klopt. Maar de cijfers kloppen niet.

Dat is het verraderlijke aan PDF’s en AI. Het model geeft je geen foutmelding. Het doet zijn best met wat het krijgt, en als het iets niet goed kan lezen, vult het de gaten zelf in. Dat heet hallucinatie, en het gebeurt vaker dan je denkt.

PDF is gemaakt voor ogen, niet voor taalmodellen

Het PDF-formaat stamt uit de vroege jaren negentig. Adobe ontwikkelde het om documenten te delen die er overal identiek uitzagen: eerst op papier, later op scherm. De Amerikaanse belastingdienst was een van de eerste grote gebruikers: formulieren die er bij elke ontvanger precies hetzelfde uitzagen, zonder ze te printen en te posten. Sindsdien is PDF de standaard geworden voor iedereen die een betrouwbaar document nodig heeft: advocaten, overheden, uitgevers, pensioenfondsen.

Maar onder de motorkap is een PDF geen tekst. Het is een verzameling instructies voor het tekenen van tekst op een pagina: lettercoördinaten, fontkeuzes, posities in pixels.

Een taalmodel leest geen pixels. Het leest tekst. Om iets met een PDF te doen, moet het model eerst de tekst eruit halen via OCR (optical character recognition). En daar gaat het mis.

AI ziet een PDF anders dan jij: links het document zoals wij het zien, rechts hoe AI de structuur probeert te herkennen

Waar het concreet misgaat

Tabellen

Dit is het grootste probleem. Een PDF-tabel ziet er voor ons helder uit: rijen, kolommen, getallen netjes uitgelijnd. Maar voor een taalmodel zijn het losse tekstelementen zonder structuur. Kolommen lopen door elkaar, rijen verschuiven, een getal dat bij “Q3” hoort wordt gekoppeld aan “Q2”.

Een pensioen-PDF met tabellen: de rode cirkel markeert waar AI de kolommen door elkaar haalt

In een recente training lieten we een pensioendocument zien met afkoopcijfers per leeftijdsgroep. Vijf kolommen, tientallen rijen. Voor ons helder. Het taalmodel haalde de kolommen door elkaar en gaf bedragen terug die bij de verkeerde leeftijdsgroep hoorden. Niemand die dat meteen ziet als je het antwoord niet narekent.

Kolommen en layout

Veel rapporten en academische papers gebruiken twee kolommen. OCR leest van links naar rechts en combineert tekst uit de linker- en rechterkolom tot één onleesbare brij.

Hetzelfde probleem speelt bij paginaovergangen. Een tabel die doorloopt van pagina 10 naar pagina 11 is voor ons één geheel. Voor het model zijn het twee losse fragmenten. De koptekst verdwijnt, de context breekt af.

Visuele elementen

Een staafdiagram in een PDF is voor ons in één oogopslag duidelijk. Een taalmodel kan er weinig mee. Het ziet de assen niet, leest de labels verkeerd en mist de onderlinge verhoudingen. Organogrammen en flowcharts zijn nog lastiger: het model ziet losse tekstvakken, maar begrijpt niet hoe ze met elkaar verbonden zijn.

Een organogram als PowerPoint-slide: visueel helder voor mensen, maar voor AI een puzzel van losse tekstvakken

En dan zijn er nog de scans. Gescande documenten met slechte resolutie, scheve tekst of handgeschreven aantekeningen in de marge. Het model doet zijn best, maar de foutmarge is groot.

Waarom dit niet snel opgelost wordt

Je zou verwachten dat dit een opgelost probleem is. Taalmodellen kunnen code schrijven, wiskundige bewijzen leveren en in meerdere talen vertalen. Maar PDF’s lezen? Daar worstelen ze mee.

Het kernprobleem gaat dieper dan slechte OCR. OCR herkent tekst, maar begrijpt de redactionele structuur van een document niet. Een kop, een voetnoot, een bijschrift bij een grafiek: voor ons is het verschil vanzelfsprekend. Voor een model zijn het stukjes tekst op een pagina, zonder hiërarchie. Zolang het om lopende tekst gaat, werkt dat prima. Maar zodra er tabellen, formulieren of meerdere kolommen in beeld komen, valt de structuur weg.

Er wordt aan gewerkt. Een nieuwe generatie gespecialiseerde modellen pakt PDF’s aan in meerdere stappen: eerst het document opdelen in regio’s (koppen, tabellen, afbeeldingen, voetnoten), dan elke regio doorsturen naar een apart model dat getraind is op precies dat type element. Die aanpak is vergelijkbaar met hoe zelfrijdende auto’s werken: eerst de omgeving segmenteren (auto, voetganger, wegmarkering), dan per object beslissingen nemen. Grafieken worden zo omgezet naar spreadsheets, handgeschreven aantekeningen worden ontcijferd, en tabellen houden hun kolommen.

Waarom investeren bedrijven hier nu pas serieus in? Omdat AI-ontwikkelaars ontdekten dat PDF’s een enorme, onbenutte bron van hoogwaardige data zijn. Overheidsrapporten, studieboeken, wetenschappelijke papers, octrooien: het zit allemaal in PDF. Onderzoekers schatten dat er biljoenen tokens aan trainingsdata in PDF’s opgesloten zitten. Dat maakt het probleem ineens commercieel interessant.

De resultaten worden beter. Maar het blijft een probabilistisch systeem: het model gokt wat de structuur is. In 98% van de gevallen gaat dat goed. Die laatste 2% is precies de tabel met je kwartaalcijfers, het formulier met handgeschreven aantekeningen, de scan die net iets scheef staat. En dan zijn er de randgevallen waar niemand op rekent: PDF’s die andere PDF’s bevatten, juridische documenten met passages die soms onderstreept en soms doorgestreept zijn, faxen van medische formulieren waar artsen overheen hebben gekrabbeld.

PDF als formaat gaat ook niet weg. De zoektrend stijgt elk jaar gestaag, zonder uitzondering. Er is simpelweg geen ander formaat dat doet wat PDF doet: een document dat er voor elke ontvanger identiek uitziet, ongeacht apparaat, browser of tijdstip. Een PDF uit 1995 opent vandaag nog precies zoals bedoeld. Overheden, advocaten, uitgevers, pensioenfondsen: ze zijn er allemaal afhankelijk van. De hoeveelheid PDF’s groeit. Het probleem wordt niet kleiner.

Wat je er zelf aan doet

De oplossing is simpeler dan je denkt. Je hoeft niet te wachten op betere modellen. Je moet je kerndocumenten omzetten.

Gebruik het bronbestand

Heb je het originele Word-document, de Google Sheet of de Google Slides? Gebruik dat. Altijd. Het bronbestand bevat de structuur die een PDF kwijtraakt. Pas als je geen bronbestand hebt, val je terug op de PDF.

Zet om naar platte tekst

Kopieer de inhoud van je document naar een Google Doc of een markdown-bestand. Koppen, subkoppen, opsommingen, tabellen in tekstformaat. Geen opmaak, geen logo’s, geen paginanummers. Het gaat om de inhoud.

Voor Google Docs: zet de pagina-instelling op “pageless” (Bestand > Pagina-instelling). Zonder pagina’s werkt het als een eindeloos notitievel, dat is precies wat een taalmodel nodig heeft.

Laat AI het omzetten

Heb je een slide deck van 50 pagina’s? Upload het naar Gemini en vraag: “Zet dit om naar gestructureerde tekst in markdown. Beschrijf ook wat je op visuele elementen ziet.” Het model haalt de tekst eruit en maakt een omschrijving van grafieken en foto’s. Het resultaat check je, maar het bespaart je uren handwerk.

Tabellen apart behandelen

Tabellen zijn het kwetsbaarst. Kopieer ze uit Excel of Sheets als platte tekst, of exporteer als CSV. Een tabel in CSV-formaat leest een taalmodel foutloos. Dezelfde tabel in een PDF is onvoorspelbaar.

Werk in het Microsoft-ecosysteem

Gebruik je Microsoft 365 met Copilot? Dan omzeil je het PDF-probleem grotendeels. Copilot leest Word-, Excel- en PowerPoint-bestanden rechtstreeks via Microsoft Graph, inclusief de oorspronkelijke structuur. Geen OCR, geen gokwerk. Dat is een van de redenen waarom werken vanuit bronbestanden zo veel betrouwbaarder is dan werken vanuit een PDF-export.

Wanneer een PDF wél prima is

Niet alles hoeft omgezet. PDF’s werken goed genoeg voor:

  • Lopende tekst zonder tabellen (een beleidsdocument, een rapport in proza)
  • Brainstormen en globale samenvattingen (waar exacte cijfers niet kritiek zijn)
  • Documenten die je eenmalig raadpleegt (niet als onderdeel van je vaste kennisbank)

De vuistregel: als je het antwoord niet zou narekenen, is een PDF prima. Als er geld, percentages of klantnamen in staan, zet dan om.

Het kost een middag, het bespaart je maanden

De meeste teams die we trainen hebben 10 tot 15 kerndocumenten: strategieplannen, tarieven, campagneblauwdrukken, doelgroepomschrijvingen. Die documenten zet je één keer om naar platte tekst. Daarna gebruik je ze bij alles wat je met AI doet, bijvoorbeeld als onderdeel van je AI-kennisbank.

Dat omzetten kost een middag. Het alternatief is elke keer opnieuw met je vingers kruisen dat het model de PDF deze keer wel goed leest. Dat is geen werkwijze. Dat is hopen.

PDFdocument parsingAI werkomgevingkennisbankhallucinaties
Casimir Morreau
Geschreven door Casimir Morreau

Co-founder & Lead Trainer

20+ jaar ervaring, o.a. Professor HvA Digital, Leiderschaps trainingen.

LinkedIn