Over leesbaarheid

De gemiddelde leessnelheid in Nederland is ongeveer 150-250 woorden per minuut, de gemiddelde spreeksnelheid 120 woorden per minuut. (Op 120w.nl en flitsverhaal.nl wordt gemakshalve -en, ik geef toe, om esthetische redenen- een leessnelheid van 120 woorden per minuut aangehouden). De leessnelheid hangt natuurlijk samen met het niveau van de inhoud van de tekst en met hoe een tekst geschreven is. Maar bijvoorbeeld ook met de aandacht (vermoeidheid, drukke/rustige omgeving) en het doel van de lezer (snel wat zoeken, studie, vermaak). Veel mensen lezen romans aandachtiger (en dus langzamer) dan tijdschriften en poëzie weer aandachtiger dan romans.

Leesbaarheid

De leesbaarheid van een tekst is het gemak waarmee een lezer die geschreven tekst kan lezen en begrijpen. Al sinds het eind van de negentiende eeuw probeert men om dat, deels subjectieve begrip, in getal en maat te vangen en uit te drukken. Er zijn sindsdien diverse formules en berekening voor, voor elke taal net anders.

Een van de meeste gebruikte formules, voor de Engelse taal, is die van de Amerikaan Rudolf Flesch. Deze formule (gepubliceerd in 1949, zie hieronder) is voornamelijk gebaseerd op het aantal woorden, het aantal zinnen en het aantal lettergrepen. Deze formule produceert een getal tussen 0 en 100, waarbij een lager getal een moeilijker te lezen tekst betekent.

flesch

Op het werk van Flesch zijn veel variaties en aanpassingen gemaakt, waarvan die van Flesch-Kincaid de populairste is. Ook voor andere talen dan het Engels werden op basis van het werk van Flesch aanpassingen gedaan (hoewel de formule van Flesch-Kincaid ook zonder aanpassingen redelijk bruikbaar lijkt voor het Nederlands). Zo maakte de Wageningse socioloog Wouter Douma een aanpassing om de index meer geschikt te maken voor het Nederlands. Brouwers Leesindex A (1974) is een andere modificatie. Het bekende AVI-systeem, zoals dat op basisscholen gebruikt wordt, is grotendeels gebaseerd op de Leesindex A.

Leesbaarheid en 120w.nl

Ik speelde al lange tijd met het idee om deze formules eens los te laten op de rijke verzameling teksten van 120w.nl. Niet alleen om inzicht te krijgen, maar ook om het lezen (en schrijven) te vergemakkelijken.

Na vooronderzoek heb ik een viertal (zie lijstje hieronder) veelgebruikte leesbaarheidsindexen losgelaten op het corpus van 120w.nl. Op moment van schrijven (en testen) bestond dit uit ruim 11.000 (!) teksten van circa 120 woorden (tot 1 januari 2014 accepteerde 120w.nl inzendingen tot 120 woorden, vanaf 1 januari 2014 alleen inzendingen van exact 120 woorden). De teksten zijn door ruim 1250 verschillende auteurs geschreven en ook qua soort tekst was er veel variatie (van column tot proza tot poëzie).

De leesbaarheidsindexen die getest zijn op het corpus van 120w.nl:

  • Flesch
  • Flesch-Kincaid
  • Leesindex A (Brouwer) / AVI
  • Douma

Resultaten

Gemiddeld bestond een 120w-tekst uit 118,9 woorden, verdeeld over 13,6 zinnen (minimaal 1 zin, maximaal 52 zinnen).

zinnen
Aantal zinnen per stukje (op basis van 11.000 stukjes van 120w.nl)

Op het eerste gezicht leken drie van de vier formules redelijk vergelijkbare resultaten te geven qua verdeling van de scores (zie tabel). Alleen de verdeling van de Flesch-Kincaid was minder uitgesproken (en niet mooi normaal verdeeld) en dus minder geschikt. De Douma, Flesch en Leesindex A geven vergelijkbare resultaten, behalve dat Douma en Leeesindex A op het corpus van 120w ook scores boven de 100 opleveren. De formule van Flesch presteert eigenlijk het beste.

Douma Brouwer
Leesindex A
Flesch-Kincaid Flesch
gemiddeld (min-max)
84.1 (4.9 – 108.9)
gemiddeld (min-max)
81.2 (12.3 – 154.5)
gemiddeld (min-max)
6.9 (1 – 50.6)
gemiddeld (min-max)
73.4 (13.7 – 99.3)
 douma  brouwerleesindex  fleschkincaid flesch

Allereerst is er, zoals verwacht, een duidelijk verband tussen het aantal zinnen per 120 woorden en de Flesch score. Kortere zinnen is dus leesbaarder (wat we al konden afleiden uit de formule).  Dat alle formules afleidingen zijn van de eerste formule van Flesch is goed te zien als we kijken naar de correlaties tussen Flesch en de andere indexen, er zijn duidelijke correlaties. Bij Douma is deze zelfs volledig lineair.

correlatiesflesch

Overigens bestaat er geen duidelijk verband tussen het aantal hartjes/waarderingen van een tekst en de leesbaarheidsscore. Onder deze klik een overzicht van de meeste resultaten (ook voor het oude AVI-systeem).

Toepasbaarheid

Op het corpus van 120w.nl lijkt de leesbaarheidsindex van Flesch het meest bruikbaar (en de overige formules zijn überhaupt sterk verwant aan deze oerformule). De formule produceert echter een getal tussen 0 en 100, waarbij een hogere score voor meer leesgemak staat, wat niet erg intuïtief is bovendien te gedetailleerd. Ik wilde voor 120w.nl een simpele verdeling in drie groepen, die in één oogopslag te zien en interpreteren is.

bril_sprite2_16_dicht

Ik heb uiteindelijk gekozen voor een klein plaatje van een gekleurde leesbril. En na wat analyses en steekproeven met proefpersonen ben ik tot afkapwaarden gekomen die resulteren in drie groepen (deze afkapwaarden liggen in de buurt van, maar net anders dan de statistische tertielen, bovendien zijn ze dynamisch en veranderen ze mee met het corpus).

  • Makkelijker dan gemiddeld leesbaar (groen leesbril)
    Niveau ongeveer eind basisschool (goed te lezen vanaf ongeveer 11-12 jaar, AVI 9+/PLUS)
  • Gemiddeld leesbaar (oranje leesbril)
    Niveau ongeveer bovenbouw middelbaar onderwijs (goed te lezen voor de meeste 14-15 jarigen)
  • Moeilijker dan gemiddeld leesbaar (rode leesbril)
    Goed te lezen voor bijvoorbeeld studenten van hoger onderwijs en wat meer doorgewinterde lezers

De verdeling van alle teksten op 120w.nl is/blijkt daarmee als volgt: groen 62.8%, oranje 26.4% en rood 10.8%. Intuïtief klopt dit best aardig.

Uiteraard zijn de leesbrillen natuurlijk vooral indicatief en zegt de kleur van het leesbrilletje niet per se iets over de moeilijkheid van de inhoud van een tekst. Een gemakkelijk leesbare tekst kan prima over een moeilijk onderwerp gaan (of omgekeerd). Toch hoop ik dat de leesbrilletjes op 120w een klein beetje zullen bijdragen aan makkelijker (en dus meer) lezen en schrijven.

Overigens ben ik me ervan bewust dat bovenstaande tekst zelf niet erg goed scoort op leesbaarheid 😉

Frank