Op uitnodiging van het Letterenfonds presenteerden wetenschappers Karina van Dalen-Oskam en Joris van Zundert (Huygens ING) tijdens een beleidsmiddag voor de Raad van Toezcht, de Raad van advies en de medewerkers van het fonds resultaten van hun computationele onderzoek naar literaire kwaliteit. Ook vertelden ze over hun bijdrage aan een pilot-onderzoek naar het voorspellen van bestsellers waarover momenteel veel gediscussieerd wordt. Vooruitlopend op publicaties waaraan beiden werken, volgt hieronder een samenvatting van de presentatie van Van Dalen-Oskam en Zundert.
In het project The Riddle of Literary Quality zijn we op zoek naar patronen in moderne romans. We willen weten welke eigenschappen karakteristiek zijn voor romans die door lezers in hoge mate literair worden gevonden en voor romans die door lezers niet zo literair worden gevonden. We zijn speciaal geïnteresseerd in kenmerken die relatief gemakkelijk te meten zijn en die het goed mogelijk maken teksten (en lezers) met elkaar te vergelijken. Veel aspecten van stijl kunnen we met behulp van software meten in teksten. Daarnaast is in 2013 een grote enquête naar lezersmeningen gehouden: Het Nationale Lezersonderzoek. Bijna 14.000 deelnemers hebben toen hun mening gegeven over 401 romans. Het vernieuwende van het project is dat we de resultaten van die twee manieren van onderzoek ook met elkaar in verband brengen. Hierdoor komen we meer te weten over hoe fictie wordt ontvangen en welke eigenschappen een roman mogelijk moet hebben om door een hedendaagse lezer als literair ervaren te worden.
Meting van literariteit
Waarom stilometrie? Tot nu toe is dit soort tekstmetingen voornamelijk gebruikt om te achterhalen wie de meest waarschijnlijke auteur van een tekst is. Er is ontdekt dat juist heel ‘gewone’ woorden (de, is, hij etc.) met weinig inhoudelijke informatie verraden wie de auteur is. Dat is misschien contra-intuïtief, maar het werkt wel degelijk. Vandaar onze gedachte om te kijken of ook de mate van literariteit van een roman op deze manier herkend kan worden.
We noemen één van de opvallendste resultaten. De top tien minst literair gevonden boeken zijn alle geschreven door vrouwelijke auteurs. De top tien van romans die als meest literair werden gescoord komen allemaal van mannelijke auteurs. En dat terwijl iets meer dan de helft van de 401 romans door een vrouw zijn geschrevenen en meer dan 70 % van de deelnemers aan Het Nationale Lezersonderzoek vrouw is – net als in het daadwerkelijke lezerspubliek. Als we deze twee groepen van tien titels stilometrisch met elkaar laten vergelijken, blijkt de computer niet alleen romans van dezelfde auteur bij elkaar te clusteren, maar de twee groepen als geheel ook moeiteloos uit elkaar te houden. Dit betekent niet automatisch dat de computer literaire kwaliteit kan herkennen. Er is namelijk ook een verschil in genre. De minst literair gevonden romans zijn bijna allemaal chick-lit romans, genrefictie dus. De tien romans die het meest literair gevonden werden zijn in de markt gezet als literaire roman. Er is een duidelijke genrehiërachie. Het is trouwens geen nieuwe ontdekking dat de methode die we gebruiken om auteurs van elkaar kunnen onderscheiden ook heel goed genreverschillen herkent.
De twee groepen die stilometrisch gemeten ver van elkaar vandaan liggen.
De bovengenoemde chick-lit romans zijn alle geschreven door vrouwen. Voor zover we weten kent dit genre geen mannelijke auteurs. PhD-student Corina Koolen is bezig met een diepgaand onderzoek naar alle aspecten die met gender en perceptie van literaire kwaliteit te maken hebben. Worden romans van vrouwen inderdaad minder literair gevonden dan die van mannen? Hoe beargumenteren deelnemers aan Het Nationale Lezersonderzoek hun scores? Welke trends worden zichtbaar? Corina hoopt haar proefschrift later dit jaar af te ronden.
Als we nader onderzoek willen doen naar conventies van literariteit kunnen we voor nu het best alleen romans van vrouwelijke of alleen romans van mannelijke auteurs in het genre ‘literaire fictie’ bekijken. We geven een voorbeeld van deze aanpak door de woordenschat van de twintig meest en minst literaire romans uit dat genre van mannelijke auteurs met elkaar te vergelijken. Dit levert weer aanknopingspunten op voor verder onderzoek. De meest literair gevonden titels gebruiken relatief vaker een persoonlijk voornaamwoord in de eerste persoon: ik, mij, mijn. De minst literair gewaardeerde romans hebben juist vaker hij, ze, en hen. De minder gewaardeerde boeken bevatten ook een relatief hoger aantal inhoudswoorden als oorlog, soldaten, leger, en mannen. De patronen die op deze manier zichtbaar zijn geworden zullen we nog nader onderzoeken, en ook vergelijken met de patronen die uit een parallelle vergelijking van romans van vrouwelijke auteurs naar voren komen.
Uit het lezersonderzoek blijkt dat mensen boeken die ze niet gelezen hebbben als slechter en minder literair beoordelen dan de boeken die ze wel hebben gelezen
Bestseller-voorspeller
In aansluiting bij dit onderzoek hebben we onlangs meegewerkt aan een pilot project waarin we uitprobeerden of de computer ook verschillende patronen kan herkennen in romans die goed zijn verkocht en boeken die nauwelijks kopers hebben gevonden. We deden dit experiment in samenwerking met WPG Uitgevers en de Koninklijke Bibliotheek (KB). De KB faciliteerde de benodigde technische infrastructuur. WPG stelde ruim 1700 ePubs ter beschikking, van de uitgeverijen A.W. Bruna en De Bezige Bij, met daarbij globale afzetgegevens. Het doel van WPG was het verkennen van de mogelijkheden voor een ondersteunende tool bij selectie en marketing, en bij metadata-generatie. Als wetenschappelijke partners vanuit het Huygens ING waren wij verantwoordelijk voor het eigenlijke onderzoek.
In het experiment hebben we getest in hoeverre deep learning-algoritmen in staat zijn om bestsellers te onderscheiden van nauwelijks verkochte boeken. Aan een neuraal netwerk boden we de tekst van 200 romans aan. Meer precies: het algoritme mat in gedeelten van gelijke omvang (samples) uit de romans hoe vaak welke woorden werden gebruikt. Van elk sample gaven we ook aan of het uit een bestseller of een slecht verkocht boek kwam. Het neurale netwerk wordt op die manier met de samples getraind om op basis van het woordgebruik bestsellers te onderscheiden van boeken die nauwelijks werden verkocht. Als we vervolgens de tekst van romans aanbieden die niet gebruikt zijn als trainingsmateriaal, kunnen we zien hoe goed of slecht het algoritme geleerd heeft om bestsellers van slecht verkopende romans te onderscheiden. Het algoritme classificeerde 78% van de 60 romans correct als een bestseller of als een nauwelijks verkochte roman. Zulke scores bij een relatief eenvoudige wijze van toepasssen van deep learning geven aanleiding om met deze methoden verder te zoeken naar patronen van woordgebruik, betekenissen, en verhaalstructuren die kenmerkend zijn voor slecht verkochte titels en bestsellers. We hopen daarmee bovendien meer kennis op te doen over wat onderscheidend is voor kwaliteit in literaire context.
Links
- The Riddle of Literary Quality
- Het Nationale Lezersonderzoek
- Bepaal jíj dat? Over het raadsel van literaire kwaliteit, rondvraag/interviews door Jasper Henderson in Schreef #3, 2012