conferentie Informatiewetenschap: startpunt van de analyse

Het startpunt van de analyse

Om te komen tot een zinvolle analyse hebben we eerst een startpunt bepaald. Daarbij stonden de volgende drie vragen centraal:

Welke classificatietypen moeten ten grondslag liggen aan de karakterisering van informatie in wetenschappelijke artikelen?
Hoe kan de informatie op grond van deze classificatietypen concreet worden getypeerd?
Hoe kan op basis van deze karakteriseringen een modulaire structuur worden geconstrueerd?

Bij het beantwoorden van de eerste vraag willen we benadrukken dat de classificaties die bij het indexeren van lineaire artikelen gangbaar zijn nog steeds een belangrijke rol spelen. We zullen in elk geval gebruik maken van zowel een natuurkundige karakterisering, als een karakterisering op basis van bibliografische gegevens. Verder maakt een modulaire structuur het mogelijk om de informatie expliciet te classificeren op grond van de specifieke rol die deze informatie speelt binnen het artikel, waarmee wordt gespecificeerd in welke context de informatie aan de orde komt. We noemen dit classificatietype de pragmatische functie van de informatie, omdat de modules die we op deze karakterisering baseren praktisch bruikbare informatie-eenheden moeten vormen. Aangezien een modulaire structuur ook de mogelijkheid biedt om hiërarchische verbanden tussen informatie-eenheden te expliciteren is een vierde en laatste classificatietype dat wij onderscheiden de reikwijdte van de informatie.

Vervolgens komt de vraag aan de orde hoe de informatie op grond van deze soorten classificaties concreet kan worden getypeerd. We zullen weinig woorden wijden aan de natuurkundige karakterisering van de informatie. We gaan ervan uit dat we bestaande, door anderen ontwikkelde natuurkundige classificaties kunnen gebruiken. Belangrijk is in elk geval dat de natuurkundige indexering, die aan iedere module kan worden toegekend in plaats van aan het artikel als geheel, in een modulaire omgeving preciezer kan zijn dan in een lineaire omgeving. Bij de indeling op grond van de bibliografische gegevens zullen we evenzeer de lijnen volgen die in het vakgebied Information Retrieval zijn uitgezet.
Een veel minder ontgonnen terrein is de pragmatische functie van de informatie. Om de analyse richting te geven zijn we in eerste instantie uitgegaan van de archetypische paragraaf indeling van het natuurkundige artikel, die in de wetenschappelijke communicatie haar waarde bewezen heeft: Inleiding, Methoden, Resultaten, Discussie, Conclusies [17]. In deze indeling komen zowel conceptuele typeringen voor (Methoden, Resultaten), als talige (Inleiding, Discussie, Conclusies). Een eerder voorstel voor een conceptuele karakterisering wordt beschreven door Penn en McCauley [18]. Zij typeren de rol van trefwoorden in metallurgische artikelen als bijvoorbeeld 'input', 'output' of 'impurity'. Auteurs die aanzetten hebben gegeven tot een talige karakterisering van de informatie in wetenschappelijke artikelen zijn Sillince [15] en Paice [19]. Wij proberen zowel conceptuele als talige functies te verwerken in een geïntegreerde karakterisering die leidt tot een praktisch bruikbare modulaire stuctuur. Het uitwerken van de pragmatische functie is het hoofddoel van onze analyse.
Het vierde classificatietype, de reikwijdte van de informatie, wordt geconcretiseerd in het onderscheid tussen het microscopische, mesoscopische en macroscopische niveau van onderzoek. Als in meerdere artikelen over hetzelfde onderzoeksproject wordt gerapporteerd maakt bijvoorbeeld de beschrijving van de meetapparatuur deel uit van al deze artikelen. Deze herhaalde, gemeenschappelijke informatie is mesoscopisch van aard en kan deel uitmaken van een aparte, als mesoscopisch gekarakteriseerde module. Het voordeel hiervan is dat auteurs in latere artikelen voor de apparaatbeschrijving kunnen volstaan met een verwijzing naar deze mesoscopische module, eventueel aangevuld met voor deze artikelen specifieke microscopische informatie.
Het is nog niet duidelijk in hoeverre de auteur daadwerkelijk in staat zal zijn om van tevoren de reikwijdte van de informatie al te bepalen. Bij de analyse van het corpus hebben we het voordeel dat we met terugwerkende kracht kunnen vaststellen welke informatie boven het artikelniveau blijkt uit te stijgen. We vermoeden echter dat bij grotere experimentele projecten veelal wel te voorspellen is dat informatie over de belangrijkste methoden, de uitgangspunten en de bredere context van het onderzoek mesoscopisch is. In elk geval kunnen in een elektronische publicatie-omgeving retrograde karakteriseringen, verbanden en mesoscopische modules worden toegevoegd, die om de authenticiteit van het artikel te behouden wel als zodanig herkenbaar zouden moeten zijn.

Voor de beantwoording van vraag 3 moet het begrip 'module' als bouwsteen voor ons model nader worden gedefinieerd. Een module vatten wij op als een conceptuele informatie-eenheid die gedefinieerd wordt in termen van de karakterisering. Daarbij maken we een onderscheid tussen elementaire en samengestelde modules. Een elementaire module is de kleinste eenheid van een artikel met een precieze karakterisering op grond van elk classificatietype (vakinhoudelijk, bibliografisch, en op basis van de pragmatische functie en de reikwijdte). Een samengestelde module is een grotere eenheid die opgebouwd is uit een verzameling, elementaire of ook weer samengestelde, submodules. Zo'n samengestelde module kan ten eerste ontstaan wanneer we binnen een classificatietype de karakterisering verder verfijnen. Een voorbeeld hiervan is het onderscheid tussen de submodules Experimentele en Theoretische Methoden binnen de module Methoden. Ten tweede kan er een samengestelde module ontstaan door de interactie van twee classificatietypen. Een pragmatische module kan bijvoorbeeld submodules bevatten met verschillende natuurkundige karakteriseringen.
De opzet van het modulaire en het traditionele artikel blijven tot op zekere hoogte vergelijkbaar doordat de indeling op grond van de pragmatische functie van de informatie als leidend principe wordt genomen. Hierdoor nemen de modules de plaats in van de paragrafen. Vervolgens worden deze ‘hoofdmodules’ mede op grond van de andere classificatietypen nader gestructureerd. In de paragraaf De eerste aanzet tot het modulaire model zullen we voorbeelden geven van op deze manier geconstrueerde modules.
Een concrete leidraad voor de constructie van een module - en daarmee voor het apart karakteriseren van informatie - is dat de module een 'echte informatie-eenheid' moet behelzen. Dat wil zeggen dat zo'n eenheid een samenhangend geheel moet zijn dat ook betekenis heeft als het geïsoleerd is van de rest van het artikel; praktisch bezien houdt dat in dat het aannemelijk is dat lezers de eenheid ook apart willen raadplegen. De modulaire structuur is overigens nadrukkelijk conceptueel van aard en niet lay-outtechnisch. Grote modules kunnen worden gepresenteerd op verschillende schermen als dat bijvoorbeeld de leesbaarheid of de laadsnelheid ten goede komt. Naar de leesbaarheid van hypertext-documenten zijn de laatste jaren al veel studies verricht [20].

Het modulaire model komt tot stand door middel van een iteratieve analyse. Eerst worden enkele artikelen microscopisch geanalyseerd. Deze analyse houdt in dat op basis een gekozen classificatieprincipe wordt nagegaan welke informatie deze artikelen bevatten. Daarna worden ze in een eerste, rudimentaire modulaire vorm herschreven. Vervolgens vindt er een evaluatie plaats van het modulariseringsproces en de resulterende modulaire artikelen, zowel op microscopisch niveau per artikel, als op mesoscopisch niveau door de artikelen met elkaar te vergelijken. Na deze evaluatie wordt het model bijgesteld en weer gebruikt bij de analyse van de volgende artikelen. Deze iteratie zetten we voort totdat het model zover gestabiliseerd is dat de artikelen van het corpus herschreven kunnen worden volgens het model.
We hebben nu vijf artikelen uit het corpus geanalyseerd. Hierbij zijn we uitgegaan van hoofdmodules die vergelijkbaar zijn met de gestandaardiseerde paragrafen. Behalve deze vijf hoofdmodules voor de wetenschappelijke informatie hebben we ook een module 'Meta-informatie' onderscheiden voor bijvoorbeeld de bibliografische gegevens en het dankwoord. We hebben de informatie uit de artikelen geprobeerd volgens het pragmatische classificatietype te karakteriseren als Meta-informatie, Inleiding, Methoden, Resultaten, Discussie of Conclusies. Vervolgens hebben we geprobeerd deze informatie als een coherent geheel te groeperen in de desbetreffende hoofdmodules, waarbij ook rekening werd gehouden met het vierde classificatietype: de reikwijdte van de informatie.
De eerste modularisering was er ten eerste op gericht de karakterisering van de hoofdmodules te verbeteren. Ten tweede hebben we de hoofdmodules, die in eerste instantie nog elementaire modules waren, waar nodig onderverdeeld in submodules. Ten derde hebben we geprobeerd in grote lijnen vast te stellen welke bestanddelen van modules in het artikel vast en welke optioneel kunnen zijn. We concentreren ons in deze bijdrage op de constructie van de modules zelf en nog niet op de inventarisatie van de verbanden daartussen, noch op mogelijke aanbevelingen voor auteurs en referees.

vorige De vakinhoudelijke analyse

volgende Belangrijkste bevindingen

Inhoudsopgave van dit artikel

Last modifications on: 8-11 1996