Transcription: structure (MVN)
De transcriptie van de editie wordt opgenomen in een element <text>. De tekst van de transcriptie bestaat vrijwel altijd uit verschillende lagen met een bepaalde hiërarchie. Denk bijvoorbeeld aan afzonderlijke teksten, hoofdstukken, paragrafen, een verzameling gedichten etc. Die tekstuele hiërarchie komt ook tot uiting in de codering van de transcriptie. Hieronder zal worden uitgelegd hoe dat in zijn werk gaat.
Contents
De structuur van het <text>-element
Het geheel van de weergave van de teksten wordt beschouwd als <text>-element. De annotatie en de registers worden op basis van lemmatisering buiten het document om gegenereerd en maken dus geen deel uit van de structuur van het XML-bestand.
De kern van de editie, de middeleeuwse tekstverzameling, wordt aangeduid als element <group>. Deze <group> bestaat uit een aantal <text>-elementen: dat zijn de afzonderlijke teksten. Wanneer teksten bijeenhoren en als het ware een verzameling binnen de verzameling vormen (zoals dat bijvoorbeeld bij spreuken het geval kan zijn) worden zij opgevat als geneste <group> binnen de <group> die de tekstverzameling als geheel beschrijft.
Kort gezegd: elke <group> is samengesteld uit een of meer elementen <text>; en elk element <text> binnen de <group> die de tekstverzameling aanduidt, bevat weer het element <body>. Natuurlijk kan een <group> ook andere elementen <group> bevatten, bijvoorbeeld wanneer er sprake is van een een deelverzameling binnen de tekstverzameling. Uiteindelijk zal een <group> toch bestaan uit elementen <text>. Die <text> elementen omvatten op hun beurt dan weer verplicht een element <body>.
De interne geleding van de geëditeerde teksten kan, indien nodig, worden aangegeven door het elementDe structuur van dit deel van de editie ziet er dus als volgt uit:
<teiHeader>...</teiHeader> <text> <group> <text> <body/> </text> </group> </text>
De tag van het element <text> die het transcriptiedeel omsluit krijt een xml:id attribuut met als waarde een door de editeur zelf te bedenken sigle waarmee de editie in het hele document wordt geïdentificeerd. Ter voorkoming van verwarring bij zoek- en vervangopdrachten tijdens het werken aan de editie, verdient het aanbeveling om de sigle uit een (korte) string van hoofdletters te laten bestaan die zo mogelijk niet voorkomt in de uitgegeven tekst. Aan elk nevengeschikt of genest element <group> of <text> wordt ter identificatie een eigen xml:id attribuut toegekend met een waarde die is samengesteld uit de handschriftsigle en het tekstnummer. Daarnaast wordt aan het element een n attribuut toegekend met het tekstnummer zoals het in de editie moet verschijnen. <group xml:id="SIGLE45" n="45">...</group> De waarde van het xml:id attribuut wordt gerelateerd aan de hiërarchische structuur van de tekstverzameling. De waarde van het n attribuut volgt in principe de oorspronkelijke tekstnummering van het handschrift. Kent het handschrift geen oorspronkelijke tekstnummering dan brengt de editeur de waarde van het n attribuut in overeenstemming met het xml:id attribuut. De interne structuur van het <group> element dat de tekstverzameling omvat is dus (versimpeld weergegeven, maar met xml:id en n attributen) bijvoorbeeld als volgt ( de sigle VVEVM staat voor het ‘Van vrouwen ende van minne-handschrift’):
<text xml:id="VVEVM"> <group> <!-- Editie van de teksten --> <text n="1" xml:id="VVEVM1"> <body> <!-- Tekst 1 --> </body> </text> <group n="2" xml:id="VVEVM2"> <text n="2.1" xml:id="VVEVM2.1"> <body> <!-- Tekst 2.1 --> </body> </text> <text n="2.2" xml:id="VVEVM2.2"> <body> <!-- Tekst 2.2 --> </body> </text> </group> </group> </text>
Het voorbeeld laat zien, dat wanneer er sprake is van zelfstandige teksten die om een inhoudelijke reden bijeen lijken te horen (bijvoorbeeld een collectie rijmspreuken), deze teksten kunnen worden samengenomen als <group>. Deze <group> bestaat dan weer uit afzonderlijke <text> elementen.
De afzonderlijke teksten en hun interne structuur
Elke afzonderlijke tekst wordt gecodeerd door middel van het <text> element. Aan dit element wordt een xml:id attribuut toegevoegd dat is opgebouwd uit de sigle van het handschrift, gevolgd (zonder spatie) door het tekstnummer. Tevens wordt een n attribuut toegevoegd met de waarde van het tekstnummer, zoals het in de editie zichtbaar moet worden. <text xml:id="SIGLE63" n="63">...</text>
De hoofdtekst van een tekst bestaat bij proza uit een of meer(paragraph) elementen en bij dichtwerk uit <lg> (line group) elementen (strofen). Voor een titel, opschrift, clauskop of tussenkopje wordt het element <head> gebruikt. Het element <closer> wordt gebruikt voor onderschriften, bijschriften, verstellingen, groeten, meta-opmerkingen (zoals ‘ghecolationneert’) of slotopmerkingen (Amen, Explicit) die geen deel uitmaken van de hoofdtekst. Een prozatekst zou er gecodeerd dus, gesimplificeerd, zo uit kunnen zien:
<text xml:id="SIGLE63" n="63"> <body> <head>Opschrift</head> <p> <!-- Tekst van de eerste paragraaf --> </p> <p> <!-- Tekst van de laatste paragraaf --> </p> <closer>Explicit</closer> </body> </text>Zoals men ziet komt er tussen de openings- en sluittags van het element <text> een element <body>. Indien gewenst kan een eventueel aanwezige (hiërarchische) substructuur in de tekst worden gecodeerd door middel van
<body> <div type="part"> <head>Opschrift</head> <p>Tekst van onderdeel</p> <div type="chapter" n="1"> <head>Opschrift</head> <p>Tekst van hoofdstuk 1</p> <div type="section" n="1.1"> <head>Tussenkop</head> <p>Tekst van paragraaf 1.1</p> </div> <div type="section" n="1.2"> <head>Tussenkop</head> <p>Tekst van paragraaf 1.2</p> </div> </div> </div> </body> Een berijmde tekst van twee strofen zou er zo uit kunnen zien: <text xml:id="SIGLE64" n="64"> <body> <head>Opschrift</head> <lg> <l>Tekst van de eerste versregel</l> <l>Tekst van de tweede versregel</l> <l>Tekst van de derde versregel</l> <l>Tekst van de vierde versregel</l> </lg> <lg> <l>Tekst van de vijfde versregel</l> <l>Tekst van de zesde versregel</l> <l>Tekst van de zevende versregel</l> <l>Tekst van de achtste versregel</l> </lg> <closer>Amen</closer> </body> </text>
Bij berijmde teksten worden de afzonderlijke versregels dus binnen een <lg> (line group) element genest door middel van het <l> (line) element. Line groups zelf kunnen ook genest voorkomen, anders gezegd: het is mogelijk dat een line group voorkomt binnen een grotere line group, bijvoorbeeld in het geval van een toneelstuk waarin een refrein voorkomt binnen de claus van een personage. Elk <l> element moet deel uitmaken van een <lg> element. Om elke versregel te identificeerbaar te maken, wordt aan een <l> element een xml:id attribuut toegevoegd dat gelijk is aan het text xml:id attribuut, aangevuld met een punt en een regelnummer. In een n attribuut wordt dit regelnummer nog eens afzonderlijk gespecificeerd. Bijvoorbeeld:
<text n="62" xml:id="SIGLE62"> <body> <lg> <l n="1" xml:id="SIGLE62.1">Tekst versregel 1</l> <l n="2" xml:id="SIGLE62.2">Tekst versregel 2</l> <l n="3" xml:id="SIGLE62.3">Tekst versregel 3</l> <l n="4" xml:id="SIGLE62.4">Tekst versregel 4</l> </lg> </body> </text>
Ook strofen (<lg>) kunnen genummerd worden middels het n-attribuut.
De codering van de fysieke structuur van het handschrift
In het editiegedeelte met de transcriptie komen verschillende structuren bij elkaar: de structuur van de tekstverzameling, de fysieke structuur van de codex en een XML structuur. Een MVN-editie wil immers niet alleen een tekstcorpus uitgeven zoals dat is overgeleverd in een bepaalde handschriftelijke bron, maar ook in de uitgave de relatie van de teksten tot hun fysieke bron tot uitdrukking laten komen. In verreweg de meeste gevallen zal de hiërarchische structuur van de tekstverzameling (bestaande uit teksten, die weer uit strofen of paragrafen bestaan) niet samenvallen met de hiërarchische fysieke structuur van de bron (bestaande uit katernen, die weer uit dubbel- of enkele bladen zijn samengesteld, elk met een recto- en versozijde, waarop een of meer kolommen, die elk weer al dan niet zijn gelinieerd).
Nu heeft elk XML-bestand per definitie één hiërarchische structuur die bestaat uit de markering van een groot geheel waarin kleinere eenheden zijn ingebed. Het is echter niet mogelijk om in een XML-document twee ongelijke hiërarchische structuren (hier die van de tekstverzameling en die van de codex) aan te brengen. Om toch beide structuren in het bestand aanwezig te laten zijn, is er gekozen voor een oplossing waarbij de structuur van de tekstverzameling op hiërarchische wijze de structuur van het desbetreffende gedeelte van het XML-document bepaalt (bijvoorbeeld: het tekstgedeelte van regel x tot regel y is een strofe). De structuur van de bron wordt weergegeven door middel van niet-hiërarchische overgangsmarkeringen (bijvoorbeeld: op deze plaats vindt er een overgang plaats van katern 1 naar katern 2). De verschillende wijzen van coderen zou men kunnen vergelijken met een tolweg tussen twee bestemmingen. De teksten zijn trajecten tussen twee tolpoorten; de overgangsmarkeringen zijn de hectometerpaaltjes langs de route.
De fysieke structuur van de bron wordt op een andere manier gecodeerd dan de inhoud van de bron, namelijk met milestone-elementen: lege elementen die geen tekst omvatten, maar die slechts een plaats markeren. Vijf elementen worden gebruikt: <pb>, <lb>, <cb>, <gb> en een algemeen element <milestone>. De vier eerstgenoemde elementen worden gebruikt voor pagina-, handschriftregel-, kolom- en katernovergangen; ze worden voorzien van een attribuut xml:id ter identificatie van de handschriftelijke bron waarnaar verwezen wordt, de bladzijde en het regelnummer. In een n attribuut wordt de waarde weergegeven zoals die in de editie kan verschijnen.
<lb n="1" xml:id="SIGLEf146v.1"/>
Dit <lb> element gaat altijd vooraf aan de tekst op de betreffende regel, dus bijvoorbeeld een <l> element. Voor andere overgangen dan die van bladzijde, kolom en handschriftregel wordt het element <milestone> gebruikt. Dit wordt voorzien van een attribuut ed (met verwijzing naar de handschriftelijke bron d.m.v. het handschriftsigle). In het attribuut unit, dat verschillende waarden kan krijgen, wordt aangegeven welke overgang de milestone markeert. Zo wordt een katernscheiding aangegeven door de waarde ‘quire’. In een n attribuut wordt het nieuwe nummer of de waarde van de milestone aangegeven. Afhankelijk van de opbouw van handschrift wordt er een bepaald nummer aan het katern toegekend.
<milestone n="1.2" ed="SIGLE" unit="quire"/>
Daarbij lijkt het zinvol om binnen een convoluut een onderverdeling in groepen katernen te onderscheiden. Een milestone voor een katerngroep wordt gespecificeerd door een unit attribuut met waarde ‘msPart’:
<milestone n="1" ed="SIGLE" unit="msPart"/>
Bij conventie worden milestone-tags geplaatst voorafgaand aan elementen waarvan het begin samenvalt met de milestone. Voorbeeld van de codering van een tekst waarbij tussen versregel 14 en 15 een overgang plaatsvindt van het eerste naar het tweede katern van een handschrift:
<l xml:id="SIGLE59.14" n="14">versregel 14</l> <milestone ed="SIGLE" unit="msPart" n="1"/> <gb xml:id="SIGLEq1.2" n="1.2"/> <pb xml:id="SIGLEf125r" n="125r"/> <cb xml:id="SIGLEf125ra" n="a"/> <lb xml:id="SIGLEf125ra.1" n="1"/> <l xml:id="SIGLE59.15" n="15"> <!-- versregel 15 --> </l>.
Als er naast de digitale editie ook een editie in boekvorm bestaat is het zinvol om in de digitale editie de plaatsen te markeren waar paginaovergangen in het boek plaatsvinden. Ook dat gebeurt met behulp van het lege element <pb>. Ter onderscheiding van het element dat gebruikt voor voor de handschriftelijke bron krijgt hier het ‘ed’-atrribuut de waarde ‘MVNx’ (waarbij x staat voor het nummer van de editie in de MVN-reeks).
<pb ed="MVNx" n="42"/>
Handenscheiding wordt aangegeven door het lege element <handShift>. Een daarbij gebruikt attribuut is new (identificeert de nieuwe hand) en term (hier wordt het schrifttype vermeld). De waarde van het term-attribuut is in principe vrij, maar zal in overeenstemming met geldende paleografische conventies worden toegekend (textualis, cursiva, etc.). PB: Hebben we term nodig? Bestaat niet in TEI. Het attribuut new heeft waarden die overeenkomen met de handensiglen zoals die in de <teiHeader> worden gedefinieerd.
<handShift new="delta" term="textualis"/>
Het gebruik van milestone-elementen wordt voorbehouden voor de codering van verschijnselen die betrekking hebben op de constructie van de bron: katernen, bladen, aflijning, alles wat gedaan is ter voorbereiding van het eigenlijke beschrijven van de tekstdrager valt hieronder. Voor de fysieke aspecten en eigenschappen van de tekst, zoals paleografische eigenschappen, kleur van de inkt, enz. wordt het gebruik van het milestone element achterwege gelaten.
Witregels
Witregels worden met een leeg <lb> (line break) element gemarkeerd, zowel in proza als in berijmde teksten.
<l>Ende hem wincht te brenghen dair</l> <lb/> <l>Dez leef ic in wanhopen seer</l>
Inspringing
Een strofe (line group) waarvan de regels inspringen kan men coderen met behulp van het rend attribuut met als waarde ‘indent’:
<lg rend="indent"> <l n="1" xml:id="SIGLE62.1">Tekst versregel 1</l> <l n="2" xml:id="SIGLE62.2">Tekst versregel 2</l> <l n="3" xml:id="SIGLE62.3">Tekst versregel 3</l> <l n="4" xml:id="SIGLE62.4">Tekst versregel 4</l> </lg>
Als een dergelijke strofe een opschrift heeft dat zich ter rechter- of linkerzijde van de strofe bevindt, coderen we dit als <head> element met attribuut place en waarde margin-right of margin-left. Het <head> element wordt in de transcriptie aangebracht op een plaats die overeenkomt met de plaats waar het in zich het handschrift bevindt.
<lg rend="indent"> <l n="1" xml:id="SIGLE62.1">Tekst versregel 1</l> <head place="margin-left">Bijschrift</head> <l n="2" xml:id="SIGLE62.2">Tekst versregel 2</l> <l n="3" xml:id="SIGLE62.3">Tekst versregel 3</l> <l n="4" xml:id="SIGLE62.4">Tekst versregel 4</l> </lg>