Difference between revisions of "Transcription (MVN)"

From XML
Jump to: navigation, search
(Created page with "==De structuur van het <text>-element== Het geheel van de weergave van de teksten wordt beschouwd als <text>-element. De annotatie en de registers worden op basis van lemmatis...")
 
Line 1: Line 1:
 +
[inleiding]
 +
 
==De structuur van het <text>-element==
 
==De structuur van het <text>-element==
 
Het geheel van de weergave van de teksten wordt beschouwd als <text>-element. De annotatie en de registers worden op basis van lemmatisering buiten het document om gegenereerd en maken dus geen deel uit van de structuur van het XML-bestand.
 
Het geheel van de weergave van de teksten wordt beschouwd als <text>-element. De annotatie en de registers worden op basis van lemmatisering buiten het document om gegenereerd en maken dus geen deel uit van de structuur van het XML-bestand.
Line 48: Line 50:
 
</pre>
 
</pre>
 
Het voorbeeld laat zien, dat wanneer er sprake is van zelfstandige teksten die om een inhoudelijke reden bijeen lijken te horen (bijvoorbeeld een collectie rijmspreuken), deze teksten kunnen worden samengenomen als <group>. Deze <group> bestaat dan weer uit afzonderlijke <text> elementen.
 
Het voorbeeld laat zien, dat wanneer er sprake is van zelfstandige teksten die om een inhoudelijke reden bijeen lijken te horen (bijvoorbeeld een collectie rijmspreuken), deze teksten kunnen worden samengenomen als <group>. Deze <group> bestaat dan weer uit afzonderlijke <text> elementen.
 +
 +
===De codering van de fysieke structuur van het handschrift===
 +
In het editiegedeelte met de transcriptie komen verschillende structuren bij elkaar: de structuur van de tekstverzameling, de fysieke structuur van de codex en een XML structuur. Een MVN-editie wil immers niet alleen een tekstcorpus uitgeven zoals dat is overgeleverd in een bepaalde handschriftelijke bron, maar ook in de uitgave de relatie van de teksten tot hun fysieke bron tot uitdrukking laten komen. In verreweg de meeste gevallen zal de hiërarchische structuur van de tekstverzameling (bestaande uit teksten, die weer uit strofen of paragrafen bestaan) niet samenvallen met de hiërarchische fysieke structuur van de bron (bestaande uit katernen, die weer uit dubbel- of enkele bladen zijn samengesteld, elk met een recto- en versozijde, waarop een of meer kolommen, die elk weer al dan niet zijn gelinieerd).
 +
 +
Nu heeft elk XML-bestand per definitie één hiërarchische structuur die bestaat uit de markering van een groot geheel waarin kleinere eenheden zijn ingebed. Het is echter niet mogelijk om in een XML-document twee ongelijke hiërarchische structuren (hier die van de tekstverzameling en die van de codex) aan te brengen. Om toch beide structuren in het bestand aanwezig te laten zijn, is er gekozen voor een oplossing waarbij de structuur van de tekstverzameling op hiërarchische wijze de structuur van het desbetreffende gedeelte van het XML-document bepaalt (bijvoorbeeld: het tekstgedeelte van regel x tot regel y is een strofe). De structuur van de bron wordt weergegeven door middel van niet-hiërarchische overgangsmarkeringen (bijvoorbeeld: op deze plaats vindt er een overgang plaats van katern 1 naar katern 2).
 +
De verschillende wijzen van coderen zou men kunnen vergelijken met een tolweg tussen twee bestemmingen. De teksten zijn trajecten tussen twee tolpoorten; de overgangsmarkeringen zijn de hectometerpaaltjes langs de route.
 +
 +
===De afzonderlijke teksten en hun interne structuur===
 +
Elke afzonderlijke tekst wordt gecodeerd door middel van het <text> element. Aan dit element wordt een xml:id attribuut toegevoegd dat is opgebouwd uit de sigle van het handschrift, gevolgd (zonder spatie) door het tekstnummer. Tevens wordt een n attribuut toegevoegd met de waarde van het tekstnummer, zoals het in de editie zichtbaar moet worden.
 +
<text xml:id="SIGLE63" n="63">...</text>
 +
De hoofdtekst van een tekst bestaat bij proza uit een of meer <p> (paragraph) elementen en bij dichtwerk uit <lg> (line group) elementen (strofen). Voor een titel, opschrift, clauskop of tussenkopje wordt het element <head> gebruikt. Het element <closer> wordt gebruikt voor onderschriften, bijschriften, verstellingen, groeten, meta-opmerkingen (zoals ‘ghecolationneert’) of slotopmerkingen (Amen, Explicit) die geen deel uitmaken van de hoofdtekst.
 +
Een prozatekst zou er gecodeerd dus, gesimplificeerd, zo uit kunnen zien:
 +
<pre>
 +
<text xml:id="SIGLE63" n="63">
 +
 <body>
 +
  <head>Opschrift</head>
 +
  <p>
 +
<!-- Tekst van de eerste paragraaf -->
 +
  </p>
 +
  <p>
 +
<!-- Tekst van de laatste paragraaf -->
 +
  </p>
 +
  <closer>Explicit</closer>
 +
 </body>
 +
</text>
 +
</pre>
 +
Zoals men ziet komt er tussen de openings- en sluittags van het element <text> een element <body>. Indien gewenst kan een eventueel aanwezige (hiërarchische) substructuur in de tekst worden gecodeerd door middel van <div> (division) elementen die dan telkens één of meer <p> elementen omsluiten. De <div> elementen worden niet genummerd. Voorbeeld:
 +
<pre>
 +
<body>
 +
 <div type="part">
 +
  <head>Opschrift</head>
 +
  <p>Tekst van onderdeel</p>
 +
  <div type="chapter" n="1">
 +
   <head>Opschrift</head>
 +
   <p>Tekst van hoofdstuk 1</p>
 +
   <div type="section" n="1.1">
 +
    <head>Tussenkop</head>
 +
    <p>Tekst van paragraaf 1.1</p>
 +
   </div>
 +
   <div type="section" n="1.2">
 +
    <head>Tussenkop</head>
 +
    <p>Tekst van paragraaf 1.2</p>
 +
   </div>
 +
  </div>
 +
 </div>
 +
</body>
 +
Een berijmde tekst van twee strofen zou er zo uit kunnen zien:
 +
<text xml:id="SIGLE64" n="64">
 +
 <body>
 +
  <head>Opschrift</head>
 +
  <lg>
 +
   <l>Tekst van de eerste versregel</l>
 +
   <l>Tekst van de tweede versregel</l>
 +
   <l>Tekst van de derde versregel</l>
 +
   <l>Tekst van de vierde versregel</l>
 +
  </lg>
 +
  <lg>
 +
   <l>Tekst van de vijfde versregel</l>
 +
   <l>Tekst van de zesde versregel</l>
 +
   <l>Tekst van de zevende versregel</l>
 +
   <l>Tekst van de achtste versregel</l>
 +
  </lg>
 +
  <closer>Amen</closer>
 +
 </body>
 +
</text>
 +
</pre>
 +
Bij berijmde teksten worden de afzonderlijke versregels dus binnen een <lg> (line group) element genest door middel van het <l> (line) element. Line groups zelf kunnen ook genest voorkomen, anders gezegd: het is mogelijk dat een line group voorkomt binnen een grotere line group, bijvoorbeeld in het geval van een toneelstuk waarin een refrein voorkomt binnen de claus van een personage. Elk <l> element moet deel uitmaken van een <lg> element. Om elke versregel te identificeerbaar te maken, wordt aan een <l> element een xml:id attribuut toegevoegd dat gelijk is aan het text xml:id attribuut, aangevuld met een punt en een regelnummer. In een n attribuut wordt dit regelnummer nog eens afzonderlijk gespecificeerd. Bijvoorbeeld:
 +
<pre>
 +
<text n="62" xml:id="SIGLE62">
 +
 <body>
 +
  <lg>
 +
   <l n="1" xml:id="SIGLE62.1">Tekst versregel 1</l>
 +
   <l n="2" xml:id="SIGLE62.2">Tekst versregel 2</l>
 +
   <l n="3" xml:id="SIGLE62.3">Tekst versregel 3</l>
 +
   <l n="4" xml:id="SIGLE62.4">Tekst versregel 4</l>
 +
  </lg>
 +
 </body>
 +
</text>
 +
</pre>
 +
Ook strofen (<lg>) kunnen genummerd worden middels het n-attribuut.

Revision as of 11:28, 19 January 2017

[inleiding]

De structuur van het <text>-element

Het geheel van de weergave van de teksten wordt beschouwd als <text>-element. De annotatie en de registers worden op basis van lemmatisering buiten het document om gegenereerd en maken dus geen deel uit van de structuur van het XML-bestand.

De kern van de editie, de middeleeuwse tekstverzameling, wordt aangeduid als element <group>. Deze <group> bestaat uit een aantal <text>-elementen: dat zijn de afzonderlijke teksten. Wanneer teksten bijeenhoren en als het ware een verzameling binnen de verzameling vormen (zoals dat bijvoorbeeld bij spreuken het geval kan zijn) worden zij opgevat als geneste <group> binnen de <group> die de tekstverzameling als geheel beschrijft.

Kort gezegd: elke <group> is samengesteld uit een of meer elementen <text>; en elk element <text> binnen de <group> die de tekstverzameling aanduidt, bevat weer het element <body>. Natuurlijk kan een <group> ook andere elementen <group> bevatten, bijvoorbeeld wanneer er sprake is van een een deelverzameling binnen de tekstverzameling. Uiteindelijk zal een <group> toch bestaan uit elementen <text>. Die <text> elementen omvatten op hun beurt dan weer verplicht een element <body>.

De interne geleding van de geëditeerde teksten kan, indien nodig, worden aangegeven door het element
. Dat is het geval bij een tekst die uit duidelijk te onderscheiden eenheden is opgebouwd.

De structuur van dit deel van de editie ziet er dus als volgt uit:

<teiHeader>...</teiHeader>
<text>
 <group>
  <text>
   <body/>
  </text>
 </group>
</text>

De tag van het element <text> die het transcriptiedeel omsluit krijt een xml:id attribuut met als waarde een door de editeur zelf te bedenken sigle waarmee de editie in het hele document wordt geïdentificeerd. Ter voorkoming van verwarring bij zoek- en vervangopdrachten tijdens het werken aan de editie, verdient het aanbeveling om de sigle uit een (korte) string van hoofdletters te laten bestaan die zo mogelijk niet voorkomt in de uitgegeven tekst. Aan elk nevengeschikt of genest element <group> of <text> wordt ter identificatie een eigen xml:id attribuut toegekend met een waarde die is samengesteld uit de handschriftsigle en het tekstnummer. Daarnaast wordt aan het element een n attribuut toegekend met het tekstnummer zoals het in de editie moet verschijnen. <group xml:id="SIGLE45" n="45">...</group> De waarde van het xml:id attribuut wordt gerelateerd aan de hiërarchische structuur van de tekstverzameling. De waarde van het n attribuut volgt in principe de oorspronkelijke tekstnummering van het handschrift. Kent het handschrift geen oorspronkelijke tekstnummering dan brengt de editeur de waarde van het n attribuut in overeenstemming met het xml:id attribuut. De interne structuur van het <group> element dat de tekstverzameling omvat is dus (versimpeld weergegeven, maar met xml:id en n attributen) bijvoorbeeld als volgt ( de sigle VVEVM staat voor het ‘Van vrouwen ende van minne-handschrift’):

<text xml:id="VVEVM">
 <group>
<!-- Editie van de teksten -->
  <text n="1" xml:id="VVEVM1">
   <body>
<!-- Tekst 1 -->
   </body>
  </text>
  <group n="2" xml:id="VVEVM2">
   <text n="2.1" xml:id="VVEVM2.1">
    <body>
<!-- Tekst 2.1 -->
    </body>
   </text>
   <text n="2.2" xml:id="VVEVM2.2">
    <body>
<!-- Tekst 2.2 -->
    </body>
   </text>
  </group>
 </group>
</text>

Het voorbeeld laat zien, dat wanneer er sprake is van zelfstandige teksten die om een inhoudelijke reden bijeen lijken te horen (bijvoorbeeld een collectie rijmspreuken), deze teksten kunnen worden samengenomen als <group>. Deze <group> bestaat dan weer uit afzonderlijke <text> elementen.

De codering van de fysieke structuur van het handschrift

In het editiegedeelte met de transcriptie komen verschillende structuren bij elkaar: de structuur van de tekstverzameling, de fysieke structuur van de codex en een XML structuur. Een MVN-editie wil immers niet alleen een tekstcorpus uitgeven zoals dat is overgeleverd in een bepaalde handschriftelijke bron, maar ook in de uitgave de relatie van de teksten tot hun fysieke bron tot uitdrukking laten komen. In verreweg de meeste gevallen zal de hiërarchische structuur van de tekstverzameling (bestaande uit teksten, die weer uit strofen of paragrafen bestaan) niet samenvallen met de hiërarchische fysieke structuur van de bron (bestaande uit katernen, die weer uit dubbel- of enkele bladen zijn samengesteld, elk met een recto- en versozijde, waarop een of meer kolommen, die elk weer al dan niet zijn gelinieerd).

Nu heeft elk XML-bestand per definitie één hiërarchische structuur die bestaat uit de markering van een groot geheel waarin kleinere eenheden zijn ingebed. Het is echter niet mogelijk om in een XML-document twee ongelijke hiërarchische structuren (hier die van de tekstverzameling en die van de codex) aan te brengen. Om toch beide structuren in het bestand aanwezig te laten zijn, is er gekozen voor een oplossing waarbij de structuur van de tekstverzameling op hiërarchische wijze de structuur van het desbetreffende gedeelte van het XML-document bepaalt (bijvoorbeeld: het tekstgedeelte van regel x tot regel y is een strofe). De structuur van de bron wordt weergegeven door middel van niet-hiërarchische overgangsmarkeringen (bijvoorbeeld: op deze plaats vindt er een overgang plaats van katern 1 naar katern 2). De verschillende wijzen van coderen zou men kunnen vergelijken met een tolweg tussen twee bestemmingen. De teksten zijn trajecten tussen twee tolpoorten; de overgangsmarkeringen zijn de hectometerpaaltjes langs de route.

De afzonderlijke teksten en hun interne structuur

Elke afzonderlijke tekst wordt gecodeerd door middel van het <text> element. Aan dit element wordt een xml:id attribuut toegevoegd dat is opgebouwd uit de sigle van het handschrift, gevolgd (zonder spatie) door het tekstnummer. Tevens wordt een n attribuut toegevoegd met de waarde van het tekstnummer, zoals het in de editie zichtbaar moet worden. <text xml:id="SIGLE63" n="63">...</text>

De hoofdtekst van een tekst bestaat bij proza uit een of meer

(paragraph) elementen en bij dichtwerk uit <lg> (line group) elementen (strofen). Voor een titel, opschrift, clauskop of tussenkopje wordt het element <head> gebruikt. Het element <closer> wordt gebruikt voor onderschriften, bijschriften, verstellingen, groeten, meta-opmerkingen (zoals ‘ghecolationneert’) of slotopmerkingen (Amen, Explicit) die geen deel uitmaken van de hoofdtekst. Een prozatekst zou er gecodeerd dus, gesimplificeerd, zo uit kunnen zien:

<text xml:id="SIGLE63" n="63">
 <body>
  <head>Opschrift</head>
  <p>
<!-- Tekst van de eerste paragraaf -->
  </p>
  <p>
<!-- Tekst van de laatste paragraaf -->
  </p>
  <closer>Explicit</closer>
 </body>
</text>
Zoals men ziet komt er tussen de openings- en sluittags van het element <text> een element <body>. Indien gewenst kan een eventueel aanwezige (hiërarchische) substructuur in de tekst worden gecodeerd door middel van
(division) elementen die dan telkens één of meer <p> elementen omsluiten. De
elementen worden niet genummerd. Voorbeeld:
<body>
 <div type="part">
  <head>Opschrift</head>
  <p>Tekst van onderdeel</p>
  <div type="chapter" n="1">
   <head>Opschrift</head>
   <p>Tekst van hoofdstuk 1</p>
   <div type="section" n="1.1">
    <head>Tussenkop</head>
    <p>Tekst van paragraaf 1.1</p>
   </div>
   <div type="section" n="1.2">
    <head>Tussenkop</head>
    <p>Tekst van paragraaf 1.2</p>
   </div>
  </div>
 </div>
</body>
Een berijmde tekst van twee strofen zou er zo uit kunnen zien: 
<text xml:id="SIGLE64" n="64">
 <body>
  <head>Opschrift</head>
  <lg>
   <l>Tekst van de eerste versregel</l>
   <l>Tekst van de tweede versregel</l>
   <l>Tekst van de derde versregel</l>
   <l>Tekst van de vierde versregel</l>
  </lg>
  <lg>
   <l>Tekst van de vijfde versregel</l>
   <l>Tekst van de zesde versregel</l>
   <l>Tekst van de zevende versregel</l>
   <l>Tekst van de achtste versregel</l>
  </lg>
  <closer>Amen</closer>
 </body>
</text>

Bij berijmde teksten worden de afzonderlijke versregels dus binnen een <lg> (line group) element genest door middel van het <l> (line) element. Line groups zelf kunnen ook genest voorkomen, anders gezegd: het is mogelijk dat een line group voorkomt binnen een grotere line group, bijvoorbeeld in het geval van een toneelstuk waarin een refrein voorkomt binnen de claus van een personage. Elk <l> element moet deel uitmaken van een <lg> element. Om elke versregel te identificeerbaar te maken, wordt aan een <l> element een xml:id attribuut toegevoegd dat gelijk is aan het text xml:id attribuut, aangevuld met een punt en een regelnummer. In een n attribuut wordt dit regelnummer nog eens afzonderlijk gespecificeerd. Bijvoorbeeld:

<text n="62" xml:id="SIGLE62">
 <body>
  <lg>
   <l n="1" xml:id="SIGLE62.1">Tekst versregel 1</l>
   <l n="2" xml:id="SIGLE62.2">Tekst versregel 2</l>
   <l n="3" xml:id="SIGLE62.3">Tekst versregel 3</l>
   <l n="4" xml:id="SIGLE62.4">Tekst versregel 4</l>
  </lg>
 </body>
</text>
Ook strofen (<lg>) kunnen genummerd worden middels het n-attribuut.