Difference between revisions of "Transcription: registers (MVN)"
Line 31: | Line 31: | ||
==See also== | ==See also== | ||
* [[Transcription: structure (MVN)]] | * [[Transcription: structure (MVN)]] | ||
− | * [[Transcription: | + | * [[Transcription: representation of the source (MVN)]] |
* [[Transcription: annotations (MVN)]] | * [[Transcription: annotations (MVN)]] | ||
* [[Transcription (MVN)]] | * [[Transcription (MVN)]] | ||
[[Category:XML MVN]] | [[Category:XML MVN]] |
Revision as of 13:11, 24 January 2017
Anders dan in de gedrukte MVN-delen het geval is, vallen de registers niet onder het nawerk. Registers worden afzonderlijk gegenereerd. Ten behoeve van deze registers (opschriften en incipits) worden het eerste zelfstandig naamwoord, werkwoord of de eerste eigennaam van een opschrift of beginregel in de geëditeerde tekst gelemmatiseerd. Voor woorden die geen eigennamen zijn wordt daarbij gebruik gemaakt van het element <w> met attribuut lemma. De waarde van het attribuut is de voluit geschreven, genormaliseerde vorm van het woord, zoals het voorkomt in het Middelnederlandsch Handwoordenboek.
<w lemma="stadhuus">stadt huus</w>
Persoonsnamen worden gelemmatiseerd met het element <name>, het attribuut @type met waarde ‘person’ en een attribuut @reg dat als waarde de genormaliseerde vorm van de naam heeft, waaronder zij dient te worden opgenomen in de registers.
Sente <name type="person" reg="Bernardus">bernaert</name>
Alle opschriften, titels en incipits worden voorzien van een taalcode, zodat afzonderlijke lijsten per taal kunnen worden gegenereerd. Bijvoorbeeld:
<head xml:lang="fr">Franstalig opschrift</head> In combinatie met de volgende vermelding in de teiHeader: <profileDesc> <langUsage> <language ident="fr">Frans</language> </langUsage> </profileDesc>
Om bij het genereren van een woordconcordantie te voorkomen dat bij afgebroken woorden die over twee of meer regels zijn geschreven, de woorddelen niet als afzonderlijke woorden door het programma worden opgevat, worden afbrekingsstreepjes gecodeerd door een <c>-element met attribuut @type en waarde ‘shy’. Voorbeeld:
<l>datmen siet den li<c type="shy">-</c><lb/>chame</l>
In het geval dat de kopiist géén afbrekingsstreepje zou hebben geschreven, zou dit voorbeeld er zo uitzien:
<l>datmen siet den li<lb/>chame</l>
Uit het ontbreken van 'whitespace' (i.e.: spaties, tabs, nieuwe regels) volgt hier dat 'li' en 'chame' hier een enkel woord vormen. In principe kan zo'n woordafbreking over regels, kolommen en pagina's heengaan, zoals hier:
<l>datmen siet den li<pb/><cb/><lb/>chame</l>