Encoding of abbreviations and their solution
Het coderen van afkortingen vormt een probleem waarover veel discussie bestaat en dat moeilijk tot een bevredigende oplossing komt. De middeleeuwse praktijk van afkorten is sterk regionaal bepaald en in de loop van eeuwen gevormd door adaptaties van de tradities in het afkorten van Latijnse woorden. Hierdoor is er een verscheidenheid aan systemen ontstaan die het bijzonder moeilijk maakt deze op een logische grondslag te analyseren. Het coderen van afkortingen kan door de polyvalentie van de meeste afkortingstekens nooit voldoende zijn om ‘automatisch’ de juiste oplossingen, bijvoorbeeld via een stylesheet, te genereren. Dat betekent dat, wil de codering brongetrouw zijn, zowel de afkorting zelf als de oplossing ervan gecodeerd moeten worden. De werkwijze die in de gedrukte delen van de MVN-reeks werd gehanteerd, namelijk: weergave van de opgeloste vormen, met markering van de onzekere letters (inclusief de letters die in de afkorting zelf voorkomen en dus strikt genomen niet onzeker zijn!) door middel van cursivering, heeft evidente beperkingen. Zo is het, om een voorbeeld te geven, uit de tekst van een gedrukte MVN-editie niet mogelijk op te maken hoe het woord ‘persemen’ in het handschrift is geschreven: als ‘p̅semen’ of als ‘p’semen’. Zo is het evenmin mogelijk om inzicht te krijgen in de frequentie van het gebruik van afkortingen, of om specifiek, wellicht karakteristiek gebruik van afkortingen inzichtelijk te maken, om op eenvoudige wijze tekensystemen van verschillende kopiisten met elkaar te vergelijken, editeursbeslissingen ten aanzien van oplossingen met elkaar te vergelijken, enzovoort. De digitale editie biedt de mogelijkheid om alle afkortingen in een handschrift en hun uitgeschreven vormen te coderen, zodat de gebruiker van de editie naar believen zoekacties kan verrichten binnen een cumulerend corpus afkortingen. Het zou hier te ver voeren de ingewikkelde problematiek van het systematiseren en coderen van afkortingen te bespreken. De TEI Guidelines bieden verschillende mogelijkheden om afkortingen te coderen. Het is echter ook toegestaan om alleen de opgeloste letters, die we traditioneel cursiveren, te coderen als <ex> (editorial expansion). Dit hangt af van de prioriteiten van de editeurs en de omvang van het handschrift.
Een woord waarin één of meer afkortingen voorkomt, wordt op twee manieren gecodeerd: in de vorm waarin het door de kopiist is geschreven en in de door de editeur opgeloste vorm. Dat kan binnen het <choice>-element, dat het mogelijk maakt twee alternatieve lezingen te geven voor een tekstplaats. De verkorte vorm wordt gecodeerd met het -element, het afkortingsteken met een leeg <g> element (glyph), en de opgeloste vorm komt binnen het <expan>-element te vallen. Bij het <g> element is natuurlijk een verwijzing nodig naar het bedoelde teken. Daarvoor gebruiken we het @ref-attribuut. In het geval van een nasaalstreep wordt dat:
<g ref="#bar"/>
In het bestand charDecl.xml zijn deze abbreviatuurtekens gedefinieerd. Een verwijzing naar dit externe bestand is standaard opgenomen in het MVN-framework. De codering van de afkorting voor ‘ende’ ziet er zo uit:
<choice> <abbr>en<g ref="#bar"/> </abbr> <expan>ende</expan> </choice>
en die van ‘lren’ (lettren), met nasaalstreep boven de e, zo:
<choice> <abbr>lre<g ref="#bar"/>n</abbr> <expan>lettren</expan> </choice>
Merk op dat de code voor een teken dat boven of door een letter moet worden weergegeven, zoals bijvoorbeeld de nasaalstreep, verschijnt na dat teken. De afkortingstekens zelf kunnen ook worden weergegeven door middel van tekens met vaste Unicode Code-points, die gemakkelijk kunnen worden aangeklikt op de Character Map die binnen oXygen kan worden gebruikt. (Het ligt in de bedoeling om in de toekomst een speciale selectie van veelgebruikte afkortingstekens als het ware ‘klaar te leggen’ in een gecustomisede MVN-character map.)
In de alternatieve codering zien bovenstaande voorbeelden er zo uit:
en<ex>de</ex> l<ex>ett</ex>re <ex>n</ex>
Recentelijk is Unicode uitgebreid met tal van tekens die voor de mediëvist nuttig zijn omdat ze het mogelijk maken de feitelijke realisering van de afkortingen in de bron op een betrouwbare wijze weer te geven; het Unicode Font Initiative (MUFI) heeft voorstellen gedaan die voorzien in de meeste leemten die op dit punt nog in Unicode bestonden. De handleiding van de recentste MUFI-versie, die voor het merendeel van de benodigde tekens de te gebruiken Unicode karakters definieert, is te vinden op http://bora.uib.no/handle/1956/10699. Als tekens nog niet in Unicode beschikbaar zijn gebruiken we definities in de Unicode Private Use Area, bij voorkeur de tekens die MUFI heeft gedefinieerd. Hieronder volgt een aantal veelvoorkomende afkortingstekens en hun codering:
<g ref="#bar"/> : - <g ref="#apomod"/> : ‘ <g ref="#usmod"/> : 9 <g ref="#condes"/> : 9 <g ref="#etfin"/> : 3 <g ref="#pflour"/> p (met een krul door de staart) <g ref="#pbardes"/> : p (met streep door de staart)
De lange s met een streep door de schacht is in Unicode: 1E9C.