Speakers
Description
Modellierung eines Wörterbuchs einer in der IT-basierten Linguistik unterrepräsentierten außereuropäischen Sprache als Linguistic Linked Open Data
Das Tamil Lexicon (TL) der Madras University ist ein von 1924-1939 in sechs Bänden und einem Nachtragsband erschienenes historisch-literarisches Wörterbuch und bis heute das umfangreichste lexikographische Werk der südindischen Tamilsprache mit 117801 Einträgen. Seither sind lediglich Einzeluntersuchungen und Spezialwörterbücher erschienen, so dass umfassende Fortschritte in der Tamil-Lexikographie nur auf der digitalen Erschließung dieses komplexen zweisprachigen WB aufbauen können. Das Wörterbuch ist Bestandteil der Cologne Digital Sanskrit Dictionaries (https://www.sanskrit-lexicon.uni- koeln.de/) und somit online verfügbar, gilt aber bereits als “deprecated” und erlaubt nur rudimentäre Suchanfragen an den Datenbestand über ein Web-Frontend. Eine weitere Version des Datenbestands ist online unter der URL https://dsal.uchicago.edu/dictionaries/tamil-lex/ verfügbar, aber weder der direkte Zugriff auf die Daten über Schnittstellen noch Daten-Downloads werden dort angeboten.
Die Wörterbuch-Rohdaten liegen als 20 MB umfassendes, in den 1990er Jahren entstandenes Volltext-Digitalisat vor, in dem die Seiten- und Textstruktur mit proprietären Tags vollständig markiert wurde.
Im Rahmen des geplanten Projekts sollen diese zwar strukturierten, aber nicht in einem offenen Schema/Format vorhandenen Daten in einem ersten Schritt konvertiert werden: Als Zielformat kommt das lemon (The Lexicon Model for Ontologies https://lemon-model.net) RDF-Format zum Einsatz.
Darauf aufbauend soll ein benutzerfreundliches User Interface (UI) erstellt werden, das im Vergleich zu den Cologne Digital Sanskrit Dictionaries und dem Chicago tamil-lex Projekt neue, deutlich erweiterte Funktionalitäten aufweisen wird:
● Verlinkung der TL-Einträge mit entsprechenden Einträgen in Online-Sanskrit- Wörterbüchern.
● Erschließung der literarischen Quellen und Zitate durch Verbindung der zahlreichen Belege aus der klassischen tamilischen Literatur mit dem vorhandenen digitalen Textkorpus.
● Erschließung von Sachgebieten, wie Botanik, Medizin, Epigraphik, Geographie, Geschichte, Religion etc., die eine Generierung von speziellen Vokabularien ermöglichen soll.
● Erweiterungsmodule, die Kommentierung, Verbesserung und Erweiterung von Einträgen bzw. Neueinträge ermöglichen.
Die API erlaubt darüber hinaus maschinenlesbaren Zugriff auf den Datenbestand sowie eine maschinelle Nachnutzung der Daten durch Integration der API in Preprocessing-Workflows, bspw. Lemmatisieren, sowie zur Annotation digitaler Editionen und audiovisueller Materialien. Die Vergabe von URIs für jeden Wörterbucheintrag ermöglicht den Aufbau von projektübergreifenden Wort-Netzwerken sowie föderierter Suchanfragen; die hier generierten Daten werden darüber hinaus ein Baustein der “Linguistic Linked Open Data“ (LLOD) cloud http://linguistic-lod.org/ und sorgen für eine größere Pluralität des Datenbestands.
Alle Daten und Services werden der Fachcommunity unter einer offenen CC BY Lizenz zur Verfügung gestellt.