9–11 Oct 2024
Mannheim, Schloss
Europe/Berlin timezone

SwissGB4Science - ein Volltext Korpus für die Forschung

10 Oct 2024, 16:45
1h 15m
O 138 (Fuchs-Petrolub-Saal) (Mannheim, Schloss)

O 138 (Fuchs-Petrolub-Saal)

Mannheim, Schloss

Schloss 68161 Mannheim

Speakers

Eric Dubey (Universität Basel) Matteo Lorenzini (Universität Basel) Martin Reisacher (Universität Basel) Tim Rüdiger (Zentralbibliothek Zürich)

Description

Die UB Bern, ZHB Luzern, ZB Zürich und UB Basel digitalisieren in Zusammenarbeit mit Google Books mit rund 300.000 Bänden einen großen Teil ihrer Bestände von 1700 bis 1900. Dieser digitale Bestand soll neben der Zugänglichkeit auf Google Books neue Möglichkeiten für die digitale und datengetriebene Forschung und Lehre bieten.

Die zentrale Frage ist dabei, wie Bibliotheken als Kultur- und Gedächtnisinstitutionen eine relativ generische Infrastruktur im digitalen Raum anbieten können, die dennoch flexibel genug für ganz spezifische Forschungsfragen und -methoden sein kann und auch die notwendige Transparenz und Persistenz für die Arbeit mit den diversen Datenformen, wie Metadaten, Strukturdaten, Volltext und Bilddaten, bietet.

Gegenwärtig befassen sich institutionsübergreifende Arbeitsgruppen mit vier verschiedenen Aspekten:

  • Erhebung der Bedürfnisse von Forschung und Lehre hinsichtlich umfangreicher digitaler Sammlungen von historischen Quellen
  • State-of-the-Art-Lösungen für die forschungsorientierte Erschließung großer historischer Textbestände
  • Analyse der Datenqualität und mögliche Datenanreicherung, wobei ein Hauptaugenmerk auch darauf gerichtet werden soll, zu beschreiben, welcher Teil digital vorhanden ist bzw. wie fehlende Digitalisate noch aus anderen Repositorien abgeglichen und angereichert werden können
  • Überprüfung vorhandener Infrastrukturen, welche nachgenutzt werden können

Basierend darauf sollen Szenarien entwickelt werden, wie der Bestand, abseits von dem Zugang auf Google Books, zur Verfügung gestellt werden könnte. Dies kann von einfachen Datendumps bis hin zu einer komplexen TDM Umgebung reichen.

Das Vorprojekt ist für die Bibliotheken ebenfalls eine Chance zu experimentieren, welche Möglichkeiten grosse Volltext-Bestände (90 Millionen Seiten) für ihre Rolle im aktuellen Large Language Model (LLM) Hype bieten, in dem diese eine Lösung für so vieles zu sein scheinen. So könnten Bibliotheken hier eine Brücke für die Nutzung von High Performance Computing (HPC) Infrastrukturen, etwa für die Geisteswissenschaften bieten, wodurch auch die Rolle der Data Librarians nochmal einen neuen Zuschnitt erhalten würde.

Während in diesem Bereich viel Potential existiert, stellt die Kerndomäne der Bibliotheken, die Metadaten, eine Herausforderung dar. Ist doch in den meisten Bibliotheken der Bestand von 1700 bis 1900 nur wenig detailliert erschlossen, wodurch es schwer ist, diesen inhaltlich zu beschreiben. Ein zentraler Fokus im Bereich Daten und Anreicherung liegt daher auch darauf, welche Möglichkeiten existieren, um diesen heterogenen Bestand besser für die Forschung greifbar zu machen. Sind doch meist einzelne Subkorpora, die sich oft über Themen, Gattung oder Entitäten definieren, von Relevanz. Unsere Zugänge reichen hier von aussagekräftigen Visualisierungen der vorhanden Metadaten (bzw. der Leerstellen), gedruckten Signatur-Themen Konkordanzen, die von LLMs zu strukturierten Anreicherungen verarbeitet werden, hin zum Testen, ob nicht OpenSource LLMs auf HPC Infrastrukturen neue Einblicke und Anreicherungen für diesen Bestand liefern könnten.

Wir möchten das Poster daher gerne nutzen, die Ergebnisse des Vorprojekts vorzustellen und mit Text+ Partnern über Ihre Erfahrungen in Austausch zu treten und gleichzeitig unsere ersten praktischen Erfahrungen beim Bauen der Brücken und der Nutzung unserer lokalen HPC Infrastruktur vorzustellen.

Presentation materials

There are no materials yet.