News Release 16-Oct-2018

Richtlinien für eine standardisierte Datenstruktur für die Verwendung in sprachvergleichenden Studien

Die „Cross-Linguistic Data Formats“-Initiative empfiehlt neue Standards für linguistische Datenformate, um das Teilen und Vergleichen von Daten zu erleichtern.

Peer-Reviewed Publication

Max Planck Institute of Geoanthropology

World Map Data Points — **image: A world map showing data points, for which the researchers plan to gather unified data (e.g., data that is directly comparable) using the guidelines given in the paper.** view more

Credit: Image credit: OpenStreetMap. Forkel et al. 2018. Cross-Linguistic Data Formats, advancing data sharing and re-use in comparative linguistics. <i>Scientific Data</i>.

Ein internationales Forschungsteam bestehend aus Mitgliedern der Cross-Linguistic Data Formats-Initiative (CLDF) unter der Leitung des Max Planck-Instituts für Menschheitsgeschichte hat einen Vorschlag für neue Richtlinien für sprachvergleichende Datenformate veröffentlicht, um das Teilen und Vergleichen von Daten in der wachsenden Anzahl großer linguistischer Datenbanken auf der ganzen Welt zu erleichtern. Dieses Format liefert ein Softwarepaket, eine Basisontologie und Anwendungsbeispiele.

Es gibt eine wachsende Anzahl von linguistischen Datenbanken auf der ganzen Welt, wodurch neue Möglichkeiten für großflächige sprachvergleichende Studien eröffnet werden. Jedoch werden diese Datenbanken normalerweise unabhängig voneinander erstellt und haben oft einen spezifischen und engen Schwerpunkt. Das bedeutet, dass die Formate, die für die Kodierung der Daten verwendet werden, sich oft unterscheiden, was große Schwierigkeiten dabei verursacht, Datenbanken effizient zu vergleichen.

Um diese Probleme zu lösen, wurde die Cross-Linguistic Data Formats-Initiative (CLDF) gegründet. In einem in Scientific Data veröffentlichten Artikel stellt die CLDF-Initiative Richtlinien für ein standardisiertes Format für linguistische Datenbanken vor und liefert auch ein Softwarepaket, eine Basisontologie und Anwendungsbeispiele für deren optimale Nutzung. Das Ziel dieser Bemühungen ist es, das Teilen und die Wiederverwendung von Daten in der sprachvergleichenden Linguistik zu erleichtern.

Standardisierte Dateiformate, um Teilen und Wiederverwendung zu erleichtern

Die CLDF-Initiative stellt ein ihren Empfehlungen zugrundeliegendes Datenmodell bereit, dessen Ziel es ist, einfach aber ausdrucksstark zu sein, und auf dem zuvor für das Cross-Linguistically Linked Data-Projekt entwickelten Datenmodell basiert. Dieses Modell besteht aus vier Hauptkomponenten: (a) Sprachen; (b) Parameter; (c) Werte; und (d) Quellen. In dem Modell ist jeder Wert mit einem Parameter und einer Sprache verknüpft und kann auf mehreren Quellen basieren. Zusätzlich gibt es Literaturangaben für Quellen, und Literaturangaben können auch Kontexte haben (beispielsweise Seitenzahlen im Fall von gedruckten Quellen).

Das CLDF-Datenmodell ist ein Paketformat, in dem ein Datensatz aus einer Gruppe von Dateien mit Tabellen und einer Beschreibungsdatei besteht, welche die Beziehung zwischen den Tabellen bestimmt. Jeder linguistische Datentyp ist einem CLDF-Modul und zusätzlichen Komponenten zugeordnet, die den Teil der Daten im Modul darstellen, der in mehreren Datentypen wiederkehrt. Die CLDF-Module beinhalten auch Begriffe aus der CLDF-Ontologie. Die Ontologie ist eine Liste von Begriffen, die Objekte und Eigenschaften umfasst, die eine sprachübergreifend gut bekannte Bedeutung haben. Das ermöglicht es an der Nutzung Interessierten, auf diese Begriffe einheitlich zu verweisen.

Ein Softwarepaket, um Validierung und Bearbeitung zu ermöglichen

Die CLDF-Spezifizierungen verwenden allgemein-gebräuchliche Dateiformate beispielsweise CSV, JSON und BibTeX die breite Unterstützung haben, mit dem Ziel, dass diese Dateien leicht auf vielen Plattformen gelesen und geschrieben werden können. Wichtiger noch ist dabei, dass das standardisierte Format es Forschern ohne Programmierkenntnisse ermöglichen wird, auf Daten mit vorhandenen Tools zuzugreifen und sie zu bearbeiten, anstatt diese Möglichkeit auf Forscher mit ausreichenden Programmierkenntnissen zu beschränken, die ohnehin meist leicht ihre eigenen Tools erstellen können. Um das zu erleichtern, hat die CLDF ein Cookbook-Repository für Programmierbeispiele erstellt, die mit den CLDF-Spezifizierungen verwendet werden können.

Wir wollen ermöglichen, dass ein möglichst großer Kreis von an der Sprachforschung Interessierten einfachen Zugang zu diesen Daten hat, um sie zu vergleichen und zu erforschen, so Johann-Mattis List vom Max-Planck-Institut für Menschheitsgeschichte. Robert Forkel, treibende Kraft der CLDF-Initiative, weist auch darauf hin, dass das CLDF-Format nicht allein auf linguistische Daten beschränkt ist, sondern auch Datenbanken mit beispielsweise kulturellen und geographischen Daten einbinden kann. CLDF wird das Überprüfen der Wechselwirkungen zwischen linguistischen, kulturellen und Umweltfaktoren in der Sprach- und Kulturevolution womöglich drastisch erleichtern.

###

Journal

Scientific Data

DOI

10.1038/sdata.2018.205

Disclaimer: AAAS and EurekAlert! are not responsible for the accuracy of news releases posted to EurekAlert! by contributing institutions or for the use of any information through the EurekAlert system.