Ein Team rund um BERD@BW-Data-Scientist Renat Shigapov hat mit der selbst entwickelten Software „boosted by wiki“ (bbw) bei der „Semantic Web Challenge on Tabular Data to Knowledge Graph Matching“ (SemTab-Challenge) teilgenommen und dort einen hervorragenden 3. Platz erreicht. Wir freuen uns sehr über dieses großartige Ergebnis!
In der Challenge ging es darum, einen Code zu entwickeln, der Tabellendaten (CSV-Dateien) mit Knowledge-Graph-Daten (z.B. Wikidata) abgleicht und mit deren Hilfe semantisch annotiert. Die verschiedenen Lösungen wurden in vier Runden anhand einer Vielzahl von Tabellendaten einem Benchmarking unterzogen. Herausforderungen in den Daten waren mehr oder weniger „unsaubere“ Angaben, d.h. fehlende Metadaten in den Tabellen (bspw. keine Spalten-/Zeilenbezeichnungen), unvollständige, fehlerhafte oder doppeldeutige Daten. Die Challenge war an die 19. International Semantic Web Conference (ISWC) und den 15. International Workshop on Ontology Matching (OM-2020) angegliedert.
Bei uns im BERD@BW-Projekt hat der bbw-Algorithmus auch praktisch eine große Bedeutung. So können wir Tabellen, die Firmendaten enthalten, mit unserem Open Firm Knowledge Graph matchen, den wir mit Wikibase umgesetzt haben. Auf diese Weise können wir zum einen den Knowledge Graph aktualisieren und anreichern, aber auch eine Entitätenidentifikation in CSV-Datensätzen durchführen, was ein Datenlinking verschiedener Datensätze stark erleichtert, oder Daten in CSV-Tabellen anreichern. Hierfür ist perpektivisch auch ein Webservice zur Nachnutzung für Forschende angedacht. Die Matching-Qualität spielt hierbei natürlich eine große Rolle. Insofern freut es uns sehr, dass unser bbw-Algorithmus in der internationalen und hochrangig besetzten Challenge im Benchmarking so gut abgeschnitten hat.