Mehr Effizienz in der Forschungsarbeit
Für die Zusammenarbeit unter Wissenschaftlern spielen kollaborative Internetanwendungen bislang eine untergeordnete Rolle. Der Austausch von Wissen hat sich kaum verändert, wie vor 100 Jahren treffen sich Forscher auf Kongressen, sie veröffentlichen in Fachmedien oder suchen das persönliche Gespräch. Das Projekt WIKINGER (Wiki Next Generation Enhanced Repository) untersucht, ob der Einsatz von Web 2.0 und Semantic-Web-Technologien neue Perspektiven eröffnen kann, die den Prozess der wissenschaftlichen Wissensgenerierung und des Wissenstransfers effizienter machen.
Ziel des Projekts ist es, eine internetbasierte Informationsplattform zu schaffen, „die es Wissenschaftlern ermöglicht, effizient und ortsunabhängig in Wissensbasen ihres jeweiligen Fachgebiets zu recherchieren, und kollaborativ über das Internet neues Wissen zu generieren“. Von besonderem Interesse ist die Unterstützung der Wissenschaftler bei der Vernetzung von neu geschaffenen Forschungsbeiträgen mit bereits vorhandenen Informationen. Im Fokus stehen dabei in erster Linie Fachgebiete, in denen große Mengen an Textdaten entstehen und genutzt werden.
Kollaborative Internetanwendungen
Der Begriff Kollaboration bezeichnet im Zusammenhang mit Internettechnologie die Zusammenarbeit von Personen in der Absicht, gemeinsam elektronische Inhalte zu erstellen. Im Gegensatz zur Interaktion steht die gemeinsame Zielsetzung und der gemeinschaftliche Produktionsprozess im Vordergrund. Mit Web 2.0 sind neue Typen kollaborativer Internetanwendungen wie Wikis, Blogs und Networking-Plattformen verfügbar, die sich vor allem durch einfache Bedienbarkeit auszeichnen.
Konkret soll mit WIKINGER ein Konzept entwickelt werden, welches Wissenschaftlern, vorhandene Textinformationen – Literatursammlungen, Rechercheergebnisse und textliche Rohdaten – in einer Datenbasis teilautomatisiert zusammenzuführen. Die Informationen sollen bei diesem Prozess mit der Unterstützung von Software inhaltlich konsolidiert, sortiert und ausgewertet werden. Einzelne Datensätze sollen so Teil eines semantischen Netzes werden.
Für eine kollaborative Nutzung soll dieses Netz anschließend in ein internetbasiertes Wiki-System importiert und für Wissenschaftler über den Webbrowser abrufbar und bearbeitbar gemacht werden. Die Artikel stellen dabei die Knoten und die Hyperlinks die Verbindungen („Kanten“) zwischen diesen dar. Mitarbeiter eines Forschungsprojekts können dann zeit- und ortsunabhängig auf die elektronisch vorinterpretierten Daten zugreifen, diese auswerten und gemeinschaftlich bearbeiten. Damit dies ohne größere technische Hürden möglich ist, wird ein einfach zu bedienendes Wiki eingesetzt. Indem darin Einträge neu angelegt, erweitert und weiter vernetzt werden, soll das semantische Netz im Laufe des Forschungsprojekts kollaborativ weiterentwickelt werden.
Als Pilotprojekt dient ein Forschungszusammenhang, in dem es um die zeitgeschichtliche Erforschung des Katholizismus in Deutschland geht. Die Projektbeteiligten sind das Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS, der Bereich Computerlinguistik derUniversität Duisburg-Essen und die Kommission für Zeitgeschichte (KfZG). Das Projekt wird vom Bundesministerium für Bildung und Forschung im Rahmen des eScience-Programms gefördert und soll im Jahr 2008 abgeschlossen werden.
Ziel des Pilotprojekts ist es, alle biographischen und bibliographischen Daten katholischer Persönlichkeiten seit Beginn des 19. Jahrhunderts in einem semantischen Informationsnetz zusammenzufassen. Es sollen dafür die Lebensdaten der Personen und ihre Publikationsangaben gesammelt, auf Zusammenhänge hin analysiert und als semantisches Netz dargestellt werden.
In einem ersten Schritt werden hierfür die in Fachpublikationen enthaltenen Angaben digitalisiert. Anschließend wird versucht eine halbautomatisierte inhaltliche Auswertung der Daten mittels elektronischer Datenverarbeitungstechnik vorzunehmen. Eine besondere Herausforderung stellt in diesem Prozess die automatische Erkennung von sinnhaften Objekten dar: Personen-, Orts- und Organisationsnamen müssen durch die verwendete Software möglichst zuverlässig erkannt und kategorisiert werden. Über Iterationsschleifen werden deshalb die computergenerierten Ergebnisse qualitativ überprüft und die Auswertungsverfahren schrittweise optimiert.
» Bild vergrößern
Ist bei der Informationsextraktion eine ausreichende Qualität erreicht worden, wird das generierte Netz in ein Wiki-System überführt. Die semantischen Informationen der Personenprofile sollen dabei in Form von Metainformationen (Stichwortlisten, Kategorisierungen, Relationen …) und Verlinkungen erhalten bleiben. Das Wiki steht anschließend für die weitere historische Forschungsarbeit als Informationsgrundlage zur Verfügung.
Den Historikern bieten sich dann neuartige Recherchemöglichkeiten: durch die semantische Auszeichnung und Verknüpfung der Daten, können weitreichende Suchanfragen und Gruppierungen von Informationen durchgeführt werden.
Zusätzlich können die Forscher bei Bedarf inhaltliche Änderungen und Ergänzungen durch die eingesetzte Wiki-Technologie schnell und einfach durchführen. Da die Bedienung über das Internet erfolgt, spielt der Aufenthaltsort keine Rolle mehr. Durch die Versionierungsfunktion des Wikis, welche die Entwicklungsgeschichte eines Eintrags in Versionsschritten darstellt, können Änderungen dabei schnell zurückverfolgt werden. Über die Diskussionsfunktion bietet sich zudem die Möglichkeit Artikel zu kommentieren und einen dokumentierten Gedankenaustausch zu führen. Dadurch ist im Idealfall immer der gesamte Informations- und Wissensstand des Projektteams in einer einzigen Plattform zusammengefasst und erreichbar für alle Beteiligten.
Wird das Wiki als zentrales Werkzeug akzeptiert, ergeben sich durch die bessere Vernetzung mehr Möglichkeiten der Zusammenarbeit. Sollte WIKINGER also seine Ziele erreichen, könnte das zur Effizienzsteigerung in der geistes- und sozialwissenschaftlichen Forschungsarbeit führen:
(1) Durch die Teil-Automatisierte Zusammenführung und Extraktion von Textdaten könnten Projektlaufzeiten drastisch verkürzt werden. Voraussetzung hierfür ist jedoch die Entwicklung computerbasierter Erkennungsverfahren, die eine hohe Auswertungsqualität ohne großen Optimierungsaufwand ermöglichen. Die projektspezifische Erstellung von semantischen Informationsnetzen bietet Forschern zudem die Chance, auf eine qualitativ höherwertige Datenbasis zuzugreifen. Gerade bei Historikern erfolgt die inhaltliche Analyse von Textmaterialien bislang in der Regel vollständig „zu Fuß“. Eine Teil-Automatisierung der Textauswertung und Aufbereitung würde demgegenüber eine deutliche Rationalisierung darstellen.
(2) Die Verfügbarkeit von Datenbasen über das Internet und die Möglichkeit zur Weiterentwicklung über ein Wiki-System, würde die Projektarbeit vereinfachen. Im Gegensatz zu herkömmlichen Veröffentlichungen könnten die Textinhalte jederzeit – also auch nachträglich – geändert und aktualisiert werden. Bei klassischen Print-Formaten ist dies in ähnlicher Form kaum möglich, beziehungsweise würde einen nicht akzeptablen Aufwand verursachen.
(3) Auch die praktische Zusammenarbeit von Forscher-Teams über verteilte Standorte hinweg würde erleichtert. Durch den einfachen und ortsunabhängigen Zugriff auf die Daten und die benutzerfreundliche Bedienung des Wikis, können in kürzester Zeit alle Beteiligten an der Projektarbeit aktiv teilnehmen. Durch die integrierten Dokumentationsfunktionen wird zusätzlich eine hohe Transparenz in der Kommunikation gefördert.
Mann darf also gespannt sein auf die Ergebnisberichte zum Projektabschluss von WIKINGER. Die potentiellen technischen und methodischen Möglichkeiten versprechen viel, wenn sich die Forschergemeinde dazu entschließt, diese zu nutzen.
Semantisches Netz und Semantic Web
Der Begriff Semantic Web umfasst Konzepte zur semantischen Auszeichnung und Strukturierung von Inhalten im Internet, die künftig eine computergestützte Datenrecherche erheblich erleichtern könnten. Ziel ist, die inhaltlichen Aspekte und Beziehungen der Inhalte für Computer besser interpretierbar zu machen. Bislang sind Informationen im Internet aus technischer Sicht nur als "sinnfreier" Fließtext auffindbar, der mit anderen Texten über Hyperlinks vernetzt ist. Suchmaschinen können auf dieser Grundlage lediglich Übereinstimmungen und Häufigkeiten von Zeichenketten herauslesen. Eine direkte Suchanfrage bei Google in der Form: „Gib mir alle Beiträge aus, die der Autor XY im Jahre 2007 im Online-Magazin sciencegarden veröffentlicht hat" ist nach wie vor nicht möglich.
Über spezielle Auszeichnungs- und Kategorisierungssprachen wie RDF soll dies im Semantic Web zumindest für geschlossene Datensammlungen ermöglicht werden. Mit den neuen Techniken lassen sich dann die Beziehungen zwischen Begriffen („Konzepten“) standardisiert maschinenlesbar darstellen. Gerade für die wissenschaftlichen Arbeit ist dies sehr relevant: so könnten zum Beispiel biologische Taxonomien
wesentlich präziser elektronisch abgebildet und durchsucht werden.
Links zum Thema
- Projekthomepage
- Universität Duisburg-Essen, Computerlinguistik
- Kommission für Zeitgeschichte
- Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS
- E-Science-Programm des Bundesministeriums für Bildung und Forschung
- Semantic Web-Infosite des W3C
- sg-Artikel: Web 2.0 – Social Software der neuen Generation
- sg-Artikel: Wissen managen mit Web 2.0
- sg-Artikel: Wissen 2.0
