ZUGANG ZU VERTEILTEN KOLLEKTIONEN
Transcription
ZUGANG ZU VERTEILTEN KOLLEKTIONEN
ZUGANG ZU VERTEILTEN KOLLEKTIONEN ERHARD HINRICHS & THORSTEN TRIPPEL EBERHARD KARLS UNIVERSITÄT TÜBINGEN www.clarin-d.net CLARIN-D: 9 Zentren • • • • • • • • • Tübingen (Koord.) – (Computerlinguistik (CL)): Annotierte Korpora, ling. Wissenskomponenten, Web-Services Leipzig – (Informatik): Web-Services und Textkorpora BBAW Berlin – (Zentrum Sprache): Deutsche Sprache: Wörterbücher, (hist.) Textkorpora Stuttgart – (CL): Web-Services und Textkorpora IDS Mannheim – (Germanistik/CL): Deutsche Sprache, Textkorpora LMU München – (BAS/CL) Deutsche Sprachdaten, multilinguale Daten, Web Services MPI Nijmegen – (Psycholinguistik): Bedrohte Sprachen, multimodale Sprachressourcen Hamburg – (CL): Multilinguale Sprachdaten, Transkriptionswerkzeuge Saarland – (CL): Multilinguale Textkorpora und Web-Services www.clarin-d.net Ziel: Für die Geistes- und Sozialwissenschaften • Einfacher Zugang zu Sprachdaten mit einheitlichem Login (Single Sign-On) • Verteilte Dienste für die Forschung • Archivierung und nachhaltiger Zugang zu Sprachdaten www.clarin-d.net 3 5 Phasen eines e-Humanities Projektes Auffinden, Erwerb und Aufbereiten von Daten Data Mining Archivierung von Daten Datenanalyse Daten verfügbar machen Visualisierung der Daten www.clarin-d.net 4 Datentypen in CLARIN-D Lexikalische Ressourcen Korpora (gesprochen) Software Werkzeuge Korpora Experimentaldaten (geschrieben) Grammartiken Multimodale Korpora Baumbanken www.clarin-d.net Von Daten zur Interoperabilität Datentypen Interoperabilitätshürden • Sprachsignale • Textkorpora (basieren auf Druckerzeugnissen oder Webseiten) • Lexikalische Ressourcen (Beispiele aus Textkorpora) • Experimente/Umfragen • Zusammenfassung von Daten aus verschiedenen Institutionen (Querschnittsstudien, Linked Data) • Disziplinübergreifende Datennutzung • • • • • Persönlichkeitsrechte Ethik Copyright Attribution "Experimentdiebstahl" vor Veröffentlichung • Zugangsberechtigungen • Schnittstellen www.clarin-d.net Lösungsansätze • Wissenschaftsprivileg für Medienerzeugnisse im Copyright hilft nur bei Korpora, etc. • "open access" hilft nicht bei – – – – Persönlichkeitsrechten Ethik Copyright "Experimentdiebstahl" • Technische Lösung Authorisierung von Einzelpersonen und Gruppen www.clarin-d.net Lösungen in CLARIN • • • • Verteilte Suche ohne zentralen Index Offene Schnittstellen OAI-PMH, SRU/CQL Authentifizierung AAI über Shibboleth Authorisierung – in der Regel für die akademische Welt offen – weitere Einschränkungen auf bestimmte Benutzer unklar www.clarin-d.net Lösungen in CLARIN Central Infrastructure Centre Registry FCS Aggregator Local Infrastructure Local Query Engine • CQP • COSMAS II • … User/Web FCS Endpoint • CLARIN Centre Based www.clarin-d.net Erwartungen an RDA • Lösungen mit Zugangsbeschränkungen einbeziehen – Keine zentrale Indizierung möglich – Abfragespezifizierung von Teilquellen • Attribution bei vernetzten Forschungsdaten • Anfragemodelle für Cross-Disciplinary-Data und Schnittstellen (Umgang mit Zugangsbeschränkung) • "Forschungsdaten Rückversicherung": Übernahme von Fachbezogenen Infrastrukturdienstleistungen www.clarin-d.net