ZUGANG ZU VERTEILTEN KOLLEKTIONEN

Transcription

ZUGANG ZU VERTEILTEN KOLLEKTIONEN
ZUGANG ZU VERTEILTEN
KOLLEKTIONEN
ERHARD HINRICHS & THORSTEN TRIPPEL
EBERHARD KARLS UNIVERSITÄT TÜBINGEN
www.clarin-d.net
CLARIN-D: 9 Zentren
•
•
•
•
•
•
•
•
•
Tübingen (Koord.) – (Computerlinguistik
(CL)): Annotierte Korpora, ling.
Wissenskomponenten, Web-Services
Leipzig – (Informatik): Web-Services und
Textkorpora
BBAW Berlin – (Zentrum Sprache): Deutsche
Sprache: Wörterbücher, (hist.) Textkorpora
Stuttgart – (CL): Web-Services und
Textkorpora
IDS Mannheim – (Germanistik/CL): Deutsche
Sprache, Textkorpora
LMU München – (BAS/CL) Deutsche
Sprachdaten, multilinguale Daten, Web
Services
MPI Nijmegen – (Psycholinguistik): Bedrohte
Sprachen, multimodale Sprachressourcen
Hamburg – (CL): Multilinguale Sprachdaten,
Transkriptionswerkzeuge
Saarland – (CL): Multilinguale Textkorpora
und Web-Services
www.clarin-d.net
Ziel: Für die Geistes- und
Sozialwissenschaften
• Einfacher Zugang zu Sprachdaten mit einheitlichem
Login (Single Sign-On)
• Verteilte Dienste für die Forschung
• Archivierung und nachhaltiger Zugang zu
Sprachdaten
www.clarin-d.net
3
5 Phasen eines e-Humanities Projektes
Auffinden,
Erwerb und
Aufbereiten von
Daten
Data Mining
Archivierung von
Daten
Datenanalyse
Daten verfügbar
machen
Visualisierung
der Daten
www.clarin-d.net
4
Datentypen in CLARIN-D
Lexikalische
Ressourcen
Korpora
(gesprochen)
Software
Werkzeuge
Korpora
Experimentaldaten
(geschrieben)
Grammartiken
Multimodale
Korpora
Baumbanken
www.clarin-d.net
Von Daten zur Interoperabilität
Datentypen
Interoperabilitätshürden
• Sprachsignale
• Textkorpora (basieren auf
Druckerzeugnissen oder
Webseiten)
• Lexikalische Ressourcen
(Beispiele aus Textkorpora)
• Experimente/Umfragen
• Zusammenfassung von Daten
aus verschiedenen Institutionen
(Querschnittsstudien, Linked
Data)
• Disziplinübergreifende
Datennutzung
•
•
•
•
•
Persönlichkeitsrechte
Ethik
Copyright
Attribution
"Experimentdiebstahl" vor
Veröffentlichung
• Zugangsberechtigungen
• Schnittstellen
www.clarin-d.net
Lösungsansätze
• Wissenschaftsprivileg für Medienerzeugnisse im
Copyright  hilft nur bei Korpora, etc.
• "open access"  hilft nicht bei
–
–
–
–
Persönlichkeitsrechten
Ethik
Copyright
"Experimentdiebstahl"
• Technische Lösung  Authorisierung von
Einzelpersonen und Gruppen
www.clarin-d.net
Lösungen in CLARIN
•
•
•
•
Verteilte Suche  ohne zentralen Index
Offene Schnittstellen  OAI-PMH, SRU/CQL
Authentifizierung  AAI über Shibboleth
Authorisierung 
– in der Regel für die akademische Welt offen
– weitere Einschränkungen auf bestimmte Benutzer
unklar
www.clarin-d.net
Lösungen in CLARIN
Central Infrastructure
Centre Registry
FCS Aggregator
Local Infrastructure
Local Query Engine
• CQP
• COSMAS II
• …
User/Web
FCS Endpoint
• CLARIN Centre
Based
www.clarin-d.net
Erwartungen an RDA
• Lösungen mit Zugangsbeschränkungen
einbeziehen
– Keine zentrale Indizierung möglich
– Abfragespezifizierung von Teilquellen
• Attribution bei vernetzten Forschungsdaten
• Anfragemodelle für Cross-Disciplinary-Data und
Schnittstellen (Umgang mit
Zugangsbeschränkung)
• "Forschungsdaten Rückversicherung": Übernahme
von Fachbezogenen Infrastrukturdienstleistungen
www.clarin-d.net