IDBS - Abteilung Datenbanken Leipzig
Transcription
IDBS - Abteilung Datenbanken Leipzig
Implementierung von Datenbanksystemen (IDBS1 + IDBS2) IDBS Sommersemester 2015 Prof. Dr. Erhard Rahm Universität Leipzig Institut für Informatik http://dbs.uni-leipzig.de SS15, © Prof. Dr. E. Rahm 0-1 IDBS DBS-Module Master-Studium Informatik – – – – – Bachelor-Studium Informatik – – – – – 10-202-2215 – Moderne Datenbanktechnologien (Kleines Modul)) 10-202-2216 – Moderne Datenbanktechnologien (Großes Modul)) 10-202-2213 – Anwendungsbezogene Datenbankkonzepte (Kleines Modul) 10-202-2214 – Anwendungsbezogene Datenbankkonzepte (Großes Modul) 10-202-2011 – Masterseminar Informatik / Seminarmodul 10-201-2211 – Datenbanksysteme 1 10-201-2212 – Datenbanksysteme 2 10-201-2210 – Datenbankpraktikum 10-201-2224 – Realisierung von Informationssystemen 10-201-2010 – Bachelorseminar Informatik / Seminarmodul Anrechenbarkeit für Bachelor/Master Wirtschaftsinformatik und Master Bioinformatik SS15, © Prof. Dr. E. Rahm 0-2 IDBS Masterstudium DBS-Profil Moderne DBT (5 LP) Kernmodul 1 (5 LP) Masterseminar (5 LP) Vertiefungsmodul (10 LP) Seminarmodul (5 LP) Kernmodul 2 (5 LP) Legende: Moderne DBTechnologien (10 LP) Anwendungsspezifische DB-Konzepte (10 LP) DB-Modul Vertiefungsmodul (10 LP) Kernmodul Masterarbeit (25 LP) Vertiefungsmodul Ergänzungsfach 1 (10 LP) 1. Semester SS15, © Prof. Dr. E. Rahm BACHELOR DBS-Profil Schlüsselqualifikation (10 LP) Ergänzungsfach 2 (10 LP) 2. Semester Schlüsselqualif. Ergänzungsfach 3. Semester 4. Semester IDBS 0-3 Algorithmen und Datenstrukturen 1 (5 LP) Algorithmen und Datenstrukturen 2 (5 LP) DBS 1 (5 LP) DBS 2 (5 LP) Realisierung von IS (5 LP) Kernmodul 5 (5 LP) Modellierung und Programmierung 1 (5 LP) Modellierung und Programmierung 2 (5 LP) Softwaretechnik (5 LP) Softwarepraktikum (5 LP) Seminarmodul (5 LP) Bachelorseminar (5 LP) Technische Informatik 1 (5 LP) Technische Informatik 2 inkl. Hardwarepraktikum (5 LP) Kommunikationssysteme (5 LP) Vertiefungsmodul (10 LP) Bachelorarbeit (10 LP) Ergänzungsfach (10 LP) Fakultätsübergreifende Schlüsselqualifikation (10 LP) Logik (5 LP) Analysis 1 (10 LP) 1. Semester Java-Praktikum (5 LP) Kernmodul (5 LP) Automaten und Sprachen (5 LP) Berechenbarkeit (5 LP) Diskrete Strukturen (5 LP) DB-Praktikum (5 LP) Lineare Algebra 1 (10 LP) 2. Semester Wahrscheinlichkeitstheorie (5 LP) Ergänzungsfach (5LP) 3. Semester 4. Semester Legende: DBS-Modul SS15, © Prof. Dr. E. Rahm 0-4 5. Semester 6. Semester Inf-Pflichtmodul MI-Modul Mathematikmodul Schlüsselqualif. Ergänzungsfach IDBS DBS-Lehrveranstaltungen Logo Name Typ SWS Sem. DBS1 Datenbanksysteme 1 Einführung 2+1 WS Datenbanksysteme 2 Einführung 2+1 SS Name Typ Sem. Vertiefung 2 WS DB-Praktikum Praktikum SS Vertiefung 2 SS Praktikum WS Mehrrechner-DBS Vertiefung 2 WS Data Warehousing Vertiefung 2 SS DataWarehousePraktikum Problemseminar Seminar WS Datenintegration Vertiefung 2 SS Seminar Vertiefung 2 WS Bachelorseminar SS+ WS Vertiefung 2 WS Masterseminar Seminar SS+ WS Vertiefung 2 SS Vertiefung 2 WS DBS2 IDBS1 IDBS2 Implementierung von DBS 1 Implementierung von DBS 2 Bio Data Management OntologieManagement Cloud Data Management NoSQL-DB LV im SS15 IDBS SS15, © Prof. Dr. E. Rahm Mapping: Module – Lehrveranstaltungen SS15 Master-Module “Anwendungsbezogene Datenbankkonzepte” (zwei bzw. drei Veranstaltungen für kleines bzw. großes Modul): – IDBS 1 – IDBS2 – Cloud Data Management – ggf. DBS2 Bachelor-Modul “Realisierung von Informationssystemen” – IDBS1 – IDBS2 oder Cloud Data Management Bachelorseminar / Masterseminar – Vortrag über laufende Bachelor/Masterarbeit – externes Seminar Uni-Außenstelle Zingst (Mai 2015) SS15, © Prof. Dr. E. Rahm 0-6 IDBS Leistungsbewertung Prüfungsklausur von 60 +60 Minuten (IDBS1, IDBS2) – Juli 2015 – überprüft konzeptionelles Wissen + Anwendungsfälle Klausurerfolg durch – Vorlesungsteilnahme und –nachbearbeitung – Online-Übungen – Literatur SS15, © Prof. Dr. E. Rahm 0-7 IDBS Lernziele der Vorlesung IDBS fundierte Kenntnisse der Funktionsweise von DBS Implementierungstechniken u.a. zur – Sicherstellung einer hohen Performanz – Datensicherheit IDBS1: Verfahren zur Externspeicher-Nutzung, Verwaltung von Pufferspeichern, Indexstrukturen, Anfrageoptimierung ... IDBS2: Verfahren zur Transaktionsverwaltung: Synchronisation (Concurrency Control), Logging/Archivierung, Recovery tiefergehende Kenntnisse wichtig für DB-Administration sowie generell für anspruchsvolle DB-Nutzung sachkundige Beurteilung von kommerziell verfügbaren DBS Verfahren nicht nur für Datenbanksysteme relevant (-> Big Data, Web-/ Applikations-Server, Datei-Management,...) SS15, © Prof. Dr. E. Rahm 0-8 IDBS Vorlesungsübersicht IDBS1 1. Einführung - Architektur von DBS: Schichtenmodelle - Tuning von DBS 2. E/A-Architekturen und Speicherhierarchien - Speichertechnologien - Disk-Arrays - Nicht-flüchtige Halbleiterspeicher 3. DBS-Pufferverwaltung - Ersetzungsverfahren 4. Satzverwaltung - Zuordnung Sätze – Seiten, Clusterung, BLOBs - Satzadressierung - Column Stores SS15, © Prof. Dr. E. Rahm 0-9 IDBS Vorlesungsübersicht (2) 5. Indexstrukturen – – – – – Mehrweg-Bäume externe Hash-Verfahren Mehrdimensionale Zugriffspfade Bitlisten-Indizes Text-Indexierung 6. Algorithmen zur Implementierung relationaler Operationen – Selektion – Verbund / Join – Sortierung 7. Anfrageoptimierung – Übersetzung von DB-Anweisungen – Optimierung – EXPLAIN SS15, © Prof. Dr. E. Rahm 0-10 IDBS Vorlesungsübersicht (IDBS2) 1. Einführung: Transaktionsverwaltung, Integritätskontrolle 2. Synchronisation: Grundlagen, Sperrverfahren – – – – – Mehrbenutzer-Anomalien Serialisierbarkeit Sperrverfahren: 2PL, Hierarchische Sperrverfahren Konsistenzstufen Deadlock-Behandlung 3. Synchronisation: Weitere Verfahren, Leistungsbewertung – – – – Optimistische Verfahren Zeitstempel- und Mehrversionen-Verfahren Spezialverfahren für B*-Bäume und „High Traffic“-Elemente Leistungsanalyse und Lastkontrolle SS15, © Prof. Dr. E. Rahm 0-11 IDBS Vorlesungsübersicht (2) 4. Logging und Recovery: Grundlagen – Begriffe und Annahmen, Fehlermodell – Logging-Verfahren – Klassifikation von Recovery-Strategien 5. Crash- und Medien-Recovery – Crash-Recovery – Platten-Recovery 6. Transaktionskonzept: Weiterentwicklungen – Geschachtelte Transaktionen – Transaktionsketten (Sagas) 7. DBS- Benchmarks SS15, © Prof. Dr. E. Rahm 0-12 IDBS Literatur Härder, T., Rahm, E.: Datenbanksysteme - Konzepte und Techniken der Implementierung. Springer-Verlag, 2. Auflage 2001 (Kap. 1 und 13 online) http://dbs.uni-leipzig.de/buecher/DBSI-Buch/inhalt.html Weitere Lehrbücher – Garcia-Molina, H., Ullman, J.D., Widom, J.: Database System Implementation. Prentice Hall, 2000 – Saake, Sattler, Heuer: Datenbanken: Implementierungstechniken, MITP-Verlag, 2011 Forschungsergebnisse – Tagungsbände: VLDB (jährliche Konferenz "Very Large Data Bases"), SIGMOD (Konferenz der ACM Special Interest Group on Management of Data), IEEE Data Engineering, EDBT, BTW ... – Zeitschriften: VLDB Journal (Very Large Data Bases), ACM TODS (Transactions on Database Systems), Datenbank-Spektrum ... DBLP-Portal: http://dblp.uni-trier.de (>1 Million Referenzen, viele Links auf Volltexte, Homepages etc.) Google Scholar http://scholar.google.com/ (Volltexte, Zitierungsangaben) SS15, © Prof. Dr. E. Rahm 0-13 IDBS Online-Übungen LOTS (Leipzig Online Test System), http://lots.uni-leipzig.de SS15, © Prof. Dr. E. Rahm 0-14 IDBS LOTS: Online-Übungen SS15, © Prof. Dr. E. Rahm 0-15 IDBS Lehrstuhl Datenbanksysteme seit 1994 am Institut für Informatik Umfangreiches Lehrangebot – Vorlesungen, Praktika, Seminare – Online-Übungssystem LOTS – Eigene Lehrbücher: MRDBS, IDBS, … SS15, © Prof. Dr. E. Rahm 0-16 IDBS Forschung SS15, © Prof. Dr. E. Rahm 0-17 IDBS GERMAN CENTERS FOR BIG DATA Two Centers of Excellence for Big Data in Germany ScaDS Dresden/Leipzig Berlin Big Data Center (BBDC) ScaDS Dresden/Leipzig (Competence Center for Scalable Data Services and Solutions Dresden/Leipzig) scientific coordinators: Nagel (TUD), Rahm (UL) start: Oct. 2014 duration: 4 years (option for 3 more years) initial funding: ca. 5.6 Mio. Euro 18 STRUCTURE OF THE CENTER Life sciences Service center Material and Engineering sciences Environmental / Geo sciences Digital Humanities Business Data Big Data Life Cycle Management and Workflows Data Quality / Data Integration Knowledge Extraktion Visual Analytics Efficient Big Data Architectures 19 RESEARCH PARTNERS Data-intensive computing W.E. Nagel Data quality / Data integration E. Rahm Databases W. Lehner, E. Rahm Knowledge extraction/Data mining C. Rother, P. Stadler, G. Heyer Visualization S. Gumhold, G. Scheuermann Service Engineering, Infrastructure K.-P. Fähnrich, W.E. Nagel, M. Bogdan 20 APPLICATION COORDINATORS Life sciences G. Myers Material / Engineering sciences M. Gude Environmental / Geo sciences J. Schanze Digital Humanities G. Heyer Business Data B. Franczyk 21 BIG DATA ANALYSIS PIPELINE Interpretation Privacy Data analysis and visualization Velocity Veracity Data integration/ annotation Variety Data extraction / cleaning Volume Data aquisition 22 BIG GRAPH DATA Social science Engineering Facebook Internet ca. 1.3 Billion users ca. 2.9 Billion Users ca. 340 friends per user Twitter ca. 300 Million users ca. 500 Million Tweets per day Life science Gene (human) 20,000-25,000 ca. 4 Million individuals Patients > 18 Millionen (Germany) Illnesses > 30.000 Information science World Wide Web ca. 1 Billion Websites LOD-Cloud ca. 31 Billion Triples 23 GRAPH ANALYTICS ON HADOOP Comprehensive, scalable and generic framework for management and analysis of diverse graph data 24 Graph Visualization Visual Workflow Definition Graph Operators Pipeline Execution Bulk Load Graph Repository Backend Frontend GRADOOP – HIGH LEVEL ARCHITECTURE Control Data Bulk Write Distributed Storage Shared Nothing Cluster 25