Συστήματα Διαχείρισης Δεδομένων Μεγάλης Κλίμακας

Course ID
ΠΜΣ01
Κατεύθυνση
Εξάμηνο
Χειμερινό
Τύπος
Υποχρεωτικό 1ης κατεύθ.

Μαθησιακά Αποτελέσματα

Οι σύγχρονες εφαρμογές στο διαδίκτυο έχουν δημιουργήσει την ανάγκη της καθημερινής διαχείρισης τεράστιων ποσοτήτων δεδομένων. Η επαναλαμβανόμενη εκτέλεση υπολογιστικών διεργασιών σε ποσότητες δεδομένων που δεν χωρούν στην μνήμη, δεν είναι εύκολο να αντιμετωπιστεί με παραδοσιακές τεχνικές. Το μάθημα προσφέρει στους σπουδαστές τις απαραίτητες γνώσεις και δεξιότητες που απαιτούνται για την επίλυση προβλημάτων που αφορούν μεγάλου όγκου δεδομένων που δεν χωρούν στην μνήμη. Κάθε ενότητα του μαθήματος αποτελείται από δύο μέρη. Στο πρώτο μέρος περιγράφεται η αρχιτεκτονική σύγχρονων κατανεμημένων συστημάτων διαχείρισης μεγάλου όγκου δεδομένων και στο δεύτερο μέρος περιγράφονται αλγοριθμικές τεχνικές. Όλα τα παραδείγματα βασίζονται σε μελέτες περιπτώσεων με την χρήση εργαλείων ανοικτού κώδικα.

Περιεχόμενο Μαθήματος

1η εβδομάδα (Διάλεξη): Εισαγωγή σε μεγάλου όγκου δεδομένα. Σύγχρονα υπολογιστικά μοντέλα. Σύγχρονα μοντέλα αποθήκευσης.
2η εβδομάδα (Διάλεξη): Εισαγωγή σε σύγχρονα κατανεμημένα συστήματα.
3η εβδομάδα (Διάλεξη): Κατανεμημένα συστήματα αρχείων μεγάλης κλίμακας και η πλατφόρμα Map-Reduce για παράλληλους υπολογισμούς.
4η εβδομάδα (Διάλεξη): Βασικοί αλγόριθμοι με Map-Reduce: πολλαπλασιασμός πινάκων, σχεσιακή άλγεβρα. Υψηλού επιπέδου γλώσσες για ανάλυση δεδομένων.
5η εβδομάδα (Εργαστήριο): Πρακτική εφαρμογή. Το σύστημα Hadoop.
6η εβδομάδα (Διάλεξη): Αρχιτεκτονική του συστήματος Spark και υλοποίηση αλγορίθμων με RDDs.
7η εβδομάδα (Εργαστήριο): Πρακτική εφαρμογή. Το σύστημα Spark.
8η εβδομάδα (Διάλεξη): Σύγχρονα κατανεμημένα μη-σχεσιακά αποθετήρια δεδομένων I. BASE Consistency, CAP Theorem, BigTable
9η εβδομάδα (Διάλεξη): Σύγχρονα κατανεμημένα μη-σχεσιακά αποθετήρια δεδομένων II. Dynamo, PNUTS
10η εβδομάδα (Διάλεξη): Σύγχρονα κατανεμημένα συστήματα για την αποθήκευση γραφημάτων. Vertex-Centric, BSP, Gas Model.
11η εβδομάδα: Παρουσίαση εργασιών φοιτητών.
12η εβδομάδα: Παρουσίαση εργασιών φοιτητών.

ΓΕΝΙΚΕΣ ΙΚΑΝΟΤΗΤΕΣ

Αυτόνομη Εργασία

Ομαδική Εργασία

Προαγωγή της ελεύθερης, δημιουργικής και επαγωγικής σκέψης

 

ΔΙΔΑΚΤΙΚΕΣ ΚΑΙ ΜΑΘΗΣΙΑΚΕΣ ΜΕΘΟΔΟΙ - ΑΞΙΟΛΟΓΗΣΗ

Χρήση εξειδικευμένων εργαλείων κατασκευής μεταγλωττιστών. Χρήση την εικονικής μηχανής JVM σε
χαμηλό επίπεδο. Υποστήριξη μαθησιακής διαδικασίας μέσω της ηλεκτρονικής πλατφόρμας e-class.

Δραστηριότητα Φόρτος Εργασίας
Εξαμήνου
Παρακολούθηση διαλέξεων 33
Εργαστηριακή Άσκηση 6
Ατομικές ή Ομαδικές Εργασίες 32
Αυτοτελής μελέτη 79
Σύνολο 150

ΑΞΙΟΛΟΓΗΣΗ ΦΟΙΤΗΤΩΝ

Γραπτή τελική εξέταση (60%) που περιλαμβάνει:
– Ερωτήσεις πολλαπλής επιλογής
– Επίλυση προβλημάτων
– Συγκριτική αξιολόγηση στοιχείων θεωρίας

Ομαδικές Εργασίες που αξιολογούνται σε δύο στάδια (40%): περιγραφή της προτεινόμενης προσέγγισης, υλοποίηση.

ΣΥΝΙΣΤΩΜΕΝΗ ΒΙΒΛΙΟΓΡΑΦΙΑ

Anand Rajaraman, Jeffrey D. Ullman: “Mining of Massive Datasets”. Cambridge University Press. 2011.
Jeffrey Scott Vitter: “External memory algorithms and data structures: dealing with massive data”, ACM Computing Surveys (CSUR), Volume 33 Issue 2, June 2001.
Guy Blelloch and Bruce Maggs: “Parallel Algorithms”, from Computer Science Handbook, Second Edition, Allen B. Tucker (Editor), 2004.
M. Garofalakis, J. Gehrke, and R. Rastogi (editors): Data Stream Management, Springer, 2009.
Jim Gray, David T. Liu, Maria A. Nieto-Santisteban, Alexander S. Szalay, David J. DeWitt, Gerd Heber: “Scientific data management in the coming decade”, SIGMOD Record 34(4): 34-41 (2005).