Αποτελεσματικές αλγοριθμικές τεχνικές υλοποίησης του DBSCAN σε κατανεμημένα συστήματα και ροές δεδομένων
Μια γνωστή και πολύ αποτελεσματική τεχνικη για την ανάλυση δεδομένων είναι η συσταδοποίηση. Ένας απλός τρόπος εξήγησης της συσταδοποίησης είναι η ομαδοποίηση παρομοίων δεδομένων σε διαφορετικές ομάδες βάση κάποιας μετρικής (π.χ. ευκλείδειας απόστασης). Μέσω αυτής της μεταπτυχιακής επιχειρείται μια τ...
| Main Author: | |
|---|---|
| Other Authors: | |
| Language: | Greek |
| Published: |
2023
|
| Subjects: | |
| Online Access: | https://hdl.handle.net/10889/25044 |
| Summary: | Μια γνωστή και πολύ αποτελεσματική τεχνικη για την ανάλυση δεδομένων είναι η
συσταδοποίηση. Ένας απλός τρόπος εξήγησης της συσταδοποίησης είναι η ομαδοποίηση
παρομοίων δεδομένων σε διαφορετικές ομάδες βάση κάποιας μετρικής (π.χ. ευκλείδειας
απόστασης). Μέσω αυτής της μεταπτυχιακής επιχειρείται μια τροποποίηση του αλγορίθμου
DBSCAN με χρήση του framework Apache spark ώστε να είναι εφικτή η εκτέλεση του σε
κατανεμημένα συστήματα. Βασικό χαρακτηριστικό της συγκεκριμένης υλοποίησης είναι η
διάσπαση του αλγορίθμου σε 3 βήματα τα οποία είναι ανεξάρτητα μεταξύ τους. Συνδικάζοντας
τον αλγόριθμο K-means προτείνουμε τον αλγόριθμο KS-DBSCAN ο οποίος επιτυγχάνει καλή
παραλληλοποιηση και ιδιά αποτελέσματα με αυτά που λαμβάναμε από τον DBSCAN.
Αναφέρονται ορισμένες βελτιστοποιήσεις που έγιναν λαμβάνοντας υπόψιν παρόμοιες
υλοποιήσεις όπως αυτή του πλέγματος και αποτελέσματα που είχαν. Επίσης αναλύονται
παρόμοιες υλοποιήσεις που βασίζονται σε χωρικές δομές δεδομένων. Τέλος παρουσιάζονται τα
αποτελεσμάτων διαφορετικών πειραμάτων που έγιναν ώστε να γίνει μια ορθή αξιολόγηση της
υλοποίησης που προτείνεται. Σχολιάζονται οι περιορισμοί της συγκεκριμένης υλοποίησης και
τρόποι ώστε αυτοί να ξεπεραστούν. |
|---|