Εκπαιδεύοντας συστήματα Μηχανικής Μετάφρασης: αλγόριθμοι, δεδομένα και ELRC

ELRC - Ευρωπαϊκός Συντονισμός Γλωσσικών Πόρων

14-07-2021
ΙΕΛ

Οι εφαρμογές Τεχνητής Νοημοσύνης είναι πλέον μέρος της καθημερινής μας ζωής και χρησιμοποιούνται όλο και περισσότερο: ψηφιακοί βοηθοί, προγράμματα που προτείνουν τηλεοπτικές εκπομπές και αυτόματη μετάφραση είναι μόνο λίγα από τα παραδείγματα αυτών των εφαρμογών. Ειδικά σε συνθήκες κρίσης, όπως είναι η τωρινή, λόγω της πανδημίας COVID-19, η χρήση τους είναι σημαντική για τη διασφάλιση της πρόσβασης σε αξιόπιστη πληροφορία.
 
Η ανάπτυξη τέτοιων συστημάτων προϋποθέτει τρία βασικά συστατικά: αλγόριθμους, υπολογιστική ισχύ και δεδομένα. Δοκιμασμένοι αλγόριθμοι βαθιάς μάθησης (deep learning) είναι πλέον διαθέσιμοι και μπορούν να υλοποιηθούν μέσω ανοικτού κώδικα βιβλιοθηκών μηχανικής μάθησης. Αντίστοιχα, οι υποδομές υπολογιστικών συστάδων συνεχώς επεκτείνονται τόσο ως προς την υπολογιστική ισχύ τους όσο και ως προς την ικανότητά τους να αποθηκεύουν μεγάλα δεδομένα. Ωστόσο, ζητούμενο παραμένει πάντα η διαθεσιμότητα δεδομένων μεγάλου όγκου, κατάλληλων για την εκπαίδευση συστημάτων Τεχνητής Νοημοσύνης. Για παράδειγμα, για την εκπαίδευση μηχανών Μηχανικής Μετάφρασης απαιτούνται εκατομμύρια ζεύγη προτάσεων που η μία αποτελεί μετάφραση της άλλης (παράλληλες προτάσεις), ιδανικά σε διάφορους συνδυασμούς γλωσσών.    
 
Στο πλαίσιο της πολιτικής γλωσσικής ισότητας της ΕΕ, η οποία προβλέπει την ισότιμη πρόσβαση των πολιτών στην πληροφορία και σε διαδικασίες της ΕΕ στη γλώσσα τους, η διευκόλυνση «Διασυνδέοντας την Ευρώπη - Αυτοματοποιημένη Μετάφραση» (Connecting Europe Facility - Automated Translation, CEF AT) έχει ως στόχο την υποστήριξη της πολυγλωσσικότητας στις πανευρωπαϊκές ψηφιακές υποδομές, τις δημόσιες υπηρεσίες και τις μικρομεσαίες επιχειρήσεις σε όλα τα κράτη-μέλη και στις χώρες του ΕΟΧ.
 
Ο Ευρωπαϊκός Συντονισμός Γλωσσικών Πόρων (European Language Resource Coordination, ELRC) συνεισφέρει στην επίτευξη του στόχου αυτού, συντονίζοντας σε ευρωπαϊκό επίπεδο τη συλλογή και επεξεργασία γλωσσικών πόρων για τη Μηχανική Μετάφραση και παρέχοντας το αποθετήριο γλωσσικών πόρων ELRC-SHARE, μέσω του οποίου τα γλωσσικά δεδομένα που συλλέγονται καθίστανται διαθέσιμα όχι μόνο στο CEF AT αλλά, εάν το επιτρέπουν οι όροι χρήσης τους, και στο ευρύ κοινό. 
 
Το Ινστιτούτο Επεξεργασίας του Λόγου (ΙΕΛ) του Ερευνητικού Κέντρου “Αθηνά”, ένας από τους ιδρυτικούς εταίρους του ELRC, έχει αναπτύξει μια ροή εργασιών και την αντίστοιχη αλυσίδα εργαλείων για την απόκτηση παράλληλων γλωσσικών δεδομένων από το διαδίκτυο, εστιάζοντας σε τρεις τομείς:  «Υγεία», «Πολιτισμό» και «Επιστημονική έρευνα». Στις τρέχουσες συνθήκες κρίσης που έχει διαμορφώσει η πανδημία COVID-19, το ELRC δεν θα μπορούσε να μην ανταποκριθεί στην επιτακτική ανάγκη για τεχνολογικά υποβοηθούμενη πρόσβαση σε αξιόπιστη πολυγλωσσική πληροφορία σχετικά με τον κορωνοϊό. Ειδικά για τη θεματική της υγείας, οι προσπάθειες του ΙΕΛ εστίασαν στον εντοπισμό αξιόπιστων πηγών και τη συγκρότηση συλλογών γλωσσικών δεδομένων με θέμα την πανδημία. Προς αυτόν τον σκοπό, η ροή εργασιών αξιοποιήθηκε για την ανάλυση των σχετικών συλλογών μεταδεδομένων MEDISYS, προκειμένου να εξαχθούν ζεύγη παράλληλων προτάσεων από συγκρίσιμα σώματα κειμένων. Τμήματα των συλλογών που συγκροτήθηκαν χρησιμοποιούνται και στην πρωτοβουλία Covid-19 MLIA-Eval.  
 
Σημειώνεται ότι το μέγεθος των συλλογών παράλληλων προτάσεων (Αγγλικά από/προς άλλες ευρωπαϊκές γλώσσες) που συγκροτήθηκαν από το ELRC τα δύο τελευταία χρόνια ξεπερνάει τα 40 εκατομμύρια μεταφραστικές μονάδες. Επιπρόσθετα, έχει συλλεγεί ένας αξιοσημείωτος αριθμός μεταφραστικών μονάδων για άλλα ζεύγη γλωσσών εκτός της Αγγλικής, ενώ αρκετά εκατομμύρια ζεύγη παράλληλων προτάσεων έχουν εξαχθεί από ιστότοπους με πολυθεματικό περιεχόμενο. Συνολικά οι γλωσσικοί πόροι που έχουν συγκροτηθεί περιλαμβάνουν σήμερα περισσότερες από 80 εκατομμύρια μεταφραστικές μονάδες, αριθμός που αυξάνεται διαρκώς.  
 
 

Η ροή εργασιών του ΙΕΛ για την απόκτηση παράλληλων γλωσσικών δεδομένων από το διαδίκτυο

Πρώτο στάδιο της ροής εργασιών αποτελεί η εύρεση δίγλωσσων ή πολύγλωσσων ιστότοπων με περιεχόμενο σχετικό με τις παραπάνω θεματικές περιοχές. Κύρια πηγή αποτελούν οι ιστότοποι εθνικών υπηρεσιών, διεθνών οργανισμών και οργανισμών μέσων επικοινωνίας. Στη συνέχεια, η αλυσίδα εργαλείων του ΙΕΛ ILSP Focused Crawler (ILSP-FC) χρησιμοποιείται για την εξαγωγή του γλωσσικού περιεχομένου των ιστότοπων και την αναγνώριση ζευγών από υποψήφια παράλληλα κείμενα. Κατά τα επόμενα στάδια, και ανάλογα με τον μορφότυπο των πηγαίων δεδομένων, εφαρμόζονται αποτελεσματικές μέθοδοι εξαγωγής κειμένου, συμπεριλαμβανομένης για παράδειγμα της αναγνώρισης οπτικών χαρακτήρων (OCR) σε αρχεία PDF. Αξιοποιώντας τεχνικές πολύγλωσσων διανυσματικών αναπαραστάσεων (embeddings), εξάγονται ζεύγη παράλληλων προτάσεων που ονομάζονται μεταφραστικές μονάδες (translation units). Η διεργασία ολοκληρώνεται με την εφαρμογή μιας σειράς κριτηρίων που αποκλείουν από τη συλλογή μεταφραστικές μονάδες με μικρή ή μηδενική χρησιμότητα (π.χ. προτάσεις που περιέχουν μόνο αριθμούς). Η συλλογή αυτή είναι δυνατό στη συνέχεια να χωριστεί σε διαφορετικά σύνολα, με κριτήριο, μεταξύ άλλων, τους όρους χρήσης του γλωσσικού περιεχομένου όπως αυτοί προσδιορίζονται στους πηγαίους ιστότοπους.
 
 

Ημερολόγιο εκδηλώσεων

S M T W T F S
 
 
 
 
 
 
1
 
2
 
3
 
4
 
5
 
6
 
7
 
8
 
9
 
10
 
11
 
12
 
13
 
14
 
15
 
16
 
17
 
18
 
19
 
20
 
21
 
22
 
23
 
24
 
25
 
26
 
27
 
28
 
29
 
30
 
31