Όταν η τεχνολογία μαθαίνει ελληνικά. Όλα τα ελληνικά.

9 Φεβρουαρίου – Παγκόσμια Ημέρα Ελληνικής Γλώσσας

09-02-2026
ΕΚ "Αθηνά"

Η σημερινή Παγκόσμια Ημέρα Ελληνικής Γλώσσας είναι μια υπενθύμιση ότι η γλώσσα μας  υπερβαίνει τη Νεοελληνική Κοινή και εκτείνεται σε διαχρονικές και διαλεκτικές ποικιλίες που οφείλουν να είναι παρούσες και στον ψηφιακό κόσμο. Ότι ελληνικά είναι όλα τα ελληνικά: τα Ποντιακά, τα Κυπριακά, τα Κρητικά, τα Κατωιταλιώτικα, οι ποικιλίες του Αιγαίου, του Ιονίου, της Μακεδονίας, της Καππαδοκίας, της Μικράς Ασίας. Όλες τους παιδιά της Ελληνιστικής Κοινής. Όλες τους ζωντανά αποτυπώματα κοινοτήτων και πολιτισμών.
 
Κι όμως, δεν έχουν όλες την ίδια τύχη. Η Κοινή Νεοελληνική είναι η ισχυρή, η διδασκόμενη, η πανταχού παρούσα. Οι διάλεκτοι; Πιέζονται, υποτιμώνται, εγκαταλείπονται. Και μαζί τους λιγοστεύουν οι φωνές που τις μιλούν και τα δεδομένα που τις τεκμηριώνουν.
 
Πώς μπορεί η τεχνολογία να λειτουργήσει ως ασπίδα για τις ελληνικές διαλέκτους; Και πώς συνδέεται η Παγκόσμια Ημέρα Ελληνικής Γλώσσας με την Τεχνητή Νοημοσύνη;

Στο Ερευνητικό Κέντρο Αθηνά, μιλούν όλες οι φωνές

Στο Ερευνητικό Κέντρο Αθηνά, το Ινστιτούτο Επεξεργασίας του Λόγου (ΙΕΛ) σε συνεργασία με τη Μονάδα ΑΡΧΙΜΗΔΗΣ, αξιοποιεί την Τεχνητή Νοημοσύνη και τη Γλωσσική Τεχνολογία για την ενίσχυση των ελληνικών διαλέκτων εκεί όπου, σήμερα, κρίνεται η επιβίωσή τους: στις σύγχρονες ψηφιακές εφαρμογές. Οι ερευνητικές ομάδες επιστρατεύουν σύγχρονες τεχνολογίες, όπως νευρωνικά μοντέλα, διαλογικά συστήματα και Μεγάλα Γλωσσικά Μοντέλα. Μοιάζει λίγο αυτή η προσπάθεια με το να ανεβαίνει κανείς την κοίτη ενός ποταμού ανάποδα γιατί, ενώ οι σύγχρονες τεχνολογίες στηρίζονται στα πολλά δεδομένα, οι διάλεκτοι έχουν λίγα. Τα αποτελέσματα της έρευνας περιλαμβάνουν (προφορικά) σώματα κειμένων, μοντέλα μετατροπής ομιλίας σε κείμενο και μοντέλα μορφολογικής και συντακτικής ανάλυσης, δενδροτράπεζες και προδιαγραφές μορφολογικής και συντακτικής επισημείωσης και τεχνικές παραγωγής συνθετικών διαλεκτικών δεδομένων με Μεγάλα Γλωσσικά Μοντέλα, όλα με ανοιχτή πρόσβαση.

Μπορεί μια μηχανή να καταλάβει μια διάλεκτο; Πέντε ερωτήσεις (και απαντήσεις) που εξηγούν το πώς

  1. Πότε κάνουμε μορφολογική επισημείωση κειμένου;
Όταν για κάθε λέξη καταγράφουμε το μέρος του λόγου στο οποίο ανήκει, αν είναι ρήμα, ουσιαστικό, επίθετο κ.λπ. και τα μορφολογικά της χαρακτηριστικά, όπως πτώση, γένος, αριθμός, χρόνος. Παράδειγμα: Η λέξη «ταιριάζουν» είναι ρήμα, σε ενεστώτα, πληθυντικό αριθμό.
 
  1. Πότε κάνουμε συντακτική επισημείωση; 
Όταν μελετάμε πώς συνδέονται οι λέξεις μεταξύ τους μέσα σε μια πρόταση.  Παράδειγμα: Στη φράση «ο νεαρός έπλενε το αυτοκίνητο»: Το «νεαρός» συνδέεται  με το ρήμα «έπλενε» ως υποκείμενο. Το «αυτοκίνητο» επίσης συνδέεται με το «έπλενε», αλλά ως αντικείμενο.
 
  1.  Τι είναι οι δενδροτράπεζες και γιατί είναι τόσο σημαντικές; 
Οι δενδροτράπεζες είναι κειμενικά σύνολα με πλήρη μορφολογική και συντακτική επισημείωση, σε μορφή δέντρων.
Μπορούμε να τις αξιοποιήσουμε για: 
  • Δημιουργία λεξικών και γραμματικών 
  • Εκπαίδευση μηχανών για μορφολογική/συντακτική ανάλυση νέων κειμένων 
  • Ενίσχυση μοντέλων κατανόησης: ποιος κάνει τι σε μια πρόταση, ποιο είναι το υποκείμενο, το αντικείμενο, το γεγονός
     
  1. Πώς δουλεύουμε όταν μια διάλεκτος έχει λίγα δεδομένα; 
Με μεταφορά γνώσης. Δηλαδή: 
  1. Ξεκινάμε από μια παρόμοια γλωσσική ποικιλία με πολλά δεδομένα 
  2. Χρησιμοποιούμε μοντέλα της για να έχουμε μια πρώτη προσέγγιση 
  3. Διορθώνουμε, επανεκπαιδεύουμε, και επαναλαμβάνουμε
Όσο μεγαλύτερη η απόσταση ανάμεσα στις δύο ποικιλίες, τόσο πιο δύσκολος και αργός ο κύκλος. Εκεί εστιάζει η έρευνά μας: στη μείωση της απόστασης και τη βελτίωση της μεταφοράς γνώσης. 
 
  1. Είναι εύκολο να δημιουργήσουμε μοντέλα που «ακούν» μια διάλεκτο και τη μετατρέπουν σε κείμενο;
Δυστυχώς, όχι. Και αυτό γιατί: Οι διάλεκτοι έχουν ήχους, μορφές και δομές διαφορετικές από την Κοινή Νεοελληνική. Τα περισσότερα μοντέλα είναι εκπαιδευμένα κυρίως στην Κοινή Nεοελληνική, άρα δυσκολεύονται όταν εφαρμόζονται σε ποικιλίες πολύ διαφορετικές από αυτήν, όπως τα Ποντιακά. Παράδειγμα: Τα Κρητικά έχουν περισσότερα κοινά με την Κοινή Νεοελληνική, οπότε δίνουν καλύτερα αποτελέσματα από τα Ποντιακά.

Όχι μία, αλλά πολλές ελληνικές γλώσσες: Η τεχνητή νοημοσύνη στην υπηρεσία της ποικιλομορφίας

Η τεχνολογία αξιοποιείται για να διαφυλάξει και όχι να απλοποιήσει τον γλωσσικό πλούτο. Μέσα από την τεκμηρίωση, την ψηφιοποίηση και την ανάπτυξη ειδικών μοντέλων ΤΝ, ποικιλίες όπως τα Κυπριακά, τα Κρητικά, τα Ποντιακά, τα Καππαδοκικά και τα Κατωιταλιώτικα, αποκτούν νέα ζωή σε έναν ψηφιακό κόσμο που συνήθως τις αγνοεί.
 
Ο μεγάλος στόχος δεν είναι απλώς να διασωθεί η γλώσσα αλλά να παραμείνει λειτουργική, ορατή και ισότιμη στην εποχή της τεχνητής νοημοσύνης. Από τον Εθνικό Θησαυρό της Ελληνικής Γλώσσας (ΕΘΕΓ) και την εθνική υποδομή CLARIN:EL, έως τον αναδυόμενο Ελληνικό Χώρο Γλωσσικών Δεδομένων και το Εργοστάσιο ΤΝ “Φάρος”, το Αθηνά επενδύει στρατηγικά στην ανάπτυξη εθνικών υποδομών και εφαρμογών. Στην καρδιά αυτής της προσπάθειας, βρίσκεται η πεποίθηση πως η γλώσσα, το κύριο μέσο επικοινωνίας, είναι ταυτόχρονα  ταυτότητα, μνήμη και πολιτισμός.
 
Σήμερα όπου τα μεγάλα γλωσσικά μοντέλα, όπως το ChatGPT, βασίζονται κυρίως στην αγγλική γλώσσα και στις δομές της, η ανάπτυξη ελληνικών LLMs, όπως το “Μέλτεμι” και το “Κρικρί”, είναι ζήτημα τεχνολογικής αυτονομίας, πολιτισμικής κυριαρχίας και γλωσσικής επιβίωσης.
 
Περισσότερα για την ΤΝ και για τις διαλέκτους της Νέας Ελληνικής και τις γλωσσικές ποικιλίες που ομιλούνται στην Ελλάδα στη σελίδα εδώ: https://www.ilsp.gr/advancingaimoderngreekdialects/       

Ημερολόγιο εκδηλώσεων

S M T W T F S
1
 
2
 
3
 
4
 
5
 
6
 
7
 
8
 
9
 
10
 
11
 
12
 
13
 
14
 
15
 
16
 
17
 
18
 
19
 
20
 
21
 
22
 
23
 
24
 
25
 
26
 
27
 
28