Η ανάπτυξη και χρήση Μεγάλων Γλωσσικών Μοντέλών (Large Language Models, LLMs) σηματοδότησε μια σημαντική τομή της Τεχνητής Νοημοσύνης, ανοίγοντας νέες ευκαιρίες για έρευνα και βιομηχανικές εφαρμογές. Ωστόσο, τα LLM επιδεικνύουν εντυπωσιακές ικανότητες μόνο σε «μεγάλες» γλώσσες, όπως τα αγγλικά, ενώ η απόδοσή τους ποικίλλει σημαντικά μεταξύ διαφορετικών γλωσσών. Ειδικά στην περίπτωση γλωσσών με χαμηλούς πόρους, όπως η ελληνική, τα υπάρχοντα ανοιχτά LLM παρουσιάζουν χαμηλή απόδοση λόγω έλλειψης δεδομένων εκπαίδευσης.
Πρόσφατα, έχουν γίνει προσπάθειες για την επέκταση των δυνατοτήτων των ανοιχτών μεγάλων γλωσσικών μοντέλων σε άλλες γλώσσες (π.χ., LeoLM για τα Γερμανικά, Aguila για τα Ισπανικά κ.ά.), στον αντίποδα των εμπορικών κλειστών λύσεων. Οι προσπάθειες αυτές, όχι μόνο ενδυναμώνουν τεχνολογικά τους ομιλητές υποεκπροσωπούμενων γλωσσών, αλλά παρέχουν μεγαλύτερο έλεγχο, περισσότερη ασφάλεια και δυνατότητες για προσαρμογή και βελτιστοποίηση των μοντέλων σε συγκεκριμένες ανάγκες και εφαρμογές.
Για να αντιμετωπίσουμε αυτές τις προκλήσεις, παρουσιάζουμε το Meltemi, το πρώτο Μεγάλο Γλωσσικό Μοντέλο για την Ελληνική γλώσσα, αποτέλεσμα έρευνας και ανάπτυξης του Ινστιτούτου Επεξεργασίας του Λόγου του Ερευνητικού Κέντρου Αθηνά (ΙΕΛ/ΕΚ Αθηνά).
Το Meltemi είναι το πρώτο ανοιχτό Μεγάλο Γλωσσικό Μοντέλο για τα ελληνικά, διαθέσιμο για ερευνητικούς αλλά και εμπορικούς σκοπούς. Βασισμένο στο Mistral-7Β, το Meltemi βελτιώνει σε σημαντικό βαθμό τις επιδόσεις του Mistral στην κατανόηση και παραγωγή γλώσσας στα Ελληνικά, καθώς έχει αναπτυχθεί μέσω συνεχιζόμενης προ-εκπαίδευσης (continual pre-training) σε ένα μεγάλο σώμα ελληνικών κειμένων υψηλής ποιότητας (28.5 δισ. tokens).
Διαθέτουμε το θεμελιώδες (foundation) μοντέλο Meltemi-7B, ένα LLM 7 δισεκατομμυρίων παραμέτρων, μαζί με μια παραλλαγή του, το Meltemi-Instruct-7B, εκπαιδευμένο περαιτέρω σε ερωτήσεις και οδηγίες, που μπορεί να χρησιμοποιηθεί σε εφαρμογές που περιλαμβάνουν διεπαφές συνομιλίας (chatbots). Και τα δύο παρέχονται με άδεια χρήσης Apache 2.0.
Για την αξιολόγηση του μοντέλου, αναπτύξαμε ένα ανοιχτό σύνολο δεδομένων στην ελληνική γλώσσα. Κατά την αξιολόγηση το Meltemi-7B παρουσιάζει βελτίωση κατά 14,9% κατά μέσο όρο σε σχέση με το Mistral-7B.