Μια ομάδα Νιγηριανών γλωσσολόγων εκπαιδεύει εργαλεία τεχνητής νοημοσύνης σε διαλέκτους της γλώσσας γιορούμπα

Ο Aremu Adeola παρουσιάζει μια εργασία στο εργαστήριο AfricaNLP, που πραγματοποιήθηκε στο πλαίσιο του Διεθνούς Συνεδρίου για την Αναπαράσταση της Μάθησης (ICLR) στη Βιέννη, 2024. Η εικόνα χρησιμοποιείται με άδεια.

Καθώς όλο και περισσότερες βασικές πτυχές της καθημερινής ζωής μετακινούνται στο διαδίκτυο, η ένταξη γλωσσών μπορεί να αποτελέσει βασικό στοιχείο για τη διασφάλιση ίσης πρόσβασης για όλα τα άτομα στους ψηφιακούς χώρους. Ωστόσο, πολλές αφρικανικές γλώσσες δεν διαθέτουν τους πόρους για να αναπτύξουν γλωσσικές τεχνολογίες και να μετακινηθούν πλήρως στο διαδίκτυο. Αυτό συνήθως δεν επηρεάζει τις πιο ομιλούμενες διαλέκτους αυτών των γλωσσών, οι οποίες συχνά χρησιμοποιούνται ως η τυπική διάλεκτος, αλλά συχνά επηρεάζει τις λιγότερο κοινές γλωσσικές διαλέκτους.

Οι περισσότερες προσπάθειες δημιουργίας πόρων για αυτές τις γλώσσες με λίγους πόρους επικεντρώνονται στις τυπικές διαλέκτους, ενώ πολλές περιφερειακές διάλεκτοι, που ομιλούνται από εκατομμύρια ανθρώπους, παραμελούνται. 

Η γλώσσα γιορούμπα ομιλείται από 47 εκατομμύρια ομιλητές στον κόσμο. Ομιλείται κυρίως στη Νιγηρία, το Μπενίν και το Τόγκο, με μικρότερες μεταναστευμένες κοινότητες στην Ακτή Ελεφαντοστού, τη Σιέρα Λεόνε και την Γκάμπια. Παρόλο που η τυπική διάλεκτος αυτής της γλώσσας έχει λάβει σημαντική προσοχή από τους ερευνητές της Επεξεργασίας Φυσικής Γλώσσας (NLP), δεν έχουν αναπτυχθεί πόροι για τις μη τυπικές διαλέκτους της. Για την αντιμετώπιση αυτού του προβλήματος, μια ομάδα γλωσσολόγων ανέπτυξε το YORULECT, ένα υψηλής ποιότητας, σύγχρονο παράλληλο σώμα δεδομένων ομιλίας και κειμένου γιορούμπα για τέσσερις περιφερειακές διαλέκτους γιορούμπα. 

Μιλώντας στο Global Voices μέσω WhatsApp, η Aremu Anuoluwapo, γλωσσολόγος με εξειδίκευση σε υπολογιστικές μεθόδους, η οποία αυτή τη στιγμή κάνει μεταπτυχιακό στην υπολογιστική μοντελοποίηση γλωσσών και νόησης στο Πανεπιστήμιο του Τρέντο στην Ιταλία, μοιράστηκε το κίνητρο πίσω από αυτό το εγχείρημα. 

Global Voices (GV): Μπορείτε να μας πείτε λίγα λόγια για το υπόβαθρό σας και τι σας οδήγησε στον τομέα της υπολογιστικής γλωσσολογίας; 

Aremu Anuoluwapo (AA): Είμαι γλωσσολόγος στην εκπαίδευση. Σπούδασα Γλωσσολογία και Αφρικανικές Σπουδές στο Πανεπιστήμιο του Λάγος. Μυήθηκα στην υπολογιστική γλωσσολογία από έναν μέντορα, τον Kola Tunbosun, κατά τη διάρκεια των προπτυχιακών μου σπουδών στο πανεπιστήμιο. Στη συνέχεια, εργάστηκα σε ορισμένα εγχειρήματα, που σχετίζονται με τη συλλογή δεδομένων, προγράμματα εκκαθάρισης και σχολιοποίησης δεδομένων. Άρχισα να αποκτώ εμπειρία και να συνεργάζομαι με επαγγελματίες από πολυεθνικές εταιρείες όπως η Google, η Microsoft κ.λπ., κατά το τρίτο έτος μου στο πανεπιστήμιο. Το ενδιαφέρον μου για τη χρήση υπολογιστικών εργαλείων για την ανάλυση, την πρόβλεψη ή τον μετασχηματισμό γλωσσών αναπτύχθηκε από εκεί. 

GV: Μπορείτε να μας πείτε ποιο ήταν το κίνητρο για τη δημιουργία του YORULECT; 

ΑΑ: Η Oreva Ahia, συνάδελφός μου, η οποία είναι διδακτορική φοιτήτρια στην Επιστήμη Υπολογιστών στο Πανεπιστήμιο της Ουάσινγκτον, στις Ηνωμένες Πολιτείες, μου μίλησε για μια ιδέα που έχει για τη διαλεκτολογία. Αυτό μου θύμισε ένα μάθημα που παρακολούθησα, για τη γιορούμπα και τη διαλεκτολογία της, κατά τη διάρκεια του τρίτου έτους των προπτυχιακών μου σπουδών. Μάθαμε για ορισμένους ακαδημαϊκούς που έχουν κάνει κάποιες εργασίες πάνω σε διαλέκτους όπως έγκμπα, έκο, ογιό κλπ., και πώς η τυπική γιορούμπα προέρχεται κυρίως από τη διάλεκτο ογιό. Βρήκα το μάθημα ενδιαφέρον και πάντα ήθελα να ασχοληθώ με τη διαλεκτολογία.

Μελετώντας αυτό το μάθημα, συνειδητοποίησα ότι η λέξη «σκαμνί» διαφέρει μεταξύ της διαλέκτου που ομιλείται στην πόλη μου, στη Γιορούμπαλαντ, και της τυπικής γιορούμπα. Υπάρχουν και άλλες κοινότητες με επίσης ξεχωριστές διαλεκτολογικές ονομασίες για διάφορα αντικείμενα. Μου τράβηξε την περιέργεια.

Αργότερα, ενώ συμμετείχα σε ένα συνέδριο στην Ισπανία, ταξίδεψα στο Παρίσι για να συζητήσω την ιδέα με την Oreva. Σχεδιάσαμε το πλαίσιο για την εκτέλεση του εγχειρήματος. Όταν επέστρεψα στη Νιγηρία, ταξίδεψα σε συγκεκριμένες κοινότητες, όπου ομιλούνται οι διάλεκτοι, στις οποίες αποφασίσαμε να εργαστούμε. Η απόφαση για τις διαλέκτους, στις οποίες θα εργαστούμε, ήταν λίγο τεχνική, επειδή υπάρχει μια διαίρεση στη διαλεκτολογία της γιορούμπα. Υπάρχουν οι νοτιοδυτικές γιορούμπα, οι νοτιοανατολικές γιορούμπα, οι βορειοανατολικές διάλεκτοι γιορούμπα κλπ. Θέλαμε να θίξουμε όλες αυτές τις διαλεκτολογικές διαιρέσεις. 

Ένας από τους λόγους που αποφασίσαμε να κάνουμε αυτό το έργο είναι η αυξανόμενη εφαρμογή της τεχνητής νοημοσύνης και της μηχανικής μάθησης στα εργαλεία που χρησιμοποιούμε σήμερα. Θέλαμε να διασφαλίσουμε ότι οι διάλεκτοι γλωσσών με λίγους πόρους εκπροσωπούνται επίσης στην τεχνολογία. 

GV: Θα μπορούσατε να περιγράψετε τις συγκεκριμένες διαλέκτους με τις οποίες εργάζεστε και να εξηγήσετε γιατί επιλέχθηκαν αυτές ως επίκεντρο; Ποια είναι μερικά από τα μοναδικά γλωσσικά χαρακτηριστικά τους που θέτουν προκλήσεις για τα συστήματα NLP; 

AA: Οι διάλεκτοι στις οποίες εργαστήκαμε είναι οι ιγέμπου, ιφέ, ιλάτζε και η τυπική γιορούμπα. Επιλέξαμε αυτές τις διαλέκτους, επειδή ανήκουν σε διαφορετικές διαλεκτολογικές υποδιαιρέσεις της γλώσσας γιορούμπα. Θέλαμε επίσης να έχουμε μια καλή αναπαράσταση αυτών των γλωσσών στην τεχνολογία. Ένας άλλος λόγος είναι επειδή θέλαμε να κάνουμε μια συγκριτική ανάλυση του πώς τα υπάρχοντα συστήματα NLP κατανοούν τις διαλέκτους των γλωσσών πριν τις βελτιώσουμε. Το δοκιμάσαμε στην αυτόματη αναγνώριση ομιλίας (ASR) και στη μηχανική μετάφραση (MT) και η απόδοση ήταν κακή. Κάναμε επίσης κάποιες βελτιώσεις για να βελτιώσουμε την απόδοση πριν βελτιωθεί λίγο. 

Μερικές από τις γλωσσικές ιδιαιτερότητες που ανακαλύψαμε είναι ότι υπάρχουν ορισμένα γράμματα στις διαλέκτους, που δεν υπάρχουν στα τυπικά αλφάβητα γιορούμπα. Η διάλεκτος ιλάτζε είναι ένα καλό παράδειγμα διαλέκτου με κάποια διαφορετικά γράμματα και δομή προτάσεων. Η γλωσσική δομή είναι παρόμοια σε όλες τις διαλέκτους, αν και υπάρχουν κάποιες διαφορετικές συντακτικές διατάξεις. Τα ευρήματά μας δείχνουν ότι η διάλεκτος ιφέ έχει τον υψηλότερο βαθμό ομοιότητας με την τυπική γιορούμπα, ενώ η ιλάτζε έχει τον χαμηλότερο βαθμό ομοιότητας με την τυπική γιορούμπα. Σχεδιάζουμε να κάνουμε περισσότερη δουλειά για να επεκτείνουμε την έρευνα. 

GV: Πολλές αφρικανικές γλώσσες ομιλούνται ως «πρώτες». Πώς προσεγγίζετε την πρόκληση της συλλογής και επιμέλειας γλωσσικών δεδομένων για τις διαλέκτους γιορούμπα, που έχουν περιορισμένους γραπτούς πόρους ή περιορισμένη τυποποιημένη ορθογραφία;  

ΑΑ: Αυτή ήταν μια δύσκολη πρόκληση για εμάς. Ορισμένες διάλεκτοι δεν έχουν ακόμη μεγάλο πληθυσμό ανθρώπων, που μπορούν να γράψουν αυτές τις διαλέκτους. Καταφέραμε να ξεπεράσουμε τις προκλήσεις, επειδή ορισμένες από αυτές τις διαλέκτους έχουν μελετητές, που έχουν εργαστεί πάνω σε αυτές.

Πάντα προσπαθώ να λέω στους γλωσσολόγους ,που θέλουν να κάνουν αυτό το είδος εγχειρήματος NLP, να συλλέγουν πρώτα τα δεδομένα ομιλίας και να προσλαμβάνουν τους φυσικούς ομιλητές για να τα μεταγράψουν. Με αυτόν τον τρόπο θα σας βοηθήσει να αποκτήσετε την ακατέργαστη μορφή της γλώσσας. Θα σας βοηθήσει να δείτε τις πολλές φωνολογικές διεργασίες που υπάρχουν στη γλώσσα. 

GV: Ποιες μεθόδους χρησιμοποιείτε για να διασφαλίσετε την ποιότητα και την αυθεντικότητα των δεδομένων; 

AA: Συνεργαζόμαστε με τους φυσικούς ομιλητές για τη συλλογή των δεδομένων. Για λόγους ποιότητας και αυθεντικότητας των δεδομένων, προσλάβαμε ανθρώπινους αξιολογητές, οι οποίοι είναι επίσης φυσικοί ομιλητές, για να αξιολογήσουν την απόδοση των συστημάτων ASR παρέχοντας σχόλια σχετικά με την ακρίβεια και την ποιότητα της μεταγραφής τους.

GV: Ποιες άλλες προκλήσεις αντιμετωπίσατε κατά την ανάπτυξη του YORULECT;

AA: Η εκπαίδευση των μοντέλων ήταν δύσκολη. Έπρεπε να τα βελτιώσουμε. Η γλωσσική ιδιαιτερότητα αποτελεί σημαντική πρόκληση, επειδή τα μοντέλα δεν έχουν εκτεθεί προηγουμένως σε τέτοιου είδους δεδομένα. Ορισμένες από τις διαλέκτους τα πήγαν καλά, ενώ άλλες όχι. Αυτό θα μπορούσε να οφείλεται στη συντακτική διάταξη και την αναπαράσταση γραμμάτων.

GV: Ποιοι είναι οι μακροπρόθεσμοι στόχοι σας για αυτό το εγχείρημα;  

AA: Ο μακροπρόθεσμος στόχος είναι να χαραχθεί μια νέα κατεύθυνση στην έρευνα γλωσσών με λίγους πόρους. Όταν η κοινότητα NLP συζητά για γλώσσες με λίγους πόρους, συνήθως αφορά την τυπική διάλεκτο των γλωσσών. Δεν λαμβάνουν υπόψη άλλες διαλέκτους. Εφόσον αυτές οι διάλεκτοι εξακολουθούν να ομιλούνται, γιατί να μην δημιουργηθούν και εργαλεία για τις κοινότητες που τις ομιλούν; Μόλις ξεκινήσει η συζήτηση, οι άνθρωποι αρχίζουν να κάνουν διαλεκτολογική έρευνα σε συγκεκριμένες διαλέκτους της γλώσσας.

Ξεκινήστε τη συζήτηση

Συντάκτες, παρακαλώ σύνδεση »

Οδηγίες

  • Όλα τα σχόλια ελέγχονται. Μην καταχωρείτε το σχόλιο σας πάνω από μία φορά γιατί θα θεωρηθεί spam.
  • Παρακαλούμε, δείξτε σεβασμό στους άλλους. Σχόλια τα οποία περιέχουν ρητορική μίσους, προσβολές ή προσωπικές επιθέσεις δεν θα καταχωρούνται.