- Global Voices στα Ελληνικά - https://el.globalvoices.org -

Ινδία: Η γλώσσα όντια προστέθηκε στις μεταφραστικές υπηρεσίες Google και Microsoft

Κατηγορίες: Νότια Ασία, Ινδία, Γλώσσα, Μέσα των πολιτών, Τεχνολογία, Rising Voices
Collage of Odia Book Covers. Image via Flickr by Erin Mclaughlin. From the Flickr set Odia Book Covers. CC BY 2.0. [1]

Κολάζ από εξώφυλλα βιβλίων στη γλώσσα όντια. Φωτογραφία: Flickr, Erin Mclaughlin [2]. Από τη συλλογή Odia Book Covers. CC-BY 2.0 [3].

Ενώ οι πρωτοβουλίες ανοιχτού κώδικα βρίσκονται ακόμη σε εξέλιξη, η Google και η Microsoft έχουν προσθέσει και οι δύο τη γλώσσα όντια [4] της Ινδίας στις αντίστοιχες μηχανές αυτόματης μετάφρασης φέτος: στο Google Translate [5] τον Φεβρουάριο και στη Microsoft [6] πιο πρόσφατα στις 13 Αυγούστου.

Η όντια είναι η επίσημη γλώσσα της ινδικής πολιτείας της Οντίσα [7] και η δεύτερη επίσημη γλώσσα στην πολιτεία Τζαρχάντ [8]. Ομιλείται από περίπου 35 εκατομμύρια γηγενείς ομιλητές και ως δεύτερη γλώσσα από περίπου 4 εκατομμύρια άτομα. Κατατάσσεται επίσης από την ινδική κυβέρνηση ως μία από τις κλασικές γλώσσες [9] της χώρας με βάση ένα σύνολο απαιτήσεων, που περιλαμβάνει μια λογοτεχνική παράδοση άνω των 1.500 ετών.

Ωστόσο, η ψηφιακή παρουσία της όντια είναι περιορισμένη. [10] Για παράδειγμα, η Βικιπαίδεια Όντια, η οποία είναι ένα από τα μεγαλύτερα αποθετήρια περιεχομένου κειμένου, έχει προς το παρόν μόνο 15.858 άρθρα [11] μετά την αναβίωσή της το 2011 μετά από μια ενδιάμεση παύση εννέα ετών [12]. Αντίθετα, η μαλαγιάλαμ, η οποία ομιλείται από σχεδόν τον ίδιο αριθμό ομιλητών με την όντια, έχει περίπου 70 χιλιάδες άρθρα [13] στη Βικιπαίδεια. Το περιεχόμενο στην όντια ήταν διαθέσιμο στο Διαδίκτυο με τη μορφή εικόνας και PDF για πολύ μεγάλο χρονικό διάστημα. Περιλαμβάνει το κρατικό περιοδικό Utisha Prasanga της Οντίσα, που εξακολουθεί να δημοσιεύει σε συνδυασμό εικόνας και PDF. Η καθυστερημένη υιοθέτηση Unicode [14] έχει κάνει το περιεχόμενο λιγότερο αναζητήσιμο.

Η αυτόματη μετάφραση συμβάλλει σημαντικά στην αύξηση της ψηφιακής παρουσίας γλωσσών καθιστώντας το περιεχόμενο πιο εύχρηστο και πιο προσβάσιμο σε μη ομιλητές.

Οι υπηρεσίες cloud, που λειτουργούν από τη Microsoft, συμπεριλαμβανομένων των Microsoft Translatorapp [15], Office, Translator for Bing [16] και μέσω του Azure Cognitive Services Translator [17], θα υποστηρίζουν πλέον όλες τις μεταφράσεις από την όντια. Τόσο ο Μεταφραστής Microsoft όσο και η Μετάφραση Google (διατίθενται τόσο στον ιστό [18] όσο και ως εφαρμογή [19]) επιτρέπουν τη μετάφραση κειμένου, που αντιγράφεται απευθείας στο πεδίο εισαγωγής.

Επιπλέον, αυτές οι πλατφόρμες υποστηρίζουν επίσης τη μετάφραση εγγράφων κειμένου, ιστότοπων και ζωντανών συνομιλιών. Η εφαρμογή Μετάφραση Google για κινητές συσκευές διαθέτει πρόσθετες λειτουργίες, όπως μετάφραση εκτός σύνδεσης, αναγνώριση χειρογράφου, σάρωση, μετάφραση και ανάγνωση κειμένου από εικόνες [20] και χρήση φωνητικής εντολής για ομιλία με έναν ομιλητή ξένης γλώσσας [21]. Μια λειτουργία, που ονομάζεται “πατήστε για μετάφραση [22]“, επιτρέπει στον χρήστη να μεταφράσει απευθείας ένα πληκτρολογημένο κείμενο μέσα σε οποιαδήποτε εφαρμογή. Κάποιος μπορεί επίσης να ακούσει πώς προφέρεται ένα κείμενο σε μια υποστηριζόμενη γλώσσα χρησιμοποιώντας τη σύνθεση ομιλίας της Google.

Η προσθήκη της όντια ήταν ευπρόσδεκτη από την πολιτειακή κυβέρνηση της Οντίσα. Το Γραφείο του Πρωθυπουργού της Οντίσα έγραψε στο Twitter:

Η μετάφραση σε όντια έχει πλέον προστεθεί από τη @Microsoft στο @mstranslator, καθιστώντας την ως τη 12η ινδική γλώσσα που προστίθεται. Αυτό θα διευκολύνει την πρόσβαση σε παγκόσμιες πληροφορίες στην όντια και θα προωθήσει τις διαγλωσσικές αλληλεπιδράσεις.

Το Τμήμα Ηλεκτρονικής και Πληροφορικής της Κυβέρνησης της Οντίσα αντέδρασε επίσης:

Σε χρήση από εκατομμύρια σε όλο τον κόσμο, το @Google Translate έχει πλέον προσθέσει την όντια στη λίστα των υποστηριζόμενων γλωσσών. Ένα σημαντικό βήμα για την προώθηση του ψηφιακού γραμματισμού στη μητρική μας γλώσσα και για να βοηθήσουμε εκατομμύρια μη ομιλητές να την αγκαλιάσουν.

Μηχανική μετάφραση
Η αυτόματη μετάφραση χρησιμοποιείται για τη μετάφραση του κειμένου ή της ομιλίας της γλώσσας πηγής σε γλώσσα προορισμού. Η μετάφραση, που χρησιμοποιεί η Google, βασίζεται στη νευρική μηχανή μετάφρασης [34], ένα υπολογιστικό σύστημα που χρησιμοποιεί μια τεχνική, που ονομάζεται τεχνητό νευρωνικό δίκτυο [35], όπου χρησιμοποιούνται για την εκπαίδευση μεγάλα σύνολα δεδομένων, που αποτελούνται από μετάφραση φράσεων (από πηγή σε γλώσσα προορισμού). [36]

Με τη συμπερίληψη της όντια, η Μετάφραση Google και ο Μεταφραστής Microsoft υποστηρίζουν πλέον 11 ινδικές γλώσσες το καθένα. Συνολικά, η Google υποστηρίζει 109 γλώσσες παγκοσμίως, ενώ η Microsoft υποστηρίζει 73.

Εν τω μεταξύ, οι πρωτοβουλίες ανοιχτού κώδικα δεν έχουν ακόμη δημιουργήσει επιτυχημένα εγχειρήματα αυτόματης μετάφρασης στην όντια.

Αναπτύσσεται τουλάχιστον ένα κοινοτικό εγχείρημα ανοιχτού κώδικα. Το MTEnglish2Odia [37] εκπαιδεύει μια μηχανή μηχανικής μετάφρασης συλλέγοντας ζεύγη μεταφράσεων από υπάρχουσες πηγές, όπως η Βικιπαίδεια στην όντια [38] και πληθοπορισμός [39] από συνεισφορές χρηστών στο Twitter [40].

Επιπλέον, υπάρχουν κάποιες έρευνες [41] και πόροι, [42] που μπορούν να χρησιμοποιηθούν για την κατασκευή μηχανών μηχανικής μετάφρασης από άλλους οργανισμούς.

Οι πολιτικές της αυτόματης μετάφρασης

Η τεχνολογία, που χρησιμοποιείται από το Google Translate ή το Microsoft Translator, είναι πολύπλοκη από κοινωνικής, νομικής, ηθικής πτυχής και από άποψης δικαιωμάτων.

Μια πλατφόρμα αυτόματης μετάφρασης μπορεί να είναι πολύ χρήσιμη για πολλούς ανθρώπους, συμπεριλαμβανομένων των δημοσιογράφων για γρήγορη πρόσβαση σε ειδήσεις από πολλές γλώσσες ή για μαθητές που επιθυμούν να μάθουν από πολύγλωσσους πόρους.

Παρομοίως, η υποστήριξη σύνθεσης φωνής βοηθά τα άτομα με αναπηρία, ιδίως τυφλά άτομα, να έχουν πιο εύκολη πρόσβαση και κοινή χρήση πληροφοριών.

Η εκπαίδευση, τα ΜΜΕ και η βιομηχανία ψυχαγωγίας επωφελούνται επίσης από τη δυνατότητα της Μετάφρασης Google να μεταφράζει τεράστια ποσότητα περιεχομένου σε σύντομο χρονικό διάστημα.

Από την άλλη πλευρά, η αυτόματη μετάφραση μπορεί να συμβάλει στη διάδοση παραπληροφόρησης, ενώ η φωνητική σύνθεση διευκολύνει τους απατεώνες, που κυνηγούν κόσμο επικοινωνώντας μαζί τους στη γλώσσα τους.

Υπάρχουν πάνω από 6.000 τεκμηριωμένες γλώσσες [43] σε όλο τον κόσμο και μόνο μια μειονότητα από αυτές έχουν δημιουργήσει συστήματα γραφής. Αυτές είναι οι γλώσσες, που μπορούν να συμπεριληφθούν σε έργα μηχανικής μετάφρασης, όπως η Μετάφραση Google και ο Μεταφραστής Microsoft.

Η διαθεσιμότητα διαδικτυακού περιεχομένου, καθώς και ο αριθμός των χρηστών του Διαδικτύου που μιλούν μια δεδομένη γλώσσα, είναι σημαντικοί παράγοντες, που εξετάζουν οι εταιρείες κερδοσκοπικού χαρακτήρα, όταν αποφασίζουν ποιες γλώσσες θα συμπεριληφθούν στα συστήματά τους. Όσο περισσότερες γλώσσες υποστηρίζει μια εταιρεία, τόσο πιο στοχευμένο περιεχόμενο μπορεί να προσφέρει στους χρήστες και τόσο περισσότερα έσοδα δημιουργεί από διαφημίσεις [44].

Επιπλέον, υπάρχουν ηθικά ζητήματα απόδοσης και αμοιβής σε έργα όπως η Μετάφραση Google, η οποία έχει μια δομή κοινότητας συντελεστών [45] για τον έλεγχο των υπαρχουσών μεταφράσεων (που βοηθά τους μηχανικούς να βελτιώνουν τακτικά το εργαλείο).

Ενώ η Google είναι μια κερδοσκοπική εταιρεία με πολλά προϊόντα επί πληρωμή – συμπεριλαμβανομένης μιας υπηρεσίας μετάφρασης cloud [46] – ούτε οι μεμονωμένοι εθελοντές ούτε οι πολυάριθμες δημόσιες πηγές, από τις οποίες μαθαίνει η μηχανή, αναφέρονται ή αμείβονται.

Η χρήση ιδιωτικών επικοινωνιών για τη βελτίωση της μηχανικής μάθησης και της τεχνητής νοημοσύνης είναι επίσης αμφιλεγόμενη από άποψη ιδιωτικότητας, αν και η Google εργάζεται για την ανωνυμοποίηση τέτοιων δεδομένων. [47]

Σε μια χώρα όπως η Ινδία, όπου η δημιουργία πολυγλωσσικού περιεχομένου αντιμετωπίζει εμπόδια λόγω κόστους, προϊόντα όπως το Google Translate και το Microsoft Translator μπορούν να φέρουν επανάσταση στην οικονομία περιεχομένου της Ινδίας. Μπορούν να κάνουν τη διαφορά για έργα όπως η Wikipedia, που επί του παρόντος υπάρχει σε 23 ινδικές γλώσσες [48], ή το StoryWeaver [49], μια πολύγλωσση διαδικτυακή πλατφόρμα παιδικής λογοτεχνίας, που βασίζεται σε μεγάλο βαθμό στην εθελοντική εργασία.

Με πολλές ινδικές γλώσσες να εξαφανίζονται [50] γρήγορα και με την πρόσθετη πρόκληση του αναλφαβητισμού και της ψηφιακής προσβασιμότητας, η πορεία επικοινωνίας χρειάζεται περισσότερη καινοτομία στη φωνητική και οπτική τεχνολογία. Η αυτόματη μετάφραση μπορεί να είναι ένα βιώσιμο εργαλείο για να σταματήσει η εξαφάνιση της γλώσσας, αλλά στην Ινδία, έχει ακόμη πολύ δρόμο να διανύσει.

Αποποίηση ευθυνών: Ο συντάκτης ασχολείται με την Βικιπαίδεια Όντια [38] ως εθελοντής από το 2011 και με το MTEnglish2Odia [37] από τα πρώτα του στάδια.