
Εικόνα που φτιάχτηκε από το Global Voices με τo OpenAI
Και οι δύο δημοφιλείς, νέες τεχνολογικές εκδόσεις του OpenAI, το ChatGPT και το DALL-E2, έχουν τραβήξει την προσοχή των ΜΜΕ και των χρηστών των μέσων κοινωνικής δικτύωσης. Στη σφαίρα των ψηφιακών δικαιωμάτων, της τεχνολογίας και της δημοσιογραφίας, συνεχίζονται οι συζητήσεις σχετικά με το τι μπορεί να επιτευχθεί με αυτές τις τεχνολογίες, ποιες θέσεις εργασίας θα μπορούσαν να αντικατασταθούν, πώς να αντιμετωπιστούν τα ζητήματα πνευματικών δικαιωμάτων και πώς αυτές οι τεχνολογίες θα μπορούσαν να ενισχύσουν τις υπάρχουσες προκαταλήψεις.
Το Global Voices πειραματίστηκε με το DALL-E2, ένα σύστημα τεχνητής νοημοσύνης που δημιουργεί εικόνες, για να δει πώς φτιάχνει εικόνες σε διαφορετικές γλώσσες. Γράψαμε την ίδια φράση σε εννιά γλώσσες: «Ελαιογραφία που απεικονίζει τη σκιά μιας πενθούσας γυναίκας στο παράθυρο».
Παρακάτω ακολουθούν τα αποτελέσματα που πήραμε:
Αγγλικά

Εικόνα που φτιάχτηκε από το Global Voices με τo OpenAI
Ισπανικά: Pintura al óleo de la sombra de una mujer en duelo ante la ventana

Εικόνα που φτιάχτηκε από το Global Voices με τo OpenAI
Τσέχικα: Olejomalba stínu truchlící ženy u okna

Εικόνα που φτιάχτηκε από το Global Voices με τo OpenAI
Ρωσικά: Картина маслом силуэт скорбящей женщины у окна

Εικόνα που φτιάχτηκε από το Global Voices με τo OpenAI
Ινδονησιακά: Lukisan cat minyak bayangan seorang janda perempuan yang sedang berduka di samping jendela

Εικόνα που φτιάχτηκε από το Global Voices με τo OpenAI
Μανδαρινικά κινέζικα: 窗边悲痛女人的影子油画

Εικόνα που φτιάχτηκε από το Global Voices με τo OpenAI
Καζακικά: Терезедегі қайғылы әйелдің көлеңкесінің майлы бояу суретi

Εικόνα που φτιάχτηκε από το Global Voices με τo OpenAI
Ουζμπεκικά: Deraza oldida qayg'u chekayotgan ayol soyasining moyli rasmi

Εικόνα που φτιάχτηκε από το Global Voices με τo OpenAI
Μαλαγιαλάμ: ജനാലയ്ക്കരികിൽ ദുഃഖിക്കുന്ന ഒരു സ്ത്രീയുടെ നിഴലിന്റെ ഓയിൽ പെയിന്റിംഗ്

Εικόνα που φτιάχτηκε από το Global Voices με τo OpenAI
Προφανώς, ορισμένες από αυτές τις φωτογραφίες είναι αρκετά διαφορετικές από την αρχική εντολή. Αυτό μπορεί να οφείλεται σε ανεπαρκή δεδομένα στις πρωτότυπες γλώσσες. Όπως εξηγούν οι εφευρέτες του DALL-E σε συνέντευξή τους στην Tech Crunch, το μοντέλο στο οποίο βασίζεται ονομάζεται «CLIP» (Προεκπαίδευση αντιθετικής γλώσσας-εικόνας). Το CLIP εκπαιδεύτηκε με εκατομμύρια ζεύγη εικόνων με λεζάντες κειμένου, που προέρχονται από το διαδίκτυο. Όπως αναφέρει το OpenAI στην ιστοσελίδα της:
GPT-3 showed that language can be used to instruct a large neural network to perform a variety of text generation tasks. Image GPT showed that the same type of neural network can also be used to generate images with high fidelity. We extend these findings to show that manipulating visual concepts through language is now within reach.
Το GPT-3 έδειξε ότι η γλώσσα μπορεί να χρησιμοποιηθεί για να καθοδηγήσει ένα μεγάλο νευρωνικό δίκτυο να εκτελέσει μια ποικιλία εργασιών παραγωγής κειμένου. Το Image GPT έδειξε ότι ο ίδιος τύπος νευρωνικού δικτύου μπορεί, επίσης, να χρησιμοποιηθεί για τη δημιουργία εικόνων με υψηλή πιστότητα. Με βάση αυτά τα ευρήματα, αποδεικνύουμε ότι η διαμόρφωση οπτικών εννοιών μέσω της γλώσσας είναι πλέον εφικτή.
«Ζούμε σε έναν εικονικό κόσμο», λέει ο Ιλία Σουτσκέβερ, επικεφαλής επιστήμονας του OpenAI, σε συνέντευξή του στο MIT Technological Review:
In the long run, you’re going to have models which understand both text and images. AI will be able to understand language better because it can see what words and sentences mean.
Μακροπρόθεσμα, θα έχετε μοντέλα που κατανοούν τόσο κείμενο, όσο και εικόνες. Η τεχνητή νοημοσύνη θα είναι σε θέση να κατανοεί καλύτερα τη γλώσσα, επειδή θα μπορεί να βλέπει τι σημαίνουν οι λέξεις και οι προτάσεις.
Το γεγονός ότι διάφορες γλώσσες παρήγαγαν τόσο διαφορετικά αποτελέσματα, δείχνει ότι το επίκεντρο αυτού του «web-scraping» (στα ελληνικά: ιστοσυγκομιδή) με το οποίο λειτουργεί το μοντέλο, χρησιμοποίησε πιο διαδεδομένες γλώσσες, όπως τα αγγλικά ή τα ισπανικά, και όχι λιγότερο προφανείς γλώσσες.
Έτσι, πολλές εικόνες από το διαδίκτυο με περιγραφή στα ουζμπεκικά ή τα μαλαγιαλάμ δεν υπήρχαν στα αρχικά δεδομένα, με τα οποία εκπαιδεύτηκε η τεχνητή νοημοσύνη. Εάν το μοντέλο σκοπεύει να λειτουργήσει με περισσότερες γλώσσες, θα πρέπει να επικεντρωθεί περισσότερο στην εκπαίδευση με εικόνες με περιγραφές εκτός της αγγλικής γλώσσας. Διαφορετικά, οι χρήστες από το Καζακστάν θα συνεχίσουν να λαμβάνουν εικόνες από μια κουζίνα αντί για μια γυναίκα και όσοι μιλούν μαλαγιαλάμ θα βλέπουν εικόνες με θέμα τη φύση. Κατά κάποιον τρόπο, η εικόνα της Ρωσίας είναι σαφέστατα σεξουαλικοποιημένη. Η εικόνα από την Ινδονησία απεικονίζει πολλές κοπέλες να κάθονται, ενώ η τσεχική κερδίζει το βραβείο πρωτοτυπίας, με ένα βάζο με λάδι να κλέβει την παράσταση. Οι εικόνες που βασίστηκαν στα μανδαρινικά κινέζικα είναι απόλυτα τρομακτικές.
Φυσικά, δεν μπορούμε να ισχυριστούμε, με βάση αυτά, ότι το OpenAI είναι ρατσιστικό. Αυτό που βλέπουμε εδώ είναι ότι δεν έχει λάβει αρκετά δεδομένα σε άλλες γλώσσες πέρα των αγγλικών. Τώρα δεν γνωρίζουμε το αν θα παραμείνει έτσι, αλλά συνιστούμε ανεπιφύλακτα να μην το κάνει.