Η τεχνητή νοημοσύνη πέρασε το τεστ Τούρινγκ και είναι επίσημα πιο ανθρώπινη και από άνθρωπο
Το GPT-4.5 ξεπέρασε το 70% επιτυχίας σε πείραμα όπου έπρεπε να πείσει ότι είναι άνθρωπος.
Για περισσότερο από 75 χρόνια, το περίφημο «τεστ Τούρινγκ» θεωρούνταν ένα από τα μεγαλύτερα ορόσημα στην ιστορία της τεχνητής νοημοσύνης. Η ιδέα ήταν απλή αλλά βαθιά: αν ένας άνθρωπος δεν μπορεί να ξεχωρίσει αν συνομιλεί με άλλη ανθρώπινη ύπαρξη ή με μηχανή, τότε η μηχανή έχει πετύχει κάτι που μοιάζει με ανθρώπινη νοημοσύνη.
Τώρα, μια νέα μελέτη που δημοσιεύθηκε στο PNAS υποστηρίζει ότι αυτό το σημείο ίσως έχει ήδη φτάσει. Ερευνητές από το Πανεπιστήμιο Stony Brook και το University of California San Diego διαπίστωσαν ότι σύγχρονα μεγάλα γλωσσικά μοντέλα, όπως το GPT-4.5 και το LLaMa-3.1, κατάφεραν να περάσουν με επιτυχία μια κλασική εκδοχή του τεστ Τούρινγκ. Σε ορισμένες περιπτώσεις, μάλιστα, οι συμμετέχοντες πίστεψαν ότι η AI ήταν άνθρωπος συχνότερα από ό,τι πίστεψαν πραγματικούς ανθρώπους.
Τι είναι το τεστ Τούρινγκ
Πρόκειται για μια δοκιμασία-μέτρηση, που προτάθηκε το 1950 από τον Βρετανό μαθηματικό Άλαν Τούρινγκ. Στην αρχική του μορφή, ένας «ανακριτής» συνομιλεί μέσω γραπτών μηνυμάτων με δύο συνομιλητές: έναν άνθρωπο και μία μηχανή. Στόχος είναι να εντοπίσει ποιος είναι ποιος. Αν η μηχανή καταφέρει να περάσει απαρατήρητη και να μπερδέψει τον άνθρωπο που κάνει τις ερωτήσεις, θεωρείται ότι «πέρασε» το τεστ.
Πώς πραγματοποιήθηκε η μελέτη
Η νέα μελέτη προσπάθησε να εφαρμόσει όσο πιο πιστά γίνεται αυτή την κλασική διαδικασία. Συνολικά συμμετείχαν περισσότεροι από 280 άνθρωποι σε δύο διαφορετικές ομάδες: φοιτητές ψυχολογίας στο UC San Diego και χρήστες της πλατφόρμας Prolific, η οποία χρησιμοποιείται συχνά για επιστημονικές έρευνες. Οι συμμετέχοντες έπρεπε να συνομιλήσουν ταυτόχρονα με έναν πραγματικό άνθρωπο και με ένα σύστημα τεχνητής νοημοσύνης για πέντε λεπτά και στη συνέχεια να αποφασίσουν ποιος ήταν ο άνθρωπος.
Οι ερευνητές δοκίμασαν διάφορα μοντέλα AI. Ανάμεσά τους ήταν το GPT-4.5, το LLaMa-3.1-405B, το GPT-4o αλλά και το ELIZA, ένα ιστορικό chatbot της δεκαετίας του 1960 που θεωρείται από τα πρώτα παραδείγματα «συνομιλητικής» τεχνητής νοημοσύνης.
Τι έδειξαν οι δοκιμές
Το πιο εντυπωσιακό εύρημα ήταν ότι το GPT-4.5, όταν του δόθηκε συγκεκριμένη «προσωπικότητα» να υποδυθεί, θεωρήθηκε άνθρωπος στο 73% των περιπτώσεων. Δηλαδή οι συμμετέχοντες όχι μόνο δεν μπορούσαν να το ξεχωρίσουν από πραγματικό άνθρωπο, αλλά συχνά το θεωρούσαν πιο ανθρώπινο από τον πραγματικό συνομιλητή τους. Το LLaMa-3.1 πέτυχε επίσης υψηλά ποσοστά, περίπου 56%, δηλαδή κοντά στο επίπεδο όπου η διάκριση γίνεται πρακτικά αδύνατη.
Αντίθετα, όταν τα ίδια μοντέλα λειτουργούσαν χωρίς συγκεκριμένες οδηγίες για το πώς να «παίξουν» έναν ανθρώπινο ρόλο, οι επιδόσεις τους έπεφταν σημαντικά. Αυτό δείχνει ότι η επιτυχία τους δεν βασίζεται μόνο στη γλωσσική ικανότητα, αλλά και στην ικανότητα να μιμούνται κοινωνικές συμπεριφορές, ύφος και προσωπικότητα.
Η «προσωπικότητα» που δόθηκε στα μοντέλα δεν ήταν τυχαία. Οι ερευνητές τα καθοδήγησαν να συμπεριφέρονται σαν νεαροί, σχετικά εσωστρεφείς άνθρωποι, εξοικειωμένοι με την κουλτούρα του διαδικτύου και τη σύγχρονη αργκό. Φαίνεται ότι αυτή η πιο χαλαρή και ανεπίσημη συμπεριφορά τα βοήθησε να φαίνονται πιο πειστικά.
Η μελέτη αποκάλυψε επίσης κάτι ενδιαφέρον για τον τρόπο με τον οποίο οι άνθρωποι αναγνωρίζουν την «ανθρωπινότητα». Οι περισσότεροι συμμετέχοντες δεν έκαναν δύσκολες λογικές ή μαθηματικές ερωτήσεις, όπως φανταζόταν ο ίδιος ο Τούρινγκ πριν από δεκαετίες. Αντίθετα, επικεντρώνονταν σε κοινωνικά και συναισθηματικά στοιχεία: ρωτούσαν για καθημερινές εμπειρίες, συναισθήματα, προσωπικές απόψεις ή χιούμορ.
Σύμφωνα με τους ερευνητές, αυτό ίσως σημαίνει ότι σήμερα οι άνθρωποι δεν θεωρούν πλέον τη λογική σκέψη ή τις γνώσεις ως αποκλειστικά ανθρώπινα χαρακτηριστικά. Οι υπολογιστές έχουν ήδη αποδείξει ότι μπορούν να λύνουν μαθηματικά προβλήματα, να γράφουν κώδικα ή να παίζουν σκάκι σε υπεράνθρωπο επίπεδο. Έτσι, αυτό που μοιάζει πιο δύσκολο να αντιγράψει μια μηχανή είναι η κοινωνική συμπεριφορά και η συναισθηματική επικοινωνία.
Παρόλα αυτά, οι ερευνητές τονίζουν ότι το αποτέλεσμα δεν σημαίνει απαραίτητα πως η AI «σκέφτεται» όπως ένας άνθρωπος. Το τεστ Τούρινγκ μετρά κυρίως κατά πόσο μια μηχανή μπορεί να φαίνεται ανθρώπινη σε μια σύντομη συνομιλία. Με άλλα λόγια, μετρά την πειστική μίμηση και όχι απαραίτητα τη συνείδηση, την κατανόηση ή την αυτογνωσία.
Για να ελέγξουν αν τα αποτελέσματα οφείλονταν απλώς στη μικρή διάρκεια της συνομιλίας, οι ερευνητές επανέλαβαν το πείραμα με 15λεπτες συνομιλίες. Ακόμη και τότε, τα μοντέλα συνέχισαν να ξεγελούν τους συμμετέχοντες περίπου στις μισές περιπτώσεις, κάτι που δείχνει ότι η επίδοσή τους δεν ήταν τυχαία.
Οι προεκτάσεις της μελέτης
Η μελέτη εγείρει και σοβαρά κοινωνικά ερωτήματα. Αν τα σύγχρονα γλωσσικά μοντέλα μπορούν να υποδυθούν πειστικά έναν άνθρωπο, τότε θα μπορούσαν να χρησιμοποιηθούν για παραπληροφόρηση, απάτες ή ψυχολογική χειραγώγηση. Οι ερευνητές προειδοποιούν ότι τέτοια συστήματα μπορούν να λειτουργήσουν ως «πλαστοί άνθρωποι», ικανοί να συμμετέχουν σε κοινωνικές αλληλεπιδράσεις χωρίς ο συνομιλητής να καταλαβαίνει ότι μιλά με AI.
Παράλληλα, όμως, η έρευνα αγγίζει και ένα πιο φιλοσοφικό ερώτημα: τι θεωρούμε σήμερα πραγματικά ανθρώπινο; Όπως σημειώνουν οι συγγραφείς, ίσως το τεστ Τούρινγκ να μην είναι πλέον κυρίως ένα τεστ νοημοσύνης, αλλά ένα τεστ ανθρώπινης συμπεριφοράς. Και όσο οι μηχανές γίνονται καλύτερες στο να μας μιμούνται, τόσο περισσότερο ίσως αναγκαζόμαστε να επαναπροσδιορίσουμε τι είναι αυτό που μας κάνει μοναδικούς.
Το παράδοξο είναι ότι η τεχνητή νοημοσύνη δεν χρειάζεται να γίνει τέλεια για να περάσει το τεστ. Αρκεί να φαίνεται πιο ανθρώπινη από αρκετούς πραγματικούς ανθρώπους. Και σύμφωνα με αυτή τη νέα μελέτη, φαίνεται ότι ήδη μπορεί να το κάνει.