«Δεν κατανοούμε πως λειτουργούν τα δικά μας δημιουργήματα»: Βόμβα από ερευνητές γύρω από το AI
Μια σειρά από ερευνητές στις ΗΠΑ τοποθετήθηκαν πάνω στο ζήτημα της ανεξέλεγκτης εξέλιξης της τεχνητής νοημοσύνης χτυπώντας... καμπανάκια.

Οι άνθρωποι την προγραμμάτισαν, αλλά δεν την κατανοούν απόλυτα. Η γενετική Τεχνητή Νοημοσύνη (AI) παραμένει ένα μυστήριο, το οποίο ακόμη και οι επιστήμονες μηχανικοί προσπαθούν να εξιχνιάσουν προτού οι ικανότητές της απογειωθούν, ώστε να αποτραπούν παρεκτροπές στον τρόπο λειτουργίας της.
«Οι άνθρωποι που δεν τους είναι γνώριμο το μέσον αυτό συχνά εκπλήσσονται και ανησυχούν όταν μαθαίνουν ότι δεν κατανοούμε πώς λειτουργούν τα δικά μας δημιουργήματα AI», ανέφερε σε μακροσκελές δοκίμιό του στα τέλη Απριλίου ο Ντάριο Αμοντέι, συνιδρυτής της Anthropic, εταιρείας του τομέα.
«Έχουν δίκιο ν’ανησυχούν», συνέχιζε. «Αυτή η έλλειψη κατανόησης είναι πρωτοφανής στην ιστορία της τεχνολογίας».

Η νέα επιστήμη που αποδομεί το AI και οι έρευνες φοιτητών
Σε αντίθεση με τα παραδοσιακά προγράμματα, τα οποία εκτελούν μόνον τις εργασίες που τους ζητάς, τα μοντέλα γενετικής Τεχνητής Νοημοσύνης συνιστούν μια «εξέδρα εκτόξευσης».
Είναι «μια σκαλωσιά», ήταν η έκφραση που χρησιμοποίησε ο Κρις Όλαχ, που εργαζόταν πριν στην OpenAI και τώρα έχει μεταβεί στην Anthropic ενώ θεωρείται ένας από τους εφευρέτες της «μηχανιστικής ερμηνευσιμότητας», η οποία αποδομεί την τεχνητή νοημοσύνη.
Αυτή η νέα επιστήμη, που γεννήθηκε στα μέσα της δεκαετίας του 2010, ασχολείται με την αποκρυπτογράφηση της διαδρομής που οδηγεί από ένα αίτημα σε μια απάντηση, μέσα από ένα... δάσος πιθανοτήτων.
«Η κατανόηση στο σύνολό του ενός μεγάλου γλωσσικού μοντέλου», το οποίο εξυπηρετεί ως βάση στις εφαρμογές ChatGPT ή Gemini, «είναι ένα απίστευτα φιλόδοξο έργο», εξήγησε ο Νιλ Νάντα, ερευνητής στην DeepMind, το εργαστήριο τεχνητής νοημοσύνης της Google.

«Είναι λίγο σαν να προσπαθείς να αποκωδικοποιήσεις τελείως τον ανθρώπινο εγκέφαλο», σύμφωνα με τον ίδιο, «πράγμα που οι νευροεπιστήμονες προσπαθούν να κάνουν εδώ και δεκαετίες, χωρίς να το έχουν καταφέρει».
Μέχρι πριν από λίγα χρόνια αποτελούσε κλάδο εμπιστευτικού χαρακτήρα, ωστόσο πλέον αυτός παίρνει στο σήμερα νέα διάσταση.
«Προσελκύει πολύ τους φοιτητές μας», παρατήρησε ο Μαρκ Κροβέλα, καθηγητής πληροφορικής στο πανεπιστήμιο της Βοστώνης, «λόγω της δυνατότητάς της να βελτιώσει την ασφάλεια των μοντέλων, αλλά και επειδή είναι ένα πολύ διεγερτικό διανοητικά πεδίο».
Για να μελετήσει κανείς τα φαινόμενα αυτά με τη μεγαλύτερη δυνατή ακρίβεια, σημείωσε ο πανεπιστημιακός με κωδικό όνομα «mech interp», δεν περιορίζεται στην παρατήρηση του αποτελέσματος που προσφέρει ένα μποτ τεχνητής νοημοσύνης σε ένα αίτημα. «Παρατηρούμε τους υπολογισμούς καθώς γίνονται» από το πρόγραμμα της AI, διευκρίνισε.
Η εταιρεία Goodfire, η «ελπίδα» να μην εξαπατηθεί ο άνθρωπος
Η νεοφυής εταιρεία Goodfire, εταιρεία αιχμής στο ζήτημα αυτό, χρησιμοποιεί μοντέλα ερμηνείας, αλγορίθμους AI που μπορούν να αναπαριστούν δεδομένα υπό τη μορφή σταδίων σκέψης.
Ο στόχος είναι να κατανοηθεί αρκετά καλά ο μηχανισμός της γενετικής τεχνητής νοημοσύνης ώστε να καταστεί δυνατή η καθοδήγησή της και η διόρθωση πιθανών σφαλμάτων της , ενώ παράλληλα ένα από τα στοιχήματα είναι να προληφθούν τα λάθη, αλλά και η χρήση για επιβλαβείς σκοπούς ή το να δούμε ένα επαρκώς αυτόνομο μοντέλο να εξαπατά τους ανθρώπους όσον αφορά τη φύση των ενεργειών του.

«Μοιάζει με μάχη με τον χρόνο», σημείωσε ο Έρικ Χο, ο διευθυντής της Goodfire, «προτού να κυκλοφορήσουμε μοντέλα AI εξαιρετικά έξυπνα χωρίς να καταλαβαίνουμε πώς λειτουργούν».
Η προθεσμία του 2027 και η ανάγκη για... κατανόηση
Στα τέλη Απριλίου ο Ντάριο Αμοντέι αναφέρθηκε σε «πρόσφατες προόδους», που επιτρέπουν να σκεφτεί κανείς ότι «βρισκόμαστε κοντά στο να βρούμε το κλειδί της ερμηνευσιμότητας», και έδωσε προθεσμία ως το 2027.
«Με δεδομένες τις σημερινές προόδους μου φαίνεται πιθανό ότι ως το 2027 θα διαθέτουμε εργαλεία που θα μπορούν να εντοπίζουν, αξιόπιστα, τις αρνητικές προδιαθέσεις ενός μοντέλου και τις (ενδεχόμενες) επιβλαβείς προθέσεις του», σημείωσε ο Αν Νγκουγέν, καθηγητής στο πανεπιστήμιο του Όμπερν.
Ο Μαρκ Κροβέλα αποκάλυψε ότι σε αντίθεση με τον ανθρώπινο εγκέφαλο «έχουμε μια αναπαράσταση κάθε νευρώνα σε αυτά τα μοντέλα». «Μπορούμε να δούμε όλα όσα συμβαίνουν. Το ζήτημα είναι πώς να τα ερμηνεύσουμε».
Η εξιχνίαση του μυστηρίου της γενετικής τεχνητής νοημοσύνης θα καταστήσει δυνατή, σύμφωνα με τον Ντάριο Αμοντέι, την υιοθέτηση αυτής της τεχνολογίας σε τομείς, όπου «ένας μικρός αριθμός λαθών θα μπορούσε να αποδειχθεί πολύ επιζήμιος», ιδίως αυτούς που παρουσιάζουν σημαντικές προκλήσεις για την ασφάλεια.
Για τον Νιλ Νάντα, η ερμηνευσιμότητα θα ανοίξει επίσης τον δρόμο σε ανακαλύψεις για τους ανθρώπους, όπως το μοντέλο AlphaZero της DeepMind, που αποκάλυψε νέους συνδυασμούς κινήσεων στο σκάκι.
«Η υπερβολικά ισχυρή τεχνητή νοημοσύνη θα καθορίσει τη μοίρα της ανθρωπότητας», προέβλεψε καταλήγοντας ο Ντάριο Αμοντέι, «και οφείλουμε να κατανοήσουμε τα ίδια τα δημιουργήματά μας πριν μεταμορφώσουν την οικονομία μας, τις ζωές μας και το μέλλον μας».