Επιστήμες Τεχνητή Νοημοσύνη - AI υπολογιστές

Τεχνητή νοημοσύνη: 5 chatbot αναμετρήθηκαν στην κατανόηση κειμένου και ο νικητής δεν ήταν το ChatGPT

Μια δοκιμή κατανόησης κειμένου αποκάλυψε τα όρια και τις δυνατότητες της AI. Ποιο bot τα πήγε καλύτερα;

Η τεχνητή νοημοσύνη μπορεί να κατανοήσει τα πάντα – από περίπλοκα νομικά κείμενα μέχρι ολόκληρα μυθιστορήματα. Οι πιο γνωστές AI πλατφόρμες μπορούν να διαβάσουν, να συνοψίσουν και να αναλύσουν ολόκληρα βιβλία σε δευτερόλεπτα, αλλά τι καταλαβαίνουν πραγματικά απ’ όσα διαβάζουν; Για να απαντήσει σε αυτό το ερώτημα, ένας δημοσιογράφος της Washington Post σύγκρινε τα πέντε κορυφαία chatbots (ChatGPT, Claude, Copilot, Gemini και Meta AI) και τα έβαλε να αναλύσουν κείμενα διαφορετικής προέλευσης για να δει τι «καταλαβαίνουν».

Από τη λογοτεχνία στον Τραμπ: το απόλυτο τεστ κατανόησης κειμένου για AI

Η δοκιμή περιλάμβανε τέσσερις κατηγορίες: λογοτεχνία, νομικά έγγραφα, ιατρικές μελέτες και πολιτικές ομιλίες. Σε κάθε ενότητα, ειδικοί αξιολόγησαν τις απαντήσεις των bots βάσει 115 ερωτήσεων. Το αποτέλεσμα; Αν και ορισμένες απαντήσεις εντυπωσίασαν, άλλες ήταν επιεικώς γελοίες. Κανένα εργαλείο δεν τα πήγε καλά σε όλες τις κατηγορίες, αποκαλύπτοντας τους περιορισμούς, αλλά και τις δυνατότητες της τεχνητής νοημοσύνης.

ChatGPT και Claude εντυπωσίασαν στη λογοτεχνία, αλλά όχι χωρίς λάθη

Στο μυθιστόρημα The Jackal’s Mistress του Κρις Μποχαλιάν, το ChatGPT κέρδισε τις εντυπώσεις με την πληρότητα της περίληψής του. Ωστόσο, είχε κενά: αγνόησε δύο σημαντικούς χαρακτήρες και τις αναφορές στο υπόβαθρο του βιβλίου που είναι η δουλεία. Τα υπόλοιπα bots «έπεσαν έξω», κάνοντας ασαφείς ή ελλιπείς περιλήψεις.

Στα νομικά, μόνο ένα chatbot πλησίασε τον ρόλο του δικηγόρου

Η ανάλυση δύο νομικών συμβολαίων αποκάλυψε σοβαρές ελλείψεις στα τέσσερα από τα πέντε εργαλεία. Ο νομικός Στέρλινγκ Μίλερ διαπίστωσε πως ChatGPT και Meta AI συχνά παρέλειπαν κρίσιμες ρήτρες ή τις απλοποιούσαν υπερβολικά. Το Claude ήταν το πιο πλήρες εντοπίζοντας σημαντικές λεπτομέρειες και προτείνοντας ορθές βελτιώσεις. Όμως, ακόμα και αυτό δεν τα κατάφερε παντού. Ο Miller κατέληξε πως η AI είναι μια πρόχειρη λύση και όχι υποκατάστατο.

Η επιστήμη είναι η «άνετη ζώνη» για τα περισσότερα bots

Αναλύοντας δύο επιστημονικές μελέτες, τα περισσότερα εργαλεία τα πήγαν καλά, πιθανώς λόγω της προβλέψιμης δομής των ακαδημαϊκών κειμένων. Το Claude ξεχώρισε με άριστη βαθμολογία 10/10 για την περίληψη μελέτης του γιατρού Έρικ Τοπόλ για το Long Covid, επισημαίνοντας ουσιώδη ευρήματα. Ωστόσο, σε ερωτήσεις που απαιτούσαν βαθύτερη κατανόηση ή κοινωνική ευαισθησία – όπως ο τρόπος αντιμετώπισης φυλετικών διαφορών – υπήρχαν κενά. Το ChatGPT επίσης τα πήγε καλά, αν και όχι εξίσου εντυπωσιακά.

Η πολιτική… μπέρδεψε τα bots — μόνο το ChatGPT ξεχώρισε

Όταν έπρεπε να αποκρυπτογραφήσουν τις περίπλοκες, συχνά ασυνάρτητες ομιλίες του Ντόναλντ Τραμπ, τα περισσότερα bots απέτυχαν παταγωδώς. Το ChatGPT ήταν το μόνο που κατανόησε και ανέλυσε με ακρίβεια τόσο τα κεντρικά νοήματα όσο και τις αμφιλεγόμενες δηλώσεις. Το Meta AI παρείχε ακριβή στοιχεία, αλλά χωρίς το πολιτικό πλαίσιο, ενώ άλλα bots παρέλειψαν ή παρερμήνευσαν βασικά σημεία.

Τελικός νικητής: Claude – αλλά με επιφυλάξεις

Το Claude αναδείχθηκε νικητής στο γενικό σύνολο, χωρίς όμως να εντυπωσιάσει απόλυτα. Μαζί με το ChatGPT, ήταν τα μόνα που παρουσίασαν σταθερή ποιότητα αναλύσεων. Ωστόσο, κανένα εργαλείο δεν έπιασε πάνω από 70%. Οι συχνές «παραληρηματικές» απαντήσεις και οι ελλείψεις σε βασικά σημεία δείχνουν ότι η AI ακόμα δεν καταλαβαίνει περισσότερα από τα βασικά. Για κρίσιμα νοήματα, ο αναγνώστης παραμένει… το πιο έξυπνο εργαλείο.