Το τεστ που δοκίμασε τα όρια του AI – Ποιο chatbot απάντησε στις πιο απαιτητικές ερωτήσεις γνώσεων

Για να αντιμετωπίσουν το πρόβλημα της υπερεκτίμησης των δυνατοτήτων της Τεχνητής Νοημοσύνης, σχεδόν 1.000 ερευνητές από όλο τον κόσμο ανέπτυξαν ένα νέο, ιδιαίτερα απαιτητικό τεστ. Μεταξύ αυτών βρίσκεται και ένας καθηγητής από το Texas A&M University.

Όπως αναφέρεται σε δημοσίευμα του sciencedaily.com, το αποτέλεσμα είναι το «Humanity’s Last Exam» (HLE), μια τεράστια αξιολόγηση με 2.500 ερωτήσεις που καλύπτουν ένα ευρύ φάσμα γνωστικών πεδίων: μαθηματικά, ανθρωπιστικές επιστήμες, φυσικές επιστήμες, αρχαίες γλώσσες και εξειδικευμένα ακαδημαϊκά αντικείμενα.

Το ερευνητικό έργο παρουσιάστηκε σε δημοσίευση στο επιστημονικό περιοδικό Nature, ενώ περισσότερες πληροφορίες είναι διαθέσιμες στον ιστότοπο του εγχειρήματος.

Πώς δημιουργήθηκε το «Humanity’s Last Exam»

Μεταξύ των συντελεστών της εξέτασης βρίσκεται ο Tung Nguyen, αναπληρωτής καθηγητής στο Τμήμα Επιστήμης Υπολογιστών και Μηχανικής του Texas A&M University. Ο Nguyen συνέβαλε στη συγγραφή και βελτίωση πολλών από τις ερωτήσεις.

Όπως εξηγεί, όταν τα συστήματα τεχνητής νοημοσύνης αποδίδουν εξαιρετικά σε υπάρχοντα τεστ, είναι εύκολο να δημιουργηθεί η εντύπωση ότι πλησιάζουν την ανθρώπινη κατανόηση. «Το HLE μας υπενθυμίζει ότι η νοημοσύνη δεν είναι μόνο η αναγνώριση προτύπων», σημειώνει. «Αφορά το βάθος, το πλαίσιο και την εξειδικευμένη γνώση».

Ο στόχος της εξέτασης δεν ήταν να «νικήσει» τους ανθρώπους, αλλά να εντοπίσει με ακρίβεια τα σημεία όπου η τεχνητή νοημοσύνη εξακολουθεί να υστερεί.

Μια παγκόσμια προσπάθεια

Οι ερωτήσεις δημιουργήθηκαν από ειδικούς πολλών διαφορετικών επιστημονικών κλάδων. Κάθε πρόβλημα σχεδιάστηκε έτσι ώστε να έχει μία σαφή και επαληθεύσιμη απάντηση, ενώ παράλληλα αποφεύγονται λύσεις που θα μπορούσαν να προκύψουν εύκολα μέσω απλής αναζήτησης στο διαδίκτυο.

Τα θέματα είναι εξαιρετικά απαιτητικά. Σε ορισμένες περιπτώσεις οι συμμετέχοντες καλούνται να μεταφράσουν αρχαίες επιγραφές της Παλμυρένης, ενώ σε άλλες πρέπει να αναγνωρίσουν μικροσκοπικές ανατομικές δομές σε πτηνά ή να αναλύσουν λεπτές διαφορές στην προφορά της βιβλικής εβραϊκής γλώσσας.

Οι ερευνητές δοκίμασαν κάθε ερώτηση απέναντι σε κορυφαία συστήματα τεχνητής νοημοσύνης. Όταν κάποιο μοντέλο μπορούσε να απαντήσει σωστά, η ερώτηση αφαιρούνταν από την τελική έκδοση του τεστ.

Με αυτόν τον τρόπο διασφαλίστηκε ότι το τελικό σύνολο ερωτήσεων θα βρίσκεται λίγο πέρα από τις σημερινές δυνατότητες των συστημάτων AI.

Πώς τα πήγαν τα κορυφαία μοντέλα AI

Τα πρώτα αποτελέσματα δείχνουν ότι ακόμη και τα πιο ισχυρά μοντέλα δυσκολεύονται σημαντικά.

Το GPT-4o σημείωσε μόλις 2,7%.
Το Claude 3.5 Sonnet έφτασε στο 4,1%.
Το OpenAI πέτυχε περίπου 8%.
Πιο εξελιγμένα μοντέλα, όπως το Gemini 3.1 Pro της Google και το Claude Opus 4.6 της Anthropic, κατάφεραν να φτάσουν σε επίπεδα ακρίβειας μεταξύ 40% και 50%.

Γιατί χρειάζονται νέα τεστ για την AI

Ο Nguyen συνέβαλε στη δημιουργία 73 από τις 2.500 ερωτήσεις της εξέτασης, ο δεύτερος μεγαλύτερος αριθμός μεταξύ των συντελεστών, ενώ έγραψε τις περισσότερες ερωτήσεις που σχετίζονται με μαθηματικά και επιστήμη υπολογιστών.

Σύμφωνα με τον ίδιο, η ανάγκη για καλύτερα εργαλεία αξιολόγησης είναι κρίσιμη.

«Χωρίς αξιόπιστα τεστ, οι υπεύθυνοι χάραξης πολιτικής, οι προγραμματιστές και οι χρήστες κινδυνεύουν να παρερμηνεύσουν τις πραγματικές δυνατότητες της τεχνητής νοημοσύνης», εξηγεί. Τα περισσότερα υπάρχοντα benchmarks, σημειώνει η ερευνητική ομάδα, σχεδιάστηκαν αρχικά για ανθρώπινους μαθητές και αξιολογούν κυρίως την ικανότητα εκτέλεσης συγκεκριμένων εργασιών, όχι απαραίτητα βαθιά κατανόηση.

Δεν είναι απειλή για τους ανθρώπους
Παρά τον δραματικό τίτλο, το «Humanity’s Last Exam» δεν υπονοεί ότι οι άνθρωποι θα αντικατασταθούν από μηχανές. Αντίθετα, στόχος του είναι να αναδείξει πόση γνώση και εμπειρογνωμοσύνη εξακολουθεί να είναι αποκλειστικά ανθρώπινη.

«Δεν πρόκειται για αγώνα δρόμου απέναντι στην τεχνητή νοημοσύνη», τονίζει ο Nguyen. «Είναι ένας τρόπος να κατανοήσουμε πού είναι ισχυρά αυτά τα συστήματα και πού δυσκολεύονται».

Ένα σημείο αναφοράς για το μέλλον

Το τεστ σχεδιάστηκε ώστε να αποτελέσει ένα μακροπρόθεσμο σημείο αναφοράς για την εξέλιξη της τεχνητής νοημοσύνης.

Για να αποφευχθεί η απομνημόνευση των απαντήσεων από τα μοντέλα AI, οι ερευνητές δημοσίευσαν μόνο ένα μέρος των ερωτήσεων, κρατώντας τις περισσότερες κρυφές.

«Προς το παρόν, το Humanity’s Last Exam είναι μία από τις πιο σαφείς αξιολογήσεις του χάσματος μεταξύ ανθρώπινης και τεχνητής νοημοσύνης», επισημαίνει ο Nguyen. Και, όπως τονίζει, το πιο ενδιαφέρον στοιχείο του έργου ήταν η ίδια η συνεργασία.

«Ιστορικοί, φυσικοί, γλωσσολόγοι, γιατροί και επιστήμονες υπολογιστών εργάστηκαν μαζί», λέει. «Ίσως ειρωνικά, αυτό που αποκαλύπτει τα όρια της τεχνητής νοημοσύνης είναι ακριβώς αυτό που κάνουν καλύτερα οι άνθρωποι: συνεργάζονται».