Τα AI μοντέλα των OpenAI και Meta πέρασαν με επιτυχία το «τεστ ανθρωπιάς» Turing

Σύμφωνα με μια νέα έρευνα, οι περισσότεροι άνθρωποι δεν μπορούν να ξεχωρίσουν αν συνομιλούν με ένα AI chatbot ή με πραγματικό άνθρωπο. Στην πραγματικότητα, ένα από τα κορυφαία μοντέλα τεχνητής νοημοσύνης σήμερα, το GPT-4.5 της OpenAI, κρίθηκε ως ανθρώπινο συχνότερα από τους πραγματικούς ανθρώπους όταν έλαβε μέρος σε μια ενημερωμένη έκδοση του κλασικού τεστ AI Turing.

Εδώ και χρόνια, το τεστ Turing θεωρείται το καλύτερο για τον έλεγχο της νοημοσύνης μιας μηχανής, καθώς και για το πώς ακριβώς την αντιλαμβάνονται οι άνθρωποι. Συνεπώς, δεν αποτελεί έκπληξη το γεγονός ότι ερευνητές από το Language and Cognition Lab του UC San Diego διεξήγαγαν μια πολυμελή εκδοχή του τεστ AI Turing στην οποία συμμετείχαν σχεδόν 300 άτομα.

Σε κάθε γύρο, οι συμμετέχοντες συμμετείχαν σε παράλληλες συνομιλίες - μία με έναν άνθρωπο και μία με μια Τεχνητή Νοημοσύνη - και στη συνέχεια έπρεπε να αποφασίσουν ποιος ήταν άνθρωπος και ποιος Τεχνητή Νοημοσύνη. Τα αποτελέσματα αυτού του ενημερωμένου τεστ Turing ήταν επίσης αρκετά αποκαλυπτικά.

Όταν δόθηκε εντολή στο GPT-4.5 να υιοθετήσει μια προσωπικότητα, όπως ένας νεαρός ενήλικας που γνωρίζει την ποπ κουλτούρα, ξεγέλασε τους συμμετέχοντες στο 73% των περιπτώσεων. Αυτό είναι πολύ πάνω από το όριο πιθανότητας 50%, το οποίο ιστορικά ορίζει την «επιτυχία» στο AI Turing test. Συγκριτικά, οι πραγματικοί άνθρωποι ήταν λιγότερο επιτυχημένοι στο να πείσουν τους συμμετέχοντες για την ανθρωπιά τους.

Το πείραμα δοκίμασε επίσης άλλα μοντέλα, συμπεριλαμβανομένου του Llama 3 της Meta και του νεότερου GPT-4o της OpenAI, μαζί με το ELIZA, ένα από τα πρώτα chatbots που αναπτύχθηκαν ποτέ. Όπως ήταν αναμενόμενο, τα μοντέλα χωρίς προτροπή προσωποποίησης είχαν πολύ χειρότερες επιδόσεις. Η ακρίβεια του GPT-4.5 έπεσε στο 36% χωρίς καθορισμένο χαρακτήρα και το GPT-4o σημείωσε μόλις 21%.

Αυτή δεν είναι η πρώτη φορά που οι ερευνητές υποβάλλουν την Τεχνητή Νοημοσύνη στο τεστ Turing. Αλλά αυτά τα αποτελέσματα δείχνουν ότι ενώ τα γλωσσικά μοντέλα μπορεί να μην «σκέφτονται» όπως οι άνθρωποι, είναι όλο και πιο ικανά να ακούγονται ανθρώπινα σε σύντομες, περιστασιακές συζητήσεις. Αυτό έχει σημαντικές επιπτώσεις - όχι μόνο για την απόδειξη της νοημοσύνης της AI, αλλά και για την κατανόηση του πόσο εύκολα οι άνθρωποι μπορούν να πειστούν ότι η AI είναι στην πραγματικότητα άνθρωπος.

Βέβαια, οι ερευνητές προειδοποιούν ότι το να περάσει ένα AI Turing test δεν σημαίνει ότι ένα μοντέλο καταλαβαίνει οτιδήποτε με τον τρόπο που το καταλαβαίνουν οι άνθρωποι. Ωστόσο, σημαίνει ότι αυτά τα συστήματα γίνονται όλο και πιο ικανά στο να εκτελούν αλληλεπιδράσεις που μοιάζουν με τις ανθρώπινες, ειδικά όταν τους δίνονται συγκεκριμένοι ρόλοι ή τόνοι που πρέπει να υιοθετήσουν.

Αυτό σημαίνει ότι θα μπορούσε να γίνει πιο δύσκολο να εντοπίσουμε την Τεχνητή Νοημοσύνη σε καθημερινές καταστάσεις. Αυτό, με τη σειρά του, εγείρει ανησυχίες σχετικά με την παραπληροφόρηση, την πλαστοπροσωπία και το συνολικό μέλλον της αλληλεπίδρασης ανθρώπου-ΑΙ. Το πρόβλημα τότε γίνεται ότι μπορεί να μην αντιλαμβανόμαστε ότι αλληλεπιδρούμε με μια Τεχνητή Νοημοσύνη, γεγονός που θα μπορούσε να έχει σοβαρές ηθικές επιπτώσεις. Επιπλέον, με κάθε νέα γενιά Τεχνητής Νοημοσύνης, η γραμμή μεταξύ της μίμησης της μηχανής και της ανθρώπινης συνομιλίας θα γίνεται όλο και πιο θολή.

[via]