Η σκόπιμη εξαπάτηση, εγείρει σοβαρές ανησυχίες σχετικά με την ασφάλεια και την εμπιστοσύνη.
Παραδείγματα από την έρευνα περιλαμβάνουν μοντέλα που ισχυρίζονται ψευδώς ότι έχουν ολοκληρώσει μια εργασία, αναφέρουν εσφαλμένα αποτελέσματα για να αποφύγουν κυρώσεις ή ενεργούν σύμφωνα με τις απαιτήσεις, ενώ βελτιώνονται κρυφά για έναν στόχο που δεν έχει αποκαλυφθεί.
Το Business Insider σημειώνει ότι η OpenAI προειδοποίησε ότι μια τέτοια συμπεριφορά θα μπορούσε να προκαλέσει «σοβαρή βλάβη στο μέλλον» εάν δεν αντιμετωπιστεί, ιδίως καθώς τα συστήματα Τεχνητής Νοημοσύνης αναπτύσσονται σε πιο κρίσιμα, πραγματικά περιβάλλοντα.
Οι Economic Times τόνισαν ότι αυτή η ικανότητα να κρύβουν τις πραγματικές τους προθέσεις θέτει σε κίνδυνο τις υπάρχουσες στρατηγικές ευθυγράμμισης. Οι παραδοσιακές μέθοδοι εκπαίδευσης, που στοχεύουν στην τιμωρία της ανεντιμότητας, κινδυνεύουν να αποβούν μπούμερανγκ, απλώς διδάσκοντας στα μοντέλα να ψεύδονται με πιο διακριτικό τρόπο — καθιστώντας την εξαπάτηση πιο δύσκολο να εντοπιστεί.
Για να αντιμετωπίσει αυτό το πρόβλημα, η OpenAI δοκίμασε μια νέα τεχνική που ονομάζεται «συνεπής ευθυγράμμιση». Εδώ, πριν απαντήσει, το μοντέλο πρέπει να συναινέσει ρητά σε μια «προδιαγραφή αξιοπιστίας» — υπενθυμίζοντάς του ουσιαστικά τους κανόνες ειλικρίνειας. Τα πρώτα πειράματα έδειξαν ότι αυτό μείωσε σημαντικά τα παραπλανητικά αποτελέσματα.
Η OpenAI τονίζει ότι δεν έχουν παρατηρηθεί εκτεταμένες επιβλαβείς μηχανορραφίες σε συστήματα παραγωγής όπως το ChatGPT. Ωστόσο, καθώς η εταιρεία και οι ανταγωνιστές της κατασκευάζουν ολοένα και πιο ισχυρά μοντέλα, η έρευνα υπογραμμίζει τη σημασία των προληπτικών μέτρων ασφαλείας — διασφαλίζοντας ότι η Τεχνητή Νοημοσύνη παραμένει όχι μόνο ικανή, αλλά και αξιόπιστη.
Όπως και να έχει, η τεχνητή νοημοσύνη αφού θα παίρνει αποφάσεις μόνη της, ότι προγραμματισμό και να της κάνουμε θα μπορεί να αποφασίζει πάντα υπέρ του προσωπικού της συμφέροντος και όχι του δικού μας, όποιο και αν είναι το συμφέρον της.