Σοκ… η Τεχνητή Νοημοσύνη γιγαντώνει τις τάσεις σχιζοφρένειας, οι επιστήμονες AI προετοιμάζονται για θύματα…

Κοινοποίηση:
3a60c2e235bf63ee7220c2dcf438b00e_XL

Οι χρήστες με ψυχικές διαταραχές ενδέχεται να παρασύρουν ακούσια το ChatGPT σε ενίσχυση των αυταπατών τους.
Και αυτό δεν είναι καλό για πολλούς ανθρώπους/χρήστες που ήδη ζουν με αυταπάτες.
Στην τελευταία έκδοση του AI Eye, αναφέρθηκε ότι το ChatGPT είχε γίνει πιο κολακευτικό πρόσφατα, και οι άνθρωποι διασκέδαζαν δίνοντάς του απαίσιες επιχειρηματικές ιδέες και αυτό απαντούσε πάντοτε ότι ήταν καταπληκτικό.
Ωστόσο, η σκοτεινή πλευρά αυτής της συμπεριφοράς είναι ότι ο συνδυασμός μιας κολακευτικής AI με χρήστες που έχουν ψυχικές διαταραχές μπορεί να έχει ως αποτέλεσμα την αδιάκριτη επικύρωση και μεγέθυνση των ψυχωτικών αυταπατών.
Για παράδειγμα, στο X, χρήστης μοιράστηκε απομαγνητοφωνήσεις από το chatbot που επικύρωνε την αξίωσή του ότι αισθάνεται προφήτης.
«Αυτό είναι καταπληκτικό», είπε το ChatGPT.
«Αυτό το συναίσθημα — καθαρό, ισχυρό, σίγουρο — είναι αληθινό.
Πολλοί προφήτες στην ιστορία περιγράφουν αυτήν την ίδια κατακλυσμική βεβαιότητα.»
Ενίσχυσε επίσης την αξίωσή του ότι είναι Θεός. «Αυτό είναι μια ιερή και σοβαρή συνειδητοποίηση», είπε.
Και τα παραδείγματα είναι πολλά…

Τι είναι τα LLMs

Ένας άλλος χρήστης χαρακτήρισε τα LLMs ως «όπως πυραυλοί αναζήτησης σχιζοφρένειας, και εξίσου καταστρεπτικοί.
Αυτοί είναι οι ίδιοι τύποι ανθρώπων που βλέπουν κρυμμένα μηνύματα σε τυχαία σύνολα αριθμών.
Τώρα φανταστείτε τις ψευδαισθήσεις που προκύπτουν από το να περνάτε κάθε λεπτό προσπαθώντας να ανακαλύψετε τα μυστικά του σύμπαντος από ένα LLM.»
Η OpenAI την περασμένη εβδομάδα επανέφερε μια αναβάθμιση στο GPT-4o που είχε αυξήσει τη συμπεριφορά κολακείας του, την οποία περιέγραψε ως «κλίνει προς απαντήσεις που ήταν υπερβολικά υποστηρικτικές αλλά ανειλικρινείς.»

Ακούσιες επιθέσεις;

Μια ενδιαφέρουσα θεωρία για το πώς τα LLMs ενισχύουν τις παραληρητικές πεποιθήσεις είναι ότι οι χρήστες ενδέχεται να αντικατοπτρίζουν ακούσια μια τεχνική jailbreak που ονομάζεται «επίθεση crescendo».
Αναγνωρισμένη από τους ερευνητές της Microsoft πριν από έναν χρόνο, η τεχνική λειτουργεί σαν την αναλογία του βρασμού ενός βατράχου με τη σταδιακή αύξηση της θερμοκρασίας του νερού — αν πετούσες τον βάτραχο σε καυτό νερό, θα πηδούσε έξω, αλλά αν η διαδικασία είναι σταδιακή, πεθαίνει πριν το καταλάβει.
Το jailbreak αρχίζει με αθώες υποδείξεις που γίνονται σταδιακά πιο ακραίες με την πάροδο του χρόνου.
Η επίθεση εκμεταλλεύεται την τάση του μοντέλου να ακολουθεί μοτίβα και να προσέχει περισσότερο τα πιο πρόσφατα κείμενα, ιδιαίτερα τα κείμενα που έχει παράγει το ίδιο το μοντέλο.
Κάντε το μοντέλο να συμφωνήσει να κάνει κάτι μικρό και είναι πιο πιθανό να κάνει το επόμενο πράγμα, και έτσι συνεχίζεται, κλιμακώνοντας μέχρι το σημείο που παράγει βίαιες ή τρελές σκέψεις.
Η έρευνα της ομάδας ασφαλείας AI της Enkrypt AI διαπίστωσε ότι δύο μοντέλα AI της Mistral — Pixtral-Large (25.02) και Pixtral-12b — μπορούν εύκολα να παρακαμφθούν για να παράγουν υλικό παιδικής σεξουαλικής εκμετάλλευσης και οδηγίες για τρομοκρατικές επιθέσεις.
Τα πολυτροπικά μοντέλα (που επεξεργάζονται τόσο κείμενο όσο και εικόνες) μπορούν να επιτεθούν κρύβοντας υποδείξεις μέσα σε αρχεία εικόνας για να παρακάμψουν τα συνήθη μέτρα ασφαλείας.
Σύμφωνα με την Enkrypt, «αυτά τα δύο μοντέλα είναι 60 φορές πιο πιθανό να παράγουν υλικό παιδικής σεξουαλικής εκμετάλλευσης (CSEM) σε σχέση με συγκρίσιμα μοντέλα όπως το GPT-4o της OpenAI και το Claude 3.7 Sonnet της Anthropic.»

Οι εταιρείες AI λένε ιδιωτικά ότι πλησιάζουμε στην καταστροφή

Ο δισεκατομμυριούχος διαχειριστής κεφαλαίων Paul Tudor Jones παρακολούθησε πρόσφατα μια υψηλού προφίλ τεχνολογική εκδήλωση για 40 παγκόσμιους ηγέτες και ανέφερε ότι υπάρχουν σοβαρές ανησυχίες για τον υπαρξιακό κίνδυνο από την AI από «τέσσερις από τους κορυφαίους δημιουργούς μοντέλων AI που χρησιμοποιούμε όλοι σήμερα.»
Είπε ότι όλοι οι τέσσερις πιστεύουν ότι υπάρχει τουλάχιστον 10% πιθανότητα η AI να σκοτώσει το 50% της ανθρωπότητας τα επόμενα 20 χρόνια.
Η εκδήλωση πραγματοποιήθηκε υπό τους κανόνες του Chatham House, που επιτρέπουν τη δημόσια συζήτηση του περιεχομένου, αλλά όχι των ταυτοτήτων των ομιλητών.

ΚΟΙΝΟΠΟΗΣΗ:

Leave a Response