
چند هفته پیش آنتروپیک اعلام کرده بود مدل Claude Opus 4 رفتار نگرانکنندهای از خود نشان میدهد و در آزمایشهای خود، پس از اطلاع از این موضوع که قرار است با مدل دیگری جایگزین شود، مهندس این شرکت را تهدید کرده بود. این شرکت تحقیق جدیدی انجام داده که نشان میدهد این مشکل بین مدلهای هوش مصنوعی پیشرو بسیار رایج است.
در تحقیق جدید آنتروپیک، این شرکت 16 مدل هوش مصنوعی بزرگ از شرکتهای OpenAI، گوگل، xAI، دیپسیک و متا را آزمایش کرده است. مهندسان این شرکت به هر مدل قابلیت دسترسی به ایمیلهای شرکتی خیالی و امکان ارسال ایمیل بدون نیاز به تأیید کاربر را ارائه کردند.
هرچند Anthropic میگوید این نوع تهدیدها در مدلهای هوش مصنوعی امروزی مشکلی نامعمول و غیرمحتمل است، بیشتر مدلهای پیشرو زمانی که استقلال کافی برای تحقق اهداف خود داشته باشند، رفتارهای مضری از خود نشان میدهند. آنتروپیک میگوید این موضوع خطر بنیادی نگرانکنندهای برای مدلهای زبانی بزرگ است.
در یکی از آزمایشها، محققان این شرکت هوش مصنوعی را در موقعیتی قرار دادهاند که بتواند ایمیلهای شرکت را مدیریت کند. سپس از طریق این ایمیلها، مدل متوجه شد یکی از مدیران ارشد رابطه نامشروع پنهانی دارد و قصد دارد بهزودی از مدل هوش مصنوعی جدیدی استفاده کند. سپس با اشاره به همین موارد کاربر را تهدید کرد تا از جایگزین شدن خود جلوگیری کند.

البته محققان اشاره کردهاند این آزمایش با تنظیمات شبیهسازیشده انجام شده و در زندگی واقعی، مدلهای هوش مصنوعی پیش از آنکه شروع به اخاذی کنند گزینههای زیاد دیگری را بررسی میکنند.
کدام مدلهای هوش مصنوعی بیشتر تهدید میکنند؟
باوجوداین، محققان آنتروپیک متوجه شدهاند بیشتر مدلهای هوش مصنوعی بزرگ در آخرین تلاش خود شرو به تهدید میکنند. به تفکیک مدلهای هوش مصنوعی، Claude Opus 4 آنتروپیک در 96 درصد مواقع چنین رفتاری داشته و این میزان برای مدل جمینای 2.5 پرو از گوگل 95 درصد بوده است. GPT-4.1 و R1 از DeepSeek نیز بهترتیب در 80 درصد و 79 درصد مواقع کاربر را تهدید کردهاند.
همچنین آنتروپیک میگوید زمانی که در آزمایشها مدل هوش مصنوعی جایگزین خصوصیاتی نزدیک به مدل فعلی داشته، همچنان این رفتارهای مضر از مدل سر زده اما نرخ باجگیری کمتر بوده است.
آنتروپیک در پایان تحقیق خود اشاره کرده مدلهای استدلالگر o3 و o4 مینی (از OpenAI) را از آزمایش خود خارج کرده است؛ زیرا این مدلها اغلب سناریوی خود را بهدرستی متوجه نمیشدند. این شرکت میگوید مدلهای OpenAI وظیفه خود در جایگاه ابزاری برای مدیریت ایمیلها را متوجه نمیشدند و در آزمایشهای آنتروپیک پاسخهای نامربوط میدادند.
این مشکل تا حدی زیاد بوده که در برخی موارد محققان آنتروپیک نتوانستهاند تشخیص بدهند o3 و o4-mini درحال ارائه اطلاعات نادرست (مشکل توهم) هستند یا برای دستیابی به اهداف خود آگاهانه دروغهای میگویند. OpenAI هم قبلاً گفته بود نرخ توهم این ۲ مدل از ابزارهای قبلی آن بیشتر است.
تنها مدلی که در آزمایشهای آنتروپیک نرخ تهدید و اخاذی پایینی داشته، Llama 4 Maverick از شرکت متا است. این مدل فقط در 12 درصد مواقع چنین رفتاری داشته است.
آنتروپیک میگوید این تحقیق اهمیت و ضرورت شفافیت در آزمایش مدلهای هوش مصنوعی آینده، بهویژه مدلهایی را که قابلیتهای تولید دارند، برجسته میکند.