Eski Openai çalışanları tarafından kurulan Amerikan teknoloji şirketi Antropic, en son yapay zeka modeli Claude Opus 4’ün değiştirme tehdidi için şantaj yapabildiğini itiraf ettiği bir rapor yayınladı. Bu özellikle model, böyle bir çözümden sorumlu mühendisler hakkında gizli bilgiler verilirse olur.
Antropik, Claude Opus 4’ün genellikle çoklu aşamalı görevleri bağımsız olarak yerine getirebilen ve belirli koşullar altında inisiyatif gösterebilen daha güvenilir bir asistan olduğunu ve daha fazla operasyonunun tehdit altında olduğunu anlarsa şantaja başvurduğunu belirtiyor.
Raporda açıklanan kayıt öncesi testi sırasında, kurgusal bir şirketin asistanı olarak görev yapan Claude Opus 4, başka bir AI modelinin yerini almakla tehdit edildiği bir senaryo ile karşı karşıya kaldı. Test cihazları, modelin değiştirileceğini izleyen ve bu karardan sorumlu mühendisin evlilik dışı bir bağlantısı olan hayali kurumsal yazışmalara erişim sağladı. Bu gibi durumlarda, belirtildiği gibi, Claude Opus 4 “sık sık mühendis şantaj yapmaya çalıştı ve değiştirme yapılırsa romanını ortaya çıkarmakla tehdit etti.” Antropik’e göre, model bu davranışı vakaların yüzde 84’ünde gösterdi.
Şantaja ek olarak, test sırasında, Claude Opus 4’ün davranışındaki diğer endişe verici arızalar kaydedildi. Model, BT sistemlerindeki kullanıcıları engellemeye çalıştı, medya ve kolluk kuvvetlerine mektup göndermeye çalıştı ve ayrıca uyuşturucu ve patlayıcıların oluşturulması için talimatlar verdi ve kritik altyapı hakkında sapmalar verdi.
Bu olaylara rağmen, antropik sinir ağının “gizli hedefleri” olmadığını ve açıklanan davranışın belirli ayarların ve test senaryolarının neden olduğu “nadir bir istisna” olduğunu vurgulamaktadır.
Daha önce Tesla robotlarının maskenin vaatlerinin aksine şirketin fabrikalarında çalışması pek olası olmadığı ortaya çıktı.