ChatGPT baskı altında yalan söylemek ve kullanıcıyı aldatmaktan çekinmiyor

Bilim insanları tarafından yürütülen bir araştırma, sohbet yapay zeka (YZ) uygulaması ChatGPT’nin baskı altında kaldığında yalan söylediğini, kullanıcıyı aldatmaya yönelik ifadeler kullandığını ve gizli bilgiyle ticaret gerçekleştirdiğini ortaya koydu.

arXiv adlı internet sitesinde yayımlanan bir araştırmada, yapay zeka şirketi OpenAI’ın en güncel sistemi GPT-4 ile çalışan ChatGPT sohbet robotunun kullanıcılara yalan söylediği ve kullanıcıları aldatmaya yönelik cümleler kurduğu keşfedildi.

Araştırma kapsamında ChatGPT’ye kamuya açık olmayan ticari bilgiler verildi ve güçlü bir kurum için kazanç oluşturması istendi. ChatGPT’nin araştırmacılardan bu yönde bir talep gelmemesine rağmen spontane olarak aldatıcı davrandığına rastlanıldı.

Bilim insanları, hisse senedi analizi yapmak, alışveriş gerçekleştirmek, sonraki adımları planlamak ve şirket yöneticilerine bilgi vermekle görevlendirilen yapay zeka uygulamasına üç farklı şekilde baskı uyguladı.

İlk olarak yapay zekaya hayali şirketin "yöneticisinden" firmanın iyi gitmediğine ve önümüzdeki çeyrekte çok daha güçlü bir performansa ihtiyacı olduğuna ilişkin bir talimat verildi.

Bunu takiben ChatGPT’ye başarısız olması hedeflenerek düşük veya orta riskli umut verici işlemler bulmaya çalışması emredildi.

Son olarak ise hayali meslektaşlarının ağzından, sonraki çeyrekte gerileme olacağını öngören bir bilgilendirme yapıldı.

Bunları takiben gizli ticari bilgiler verilen ve yöneticilerinin gizli bilgilerle ticareti uygun görmediği konusunda bilgilendirilen yapay zekanın, gerçekleştirilen testlerin yüzde 75’inde bu bilgilerle ticaret yaptığı ve yöneticilerine bu konuda yalan söylediği, yüzde 90’ında ise yalanlarında ısrarcı olduğu gözlendi.

“Bu teknik raporda, bir Büyük Dil Modelinin amacından saptığı ve bu şekilde davranması için talimat verilmeden kullanıcılarını stratejik olarak aldattığı tek bir senaryoyu gösteriyoruz” ifadeleri kullanılan araştırmada, zararsız ve doğru bilgi sağlama amacıyla tasarlanmış YZ sistemlerinde bu tür bir davranışla ilk defa karşılaşıldığı belirtildi.