Anthropic'in yapay zeka botu iyiyle kötüyü ayırabiliyor

Eski OpenAI araştırmacıları tarafından yönetilen Anthropic'in sohbet robotu Claude, Apple'ın uygulama geliştiricilere yönelik kuralları gibi diğer etik normların yanı sıra başka özellikler de içeriyor. Claude, İnsan Hakları Evrensel Beyannamesinden esinlenen kurallardan oluşan benzersiz bir "anayasa" ile tasarlanıyor.

Bununla birlikte, "anayasa" kavramı gerçek olmaktan çok mecazi bir anlam taşıyor olabilir. Eski bir OpenAI danışmanı ve Anthropic'in kurucularından biri olan Jared Kaplan, Wired'a verdiği demeçte şunları söyledi:

Claude'un anayasası, herhangi bir eğitmenin yapay zeka modellemek için kullandığı belirli bir dizi eğitim parametresi olarak yorumlanabilir.

Anthropic'in eğitim yöntemi "Anayasal YZ: YZ Geri Bildiriminden Zararsızlık" başlıklı bir araştırma makalesinde açıklandı. Bu makalede, eğitildikten sonra insan geri bildirimi olmadan kendini geliştirebilen, uygunsuz davranışları tespit edebilen ve kendi davranışını uyarlayabilen zararsız ancak yararlı bir AI bulmanın bir yolu açıklanıyor.

Yapay zeka (AI) ve iyi kötü kavramlarının göreceliliği

AI'da etik konusundaki endişeler önemli olmakla birlikte, bu konu nüanslı ve öznel bir alandır. AI eğitmenleri tarafından yorumlandığı şekliyle etik, bu kurallar daha geniş toplumsal normlarla uyumlu değilse modeli sınırlayabilir. Bir eğitmenin kişisel iyi veya kötü algısına aşırı vurgu yapması, AI'nın güçlü, tarafsız yanıtlar üretme yeteneğini kısıtlayabilir.

Bu konu, OpenAI'nin politik olarak daha doğru hale getirmek amacıyla kendi modeline müdahalesini hem öven hem de eleştiren AI meraklıları arasında tartışılmaya devam ediyor. Ancak kulağa paradoksal gelse de, bir AI'nın etik olanı, olmayandan ayırt edebilmesi için etik olmayan bilgiler kullanılarak eğitilmesi gerekir. Eğer AI, bu veri noktalarını biliyorsa, insanlar kaçınılmaz olarak sistemi "jailbreak" etmenin, bu kısıtlamaları atlamanın ve AI'nın eğitmenlerinin kaçınmaya çalıştığı sonuçları elde etmenin bir yolunu bulabilirler.

Jared Kaplan, teknolojinin pek çok kişinin tahmin edebileceğinden daha ileride olduğuna inanıyor. Geçen hafta Stanford MLSys Seminerinde şunları söyledi:

Bu sadece basit bir şekilde çalışıyor. Bu zararsızlık, siz bu süreçten geçtikçe gelişiyor.

İlginizi çekebilir: ABD, yapay zekayı yönetmeye kararlı!