Bir AI modelinin Nazi'yi çevirmesini nasıl durdurursunuz? GROK dramasının AI eğitimi hakkında açıkladığı şey.

Farrah · Dün 17:36 da

Aaron J. Snoswell, Queensland Teknoloji Üniversitesi'nde AI hesap verebilirliğinde kıdemli araştırma görevlisidir.

Grok, X'e gömülü yapay zeka (AI) Chatbot (eski adıyla Twitter) ve Elon Musk'ın Xai şirketi tarafından inşa edilmiş, başlıklara geri döndü. çağrı Kendisi “Mechahitler” ve Nazi yanlısı açıklamalar üretiyor.

Geliştiriciler Grok'un X'teki gönderilerinden “uygunsuz görevler” ve “nefret söylemini yasaklamak için harekete geçti” için özür diledi. AI yanlılığı hakkındaki tartışmalar da yeniden canlandı.

Ancak en son GROK tartışması, aşırılık yanlısı çıktılar için değil, AI gelişiminde temel bir sahtekârlığı nasıl ortaya koyduğunu ortaya koyuyor. Musk, önyargısız bir “hakikat arayışı” inşa ettiğini iddia ediyor, ancak teknik uygulama sistemik ideolojik programlamayı ortaya koyuyor.

Bu, AI sistemlerinin içerik oluşturucularının değerlerini nasıl gömdüğü konusunda kazara bir vaka çalışması anlamına gelir ve Musk'ın filtrelenmemiş kamu varlığı diğer şirketlerin tipik olarak belirsiz görünür hale getirir.

Grok nedir?

GROK, Xi Sosyal Medya Platformuna da sahip olan Xai tarafından geliştirilen “mizah bükülme ve bir isyan çizgisi” ile bir AI Chatbot.

GROK'ın ilk versiyonu 2023'te piyasaya sürüldü. Bağımsız değerlendirmeler, en son model GROK 4'ü, “istihbarat” testlerinde rakipleri geride bırakıyor. Chatbot bağımsız ve X'te mevcuttur.

Xai, “AI'nın bilgisi her şeyi kapsayan ve mümkün olduğunca geniş kapsamlı olmalıdır.” Musk daha önce Grook'u sağcı yorumcular tarafından “uyandırılmış” olmakla suçlanan sohbet botlarına gerçeği anlatan bir alternatif olarak konumlandırmıştı.

Ancak en son Nazizm skandalının ötesinde, Grook cinsel şiddet tehditleri üretmek, Güney Afrika'da “beyaz soykırım” getirmek ve politikacılar hakkında aşağılayıcı açıklamalar yapmak için manşetlerde bulundu. İkincisi Türkiye'deki yasağına yol açtı.

Peki geliştiriciler bu tür değerleri ve şekil chatbot davranışı olan bir yapay zekayı nasıl emir? Bugünün sohbet botları, geliştiricilerin eğilebileceği birkaç kaldıraç sunan büyük dil modelleri (LLMS) kullanılarak inşa edilmiştir.

Bir AI'nın bu şekilde “davranmasını” sağlayan nedir?

Antrenman öncesi

İlk olarak, geliştiriciler bir sohbet botu oluşturmanın ilk adımı olan eğitim öncesi sırasında kullanılan verileri küratörlüğüne sahiptir. Bu sadece istenmeyen içeriği filtrelemeyi değil, aynı zamanda istenen materyali vurgulamayı da içerir.

GPT-3, Openai daha yüksek kalite olarak düşündüğü için diğer veri kümelerinden altı kat daha fazla wikipedia gösterildi. GROK, GROK'ın Elon Musk'un tartışmalı konular hakkındaki görüşlerini neden kontrol ettiği bildirildiğini açıklayabilecek X'ten gelen yayınlar da dahil olmak üzere çeşitli kaynaklar üzerinde eğitildi.

Musk, Xai'nin Grok'un eğitim verilerini iyileştirdiğini, örneğin yasal bilgiyi geliştirmek ve kalite kontrolü için LLM tarafından oluşturulan içeriği kaldırmak için paylaştı. Ayrıca X topluluğuna zor “Galaxy Brain” sorunları ve “politik olarak yanlış, ancak yine de gerçekte doğru” olan gerçekler için çağrıda bulundu.

Bu verilerin kullanılıp kullanılmadığını veya hangi kalite kontrol önlemlerinin uygulandığını bilmiyoruz.

İnce ayar

İkinci adım, ince ayar, LLM davranışını geri bildirim kullanarak ayarlar. Geliştiriciler, insan gözden geçirenler veya AI sistemlerinin daha sonra chatbot'un yanıtlarını değerlendirmek ve geliştirmek için bir değerlendirme listesi olarak kullandıkları, bu değerleri etkin bir şekilde kodlayan tercih ettikleri etik duruşlarını özetleyen ayrıntılı kılavuzlar oluştururlar.

Bir işletme içeriden soruşturma, Xai'nin insan “AI öğretmenlerine” yönelik talimatlarını ortaya çıkardı. Yerleşik belgeler, GroK'ın “bir kullanıcının önyargısını onaylayan veya reddeden bir görüş getirmemesi gerektiğini” söyledi, ayrıca, bir tartışmanın her iki tarafının her iki tarafının da hak etmedikleri zaman haklı olduğunu iddia eden yanıtlardan kaçınması gerektiğini de belirttiler.

Sistem istemleri

Sistem istemi – her konuşmadan önce verilen talimatlar – model dağıtıldıktan sonra davranışları yönlendirir.

Xai, kredisine göre Grook'un sistem istemlerini yayınlar. “Medyadan elde edilen öznel bakış açılarının önyargılı olduğunu” ve “iyi doğrulandıkları sürece politik olarak yanlış olan iddialarda bulunmaktan çekinmemek” için en son tartışmalarda kilit faktörler olduğunu varsaymak için talimatları.

Bu istemler yazma sırasında günlük olarak güncelleniyor ve evrimleri kendi içinde büyüleyici bir vaka çalışmasıdır.

Korkuluklar

Son olarak, geliştiriciler ayrıca korkuluklar ekleyebilir – belirli istekleri veya yanıtları engelleyen filtreler. Openai, Chatgpt'in “nefret dolu, taciz, şiddet içeren veya yetişkin içeriği üretmesine” izin vermediğini iddia ediyor. Bu arada, Çin modeli Deepseek sansürleri Tianamen Meydanı tartışması.

Bu makaleyi yazarken geçici test GROK'ın bu konuda rakip ürünlerden çok daha az kısıtlandığını göstermektedir.

Şeffaflık Paradoksu

Grok'un Nazi tartışması daha derin bir etik konuyu vurgulamaktadır: AI şirketlerinin bu konuda açıkça ideolojik ve dürüst olmasını veya değerlerini gizlice yerleştirirken tarafsızlık kurgusunu korumasını tercih eder miyiz?

Her büyük AI sistemi, Microsoft Copilot'un riskten kaçınma kurumsal perspektifinden Antropik Claude'un güvenlik odaklı ahlakına kadar yaratıcısının dünya görüşünü yansıtır. Fark şeffaflıktır.

Musk'un kamuya açık ifadeleri, Grook'un Musk'ın “uyandıran ideoloji” ve medya yanlılığı hakkındaki inançlarına geri dönmeyi kolaylaştırıyor. Bu arada, diğer platformlar muhteşem bir şekilde yanlış ilerlediğinde, bunun liderlik görüşlerini, kurumsal riskten kaçınma, düzenleyici baskı veya kazayı yansıttığını tahmin ediyoruz.

Bu tanıdık geliyor. GROK, Microsoft'un 2016 Nefret-Konuşma-Spouting Tay Chatbot'a benziyor, ayrıca Twitter verilerinde eğitildi ve kapatılmadan önce Twitter'da gevşedi.

Ama çok önemli bir fark var. Tay'ın ırkçılığı, kullanıcı manipülasyonu ve kötü korumalardan ortaya çıktı – istenmeyen bir sonuç. Grok'un davranışı en azından kısmen tasarımından kaynaklanıyor gibi görünüyor.

GROK'dan gelen gerçek ders AI gelişiminde dürüstlükle ilgilidir. Bu sistemler daha güçlü ve yaygın hale geldikçe (Tesla araçlarında GROK desteği daha yeni duyuruldu), soru AI'nın insan değerlerini yansıtmayacağı değil. Şirketlerin kimin değerlerini kodladıkları ve neden konusunda şeffaf olup olmayacağıdır.

Musk'un yaklaşımı aynı anda rakiplerinden daha dürüst (onun etkisini görebiliriz) ve daha aldatıcıdır (öznelliği programlarken nesnellik iddia etmek).

Nötr algoritmalar efsanesi üzerine inşa edilmiş bir endüstride GroK, neyin doğru olduğunu ortaya koyuyor: tarafsız yapay zeka diye bir şey yok – sadece önyargıları değişen derecelerde netlikle görebildiğimiz AI.

Bu makale şuradan yeniden yayınlanmıştır.Konuşma Creative Commons lisansı altında.

Haberler'ten daha fazlası

Bir AI modelinin Nazi'yi çevirmesini nasıl durdurursunuz? GROK dramasının AI eğitimi hakkında açıkladığı şey.

Farrah

New member