Yapay zekanın risklerini yönetmek

07:30 - 18.02.2024, Pazar

Ticari yapay zeka hizmetleri, şirkete özel verileri riske atabiliyor ancak alternatifler mevcut.

Aron Culotta & Nicholas Mattei

Yapay zekanın (YZ) üst yönetimden saha personeline kadar organizasyonlardaki çalışanların günlük iş akışına entegre edilmesi, iç yazışma, yazılım geliştirme ve pazarlama kampanyaları oluşturma gibi işlerde verimliliği artırma potansiyeline sahip. Ancak şirketler, bir Samsung çalışanının özel şirket bilgilerini ChatGPT'ye yükleyerek ifşa etmesiyle basında geniş yer bulan olayın ortaya koyduğu gibi, verileri üçüncü taraf YZ hizmetleriyle paylaşmanın risklerine dair haklı endişeler taşıyor.

Bu endişeler, kullanıcıların uzak sunuculara gönderilen verilerin güvenliği ve mülkiyeti konusunda bulut bilişimin ilk günlerinde duyulan endişeleri hatırlatıyor. Yöneticiler artık verilerinin güvenliği, gizliliği ve mülkiyetine ilişkin bir dizi düzenleyici şarta ve iş gereksinimlerine uygun olgun bulut bilişim hizmetlerini güvenle kullanıyor. YZ hizmetleri, özellikle de üretken YZ, bu açıdan çok daha az olgunlaşmış durumda— kısmen hala yeni olmasından, ama aynı zamanda bu sistemlerin eğitim verileri konusunda neredeyse tükenmez bir iştahı bulunmasından ötürü.
OpenAI'ın ChatGPT'si gibi büyük dil modelleri (BDM'ler), Internet üzerinden erişilen muazzam bir yazılı içerik külliyatı üzerinde, söz konusu verilerin mülkiyetini göz önünde bulundurmaksızın eğitildi. Şirket, şimdi aralarında George R.R. Martin'in de bulunduğu çok satan yazarlardan oluşan bir grup tarafından, telif hakkıyla korunan eserleri izinsiz kullanarak BDM'nin kopya üretmesine olanak sağladığı gerekçesiyle açılan bir davayla karşı karşıya.

Verilerini proaktif bir şekilde korumaya çalışan geleneksel medya kuruluşları, YZ geliştiricileriyle lisanslama görüşmelerine başladı. Ancak OpenAI ile The New York Times arasındaki müzakereler yaz aylarında ba- şarısızlıkla sonuçlandı. Bununla birlikte üretken YZ ile deney yapan şirketlerin daha acil endişesi, kurum içi verilerden yararlanan BDM'ler için yeni kulla- nım durumlarının güvenli bir şekilde nasıl keşfedileceği, hele ticari BDM hizmetlerine yüklenen her şeyin eğitim verileri olarak yakalanabileceği göz önüne alındığında. O halde yöneticiler, müşteri güvenini kazanmak ve sürdürmek için kendi özel veri varlıklarını nasıl daha iyi koruyabilir ve kurumsal YZ geliştirme uygulamalarında veri yönetimini nasıl iyileştirebilir?

AÇIK KAYNAK ÇÖZÜMÜ

Veri mülkiyeti sorunlarının bariz bir çözümü, verileri üçüncü bir tarafa göndermek yerine yerel olarak kendi üretken YZ çözümlerini oluşturmak. Lakin fiili geliştirme maliyetleri bir yana, OpenAI'ın ChatGPT'yi eğitmesi için Microsoft'un yalnızca donanım altyapısını oluşturmaya yüz milyonlarca dolar harcadığı göz önüne alındığında bu nasıl pratik bir hamle olabilir? Elbette bu temel modelleri sıfırdan inşa etmenin maliyetine hiçbirimizin gücü yetmiyor.

Açık kaynaklı YZ hareketinin 1990'larda Linux'un yarattığına benzer bir heyecana yol açan gelişimi sayesinde üretken YZ ile daha güvenli deneyler yapmak giderek daha mümkün hale geliyor. O zamanlar, kaynak kodu herkes tarafından okunabilen ve düzenlenebilen ücretsiz bir işletim sisteminin geliştirilmesi, uluslararası bir geliştiriciler topluluğu doğurdu. Bu geliştiriciler birbirlerinin çalışmalarından yararlanarak olgun bir yazılım araçları paketi yarattı. Bu araçlar bu- gün internetin büyük bir bölümünün işletimini yürütüyor.

YZ için de artık böyle bir "Linux anı" geldi. Aralarında Bloom, Vicuna ve Stable Diffusion'ın da bulunduğu çok sayıda açık kaynaklı model, spesifik görevler için hassas bir şekilde ayarlanabilen temel modeller tedarik ediyor. LoRA ve BitFit gibi yüksek derecede optimize edilmiş eğitim rutinleri hakkında yapılan araştırmalar, bunların ticari donanım kullanılarak hassas bir şekilde ayarlanabileceğini gösterdi. Bu da ChatGPT'nin performansına yaklaşan modellerden oluşan bir ekosistemin ortaya çıkmasını sağladı. Ancak bir çok teknik zorluk devam ediyor. Bir Google araştırmacısının basına sızdırılan ve "hiç bir hendeğimiz yok" diye yakınarak içinde bulunulan korunmasız duruma dikkat çektiği kurum içi yazışması, bazılarının açık kaynak yeniliğindeki bu patlamayı teknoloji devlerinin BDM'ler üzerindeki kontrolü için bir tehdit olarak gördüğünü ortaya koyuyor. Ortaya çıkan bu açık kaynaklı araçların hızlı gelişiminden güvenli ve sorumlu bir şekilde yararlanmak, yine de insanlara ve süreçlere yeni yatırımlar yapılmasını gerektirecek.

ÖNLEM ALINMALI

Yerel olarak kontrol edilen YZ çözümleri özel verilerin denetim altında tutulmasını sağlasa da bunların güvenli, etkili ve sorumlu bir şekilde kullanılması için yöneticilerin yine de bir dizi önlem alması gerekiyor.

MODEL VE VERİ LİSANSLARINI İNCELEYİN

Açık kaynak terimi çoğu durumda yanıltıcı olabiliyor. Bazı modeller ticari kullanıma izin verirken bazıları akademik veya kar amacı gütmeyen kullanımla sınırlı. Bazen kaynak kodu modelle birlikte yayınlanırken başka zamanlarda bunların yalnızca biri yayınlanıyor. Yakın zamanda oluşturulan lisans türleri, zararlı veya sorumsuz olduğu düşünülen belirli kullanım durumlarını kısıtlıyor. Örneğin; Bloom ve Stable Diffusion...

Sorumlu YZ Lisansları kapsamında yayınlanıyor ve bu durum bunların belirli ceza yargılaması ve sağlık uygulamalarında kullanımını yasal olarak engelleyebiliyor. Modelin eğitildiği veri türlerini de dikkate almak gerekiyor. YZ modellerinin eğitimi için veri setlerine telif hakkıyla korunan materyalin dahil edilmesi, ABD'deki bazı senaryolarda adil kullanım olarak kabul edilse de içtihat henüz çözülmüş değil. Her modele beslenen verilerin kapsamlı bir muhasebesine sahip olmak, organizasyonların bu sorunları daha iyi yönlendirmesine yardımcı olacak. Veri Besleme Projesi gibi yeni ortaya çıkan çalışmalar, kullanıcıların içeriklerini ve risklerini daha iyi anlamasına yardımcı olmak için veri setlerine daha fazla yapı ve raporlama gereksinimleri ekliyor.

VERİ SIZINTISINI ÖNLEYİN

Organizasyonlar, verileri üçüncü taraf YZ hizmetlerine göndermese bile, sohbet robotları gibi açık uçlu kullanıcı arayüzleri aracılığıyla kendi verilerinin sızdırılması riskiyle karşı karşıya. Ortaya çıkan bir kullanım durumu, BDM'lerin bir veri tabanına yönelik konuşma arayüzü olarak hizmet vermesine olanak tanıyor. Bu müşterilerin kendi verilerine göre özelleştirilmiş ortak soruların yanıtlarını hızlı bir şekilde bulmasına olanak tanıyabilir. Ancak BDM'nin diğer müşteriler hakkındaki özel bilgileri veya şirketin özel verilerini ifşa etmesini önlemek zor olabilir. Pew tarafından yapılan araştırma, söz konusu sohbet araçlarının özellikle sağlık hizmetleri gibi hassas konularda birçok kullanıcı için endişe kaynağı olduğunu gösteriyor. Kötü niyetli kullanıcıların aracı açıkça açıklamaması talimatı verilen bilgileri açıklaması için kandırmaya çalıştığı hızlı enjeksiyon saldırıları ile verilerin korunması daha da zor hale geliyor. YZ sistemlerinin yaratıcı ve esnek ol- masını sağlayan bu özellik, rekabetçi bir ortamda bir güvenlik tehdidine dönüşebiliyor.

DEĞİŞEN VERİLERE UYUM SAĞLAYIN

Şirket içi modellere ev sahipliği yapmanın yol açtığı bir başka komplikasyon da bunların en son verileri kullanmasını sağlamakla ilgili. ChatGPT'nin (GPT-3) ilk sürümü, 2021'den önceki olaylarla ilgili soruları yanıtlayamıyordu, ancak daha yeni modeller, geçmiş verilerle önceden eğitilmiş modelleri mevcut verilerle birleştirebiliyor. Şirketler, sistemi yeni bilgilerle güncellemeyi dengelerken aynı zamanda kullanıcı deneyiminde istikrarı ve tutarlılığı da korumalı.

SİSTEMİK ÖNYARGILARI AZALTIN

YZ sistemleri, eğitim verilerine kodlanmış sosyal ve ekonomik eşitsizlikleri kolayca sürdürüp güçlendirebiliyor. BDM'lerin cinsiyet, ırk ve etnik kökene dayalı stereotipleştirmeye eğilimli olduğu iyi biliniyor, hemşirelerin kadın ve doktorların erkek olduğunu varsaymak gibi. Bu tür davranışların nasıl azaltılacağına dair önemli araştırmalar yapılmış olsa da sonuçta bu sorunun çözümü yalnızca teknolojik değil. Organizasyonlar, farklı alt gruplara eşit muamele edildiğinden emin olmak amacıyla YZ sistemlerini sürekli olarak denetlemeli, performanslarını ve sonuçlarını ölçmeli.

MÜŞTERİLERLE GÜVEN OLUŞTURUN

Şirketler, kişisel verilerin nasıl kullanıldığına ilişkin artan hassasiyetleri öngörmeli ve verilerini YZ eğitimi için kullanma niyetleri konusunda müşterilere karşı şeffaf olmalı—ve tercihen bireylerin müdahil olmasına izin vermeli. Bu özellikle ses, video ve sağlık verileri gibi son derece kişisel olarak algılanan veriler söz konusu olduğunda önemli. Bazı şirketlerin yaptığı gibi, yalnızca hizmet şartlarını güncellemek ve değişiklikle ilgili bildirimler göndermek, müşterilerin sömürüldüğünü hissetmesine neden olabiliyor ve güvene büyük ölçüde zarar verebiliyor. Örneğin, Zoom'un müşteri verilerinin kullanımına ilişkin bu tür hakları talep etme yönündeki son hamlesinin basında haber olmasının ardından kullanıcılardan ve gizlilik savunucularından gelen tepkiler, video konferans sağlayıcısını yalnızca değişiklikleri geri almaya değil, aynı zamanda hizmet şartlarında bu tür verileri asla YZ modellerinin eğitimide kullanmayacağını beyan etmeye zorladı.

YZ ÇAĞINDA SORUMLU VERİ KULLANIMI

Açık kaynaklı YZ modelleri sektörler genelinde benimsenmeye devam ederse, veri mülkiyeti konusunda endişe duyan yalnızca Büyük Teknoloji olmayacak. Bu modelleri kurum içi yardım araçları ve halka açık sohbet robotları gibi geniş kapsamlı görevlerde kullanmak isteyen her şirket, verilerin YZ sistemleri tarafından nasıl toplandığı ve kullanıldığıyla ilgili sorunlarla yüzleşmek zorunda kalacak.

Bu konular üzerinde çalışan yeni kurulmuş şirketler, resmi çalışma grupları ve akademik topluluklar olsa da en iyi uygulamalar ve önerilen politikalar hala gelişim aşamasında. Stanford Hukuk Fakültesi'nin YZ Veri Yönetimi Çerçevesi özellikle üretken YZ tekniklerini ele alıyor. Dünyanın en büyük bilgisayar profesyonelleri organizasyonu olan Bilgisayar Makineleri Derneği de yakın zamanda BDM'ler de dahil olmak üzere üretken YZ sistemlerinin tasarımı ve dağıtımına ilişkin bir dizi kılavuz yayınladı. Bu kaynaklar dağıtıma ilişkin sınırlamalar, veri ve çıktı mülkiyeti ve kişisel veri kontrolü de dahil olmak üzere burada tartışılan bazı konuları kapsıyor. Açık kaynaklı YZ'den yararlanmak isteyen her büyüklükteki organizasyonun eğitim modelleri için verilerin sorumlu ve etik şekilde toplanması ve kullanılmasına dair ilgili yönergeleri ve çerçeveleri yakından takip etmesini öneriyoruz. Bunların herhangi bir potansiyel projenin potansiyel teknik ve sosyal riskleri üzerine enine boyuna düşünmek, güvenli ve etkili bir kullanım için sıkı denetim ve izleme süreçleri geliştirmek gibi alanlarda yardımları olabilir.

Tulane'de bu tür sorunları araştırmak için yakın zamanda Topluluk Odaklı YZ Merkezi'ni kurduk. Teknoloji uzmanları, sosyal bilimciler ve sivil haklar aktivistlerinden oluşan disiplinler arası bir ekip aracılığıyla, YZ'nin çalışmalarını nasıl etkilediğini anlamak için New Orleans'taki kar amacı gütmeyen kuruluşlar ve topluluklarla birlikte çalışıyoruz. YZ'nin arkasındaki veri ve teknolojinin kontrolünü ondan en çok etkilenen kişilere bırakacak YZ sistemleri oluşturmanın yeni yolları üzerine kafa yoruyoruz. Çalışmalarımız, tüm paydaşların bu sistemlerin yarattığı değere dahil edilmesi gerektiğini kabul eden katılımcı veya insan merkezli YZ ve veri için sarf edilen çabaların bir parçası. Şirketler YZ geliştirme konusunda daha derinlere ilerledikçe, ortak değerlere bağlı kalmak, şirketlerin topladığı ve kullandığı verileri daha iyi yönetmesine yardımcı olabilir.

-Aron Culotta: Tulane Üniversitesi'nde bilgisayar bilimleri doçenti ve Topluluk Odaklı Yapay Zeka Merkezi'nin yöneticisi.

-Nicholas Mattei: Tulane Üniversitesi'nde bilgisayar bilimleri yardımcı doçenti.

BİZE ULAŞIN