Küçük veri ve birleştirilmiş otomatik öğrenme

06.11.2023
Birleştirilmiş otomatik öğrenme (BOÖ), yapay zeka modellerinin eğitimine yönelik umut verici yeni bir yaklaşım. Sistemle, küçük veri kümelerine sahip şirketlerin tescilli bilgileri korunurken, yapay zekadan daha fazla yararlanmak için iş birliği yapmasına imkan tanıyor.

Yannick Bammens & Paul Hünermund

Yüksek bütçeler, yeteneğe erişim ve bilgi işlem altyapısına yapılan devasa yatırımlar, yapay zekadaki (YZ) büyük atılımların çoğunun neden Amazon, Google ve Microsoft gibi bir grup seçkin büyük teknoloji şirketinden geldiğini kısmen açıklıyor. Teknoloji devlerini YZ'den avantaj elde etmek isteyen diğer birçok işletmeden ayıran şey, teknoloji devlerinin platform operatörü olarak topladığı muazzam miktarda veri. Yalnızca Amazon, kendi platformunda her ay milyonlarca alım satım işlemi gerçekleştiriyor. Tüm bu 'büyük veri', karmaşık otomatik öğrenme algoritmalarını geliştirmek ve eğitmek için kullanılabilecek zengin bir stratejik kaynak -ancak bu, aynı zamanda, çoğu işletmenin erişemeyeceği bir kaynak.

Büyük veriye erişim, daha karmaşık ve daha iyi performans gösteren YZ ve otomatik öğrenme modellerine olanak tanıyor ancak birçok şirketin çok daha küçük veri kümeleriyle yetinmesi gerekiyor. Daha küçük şirketler ve sağlık, imalat veya inşaat gibi geleneksel sektörlerde faaliyet gösteren şirketler için veri eksikliği, YZ'ye yönelmenin önündeki en büyük engel. Büyük ve küçük veri organizasyonları arasındaki dijital uçurum, kendi kendini güçlendiren veri ağı etkileri nedeniyle ciddi bir endişe kaynağı: Daha fazla veri daha iyi YZ araçlarına yol açıyor; daha iyi araçlar daha fazla müşteri çekiyor ve daha fazla müşteri daha fazla veri üretimini beraberinde getiriyor. Söz konusu durum, büyük şirketlere güçlü bir rekabetçi YZ avantajı sağlarken küçük ve orta ölçekli organizasyonlar buna ayak uydurmakta zorlanıyor.

Birden çok küçük ölçekli şirketin verilerini ortaklaşa kontrol edilen merkezi bir depoda bir araya getirmesi fikri, bir süredir ortalıkta dolaşıyor ancak veri gizliliğiyle ilgili endişeler bu tür girişimleri boşa çıkarabilir. Birleştirilmiş Otomatik Öğrenme (BOÖ), dağıtılmış veriyi kullanırken gizliliğin korunmasını da sağlayan işbirlikçi YZ aracılığıyla bu sorunun üstesinden gelmeye çalışan son yenilikçi teknolojilerden biri. BOÖ, büyük veriye sahip olan şirketlerle olmayanlar arasındaki dijital uçurumun aşılmasını, dolayısıyla ekonominin daha büyük bir bölümünün YZ'nin avantajlarından yararlanmasını sağlayarak oyunun kurallarını değiştiren bir unsur haline gelebilir. BOÖ, yalnızca teoride umut verici görünen bir teknoloji değil; aşağıda ayrıntılarıyla anlatacağımız gibi, halihazırda sanayide başarılı uygulamaları bulunuyor. Ama önce nasıl çalıştığını açıklayalım.

ÖLÇEK DEZAVANTAYLA BAŞ ETMENİN YOLU

BOÖ, küçük veri organizasyonlarının karmaşık otomatik öğrenme modellerini eğitmesine ve kullanmasına olanak tanıyan bir yaklaşım. Küçük verinin tanımı, YZ tarafından ele alınan sorunun karmaşıklığına bağlı. Örneğin eczacılıkta, ilaç keşfi için bir milyon açıklamalı moleküle erişime sahip olmak, geniş kimyasal alan göz önüne alındığında nispeten küçüktür. Göz önüne alınması gereken diğer faktörler arasında, otomatik öğrenme tekniğinin basit bir lojistik regresyondan veriye çok daha aç sinir ağına kadar uzanan karmaşıklığının yanı sıra uygulama için gereken doğruluk bulunuyor: Bazı YZ uygulamalarında (tıbbi teşhis koymak gibi) işlerin doğru yapılması, metin yazan birine emoji önermek gibi diğer uygulamalardan çok daha fazla kritik öneme sahip. Nispeten küçük organizasyonlar ve geleneksel dijital olmayan sektörlerde faaliyet gösterenler, diğer her şey eşit olduğunda bile, çok daha ciddi veri bağlantılı ölçek dezavantajlarıyla karşı karşıya kalıyor.

Bu sorunla boğuşan şirketlere yardımcı olmak için tasarlanmış halihazırda birkaç yararlı taktik ve teknik bulunuyor. Firmalar arası veri havuzu, transfer öğrenimi (önceden eğitilmiş modellerin yeniden kullanılması) ve kendi kendini denetleyen öğrenme (yapay bir veri seti üzerinden bir modelin eğitilmesi) gibi. Ancak veri havuzuna yönelik merkezi yaklaşım, veri aktarımını yasaklayan yasal kısıtlamaların veya gizli tutulması gereken hassas verilerle ilgili stratejik kaygıların bulunduğu bazı durumlarda uygun olmayabilir. Benzer şekilde, transfer öğrenimi ve kendi kendini denetleyen öğrenme, yalnızca bir şirketin ilgili alanlarda belirli görevleri yerine getiren otomatik öğrenme modellerinden elde ettiği önceki içgörülerden yararlanabilmesi durumunda geçerli yaklaşımlardır. Bu her zaman mümkün olmayabilir. BOÖ, küçük veri şirketlerinin YZ araç seti için güçlü bir ek aygıt olabilir ve diğer küçük veri tekniklerini kritik bir şekilde tamamlayabilir.

Birleştirilmiş öğrenme kurulumunda, bir otomatik öğrenme modeli, her biri kendi yerel verilerine sahip olan farklı organizasyonların denetimindeki birden fazla dağıtılmış sunucu üzerinde eğitilir. Bunlar bireysel model güncellemelerini bir araya getiren ve eğitim sürecini koordine eden merkezi bir orkestratör ile iletişim kurar. (Bkz. Birleştirilmiş Otomatik Öğrenmeye Genel Bir Bakış) En basit durumda, öğrenme hedefi, veri dağıtımına ilişkin temel tanımlayıcı gerçekleri -ortalamalar veya varyanslar gibi- elde etmek olacaktır. Örneğin, her şirket bir tesisindeki belirli bir imalat sürecinin ortalama arıza oranını hesaplayabilir ve bunu orkestratöre gönderebilir; sonrasında da orkestratör bu bireysel katkıları bir araya getirerek daha doğru bir ortak tahmin oluşturur.

BOÖ, çeşitli algoritmalar için kullanılabilen dağıtılmış bir otomatik öğrenme tekniğidir. Örneğin, bir sinir ağının ağırlıkları veya gradyanlarının organizasyonlar genelinde benzer şekilde ortalaması alınabilir. Orkestratör, ilk model mimarisini kurmaktan ve genellikle birden fazla yinelemede gerçekleşen eğitim sürecini koordine etmekten sorumludur. Sonuçta, şirketler, yerel verilerindeki kısıtlamaların ideal olmayan model doğruluğuna yol açacağı göz önüne alındığında, normalde ulaşamayacağı kadar çok sayıda parametreyle karmaşık otomatik öğrenme modellerini eğitebilir. Daha da önemlisi, BOÖ uygulandığında ham şirket verileri gizli kalır ve yalnızca tahmini ağırlıklar ve diğer parametreler gibi istatistiksel veriler paylaşılır ve toplanır. Her biri x sayıda veri noktasına erişimi olan 10 küçük veri şirketi, bu şekilde iş birliği yaptığında, YZ/otomatik öğrenme uygulamalarında, 10 kat x veri noktasına erişimi olan çok daha büyük bir şirketle kabaca benzer tahmin gücüne ulaşabilir, üstelik veri gizliliğinden hiç ödün vermeden.

İLAÇ SEKTÖRÜNDE BOÖ

İlaç sektöründe yenilik çok pahalı ve zaman alan bir iş. Yeni bir ilacı pazara sunmanın ortalama maliyeti 2022 itibarıyla yaklaşık 2.3 milyar dolar ve bu süreç 10 yıldan uzun sürebiliyor. İlaç keşfindeki en önemli zorluklardan biri, olası moleküllerin son derece yüksek sayısı (1060'ın katları) ve bununla bağlantılı olarak, bu devasa kimyasal alanda umut verici niteliklere sahip molekülleri bulma zorluğu. Bu kadar yüksek maliyetler ve çok sayıda moleküler olasılık karşısında, yüksek performanslı tahmine dayalı otomatik öğrenme modelleri, ilaç sektörünün YZ odaklı ilaç keşif gündeminin temel taşı. Alphabet gibi büyük teknoloji oyuncularının ilaç keşfine girişmek için YZ ve otomatik öğrenme alanındaki derin uzmanlıklarını kullanmaları nedeniyle de ilaç şirketleri baskıyla karşı karşıya.

İlaç keşif verilerinin paylaşılmasındaki isteksizliğin ve işbirlikçi YZ'nin ilaç keşfinde verimliliği artırmadaki büyük potansiyelinin farkında olan Janssen Pharmaceutica'nın bilimsel direktörü Hugo Ceulemans, 2016 yılında BOÖ fikrini kamuoyuna duyurmaya ve meslektaşlarıyla görüşmeler yapmaya başladı. Ceulemans'ın çabaları 2019'da 10 ilaç şirketi tarafından Melloddy konsorsiyumunun oluşturulmasına katkıda bulundu. Ceulemans, blogunda kaleme aldığı bir makalede, ilaç şirketlerinin daha önce tahmine yönelik çabaları desteklemek için veri havuzu oluşturduğunu ancak verinin pahalı bir rekabetçi aktif olması nedeniyle işbirliğinin kapsamının sınırlı kaldığını hatırlattı. Ceulemans'a göre yeni BOÖ konsorsiyumu, temel veri katkılarının ilgili veri sahiplerinin kontrolü altında kalmasına ve paylaşılmamasına imkan tanıyacağı için çok daha iddialı bir kapsama sahip olabilirdi.

Adını "ilaç keşfi için otomatik öğrenme defter orkestrasyonu" (Machine Learning Ledger Orchestration For Drug Discovery) teriminden alan Melloddy, BOÖ'nün fizibilite ve etkililik açısından test edilmesini amaçlayan üç yıllık bir pilot projeydi. Proje, Avrupa Birliği tarafından finanse edildi. Avrupa Komisyonu, Melloddy'yi ilaç dışındaki sektörleri de kapsayacak içgörüler üretmeye yönelik bir test örneği olarak değerlendirdi. Katılımcı şirketler arasında AstraZeneca, Bayer, GSK, Janssen Pharmaceutica, Merck ve Novartis bulunuyordu. Bu şirketler, Owkin (bir YZ biyoteknoloji girişimi) ve KU Leuven (YZ odaklı ilaç keşfi alanında uzman bir üniversite) gibi teknoloji ortakları ve akademik ortaklar tarafından desteklendi.

Katılımcı ilaç şirketleri, birbirlerinin verilerini gerçekte paylaşmadan kullanarak otomatik öğrenme modellerini dünyanın en büyük ilaç keşif veri seti üzerinde eğitebiliyordu; bu da gelecek vadeden moleküller hakkında daha doğru tahminlere olanak tanıdı ve ilaç keşif sürecinde verimliliği artırdı. Owkin'in baş ürün sorumlusu Mathieu Galtier, bir blog yazısında, Melloddy'nin birleştirilmiş öğrenmeyi kullanması sayesinde verilerin hiçbir ilaç ortağının altyapısından asla çıkmadığını açıkladı. Otomatik öğrenme süreci, katılımcı ilaç şirketlerinin her birinde yerel olarak gerçekleştirildi ve yalnızca modeller paylaşıldı. Galtier, "Ortaklar arasında sadece istatistiki enformasyonun paylaşılmasını garanti altına almak için önemli bir araştırma çabası harcanıyor" diye yazdı.

2022'de tamamlanan Melloddy pilot projesinin sonuçları, dağıtılmış verileri kullanarak işbirliğine dayalı YZ için güvenli, çok taraflı bir platform oluşturmanın mümkün olduğunu ve BOÖ yaklaşımının kullanılmasıyla otomatik öğrenme modellerinin performansının gerçekten arttığını ortaya çıkardı.

STRATEJIK MÜLAHAZALAR

Bir BOÖ konsorsiyumu kurarken, planlama sürecine dahil olanların teknolojiyi düzenlemek ve ortakları teşvik etmek için en optimal yaklaşımın ne olduğu üzerine dikkatle kafa yorması gerekiyor. Seçilen orkestratör, BOÖ sürecinin etkili bir şekilde yönetilmesinde kritik bir rol üstleniyor. Küçük veri organizasyonlarının liderleri bazen büyük teknoloji şirketleriyle birlikte çalışmaya isteksiz olabiliyor çünkü eşit şartlarda faaliyet gösteren daha küçük teknoloji ortaklarıyla daha yakın ilişkiler kurabiliyorlar ve süreç üzerinde daha büyük bir stratejik kontrolü muhafaza edebiliyorlar. Hatta bazıları, ilaç sektöründe olduğu gibi, büyük teknoloji şirketlerinin kendi sektörlerine yönelmesinden korkuyor.

Melloddy örneğinde ilaç şirketleri, konsorsiyumun BOÖ platformunun orkestrasyonu için yeni kurulmuş bir şirket olan Owkin'i seçti. Bu birçok BOÖ girişimi için iyi bir yaklaşım olabilir, ancak yeni şirketlerin yüksek başarısızlık oranı göz önüne alındığında riskli de olabilir: Yeni şirket başarısız olursa konsorsiyum da dağılabilir. Ayrıca yeni şirketin konsorsiyuma katılmayan bir rakipten mali kaynak bulması gibi potansiyel bir risk de mevcut. Garip bir durum ama gerçekleşme ihtimali hiç de az değil. Bu nedenle eğer yeni bir girişim ana teknoloji düzenleyicisi olarak seçilirse, konsorsiyum ortaklarının kurumsal risk sermayesine (KRS) yatırım yapma seçeneğini ciddi bir şekilde düşünmesi gerekiyor. Ortaklar girişimde büyük bir müşterek KRS hissesine ve ilk reddetme hakkına sahip olduğunda, teknoloji girişiminin geleceği üzerinde de çok daha güçlü bir kontrole sahip olur.

BOÖ, bazı katılımcıların yerel modellerinin doğruluğunu artırmak için ilgili tüm yerel verileri kullanmadığı veya gerekli veri altyapısına yatırım yapmayı ihmal ettiği bir teşvik sorununa yol açabilir. Diğer konsorsiyum ortaklarının yaptığı veri katkılarına güvenerek çaba harcamamayı tercih edebilirler. Bu bedavacılık davranışı, daha sonra iyi niyetli katılımcıların motivasyonunu ve katılımını baltalar. BOÖ konsorsiyumu, bahsedilen sorunun önüne geçmek için katkıda bulunulan verinin miktarı ve kapsamı açısından uygun ortak taahhütleri üzerinde anlaşabilir ve bunları bir sözleşme ile önceden belirleyebilir. Ayrıca yerel model güncellemeleri, ortak modelin genel doğruluğuna olan katkıları açısından orkestratör tarafından takip edilebilir ve BOÖ hizmet ücretinin ödenmesi, her ortağın birleştirilmiş öğrenme sürecine katkısıyla orantılı hale getirilebilir.

Bir BOÖ konsorsiyumu oluşturmaya yönelik ilk adımları atarken iş ortaklarının katılımını sağlamak hayati önem taşıyor. Bu nedenle ortaklar, veri taahhütleri karşılığında konsorsiyumun hedeflerinin tanımlanmasına dahil edilmeli. AI Canvas, otomatik öğrenme kullanım senaryolarının ve gerekli eğitim verilerinin belirlenmesinde ve tartışılmasında faydalı olabilecek bir karar verme aracı. İş ortaklarına yaklaşırken çoğu BOÖ uygulamasındaki etkili model güncellemelerinin ilgili tüm model değişkenlerine ilişkin yerel verilere erişim gerektirdiğini unutmayın. Sonuçta aynı sektörde, benzer iş süreçlerini ve verileri paylaşan uygun ortaklar çoğu zaman bulunur. Bu noktada doğrudan rakipler yerine diğer coğrafi pazarlara hizmet verenler gibi dolaylı rakiplerle çalışmak, potansiyel çatışmaları en aza indirmek açısından avantajlı olabilir. BOÖ'ye girmeye hazırlanan küçük veri organizasyonlarının daha iddialı projelere soyunmadan önce iş ortakları arasında momentum ve güven oluşturmak amacıyla başarılabilir otomatik öğrenme projeleriyle işe başlamasını öneriyoruz.

BOÖ, 2016 yılında bir grup Google mühendisi tarafından geliştirilen, hala genç bir YZ yaklaşımı. Ancak kaydedilen ilerleme gayet hızlı ve bu yaklaşımın çeşitli iş sektörleri tarafından benimsenmesinde bir artış bekleyebiliriz. Küçük veri organizasyonlarının BOÖ'yü stratejik vizyonlarına dahil eden uzak görüşlü liderleri, gelecekteki başarının şekillendirilmesinde YZ'nin dönüştürücü gücünden yararlanmada çok daha iyi bir konuma sahip olacak.

Yannick Bammens: Belçika'daki Hasselt Üniversitesi'nde strateji ve yenilik profesörü, ayrıca buradaki AI4Business girişiminin eş lideri.
Paul Hünermund:,Danimarka'daki Kopenhag İşletme Okulu'nda strateji ve yenilik yardımcı doçenti, ayrıca buradaki yıllık Nedensel Veri Bilimi Toplantısı'nın eş düzenleyicilerinden biri.

X
Sitelerimizde reklam ve pazarlama faaliyetlerinin yürütülmesi amaçları ile çerezler kullanılmaktadır.

Bu çerezler, kullanıcıların tarayıcı ve cihazlarını tanımlayarak çalışır.

İnternet sitemizin düzgün çalışması, kişiselleştirilmiş reklam deneyimi, internet sitemizi optimize edebilmemiz, ziyaret tercihlerinizi hatırlayabilmemiz için veri politikasındaki amaçlarla sınırlı ve mevzuata uygun şekilde çerez konumlandırmaktayız.

Bu çerezlere izin vermeniz halinde sizlere özel kişiselleştirilmiş reklamlar sunabilir, sayfalarımızda sizlere daha iyi reklam deneyimi yaşatabiliriz. Bunu yaparken amacımızın size daha iyi reklam bir deneyimi sunmak olduğunu ve sizlere en iyi içerikleri sunabilmek adına elimizden gelen çabayı gösterdiğimizi ve bu noktada, reklamların maliyetlerimizi karşılamak noktasında tek gelir kalemimiz olduğunu sizlere hatırlatmak isteriz.