Ses getiren iş…

01:02 - 08.01.2024, Pazartesi

Yeni otomatik öğrenme teknolojileri, ses algılama, ses analizi ve yatarımı yoluyla potansiyel değer yaratma olanağı sunuyor.

Mark Purdy

Sesler her yerde… İnsanların ve hayvanların gevezelikleri, makinelerin takırtıları, doğal çevrenin arka plandaki uğultusu ve bir yaz gününde arıların vızıltısı. Bu sesler, ister yoldan geçen yayalar olarak, ister bir aracın veya makinanın güvenliğini test eden mühendisler olarak karar verme süreçlerimize önemli girdiler sağlıyor. Ancak yakın zamana kadar dinamik durumlarda - örneğin kalabalık bir tren istasyonu, bir alışveriş merkezi veya bir şehir parkında - seslerin sistematik analizi, aynı anda etkileşime giren çok sayıda karmaşık akustik sinyal nedeniyle zordu. Ancak sensör teknolojisindeki büyük ilerlemelerin yanı sıra muazzam miktarlarda akustik girdi toplayabilen ve kilit enformasyonu hızla ayıklayıp çıkarabilen derin öğrenme algoritmaları sayesinde bu durum artık değişiyor.

Sesle ilgili makine öğreniminin iki dalı ortaya çıkıyor: Biri seslerin algılanması ve analizine, diğeri ise yapay zeka (YZ) destekli ses yaratılmasına odaklanıyor. Her ikisinin de iş ve toplumsal değer yaratma açısından önemli bir potansiyeli var. Öyle ki, bir tahmine göre, YZ ses tanıma teknolojileri küresel pazarının 2021'de 4,1 milyar dolar olan büyüklüğünün 2030 itibarıyla üç kattan fazla artarak 14,1 milyar dolara ulaşacağı tahmin ediliyor.

TİCARİ VE EVSEL GÜVENLİK

Derin öğrenme algoritmaları artık çok çeşitli sanayi ve sektörlerdeki yeniliklere öncülük etmek için kullanılıyor. Tıpkı bu sayımızda yer vereceğimiz aşağıdaki ses algılama ve analiz uygulamaları gibi… ABD'deki işletmeler ve tüketiciler, binalar ve diğer fiziksel varlıkları korumak için her yıl milyarlarca dolar harcıyor. Amazon'un Echo'su gibi akıllı ev cihazları, farklı kullanıcıların kimliklerini doğrulamak ve kişiselleştirilmiş eğlence ve alışveriş deneyimleri sağlamak için zaten YZ destekli ses tanıma teknolojisini kullanıyor. Ancak artık YZ sistemlerinin sensörleri ve derin öğrenme algoritmaları, bir ofisin, fabrikanın veya askeri tesisin her yerinden gelen insan sesi olmayan ortam seslerini analiz ederek zararsız sesler ile cam kırılması gibi bir tehdidi işaret eden sesleri ayırt edebiliyor.

SAĞLIK HİZMETLERİ

YZ ses teknolojileri, özellikle hastalıkların erken aşamalarda düşük bir maliyetle ve hızla teşhis edilmesini sağlayarak sağlık hizmetlerinin birçok alanını dönüştürebilir. Sağlık hizmetlerinde kalp atış hızı, kan basıncı, solunum hızı ve stres düzeyi gibi bir dizi biyometrik verinin gerçek zamanlı ölçümlerini sağlamak için kullanılabilir. Örneğin, farklı akciğer hastalıklarının hırıltılarını ayıklayıp çıkarmak ve sınıflandırmak için derin öğrenmeden faydalanılıyor. Güney Koreli bir girişim olan Cochl, hastaların öksürme ve hapşırmalarına dayanarak sağlık sorunlarını hızlı bir şekilde tespit etmeyi amaçlayan YZ uygulamalarına öncülük ediyor. Bu tür erken uyarı sistemleri, Covid 19 ve gelecekteki virüs salgınlarıyla mücadelede çok önemli roller üstelenebilir.

İŞİTME CİHAZLARI

Kulaklıkları, kulak içi kulaklıkları ve diğer dinleme cihazlarını içeren "duyulabilirler" pazarında, akustik derin öğrenme teknolojileri, insanların dinleme deneyiminin iyileştirilmesine öncülük ediyor. Bu tür teknolojiler, istenmeyen gürültüleri engelleyebilir veya kullanıcıları potansiyel tehlikelere karşı uyarabilir. Otomatik öğrenme algoritmalarıyla dinleme içeriğini farklı bağlamlara göre de düzenlemek mümkün. Tıpkı solunum sinyalleri stres belirtileri gösterdiğinde daha rahatlatıcı veya daha yumuşak sesler çalmak veya kullanıcı egzersiz yaparken daha heyecan verici içerikler çalmak gibi.

PERAKENDE VE EĞLENCE SEKTÖRLERİ

Otomatik öğrenme teknolojileri artık bireyleri ayak seslerinden tanıyabiliyor. Şahısların ayırt edici ayak sesi yankılarını arka plandaki gürültülerden ve diğer yayaların seslerinden izole edebiliyor. Ses tabanlı yürüyüş tanıma teknolojileri, zayıf aydınlatma koşullarında bile yüz tanıma, bilgisayar görüşü veya biyometrik tanımlama sistemlerinden daha az müdahaleci oldukları için diğer gözetim sistemlerine kıyasla önemli avantajlar sağlıyor. Bu teknolojinin en büyük potansiyel uygulama alanlarından biri, perakende gibi yoğun ziyaretçi alan sektörler. Ses tabanlı ayak sesi tanıma, geri dönen müşterileri tanımak ve alışveriş yapan kişinin yolculuğundaki oyalanma noktalarını (farklı ürünleri karşılaştırmak veya belirli indirim veya promosyonlara tepki vermek için durakladıkları yerleri) tespit etmek veya müşterilerin adımlarının hızına bağlı olarak gün veya haftanın farklı zamanlarındaki zaman hassasiyetini saptamak için kullanılabiliyor.

KESTİRİMCİ BAKIM VE ERKEN UYARI SİSTEMLERİ

Derin öğrenme algoritmaları, aşınma ve yıpranmayı değerlendirmek ve belirli bir parçanın ne zaman değiştirilmesi gerekeceğini tahmin etmek için makineleriden ve motor parçalarından gelen gürültü basıncı ve yankılanma gibi akustik sinyalleri analiz edebiliyor. Geçmişte NASA, Uluslararası Uzay İstasyonu'ndaki ekipmanın işleyişini izlemek için ses algılama algoritmaları kullanmıştı. Derin deniz depremleri ve tsunamilere dair potansiyel bir erken uyarı sistemi geliştirmek amacıyla su altı akustik sinyallerini sınıflandırmak için de derin öğrenme algoritmaları kullanılıyor.

PAZARLAMA VE MEDYA İÇERİĞİ ÜRETİMİ

Konuşmayı metne dönüştürme teknolojileri bir süredir ortalıkta dolaşıyor ancak YZ destekli metinden konuşmaya veya videodan sese teknolojilerinin hızla gelişmesiyle artık bunun tersi yaşanıyor. Birleşik Krallık merkezli bir girişim olan AudioStack, 60'tan fazla dilde 600'ü aşkın sesten oluşan bir veri tabanından yararlanarak YZ destekli ses oluşturma olanağı sağlıyor. Kullanım senaryoları arasında farklı bölgesel nüanslar, müzik veya ses tonlarıyla sesli reklamlar oluşturulması, podcast'ler veya metin içeriğine dayalı olarak haber flaşları için sentetik veya klonlanmış sesler üretilmesi bulunuyor. DeepZen'in metinden yapay ses oluşturmak için kullandığı algoritma, içerikten heyecan, coşku veya rahatlık gibi farklı duygusal tonlar çıkarabiliyor. AutoFoley, filmlere atın dörtnala gidişi veya merdivendeki ayak sesleri gibi ses efektleri ekleyen Foley sanatçılarının rolünü kopyalamak için geliştirildi. Bunun gibi uygulamaların oyun, pazarlama ve yayıncılık gibi sektörlerde büyük bir potansiyeli var. Seslendirmeye yönelik küresel talebin yılda yüzde 9 artarak 2026 yılına kadar 2.3 milyar dolara ulaşacağı tahmin ediliyor.

İŞ DÜNYASI LİDERLERİNE ÖNERİLER

YZ tabanlı ses algılama ve yaratmanın yükselişi, özellikle fikri mülkiyet alanında işletmeler için çeşitli zorlukları beraberinde getirecek. Fırsatlardan yararlanmak ve riskleri azaltmak için iş dünyası liderleri şu önerileri dikkate almalı:

Ses varlıklarınızı anlayın ve koruyun. Çoğu büyük şirket, ürünleri veya hizmetleriyle ilgili iyi bilinen bir şarkı veya sloganı ticari marka haline getirir veya tescil ettirir. Ancak YZ tabanlı seslendirme dünyasında, işletmelerin aynı zamanda tüm ürün portföylerinin sonik izini—bir çamaşır makinesi veya elektrikli süpürgenin özgün uğultusunu, bir spor arabanın imza niteliğindeki ateşlemesini, bir gazoz kutusunun açılma sesini—dikkatli bir şekilde değerlendirmesi gerekecek. Ses sahteciliği, işletmelerin hazırlıklı olması gereken giderek büyüyen bir sorun haline gelecek.

Ürün deneyimini "seslendirin". İşletmeler ya kakofonik unsurları azaltmak (gürültülü bir çamaşır kurutma makinesi gibi) ya da estetik açıdan hoş sesleri (bir arabanın dönüş göstergesinin tik-tak sesi gibi) geliştirmek için ürünlerinin ses imzalarına giderek daha fazla önem verecek. Gelecekte üreticiler, mamullerine ürünün yaşam döngüsünü takip eden sonik imzalar ekleyebilir. Her türden işletmenin ses imzalarını kullanıcı arayüzü tasarımının temel bir parçası haline getirmesi gerekecek. Farklı kullanımlar ve bağlamlar için doğru işlevsel ve bilgilendirici sesleri belirleyerek, bunları görsel ve diğer duyusal öğelerle birleştirebilecek.

Sesi istemleştirin. Metin, ses, konuşma, görüntü ve kod oluşturup sentezleyebilen büyük dil modelleri olan üretken YZ sistemleri, işletmelerin tamamen yeni sesler ve ses kombinasyonları oluşturmasına veya sesi video, metin veya görüntülerle birleştirerek yeni ürün kampanyaları oluşturmasına giderek daha fazla olanak sağlıyor. Pazarlamacılar, tek bir komutla yeni bir dondurma markası için bir reklam melodisi oluşturabilecek, uzun bir blogu veya ürün açıklamasını bir müzik videosuna dönüştürebilecek, bir ürün jingle'ını genç ya da yaşlı tüketiciler veya yeni bir yurt dışı pazardaki potansiyel müşteriler için daha çekici hale getirecek şekilde değiştirebilecek. İvedi mühendislik artık YZ ve otomasyon alanlarında önemli bir disiplin haline gelirken, işletmelerin tasarımcıları, pazarlamacıları ve ürün geliştiricilerini ses tabanlı kullanım senaryoları için marka değerleri, ürünün ses tonu, fikri mülkiyet kuralları ve etik gibi faktörleri dikkate alan etkili istemler yazma yönünde eğitmesi gerekecek.

Bir deyişte de ifade edildiği gibi, "bilgelik, ömür boyu dinlemenin ödülü". Günümüzde YZ destekli akustik teknolojileri, daha önce erişemediğimiz bir ses dünyasının kapılarını açıyor. Tüketici davranışı, sağlık hizmetleri, şehir planlaması, ticari güvenlik ve altyapı yönetimi gibi çok çeşitli alanlarda işletmelere ve politika yapıcılara yeni anlayışlar ve fırsatlar sağlıyor. Bu yeni dünyayı dinlemeyi ve içgörülere göre hareket etmeyi seçen işletmeler, gelecekteki başarı için iyi konumlanmış olacak.

Mark Purdy (@mjpurdyecon) bağımsız bir ekonomi ve teknoloji araştırma şirketi olan Purdy & Associates'in genel müdürü.

BİZE ULAŞIN