Cümle tespiti, sürecin sadece bir parçasıdır.

Müziği değiştirmek veya bir odadaki ışıkları kapatmak için odanın diğer tarafından "Ok Google" diye bağırmak kesinlikle hissettiriyor inanılmaz, ancak görünüşte basit olan bu işlem, arkasında çalışan karmaşık bir teknolojiler ağı tarafından desteklenmektedir. sahneler.

Piyasadaki hemen hemen her büyük sanal asistan, asistanı uyandırmak ve sohbet etmek için kullandığınız bir çağrı cümlesine sahiptir. Peki sesli asistanlar, onlarla konuştuğunuzu nasıl anlıyor?

Cümle Tespiti Nasıl Çalışır?

Yukarıda bahsedildiği gibi, her sesli asistanın, asistanı uyandırmak ve başka komutlar vermek için kullandığınız bir "tetik cümlesi" veya uyandırma kelimesi vardır. Bu ifadeyi tespit etme süreci, küçük nüanslar dışında her asistanda aşağı yukarı aynıdır. Bununla birlikte, bu nüanslar, uyandırma komutunu gelişigüzel bir şekilde söylemekle birden çok kez bağırmak arasındaki fark anlamına gelebilir. Bazen sadece asistanın uyumaya devam etmesi için, bu bazen gerçekten can sıkıcı olabilen bir şey, özellikle de siz

sakinleşmeye yardımcı olması için sesli yardımcınızı kullanma.

İmaj Kredisi: grafik stüdyosu/Vecteezy

Genel olarak, çoğu "akıllı" hoparlör, tek görevi uyandırma komutunu algılamak ve ardından donanımın geri kalanını harekete geçirmek olan küçük bir devreye sahiptir. İşlemenin çoğu bulutta yapılır, ancak bariz gizlilik nedenlerinden dolayı kelime öbeği algılaması cihazda yapılır. Telefonlarda kelime öbeği algılama aşağı yukarı aynı şekilde çalışır.

Ayrıntılar çoğunlukla gizlidir, ancak bu algılama sistemleri, sesinizi algılamak ve bir anahtar oluşturmak üzere AI modellerini eğitmek için makine öğrenimi ve derin sinir ağları (DNN'ler) kullanır. Bu anahtar daha sonra belirli bir cümleyi ne zaman söylediğinizi doğrulamak için kullanılır ve geri kalan her şey daha fazla işlenmek üzere buluta gönderilir.

Google Asistan

"Ok Google" tespitini destekleyen telefonlar, genellikle kelime öbeğini algılayan ve ardından sorgunuzun geri kalanını buluta yamalayan bir anahtar kelime belirleme (KWS) sistemiyle gelir. Mobil cihazların sınırlı bilgi işlem gücü ve pil ömrü kısıtlamaları olduğundan, bu sistemler genellikle Google Nest hoparlörlerinde bulabilecekleriniz kadar iyi değildir.

Bu cihaz üstü KWS sistemi, cihazın mikrofonlarından sürekli olarak ses alır ve bir tetikleyici cümle algıladığında sunucuyla bir bağlantı başlatır. Google ayrıca, KWS sisteminin genel doğruluğunu iyileştirmek için sunucu tarafı Bağlamsal Otomatik Konuşma Tanıma'yı (ASR) kullanır. Bununla ilgili daha fazla bilgiyi şu adreste okuyabilirsiniz: Google'ın araştırma makalesi [PDF].

siri

Siri, "Hey Siri" algılama konusunda Google Asistan ile aynı şekilde çalışır. Apple, arka planda çalışan ve yalnızca bu iki kelimeyi dinleyen "çok küçük" bir konuşma tanıyıcıyı içeren sistemin nasıl çalıştığı konusunda şaşırtıcı bir şekilde açıktı. Bu detektör, her örnekte kaydedilen sesinizin akustik modelini konuşma sesleri üzerindeki bir olasılık dağılımına dönüştürmek için bir DNN kullanır ve esas olarak bir güven puanı oluşturur.

iPhone veya Apple Watch'unuz bunu, sesinizi saniyede 16.000'lik bir dalga formu örnekleri akışına dönüştürerek yapar. Bu daha sonra yaklaşık 0,01 saniyelik bir ses spektrumunu kapsayan bir dizi kareye indirilir. Ardından, bu çerçevelerden toplam 20 tanesi, bu kalıpları bir olasılığa dönüştüren algılama modeline beslenir.

Resim Kredisi: Elma

Sistem yeterince güvenle "Hey Siri" dediğinize karar verirse, Siri uyanır ve kalanını gönderir daha fazla analizin gerçekleştirildiği ve talep ettiğiniz eylemin gerçekleştirildiği buluta sorgunun gerçekleştirilen

Elbette bellek ve pil verimliliğini sağlamak için eklenen ek önlemler var. iPhone'unuzun Always On İşlemcisi (AOP), tam da bu nedenle aygıtın mikrofonlarına (iPhone 6S ve sonraki sürümlerde) erişebilir ve işlem gücünün küçük bir kısmı DNN'yi çalıştırmak için ayrılmıştır. Apple, makine öğrenimi web sitesinde tüm sisteme derinlemesine bir dalış yapıyor. makine öğrenimi.elma.

Alexa

Google Asistan ve Siri gibi, Alexa da işlem gücünün çoğunu satın alabileceğiniz Yankı hoparlörlerinde barındırmıyor. Bunun yerine konuşmacılar, Amazon'un otomatik konuşma tanıma (ASR) olarak adlandırdığı ve temelde konuşulan kelimeleri metne dönüştüren ve temeldeki sistemin bunları yorumlayıp buna göre hareket etmesine izin veren şeyi kullanır.

ASR, Alexa'nın nasıl çalıştığının temel temelini oluşturur. Bir kez daha, uyandırma sözcüklerini dinleyen yerleşik bir sistem var, bu durumda, "Alexa", "Amazon", "Yankı" veya "Bilgisayar" ve kullanıcı tarafından önceden belirlenen uyandırma sözcüğü duyulduğunda sistemin geri kalanını tetikler. saptanmış. hatta yapabilirsin Alexa cihazınızı "Hey Disney" kullanarak uyandırın eğer istersen.

Google Asistan gibi, Alexa'nın temel AI modelini sesinizi daha iyi algılaması için eğitebilirsiniz. Bu süreç, konuşulan uyandırma kelimesinin karşılaştırıldığı bir temel "anahtar" oluşturmayı içerir ve bir eşleşme bulunduğunda cihaz buna göre yanıt verir.

Sesli Asistanlar Her Zaman Dinliyor mu?

Muhtemelen zaten tahmin edebileceğiniz gibi, evet, öyleler. Aksi takdirde uyandırma kelimelerini tespit etmelerine imkan yok. Ancak, henüz gizlilik endişeleri nedeniyle tüm akıllı hoparlörlerinizi atmanız gerekmiyor.

Kullanıcıların söylediği her şeyi dinlemek, uzak bir sunucuya geri göndermek ve analiz etmek (veya depolamak) pratik açıdan mantıklı olmadığı noktaya kadar muazzam donanım ve finansal kaynaklar gerektirir perspektif. Buna Google, Apple ve Amazon gibi şirketlerin hâlihazırda uğraştığı büyük gizlilik kaygılarını da ekleyince bu fikir mantıklı gelmiyor.

Bu aynı zamanda, özellikle Google Pixels ve iPhone'lar olmak üzere, uyandırma sözcüğü algılama özellikleriyle telefonların performansını ve pil ömrünü büyük ölçüde etkiler. Telefonunuz sürekli olarak söylediklerinizi dinler ve bu sesi uzak bir sunucuya geri gönderirse, pilinizi tüketir ve cihazın performansını düşürür.

Cümle Tespitinde En Etkili Kim ve Neden?

Hepsi aynı genel konseptin biraz farklı uygulamalarını kullandığından, hangi sanal asistanın nesnel olarak en iyi cümle algılamaya sahip olduğunu nesnel olarak karşılaştırmak kolay değildir. Bununla birlikte, Google, Siri ve Alexa ile karşılaştırıldığında Google Asistan'ın önde başlaması sayesinde daha tutarlı kelime öbeği algılamasına sahip gibi görünüyor.

ChatGPT ve Bing Chat gibi büyük dil modellerini (LLM'ler) kullanan uygulamaların yaygınlaşmasına rağmen, Google Asistan en çok kullanılanlardan biri olma konumunu koruyor. popüler sanal asistanlar, akıllı TV'lerden araba stereo sistemlerine ve tabii ki akıllı telefonlara kadar her Android cihazında bir dokunuş uzağınızda olduğu için.

Siri ve Alexa'nın bu departmanda yapacakları bazı şeyler var, ancak ifade algılama söz konusu olduğunda, o kadar da uzakta değiller. Yine de odanın diğer ucundan Pixel'inizdeki Google Asistan'ı uyandırma şansınız, iPhone'unuzdaki Siri ile uyandıracağınızdan daha yüksek bir şansa sahip olacaksınız. Super Siri moduyla Siri'nin yeteneklerini artırın. Alexa, çoğunlukla Amazon'un Echo hoparlör serisinde kullanıldığından, bu hoparlörlerin kullanıcının sesini alabilecek şekilde tasarlandığını düşünürsek, burada küçük bir avantajı var.

AI Kullanışlı Olduğu Kadar Ürkütücü

AI asistanınızı yalnızca sesinizle çağırmak oldukça kullanışlı olabilir. Hayatımıza sorunsuz bir şekilde entegre olan bir özellik için, perde arkasında çoğumuzun genellikle düşünmediği pek çok şey oluyor.

Bununla birlikte, bu kolaylık aynı zamanda cihazınızın her zaman söylediklerinizi dinlemesindeki tedirginliği de beraberinde getiriyor. Şimdiye kadar, cihazdaki konuşma tanıyıcılar ve uyandırma sözcükleri, sanal yardımcınızın duydukları ile sizin söyledikleriniz arasında duruyor.