İlan

Hemen hemen tüm gadget'larımızla konuşabiliriz, ancak tam olarak nasıl çalışır? “Bu hangi şarkı?” Diye sorduğunuzda ya da “Annemi Ara” deyin, modern teknolojinin bir mucizesi oluyor. Ve son teknoloji ürünü gibi hissettirse de, cihazlarla konuşma fikri on yıllara dayanıyor - neredeyse bilimkurgudaki jetpacklere kadar!

Bugün, ses odaklı bilgi işlemlere verilen dikkatin büyük kısmı akıllı telefonlarda. Apple, Amazon, Microsoft ve Google, her biri elektronikle konuşmak için kendi yolunu sunan zincirin en üstünde yer alıyor. Kim olduklarını biliyordunuz: Siri, Alexa, Cortana ve isimsiz “Ok, Google” varlık. Bu da büyük bir soru doğuruyor…

Bir cihaz nasıl konuşulur ve bunları anlayabileceği komutlara dönüştürür? Özünde, kalıp eşleşmesi ve bu kalıplara dayalı tahminler yapılması söz konusudur. Daha spesifik olarak, ses tanıma karmaşık bir görevdir Akustik Modelleme ve Dil Modelleme.

Akustik Modelleme: Dalga Formları ve Telefonlar

dalga şekli

Akustik Modelleme, bir konuşma dalga biçimi alma ve bunu istatistiksel modeller kullanarak analiz etme işlemidir. Bunun için en yaygın yöntem

instagram viewer
Gizli Markov Modellemesidenir. telaffuz modelleme konuşmayı telefon adı verilen bileşen parçalarına ayırmak (gerçek telefon cihazlarıyla karıştırılmamalıdır). Microsoft uzun yıllardır bu alanda önde gelen bir araştırmacıdır.

Gizli Markov Modellemesi: Olasılık Durumları

Gizli Markov Modelleme, mevcut durumun çıktıyı analiz ederek belirlendiği tahmini bir matematiksel modeldir. Wikipedia'da bir iki arkadaş kullanarak harika bir örnek.

Farklı şehirlerde yaşayan iki arkadaş - Yerel Arkadaş ve Uzak Arkadaş - düşünün. Yerel Arkadaş, Uzak Arkadaşın yaşadığı yerdeki havanın nasıl olduğunu bulmak istiyor, ancak Uzak Arkadaş sadece o gün yaptıklarından bahsetmek istiyor: yürümek, alışveriş yapmak veya temizlemek. Her etkinliğin günün hava durumuna bağlı olma olasılığı.

Gizli Markov Modellemesi

Mevcut tek bilgi olduğunu varsayalım. Bununla birlikte, Yerel Arkadaş havanın günden güne nasıl değiştiği eğilimlerini bulabilir ve bu eğilimleri kullanarak, bugünkü havanın, arkadaşının dünkü etkinliğine dayanarak ne olacağı konusunda eğitimli tahminler yapmaya başlayabilir. (Yukarıdaki sistemin bir şemasını görebilirsiniz.)

Daha karmaşık bir örnek istiyorsanız, Matlab'daki bu örnek. Ses tanımada, bu model esas olarak dalga formunun her bir parçasını daha önce gelenlere ve sonra gelenlere karşı ve söylenenleri anlamak için dalga formları sözlüğü ile karşılaştırır.

Esasen, eğer bir “th” sesi çıkarırsanız, o sesi genellikle önce ve sonra gelen en olası seslere karşı kontrol edecektir. Belki de bu, “e” sese, “at” sese karşı kontrol etmek anlamına gelir. Örüntü doğru eşleştiğinde, tüm kelimenizi alır. Bu aşırı basitleştirme, ancak görebilirsiniz Microsoft’un açıklaması burada.

Dil Modelleme: Sesten Daha Fazlası

Akustik Modelleme, bilgisayarınızın sizi anlamasına yardımcı olmak için uzun bir yol kat eder, ancak telaffuzdaki eş anlamlılar ve bölgesel varyasyonlar ne olacak? Dil Modelleme devreye giriyor. Google, özellikle bu alandaki N-gram Modelleme.

Google konuşmanızı anlamaya çalışırken bunu, büyük Sesli Arama bankasından ve YouTube transkripsiyonlarından elde edilen modellere dayanarak yapar. Bu komik video altyazılarının tümü, Google'ın sözlüklerini geliştirmesine yardımcı oldu. Ayrıca, ayrıldıkları GOOG-411 insanların nasıl konuştukları hakkında bilgi toplamak.

shutterstock_70757203

Bu dil koleksiyonunun tümü, sağlam bir kelime sözlüğü ve nasıl ses çıkardığı için geniş bir telaffuz ve lehçe dizisi oluşturdu. Bu, ham olasılıklara dayalı kaba kuvvet eşleştirmesinden daha fazla hata oranına sahip eşleşmelere izin verir. Kısa bir makale okuyabilirsiniz yöntemlerini burada anlatmak.

Google bu alanda lider olmasına rağmen, sürekli alan da dahil olmak üzere geliştirilmekte olan diğer matematiksel modeller de vardır. yapay zeka araştırmalarından doğan daha gelişmiş teknikler olan modeller ve konumsal dil modelleri. Bu yöntemler, insanların birbirlerini dinlerken ne tür akıl yürüttüklerini tekrarlamaya dayanır. Bunlar, hem arkalarındaki teknoloji açısından hem de bu modelleri haritalamak için gereken matematik ve programlama açısından çok daha ileridir.

N-Gram Modelleme: Olasılık Hafızayla Buluşuyor

N-gram Modelleme olasılıklara dayalı olarak çalışır, ancak mevcut bir kelime sözlüğünü, olasılıklar için dallanan bir ağaç ağacı oluşturmak için kullanır ve bu da verimlilik uğruna yumuşatılır. Bir bakıma, bu N-gram Modellemenin yukarıda belirtilen Gizli Markov Modellemesindeki belirsizliği ortadan kaldırdığı anlamına gelir.

Yukarıda belirtildiği gibi, bu yöntemin gücü, kelimeler ve kullanım, sadece ilkel değil sesleri. Bu, programa “dövmek” ve “pancar” gibi sesteş sözcükler arasındaki farkı söyleme yeteneği verir. Bağlamsaldır, yani dün geceki puanlardan bahsederken, program pancar çorbasıyla ilgili kelimeleri çekmiyor demektir.

Ancak bu modeller, esas olarak, daha uzun kelime öbeklerinde kelimelerin olasılıklarıyla ilgili sorunlar nedeniyle, dil için en iyisi değildir. Bir cümleye daha fazla kelime ekledikçe, ilk kelimelerinizin tam düşünceniz için gereken her şeyi yüklemesi olası olmadığından bu model biraz azalır.

Ancak, uygulaması basit ve kolaydır, bu da Google gibi sunucuları hesaplama sorunlarına atmaktan hoşlanan bir şirket için mükemmel bir eştir. N-gram Modelieng hakkında daha fazla bilgiyi şu adresten yapabilirsiniz: Washington Üniversitesiveya bir Coursera'da ders.

Bulutlarda Bağırmak: Uygulamalar ve Cihazlar

Siri'yi kullanan herkes yavaş bir ağ bağlantısının hayal kırıklığını biliyor. Bunun nedeni, Siri'ye komutlarınızın Apple tarafından çözülecek ağ üzerinden gönderilmesidir. Windows telefon için Cortana ayrıca düzgün çalışması için bir ağ bağlantısı gerektirir. Ancak aksine, Amazon’un Yankı sadece İnternet'i olmayan bir Bluetooth hoparlördür.

Neden fark var? Çünkü Siri ve Cortana konuşmanızın kodunu çözmek için ağır hizmet sunucularına ihtiyaç duyuyor. Telefonunuzda veya tabletinizde yapılabilir mi? Elbette, ancak bu süreçte performansınızı ve pil ömrünüzü öldürürsünüz. İşlemeyi özel makinelere boşaltmak daha mantıklı.

SIGCHI_Conference_Paper_Format _-_ KumarSpeechRecognitionForMobileApps_pdf

Şöyle düşünün: emriniz çamurda sıkışmış bir araba. Muhtemelen yeterli zaman ve çaba ile kendiniz dışarı itebilirsiniz, ancak saatler sürecek ve sizi yorgun bırakacaktır. Bunun yerine, yol yardımını ararsınız ve arabanızı birkaç dakika içinde dışarı çıkarırlar. Dezavantajı, arama yapmanız ve beklemeniz gerekir, ancak yine de daha hızlı ve daha az vergi.

Nuance gibi masaüstü modelleri, daha güçlü donanım nedeniyle yerel kaynakları kullanma eğilimindedir. Sonuçta, Steve Jobs'un sözleriyle, masaüstü bir kamyon. (Bu da OS X'in kullandığı aptallığı işlenmesi için sunucularBu nedenle, dili ve sesi işlemeniz gerektiğinde, kendi başına idare edebilecek kadar donanımlıdır.

Öte yandan Android, geliştiricilerin uygulamalarına çevrimdışı konuşma tanımayı dahil etmelerine izin veriyor. Google teknolojinin ötesine geçmeyi seviyor ve diğer platformlar donanımları daha güçlü hale geldikçe bu yeteneği kazanacağına bahse girebilirsiniz. Kötü kapsama veya kötü alım cihazlarını lobotomize ettiğinde kimse bunu sevmez.

Sesli Komutları Şimdi Kullanmaya Başlayın

Artık temel kavramları bildiğinize göre, çeşitli cihazlarınızla oynamalısınız. Yeniyi deneyin Google Dokümanlar'da sesle yazma Sesle Yazma, Google Dokümanlar'ın Yeni En İyi ÖzelliğidirSes tanıma son yıllarda büyük bir hızla arttı. Bu haftanın başlarında, Google nihayet Google Dokümanlar'a sesle yazma özelliğini tanıttı. Ama iyi mi? Hadi bulalım! Daha fazla oku . Web ofisi paketi yeterince güçlü değilse, ses kontrolü belgelerinizi tamamen dikte etmenize ve biçimlendirmenize olanak tanır. Bu, Chrome ve Android için zaten tasarladıkları güçlü teknolojiyi genişletiyor.

Diğer fikirler arasında Ses komutlarını kullanmak için Mac Mac'inizde Konuşma Komutları Nasıl Kullanılır Daha fazla oku ve Otomatik ödeme özellikli Amazon Echo Amazon Echo Evinizi Nasıl Akıllı Ev Yapabilir?Akıllı ev teknolojisi hala ilk günlerinde, ancak Amazon'dan "Echo" adlı yeni bir ürün, onu ana akım haline getirmeye yardımcı olabilir. Daha fazla oku . Gelecekte yaşayın ve sadece daha fazla kağıt havlu sipariş etseniz bile cihazlarınızla konuşmayı kucaklayın. Akıllı telefon bağımlısıysanız, Siri Muhtemelen Siri'nin Yapamadığını Fark Etmediğin 8 ŞeySiri, iPhone’un tanımlayıcı özelliklerinden biri haline geldi, ancak birçok insan için her zaman en kullanışlı değil. Bunlardan bazıları ses tanımanın sınırlamalarından kaynaklansa da, kullanmanın tuhaflığı ... Daha fazla oku , Cortana Windows 10'da Cortana ile Kontrol Edebileceğiniz 6 Havalı ŞeyCortana, Windows 10'da eller serbest olarak gitmenize yardımcı olabilir. Dosyalarınızı ve web'de arama yapmasına, hesaplamalar yapmasına veya hava durumu tahminini çekmesine izin verebilirsiniz. Burada onun bazı serin becerilerini ele alıyoruz. Daha fazla oku , ve Android Tamam, Google: Android Telefonunuza Söyleyebileceğiniz 20 Yararlı ŞeyGoogle Asistan, telefonunuzda çok şey yapmanıza yardımcı olabilir. İşte bir sürü temel ama kullanışlı OK Google komutları. Daha fazla oku .

Ses kontrolünü en sevdiğiniz kullanım hangisidir? Yorumlarda bize bildirin.

Resim Kredileri: Shutterstock üzerinden T-flex, Wikimedia Foundation aracılığıyla Terencehonles, Arizona Eyaleti, Shutterstock ile Cienpies Tasarımı

Michael mahkum olduklarında Mac kullanmadı, ancak Applescript'te kod yazabilir. Bilgisayar Bilimi ve İngilizce dereceleri vardır; bir süredir Mac, iOS ve video oyunları hakkında yazıyor; ve on yıldan uzun bir süredir senaryo yazımı ve sanallaştırma konusunda uzmanlaşmış bir gündüz IT maymunudur.