Ses tanıma teknolojisi, onu bugünkü haline getiren zengin bir gelişim geçmişine sahiptir. Modern yaşamın merkezinde yer alır ve bize sadece bir cihazla konuşarak iş yapma yeteneği verir. Peki, bu şaşırtıcı teknoloji yıllar içinde nasıl gelişti? Hadi bir bakalım.
1952: Audrey Sistemi
Ses tanımada ilk adım 1950'lerin başında atıldı. 1952 yılında Bell Laboratuvarları insan sesini anlayabilen ilk makineyi geliştirdi ve buna Audrey Sistemi adını verdi. Audrey adı, Otomatik Rakam Tanıma ifadesinin kısaltılmış haliydi. Bu büyük bir yenilik olsa da, bazı önemli sınırlamaları vardı.
En belirgin şekilde, Audrey sadece 0-9 arasındaki sayısal rakamları tanıyabiliyordu, kelime yok. Audrey, konuşmacı bir sayı söylediğinde, her biri bir rakama karşılık gelen 10 ampulden birini yakarak geri bildirimde bulunurdu.
Sayıları %90 doğrulukla anlayabilmesine rağmen, Audrey belirli bir ses türüyle sınırlıydı. Bu yüzden onu gerçekten kullanacak tek kişi geliştiricilerden biri olan HK Davis'ti. Bir numara söylendiğinde, konuşmacının bir sonrakini söylemeden önce en az 300 milisaniye beklemesi gerekir.
Sadece işlevsellik açısından sınırlı değildi, aynı zamanda yararlılık açısından da sınırlıydı. Yalnızca sayıları anlayabilen bir makinenin pek bir faydası yoktu. Olası bir kullanım, telefon numaralarını çevirmekti, ancak numaraları elle çevirmek çok daha hızlı ve daha kolaydı. Audrey zarif bir varoluşa sahip olmasa da, insan başarısında hala büyük bir kilometre taşı olarak duruyor.
İlgili: Microsoft Word'de Sesle Yazma Nasıl Kullanılır
1962: IBM'in Ayakkabı Kutusu
Audrey'den on yıl sonra IBM, bir ses tanıma sistemi geliştirmeyi denedi. 1962 Dünya Fuarı'nda IBM, Showbox adlı bir ses tanıma sistemi sergiledi. Audrey gibi, asıl işi 0-9 arasındaki rakamları anlamaktı, ancak altı kelimeyi de anlayabiliyordu: artı, eksi, yanlış, toplam, ara toplam ve kapalı.
Shoebox, basit aritmetik problemleri yapabilen bir matematik makinesiydi. Geri bildirime gelince, Shoebox ışıklar yerine sonuçları kağıda yazdırabildi. Bu, onu bir hesap makinesi olarak kullanışlı hale getirdi, ancak konuşmacının her sayı/kelime arasında yine de duraklaması gerekecekti.
1971: IBM'in Otomatik Çağrı Tanımlaması
Audrey ve Shoebox'tan sonra dünyadaki diğer laboratuvarlar ses tanıma teknolojisini geliştirdi. Ancak, 1970'lere kadar, 1971'de IBM, türünün ilk icadını pazara sunduğunda yükselmedi. Buna Otomatik Çağrı Tanımlama sistemi adı verildi. Telefon sistemi üzerinden kullanılan ilk ses tanıma sistemiydi.
Mühendisler, Raleigh, Kuzey Carolina'daki bir bilgisayarı arayacak ve ona bağlanacaktı. Arayan kişi daha sonra kelime dağarcığındaki 5.000 kelimeden birini söyler ve cevap olarak "sözlü" bir yanıt alır.
İlgili: Mac'lerde Sesli Dikte Nasıl Kullanılır
1976: Harpiya
1970'lerin başında, ABD Savunma Bakanlığı ses tanıma konusuna ilgi duydu. DARPA (Savunma İleri Araştırma Projeleri Ajansı), 1971'de Konuşma Anlama Araştırması (SUR) programını geliştirdi. Bu program, ses tanıma için araştırma ve geliştirmeye yardımcı olmak için çeşitli şirketlere ve üniversitelere fon sağladı.
1976'da SUR nedeniyle Carnegie Mellon Üniversitesi Harpy Sistemini geliştirdi. Bu, ses tanıma teknolojisinde büyük bir adımdı. O noktaya kadar sistemler kelimeleri ve sayıları anlayabiliyordu, ancak Harpy tam cümleleri anlayabilmesi bakımından benzersizdi.
Bir yayına göre, yaklaşık 1.011 kelimelik bir kelime dağarcığına sahipti. B. Lowerre ve R. Reddy, bir trilyondan fazla farklı olası cümleye eşittir. Yayın daha sonra Harpy'nin kelimeleri %93.77 doğrulukla anlayabildiğini belirtiyor.
1980'ler, ses tanıma teknolojisi için çok önemli bir zamandı, çünkü bu on yıl, sesin tanıma teknolojisi, çünkü bu, Gizli Markov Metodu ile tanıştığımız on yıldı. (HMM). HMM'nin arkasındaki ana itici güç, olasılık.
Bir sistem bir fonemi (konuşmanın en küçük öğesi) kaydettiğinde, bir sonrakinin ne olacağına dair belirli bir olasılık vardır. HMM, bu olasılıkları, hangi ses biriminin daha sonra geleceğini belirlemek ve en olası kelimeleri oluşturmak için kullanır. Günümüzde çoğu ses tanıma sistemi, konuşmayı anlamak için hala HMM kullanıyor.
1990'lar: Ses Tanıma Tüketici Pazarına Ulaşıyor
Ses tanıma teknolojisinin ortaya çıkışından bu yana tüketici pazarında kendine yer bulma yolculuğuna çıkmıştır. 1980'lerde IBM, konuşmadan metne dikte yapabilen bir prototip bilgisayar sergiledi. Ancak, 1990'ların başına kadar insanlar bu tür uygulamaları evlerinde görmeye başlamadı.
1990'da Dragon Systems, ilk konuşmadan metne dikte yazılımını tanıttı. Dragon Dictate olarak adlandırıldı ve başlangıçta Windows için piyasaya sürüldü. 9.000 dolarlık bu program, ses tanıma teknolojisini kitlelere ulaştırmak için devrim niteliğindeydi, ancak bir kusur vardı. Kullanılan yazılım ayrı dikte, yani, programın onları alması için kullanıcının her kelime arasında duraklaması gerekir.
1996 yılında IBM, Medspeak ile tekrar sektöre katkıda bulunmuştur. Bu aynı zamanda bir konuşmadan metne dikte programıydı, ancak Dragon Dictate'in yaptığı gibi ayrı dikteden muzdarip değildi. Bunun yerine, bu program sürekli konuşmayı dikte edebilir ve bu da onu daha çekici bir ürün haline getirdi.
İlgili: Google Asistan Kulaklıkla Nasıl Kullanılır?
2010: Siri Adında Bir Kız
2000'li yıllar boyunca, ses tanıma teknolojisi popülaritesini artırdı. Her zamankinden daha fazla yazılım ve donanıma uygulandı ve ses tanımanın evriminde önemli bir adım, dijital asistan Siri idi. 2010 yılında Siri adında bir şirket sanal asistanı bir iOS uygulaması olarak tanıttı.
O zamanlar Siri, konuşmacının söylediklerini dikte edebilen ve eğitimli ve esprili bir yanıt verebilen etkileyici bir yazılım parçasıydı. Bu program o kadar etkileyiciydi ki Apple aynı yıl şirketi satın aldı ve Siri'yi bugün bildiğimiz dijital asistana doğru iterek biraz elden geçirdi.
Siri, ikonik sesine (seslendirme Susan Benett tarafından) ve bir dizi yeni özelliğe Apple aracılığıyla kavuştu. kullanır doğal dil işleme sistem işlevlerinin çoğunu kontrol etmek için.
2010'lar: Büyük 4 Dijital Asistan
Halihazırda, dört büyük dijital asistan, ses tanıma ve ek yazılımlara hükmediyor.
- Siri Apple'ın neredeyse tüm ürünlerinde bulunur: iPhone'lar, iPod'lar, iPad'ler ve Mac bilgisayar ailesi.
- Google Asistan piyasadaki 3 milyardan fazla Android cihazın çoğunda bulunur. Ek olarak, kullanıcılar kullanabilir birçok Google hizmetinde komutlar, Google Ana Sayfası gibi.
- amazon alexa yaşadığı yerde çok fazla özel bir platform yok, ancak yine de önde gelen bir asistan. Android cihazlarda, Apple cihazlarda indirilip kullanılabilir. ve hatta Lenovo dizüstü bilgisayarları seçin
- Bixby dijital asistan listesine en yeni giriştir. Samsung'un yerel dijital asistanı ve şirketin telefonları ve tabletleri arasında mevcut.
Konuşulan Bir Tarih
Ses tanıma, Audrey günlerinden bu yana çok yol kat etti. Birçok alanda büyük kazanımlar elde ediyor; örneğin, göre Köprü Mobil'i Temizle, tıp alanı 2020'deki pandemi sırasında sesle çalışan sohbet robotlarından yararlandı. Yalnızca sayıları anlayabilmekten tam cümlelerin farklı varyasyonlarını anlamaya kadar, ses tanıma modern çağımızın en kullanışlı teknolojilerinden biri olduğunu kanıtlıyor.
Ses tanımayı her zaman kullanıyoruz ama nasıl çalışıyor?
Sonrakini Oku
- Teknoloji Açıklaması
- Siri
- Google Asistan
- Alexa
- Bixby
- Sesli Komutlar
Arthur, Amerika'da yaşayan bir teknoloji gazetecisi ve müzisyendir. Android Headlines gibi çevrimiçi yayınlar için yazılar yazarak yaklaşık on yıldır sektörde. Android ve ChromeOS hakkında derin bir bilgi birikimine sahiptir. Bilgilendirici makaleler yazmanın yanı sıra teknoloji haberlerini bildirmekte de ustadır.
Haber bültenimize abone ol
Teknik ipuçları, incelemeler, ücretsiz e-kitaplar ve özel fırsatlar için bültenimize katılın!
Abone olmak için buraya tıklayın