Sizin gibi okuyucular MUO'yu desteklemeye yardımcı oluyor. Sitemizdeki bağlantıları kullanarak bir satın alma işlemi gerçekleştirdiğinizde, bir ortaklık komisyonu kazanabiliriz. Devamını oku.

OpenAI'nin Whisper'ı, sesinizi metne dönüştürebilen yapay zeka destekli yeni bir çözümdür. Hepsinden iyisi, sıfır maliyetle geliyor.

Ancak, bir sorun var: yüklemek ve kullanmak, ortalama bir Windows yardımcı programınızdan daha zordur. Özellikle Nvidia GPU'nuzun Tensör Çekirdeklerini güzel bir destek vermek için kullanmak istiyorsanız.

Üzülme ama. Bu yüzden buradayız! Nasıl kurulacağını ve kullanılacağını öğrenmek için okumaya devam edin, ancak ayrıca, eğer sahipseniz, Whisper'ın Nvidia GPU'nuzdan yararlanmasını sağlayın.

OpenAI'nin Fısıltısı Nedir?

ChatGPT bugünlerde çok revaçta ve biz zaten gördük OpenAI tarafından ChatGPT'yi nasıl kullanabilirsiniz?. Yine de, OpenAI'nin tek ilginç projesi bu değil.

Derin öğrenme ve sinir ağları ile desteklenen Whisper, konuşmayı "anlayabilen" ve metne dönüştürebilen doğal bir dil işleme sistemidir. Ama aynı zamanda, tüm benzer çözümler arasında bir noktada oturan kendi işi:

instagram viewer

  • Whisper, doğal dilde "eğitilmiş" bir yapay zeka çözümüdür. Bu nedenle, "normal" insan konuşmasını anlamada eski çözümlerden daha iyidir.
  • Whisper bir arayüzle gelmez ve ses kaydı da yapamaz. Yalnızca mevcut ses dosyalarını ve çıktı metin dosyalarını alabilir.
  • Whisper, "dili anlamlandırmada" iyi olduğu için, tek adımda otomatik çevirinin süper gücüne de sahiptir.
  • Whisper çevrimiçi bir hizmet değildir ve tamamen çevrimdışı çalışabilir.
  • Nispeten modern bir Nvidia GPU'nuz (GTX970 veya daha yenisi) varsa, Whisper hızını artırmak için "donanım hızlandırmalı modda" çalışabilir.
  • Kaydolma, lisans satın alma veya abonelik satın alma zorunluluğu yoktur.

AMD GPU'ları Neden Desteklenmiyor?

GPU'ların grafiklerden daha fazlası için kullanışlı olması için, tamamen programlanabilir işlemciler gibi davranmaları gerekir. Bu nedenle Nvidia, resmi olarak "paralel bir bilgi işlem platformu ve programlama modeli" olarak kabul edilen CUDA'yı yarattı. CUDA ve ilgili donanım ("CUDA çekirdekleri") hakkında daha fazla bilgi edinmek için şu konudaki makalemizi okuyun: CUDA çekirdekleri nedir ve bilgisayar oyunlarını nasıl geliştirirler?.

CUDA, tescilli Nvidia teknolojisidir ve yalnızca Nvidia GPU'ları ile uyumludur. AMD'nin donanımına en yakın alternatifler OpenCL ve Radeon Compute Platform'dur. Her şirketin çözümlerinin karşılaştırması hakkında daha fazla bilgi edinmek için şu makalemize göz atın: AMD Bilgi İşlem Birimleri vs. Nvidia CUDA Çekirdekleri.

Alternatifleriyle karşılaştırıldığında, CUDA'nın daha olgun, performanslı ve kullanımı daha kolay olduğu kabul edilir. Bu nedenle çoğu geliştirici yalnızca CUDA'yı hedefler, bu da yazılımlarının yalnızca Nvidia GPU'lardaki donanım özelliklerinden yararlandığı anlamına gelir. Buna Whisper da dahildir.

Whisper Nasıl İndirilir ve Kurulur?

Ne yazık ki, Whisper indirebileceğiniz, yükleyebileceğiniz ve çalıştırabileceğiniz bağımsız bir uygulama değildir. Ayrıca yüklenmesi gereken diğer yazılımlara dayanır.

Windows için, bu kılavuzu basit tutmak için, gerekli yazılım parçalarının çoğunu yüklemek için Chocolatey'i kapsamlı bir şekilde kullanacağız. rehberimize göz atın Windows yazılımını kurmanın en hızlı yolu Chocolatey hakkında daha fazla bilgi için.

Linux ve Mac'ler için kurulum süreci (Windows yol değişkeni ve oluşturacağımız kullanımı kolay toplu iş dosyaları hariç) benzer olmalıdır.

  1. Whisper'ı kurmak ve kullanmak için sahip olmanız gerekir. Piton ve Onun BİP aracı yüklendi ve Windows "Yol" değişkenine eklendi. Bununla ilgili bilgi için şu makalemize bakın: Windows, Mac ve Linux'ta Python PIP nasıl kurulur.
  2. Düzenlemek FFMPEG Bu komutla Chocolatey aracılığıyla:
    çikolata düzenlemek ffmpeg
    Ayrıca, Python sürümünü şununla yükleyin:
    pip3 düzenlemek piton-ffmpeg
  3. Son olarak, Github sayfasından Whisper'ı şu şekilde yükleyin:
    pip3 kurulum git+https://github.com/openai/whisper.git

Whisper'ın CUDA Özellikli Sürümünü Alma

Whisper, Nvidia GPU'ları kullanmasa da, meşale güvendiği paket, CUDA ile hızlandırılmış bir sürüm sunar. Bunu "düz" sürüm yerine kullanmak, Whisper'ın Nvidia GPU'nuzun yardımıyla transkripsiyonlarını çok daha hızlı tamamlamasına yardımcı olabilir.

Whisper'ın Nvidia GPU'nuzun CUDA çekirdeklerini kullanmasını sağlamak için:

  1. Halihazırda meşalenin "vanilya" versiyonuna sahipseniz, şu şekilde kalıntılarını kaldırın ve temizleyin:
    pip3 kaldır meşale
    Tamamlandığında, şunu takip edin:
    bip önbellektemizlemek
  2. Torç'un CUDA özellikli sürümünü şununla yükleyin:
    pip3 düzenlemek meşale torç görüş meşale ses --extra-index-url https://download.pytorch.org/whl/cu117
  3. Whisper'ın Nvidia GPU'nuzu kullanıp kullanamayacağını kontrol etmek için şunları kullanın:
    fısıltı --yardım | findstr -i pytorch
    Görmelisin (varsayılan: cuda) yerine (varsayılan: işlemci).

Torch Kurulumu Başarısız Olursa Ne Yapmalı?

Torcu yüklerken "sürüm bulunamadı" hatasıyla karşılaşırsanız, mevcut sürüme paralel olarak Python'un daha eski bir sürümünü yüklemeniz gerekebilir.

Bunu yapmak için bu komutu kullanın:

çikolata düzenlemek piton --version OLDER_VERSION --yan yana

"OLDER_VERSION"ı 3.10 gibi bir sürümle değiştirin.

Ardından, tüm "jenerik" Fısıltı komutları için ikincil sürümün yolunu kullanın (örneğin, yalnızca "pip" yerine "c:\Python310\Scripts\pip.exe").

Sesinizi Nasıl Kaydedersiniz?

Sesinizi bir WAV veya MP3 dosyasına dönüştürmek için herhangi bir ses kayıt uygulamasını kullanabilirsiniz. Windows böyle bir uygulama içerir; bununla ilgili daha fazla bilgi için bkz. Windows 10 Ses Kaydedici uygulaması nasıl kullanılır?.

Daha tam özellikli bir seçenek için deneyin küstahlık. Rehberimizle bunu nasıl yapacağınızı öğrenin Windows ve Mac'te ses kaydetmek için Audacity nasıl kullanılır?.

Fısıldayarak Deşifre Etmeye Nasıl Başlanır?

Whisper, kullanıcı dostu bir GUI ile gelmese de, kullanımı son derece basittir.

Diyelim ki dosyamız var Son Not.mp3 Klasörde Yunanca konuşmayı içeren c:\Ses Dosyalarım, ve onu İngilizceye çevirmek ve bir metin dosyasına dönüştürmek istiyorum.

  1. koşarak başlıyoruz Komut istemi veya Güç kalkanı.
  2. Bu komutla ses dosyasının saklandığı "dizini değiştiriyoruz":
    CD C:\Ses Dosyalarım
  3. Dosyada Whisper'ı şu şekilde serbest bırakıyoruz:
    fısıltı-- modeltemel--dilgr--görevÇevirmekSon Not.mp3

İşlendikten sonra, metin dosyası ("LatestNote.mp3.txt" olarak adlandırılır) aynı klasörde görünecektir. gibi bir metin düzenleyicide açın. not defteri Çevrilmiş metni görüntülemek için

Bir çeviri örneği kullandık çünkü İngilizce transkripsiyon daha da basittir: yalnızca "--language" ve "-task" bayraklarını "kaybetmeniz" gerekir. Bu nedenle, düz transkripsiyon için yukarıdaki komut şöyle olacaktır:

fısıltı-- modeltemelSon Not.mp3

Whisper çeşitli seçeneklerden birini kullandığından "model" bayrağı gereklidir. İhtiyaçlarınız için en iyisini seçmenize yardımcı olmak için bunları genişletelim.

Hangi Modeli Seçmelisiniz?

Whisper çeşitli dil modelleri sunar. Model ne kadar büyük olursa, doğruluğu o kadar artar, ancak donanım gereksinimleri de o kadar yüksek olur. Bunlar:

  1. Minik.
  2. Temel.
  3. Küçük.
  4. Orta.
  5. Büyük.

Anadili İngilizce olanların çoğu, minik veya temel modeller. Anadili İngilizce olmayan kişiler, daha büyük modellerle daha iyi sonuçlar görebilir. küçük Ve orta.

Bununla birlikte, orta ve büyük modellerin 8 GB'ın üzerinde VRAM (yani, "GPU'nuzun belleği") gerektirdiğini unutmayın.

Bunlardan birini seçmek için, komuttaki "--model" anahtarından sonra modeli belirtin:

fısıltı --model küçük/küçük/orta/büyük [dosya]

Örneğin:

fısıltı-- modelküçükMy_Voice_Note.mp3

Transkripsiyonunuzu Nasıl Kolaylaştırırsınız?

Bazı sesleri yazıya dökmek istediğiniz her seferinde Whisper komutunun tamamını yazmak zorunda kalmak, hızla sıkıcı hale gelebilir. Süreci kolaylaştırmak için dünya çapında erişilebilir bir toplu iş dosyası yapalım.

  1. Koşmak Windows Gezgini ve C: sürücünüzü ziyaret edin.
  2. Komut dosyalarınız için bir klasör oluşturun ve yolunu Pano'ya kopyalayın.
  3. Windows Başlat menüsünde "yol" ifadesini arayın ve seçin Sistem ortamı değişkenlerini düzenleyin.
  4. Bul Yol altında değişken YOUR_USERNAME için kullanıcı değişkenleri. Düzenlemek için üzerine çift tıklayın. Tıklamak Yeni, ve yolu betikler klasörünüze yapıştırın. Tıklamak TAMAM değişiklikleri kabul etmek.
  5. Windows Gezgini'nde betikler klasörünüze dönün. Orada "wht.bat" adlı yeni bir toplu iş dosyası oluşturun. "İçinde", şu komutu yerleştirin:
    fısıltı --model minik --language tr %1
  6. "whs" ve "whm" olmak üzere iki toplu iş dosyası daha oluşturun.
  7. Bunu ilk betiğin içine yerleştirin:
    fısıltı --model küçük --dil tr %1
  8. Bunu saniyenin içine yerleştirin:
    fısıltı --model ortamı --language tr %1

Tebrikler, artık Whisper'ın minik, küçük ve orta ölçekli modellerini ses dosyalarınızla kolayca kullanmak için üç komut dosyanız var! Herhangi bir ses dosyasını metne dönüştürmek için:

  1. ile dosyayı bulun Windows Dosya Gezgini.
  2. Sağ tık boş bir yerde ve seç Terminalde aç.
  3. Küçük veya orta dil modellerini kullanmak için "wht"yi "whs" veya "whm" ile değiştirerek bu komutu yazın:
    neSİZİN_SES_DOSYASINIZ.mp3

Fısıldayarak Ses Hızında Yazmak

En hızlı dokunmatik daktilocular bile bizim konuşma hızımıza yetişemez. Ancak, yakın zamana kadar, belge oluşturmak için yazmak yerine konuşmak ideal değildi.

Sesten metne çözümlerin çoğu vasat sonuçlar üretti. Denemeye değer birkaç çözüm bulabilirsiniz, ancak bunların kullanımı karmaşık veya maliyetliydi. Neyse ki, Whisper tüm bunları değiştirdi.

Yukarıdaki adımlardan sonra, yalnızca tek bir komut kullanarak sesinizi yüksek doğrulukla yazıya dökmeye veya çevirmeye hazır olmalısınız.