Meta'nın Llama 2'sini çevrimiçi olarak kullanabilirsiniz, ancak yerel makinenize yüklerseniz deneyimi özelleştirebilir ve kişiselleştirebilirsiniz.
Meta, Llama 2'yi 2023 yazında piyasaya sürdü. Llama'nın yeni sürümü, orijinal Llama modelinden %40 daha fazla token ile ince ayar yapılarak bağlam uzunluğunu iki katına çıkardı ve mevcut diğer açık kaynaklı modellerden önemli ölçüde daha iyi performans gösterdi. Llama 2'ye erişmenin en hızlı ve en kolay yolu, çevrimiçi bir platform aracılığıyla bir API kullanmaktır. Ancak en iyi deneyimi istiyorsanız, Llama 2'yi doğrudan bilgisayarınıza kurup yüklemek en iyisidir.
Bunu göz önünde bulundurarak, nicelenmiş bir Llama 2 LLM'yi bilgisayarınıza yerel olarak yüklemek için Text-Generation-WebUI'yi nasıl kullanacağınız konusunda adım adım bir kılavuz oluşturduk.
Neden Llama 2'yi Yerel Olarak Kurmalısınız?
İnsanların Llama 2'yi doğrudan çalıştırmayı seçmesinin birçok nedeni var. Bazıları bunu gizlilik kaygıları nedeniyle, bazıları özelleştirme için, bazıları ise çevrimdışı özellikler için yapıyor. Projeleriniz için Llama 2'yi araştırıyor, ince ayar yapıyor veya entegre ediyorsanız Llama 2'ye API aracılığıyla erişmek size göre olmayabilir. Bir LLM'yi bilgisayarınızda yerel olarak çalıştırmanın amacı, ona olan bağımlılığı azaltmaktır.
üçüncü taraf yapay zeka araçları ve potansiyel olarak hassas verilerin şirketlere ve diğer kuruluşlara sızdırılmasından endişe etmeden yapay zekayı istediğiniz zaman, istediğiniz yerde kullanın.Bununla birlikte, Llama 2'yi yerel olarak kurmaya yönelik adım adım kılavuzla başlayalım.
İşleri basitleştirmek için Text-Generation-WebUI (Llama 2'yi GUI ile yüklemek için kullanılan program) için tek tıklamayla yükleyici kullanacağız. Ancak bu yükleyicinin çalışması için Visual Studio 2019 Derleme Aracını indirmeniz ve gerekli kaynakları yüklemeniz gerekir.
İndirmek:Visual Studio 2019 (Özgür)
- Devam edin ve yazılımın topluluk sürümünü indirin.
- Şimdi Visual Studio 2019'u yükleyin, ardından yazılımı açın. Açıldıktan sonra kutuyu işaretleyin C++ ile masaüstü geliştirme ve kuruluma basın.
Artık C++ yüklü Masaüstü geliştirmesine sahip olduğunuza göre, Text-Generation-WebUI tek tıklamayla yükleyiciyi indirmenin zamanı geldi.
Adım 2: Text-Generation-WebUI'yi yükleyin
Text-Generation-WebUI tek tıklamayla yükleyici, gerekli klasörleri otomatik olarak oluşturan ve Conda ortamını ve bir AI modelini çalıştırmak için gerekli tüm gereksinimleri ayarlayan bir komut dosyasıdır.
Komut dosyasını yüklemek için, tek tıklamayla yükleyiciyi tıklayarak indirin. Kod > ZIP'i indirin.
İndirmek:Metin Oluşturma WebUI Yükleyicisi (Özgür)
- İndirdikten sonra ZIP dosyasını tercih ettiğiniz konuma çıkartın, ardından çıkartılan klasörü açın.
- Klasörün içinde aşağı kaydırın ve işletim sisteminiz için uygun başlatma programını arayın. Uygun komut dosyasına çift tıklayarak programları çalıştırın.
- Windows kullanıyorsanız, start_windows toplu iş dosyası
- MacOS için seçin start_macos kabuk komut dosyası
- Linux için, start_linux kabuk betiği.
- Anti-virüsünüz bir uyarı oluşturabilir; Bu iyi. İstem sadece bir antivirüs yanlış pozitif bir toplu iş dosyasını veya komut dosyasını çalıştırmak için. Tıklamak Yine de koş.
- Bir terminal açılacak ve kurulumu başlatacaktır. Başlangıçta kurulum duraklayacak ve size hangi GPU'yu kullandığınızı soracaktır. Bilgisayarınızda yüklü olan uygun GPU türünü seçin ve enter tuşuna basın. Özel bir grafik kartı olmayanlar için, Yok (Modelleri CPU modunda çalıştırmak istiyorum). Modeli özel bir GPU ile çalıştırmaya kıyasla CPU modunda çalışmanın çok daha yavaş olduğunu unutmayın.
- Kurulum tamamlandıktan sonra artık Text-Generation-WebUI'yi yerel olarak başlatabilirsiniz. Bunu, tercih ettiğiniz web tarayıcısını açıp, sağlanan IP adresini URL'ye girerek yapabilirsiniz.
- WebUI artık kullanıma hazır.
Ancak program yalnızca bir model yükleyicidir. Model yükleyicinin başlatılması için Llama 2'yi indirelim.
Adım 3: Llama 2 Modelini İndirin
Hangi Llama 2 yinelemesine ihtiyacınız olduğuna karar verirken göz önünde bulundurmanız gereken pek çok şey var. Bunlara parametreler, nicemleme, donanım optimizasyonu, boyut ve kullanım dahildir. Tüm bu bilgiler modelin adında belirtilmiş olarak bulunacaktır.
- Parametreler: Modeli eğitmek için kullanılan parametre sayısı. Daha büyük parametreler daha yetenekli modeller oluşturur ancak performans maliyetine mal olur.
- Kullanımı: Standart veya sohbet olabilir. Bir sohbet modeli, ChatGPT gibi bir sohbet robotu olarak kullanılmak üzere optimize edilmiştir; standart ise varsayılan modeldir.
- Donanım Optimizasyonu: Modeli en iyi çalıştıran donanımın ne olduğunu ifade eder. GPTQ, modelin özel bir GPU üzerinde çalışacak şekilde optimize edildiği, GGML'nin ise bir CPU üzerinde çalışacak şekilde optimize edildiği anlamına gelir.
- Niceleme: Bir modeldeki ağırlıkların ve aktivasyonların kesinliğini belirtir. Çıkarım yapmak için q4 hassasiyeti optimaldir.
- Boyut: Belirli modelin boyutunu ifade eder.
Bazı modellerin farklı şekilde düzenlenebileceğini ve hatta aynı tür bilgilerin görüntülenmeyebileceğini unutmayın. Ancak bu tür adlandırma kuralı ülkemizde oldukça yaygındır. SarılmaYüz Model kütüphanesi, bu yüzden hala anlamaya değer.
Bu örnekte model, özel bir CPU kullanılarak sohbet çıkarımı için optimize edilmiş 13 milyar parametreyle eğitilmiş orta büyüklükte bir Llama 2 modeli olarak tanımlanabilir.
Özel bir GPU'da çalışanlar için bir seçim yapın GPTQ modeli, CPU kullananlar için ise GGML. Modelle ChatGPT'de yaptığınız gibi sohbet etmek istiyorsanız sohbet, ancak modeli tüm özellikleriyle denemek istiyorsanız standart modeli. Parametrelere gelince, daha büyük modellerin kullanılmasının performans pahasına daha iyi sonuçlar sağlayacağını bilin. Şahsen 7B modeliyle başlamanızı tavsiye ederim. Kuantizasyona gelince, yalnızca çıkarım yapmak için olduğu için q4'ü kullanın.
İndirmek:GGML (Özgür)
İndirmek:GPTQ (Özgür)
Artık hangi Llama 2 versiyonuna ihtiyacınız olduğunu bildiğinize göre devam edin ve istediğiniz modeli indirin.
Benim durumumda, bunu bir ultrabook üzerinde çalıştırdığım için sohbet için ince ayarı yapılmış bir GGML modeli kullanacağım. llama-2-7b-chat-ggmlv3.q4_K_S.bin.
İndirme işlemi tamamlandıktan sonra modeli yerleştirin. metin oluşturma-webui-ana > modeller.
Artık modelinizi indirip model klasörüne yerleştirdiğinize göre, model yükleyiciyi yapılandırmanın zamanı geldi.
Adım 4: Text-Generation-WebUI'yi yapılandırın
Şimdi konfigürasyon aşamasına başlayalım.
- Bir kez daha Text-Generation-WebUI'yi çalıştırarak açın. start_(işletim sisteminiz) dosyasına bakın (yukarıdaki önceki adımlara bakın).
- GUI'nin üzerinde bulunan sekmelerde, Modeli. Model açılır menüsündeki yenile düğmesine tıklayın ve modelinizi seçin.
- Şimdi açılır menüye tıklayın Modeli yükleyici ve seç AutoGPTQ GTPQ modeli kullananlar için ve ctransformatörler GGML modelini kullananlar için. Son olarak tıklayın Yük Modelinizi yüklemek için
- Modeli kullanmak için Sohbet sekmesini açın ve modeli test etmeye başlayın.
Tebrikler, Llama2'yi yerel bilgisayarınıza başarıyla yüklediniz!
Diğer Yüksek Lisans Programlarını Deneyin
Artık Llama 2'yi Text-Generation-WebUI kullanarak doğrudan bilgisayarınızda nasıl çalıştıracağınızı bildiğinize göre, Llama'nın yanı sıra diğer LLM'leri de çalıştırabilmeniz gerekir. Modellerin adlandırma kurallarını ve yalnızca modellerin sayısallaştırılmış versiyonlarının (genellikle q4 hassasiyeti) normal bilgisayarlara yüklenebileceğini unutmayın. HuggingFace'te birçok nicelenmiş LLM mevcuttur. Diğer modelleri keşfetmek istiyorsanız HuggingFace'in model kütüphanesinde TheBloke'u arayın, birçok modeli bulabilirsiniz.