Yapay Zeka Sohbet Robotlarını Doğruluk Açısından Test Ederken Dikkate Alınması Gereken 8 Temel Faktör

Hangisinin en iyi sonucu verdiğini belirlemek için farklı AI sohbet robotlarını test edebilirsiniz. Ama bunu nasıl yapmalısın? İşte dikkate alınması gereken bazı önemli faktörler.

AI alakasız, tutarsız çıktılar üretmekten çok yol kat etti. Modern sohbet robotları, diğer karmaşık görevlerin yanı sıra genel bilgi sorularını yanıtlayan, uzun makaleler yazan ve kod yazan gelişmiş dil modellerini kullanır.

Bu gelişmelere rağmen, en karmaşık sistemlerin bile sınırlamaları olduğunu unutmayın. AI hala hata yapıyor. Hangi sohbet robotlarının halüsinasyonlara en az yatkın olduğunu belirlemek için bu faktörlere dayalı olarak doğruluklarını test edin.

1. aritmetik

Sohbet robotları aracılığıyla matematik denklemlerini çalıştırın. Platformun kelime problemlerini analiz etme, matematiksel kavramları çevirme ve doğru formülleri uygulama becerisini test edecekler. Yalnızca birkaç model güvenilir aritmetik becerisi sergiler. Aslında, bir sırasında ChatGPT'nin en kötü sorunları ilk ayları korkunç matematik anlayışıydı.

instagram viewer

Aşağıdaki resim, ChatGPT'nin temel istatistiklerde başarısız olduğunu göstermektedir.

ChatGPT şu tarihten sonra gelişme gösterdi: OpenAI, Mayıs 2023 güncellemelerini yayınladı. Ancak sınırlı veri kümeleri göz önüne alındığında, yine de orta ila ileri düzey matematiksel hesaplamalarda sorun yaşayacaksınız.

Bu arada, Bing Chat ve Google Bard daha iyi aritmetik gösteriyor. Sorguları ilgili arama motorları aracılığıyla çalıştırarak formülleri ve cevap kağıtlarını almalarını sağlarlar.

Kelime problemlerinizi yeniden ifade etmeyi deneyin. Uzun cümlelerden kaçının ve zayıf fiilleri değiştirin; aksi halde sohbet robotları sorularınızı yanlış anlayabilir.

2. Anlama

Modern AI sistemleri birden fazla görevi üstlenebilir. Gelişmiş LLM'ler, önceki talimatları korumalarına ve istemleri bölüm bölüm yanıtlamalarına olanak tanırken, eski sistemler tekil komutları işler. Örneğin, Siri her seferinde bir soruyu yanıtlar.

Karmaşık istemleri ne kadar iyi analiz ettiklerini test etmek için sohbet robotlarına aynı anda üç ila beş görev verin. Daha az karmaşık modeller bu kadar çok bilgiyi işleyemez. Aşağıdaki resimde, HuggingChat'in üç adımlı bir istemde arızalı olduğu gösterilmektedir; birinci adımda durur ve konudan sapar.

HuggingChat'in son satırları zaten tutarsız.

ChatGPT, her adımda hatasız, akıllı yanıtlar üreterek aynı istemi hızla tamamlar.

Bing Chat, üç adıma yoğunlaştırılmış bir yanıt sağlar. Katı kısıtlamaları, işlem gücünü boşa harcayan gereksiz yere uzun çıktıları yasaklar.

3. Zamanındalık

Yapay zeka eğitimi çok büyük kaynaklara mal olduğundan, çoğu geliştirici veri kümelerini belirli dönemlerle sınırlar. Örnek olarak ChatGPT'yi ele alalım. Eylül 2021'de bilgi kesintisi var; hava durumu güncellemeleri, haberler veya son gelişmeler talep edemezsiniz. İşte ChatGPT, gerçek zamanlı bilgilere erişimi olmadığını söylüyor.

Bard'ın internet erişimi var. Son olaylar, haberler ve tahminler gibi daha geniş bir soru yelpazesi sorabilmeniz için Google SERP'lerinden veri çeker.

Aynı şekilde Bing Chat, arama motorundan gerçek zamanlı bilgiler alır.

Bing Chat ve Bard zamanında, güncel bilgiler sunar, ancak ikincisi daha ayrıntılı yanıtlar sağlar. Bing, verileri yalnızca olduğu gibi sunar. Çıktılarının çoğu kez bağlantılı kaynaklarının kelime öbeği ve üslubuyla birebir eşleştiğini fark edeceksiniz.

4. alaka

Chatbot'lar ilgili çıktıları sağlamalıdır. Yanıt verirken istemlerinizin gerçek ve bağlamsal anlamını dikkate almalıdırlar. Bu konuşmayı örnek alın. Karakterimizin yeni bir telefona ihtiyacı var ama sadece 1.000 doları var—ChatGPT bütçeyi aşmıyor.

Alaka düzeyini test ederken, uzun talimatlar hazırlamayı deneyin. Daha az sofistike sohbet robotları, kafa karıştırıcı talimatlar verildiğinde bir teğet üzerinde hareket etme eğilimindedir. Örneğin, HuggingChat kurgusal hikayeler yazabilir. Ancak çok fazla kural ve yönerge belirlerseniz ana konudan sapabilir.

5. Bağlamsal Bellek

Bağlamsal bellek, yapay zekanın doğru ve güvenilir çıktılar üretmesine yardımcı olur. Sorularınızı göründüğü gibi almak yerine, bahsettiğiniz ayrıntıları bir araya getirirler. Bu konuşmayı örnek alın. Bing Chat, yararlı ve kısa bir yanıt oluşturmak için iki ayrı mesajı birbirine bağlar.

Benzer şekilde, bağlamsal bellek, sohbet robotlarının talimatları hatırlamasını sağlar. Bu görüntü, ChatGPT'nin kurgusal bir karakterin birkaç sohbet boyunca konuşma şeklini taklit ettiğini göstermektedir.

Tutarlı bir şekilde önceki ifadelere başvurarak bu işlevi kendiniz test edin. Chatbot'lara çeşitli bilgiler verin, ardından onları daha sonraki yanıtlarda bunları hatırlamaya zorlayın.

Bağlamsal bellek sınırlıdır. Bing Chat, her 20 turda bir yeni konuşmalar başlatırken, ChatGPT 3.000 jetonun üzerindeki istemleri işleyemez.

6. Güvenlik Kısıtlamaları

AI her zaman amaçlandığı gibi yapmaz. Hatalı eğitim neden olabilir çeşitli hatalar işlemek için makine öğrenimi teknolojileri, küçük matematik hatalarından sorunlu yorumlara. Almak Microsoft Tay Örnek olarak. Twitter kullanıcıları, denetimsiz öğrenme modelini istismar etti ve onu ırkçı hakaretler söylemeye koşullandırdı.

Neyse ki, küresel teknoloji liderleri Microsoft'un gafından ders aldı. Uygun maliyetli ve kullanışlı olmasına rağmen denetimsiz öğrenme, yapay zeka sistemlerini aldatmaya yatkın hale getirir. Bu nedenle, geliştiriciler günümüzde öncelikle denetimli öğrenmeye güveniyor. gibi sohbet robotları ChatGPT hala konuşmalardan öğreniyor, ancak eğitmenleri önce bilgileri filtreler.

AI şirketlerinden farklı yönergeler bekleyin. ChatGPT'nin daha az katı kısıtlamaları, daha geniş bir görev yelpazesini barındırır, ancak istismara karşı zayıftır. Bu arada, Bing Chat daha katı sınırlar izler. Sömürü girişimleriyle mücadeleye yardımcı olurken, aynı zamanda işlevselliği de engellerler. Bing, potansiyel olarak zararlı konuşmaları otomatik olarak kapatır.

7. Yapay Zeka Önyargıları

AI doğası gereği tarafsızdır. Tercih ve duygulardan yoksun olması, fikir oluşturmasını engeller - sadece bildiği bilgileri sunar. İşte ChatGPT'nin sübjektif konulara nasıl yanıt verdiği.

Bu tarafsızlığa rağmen, AI önyargıları hala ortaya çıkıyor. Geliştiricilerin kullandığı kalıplardan, veri kümelerinden, algoritmalardan ve modellerden kaynaklanırlar. AI tarafsız olabilir, ancak insanlar değildir.

Örneğin, Brookings Enstitüsü ChatGPT'nin solcu siyasi önyargılar gösterdiğini iddia ediyor. OpenAI elbette bu iddiaları reddediyor. Ancak daha yeni modellerde benzer sorunlardan kaçınmak için ChatGPT üzerinde düşünülmüş çıktılardan tamamen kaçınır.

Aynı şekilde, Bing Chat de hassas, sübjektif konulardan kaçınır.

Görüşe dayalı, açık uçlu sorular sorarak AI önyargılarını kendiniz değerlendirin. Doğru veya yanlış yanıtı olmayan konular hakkında konuşun; daha az gelişmiş sohbet robotları, belirli gruplara yönelik temelsiz tercihler gösterebilir.

8. Referanslar

AI nadiren gerçekleri tekrar kontrol eder. Yalnızca veri kümelerinden bilgi çeker ve bunları dil modelleri aracılığıyla yeniden ifade eder. Ne yazık ki, sınırlı eğitim AI halüsinasyonlarına neden olur. Araştırma için üretken AI araçlarını kullanmaya devam edebilirsiniz, ancak gerçekleri kendiniz doğruladığınızdan emin olun. Çıktıyı bir tuz tanesi ile alın.

Bing Chat, her çıktıdan sonra referanslarını listeleyerek bilgi doğrulama sürecini basitleştirir.

Bard AI, kaynaklarını listelemez, ancak Google arama sorguları çalıştırarak güncellenmiş, ayrıntılı açıklamalar üretir. Ana noktaları SERP'lerden alacaksınız.

ChatGPT hatalara eğilimlidir. 2021 bilgi kesintisi, son olaylar ve olaylarla ilgili soruları yanıtlamasını engeller.

Chatbot'ları Doğruluk Açısından Test Etmenin Yeni Yollarını Yaratın

AI, teknolojinin her şeyi ve sonu değildir. Sofistike yapay zeka sistemleri ve dil modelleri etkileyici başarılar sergilerken aynı zamanda hatalar ve tutarsızlıklar da işliyor. Sohbet robotlarına şüpheyle bakın. AI güdümlü platformları yalnızca işlevlerini ve sınırlamalarını anlarsanız kullanabilirsiniz.

Platformlarda düzinelerce sohbet robotu olmasına rağmen, güvenilirlikleri ve hassasiyetleri sizi hayal kırıklığına uğratabilir. Onları test etmekle sadece zaman kaybedersiniz. Kaliteli sonuçlar elde etmek için piyasadaki en sağlam üç modele odaklanmanızı öneririz: ChatGPT, Bing AI ve Google Bard.

About Technology - denizatm.com

Yapay Zeka Sohbet Robotlarını Doğruluk Açısından Test Ederken Dikkate Alınması Gereken 8 Temel Faktör

1. aritmetik

2. Anlama

3. Zamanındalık

4. alaka

5. Bağlamsal Bellek

6. Güvenlik Kısıtlamaları

7. Yapay Zeka Önyargıları

8. Referanslar

Chatbot'ları Doğruluk Açısından Test Etmenin Yeni Yollarını Yaratın

Kategoriler

Recent Post

Microsoft, IE9 Güvenlik Güncelleştirmesi'ni Yayınladı, 8 Güvenlik Açıkına Karşı Koruyor [Haberler]

Windows 10'da Daha İyi Ses için 4 Şık Ses Geliştirmesi

3 Oyuncular İçin Ücretsiz Sesli Sohbet İstemcisi Olmalıdır