Yetersiz veri, çoğu veri bilimi projesi için genellikle en büyük engellerden biridir. Bununla birlikte, başlamak istediğiniz herhangi bir proje için nasıl veri toplayacağınızı bilmek, bir veri bilimcisi olarak edinmeniz gereken önemli bir beceridir.
Veri bilimcileri ve makine öğrenimi mühendisleri, algoritmaları eğitmek için daha fazla veri elde etmek için artık modern veri toplama tekniklerini kullanıyor. İlk veri bilimi veya makine öğrenimi projenize başlamayı planlıyorsanız, verileri de alabilmeniz gerekir.
Süreci kendiniz için nasıl kolaylaştırabilirsiniz? Veri toplamak için kullanabileceğiniz bazı modern tekniklere bir göz atalım.
Veri Bilimi Projeniz İçin Neden Daha Fazla Veriye İhtiyacınız Var?
Makine öğrenimi algoritmaları, daha doğru, kesin ve tahmine dayalı olmak için verilere bağlıdır. Bu algoritmalar, veri kümeleri kullanılarak eğitilir. Eğitim süreci, küçük bir çocuğa bir nesnenin adını ilk kez öğretmeye benzer, sonra onu bir sonraki gördüklerinde tek başlarına tanımlamalarına izin verir.
İnsanların yeni bir nesneyi tanıması için sadece birkaç örneğe ihtiyacı vardır. Bir nesneye aşina olmak için yüzlerce veya binlerce benzer örneğe ihtiyaç duyduğundan, bir makine için durum böyle değildir.
Bu örneklerin veya eğitim nesnelerinin veri biçiminde gelmesi gerekir. Daha sonra, özel bir makine öğrenimi algoritması, eğitim seti adı verilen bu veri setinin üzerinden geçer ve daha doğru hale gelmek için bunun hakkında daha fazla şey öğrenir.
Bu, algoritmanızı eğitmek için yeterli veriyi sağlayamazsanız, projenizin sonunda doğru sonucu alamayabileceğiniz anlamına gelir, çünkü makinede öğrenmek için yeterli veri yoktur.
Bu nedenle, sonucunuzun doğruluğunu artırmak için yeterli veri almanız gerekir. Bunu başarmak için kullanabileceğiniz bazı modern stratejileri aşağıda görelim.
1. Verileri Doğrudan Web Sayfasından Toplama
Web kazıma, web'den veri almanın otomatik bir yoludur. En temel biçiminde, web kazıma, bir web sitesindeki öğelerin yerel bir dosyaya kopyalanıp yapıştırılmasını içerebilir.
Bununla birlikte, web kazıma aynı zamanda özel komut dosyaları yazmayı veya bir web sayfasından verileri doğrudan kazımak için özel araçlar kullanmayı da içerir. Ayrıca, aşağıdakileri kullanarak daha derinlemesine veri toplamayı da içerebilir: Serpstack gibi Uygulama Programlama Arayüzleri (API'ler).
Serpstack API ile, Google'ın sonuç sayfalarından ve diğer arama motorlarından kolayca bilgi toplayabilirsiniz.
Bazı insanlar web kazımanın fikri mülkiyet kaybına yol açabileceğine inanmasına rağmen, bu ancak insanlar bunu kötü niyetle yaptığında olabilir. Web kazıma yasaldır ve işletmelerin müşterileri ve rakipleri hakkında halka açık bilgiler toplayarak daha iyi kararlar almasına yardımcı olur.
İlişkili: Web Kazıma nedir? Web Sitelerinden Veri Nasıl Toplanır
Örneğin, fiyatları ve kullanılabilirliği karşılaştırmak için çevrimiçi mağazalardan veri toplamak için bir komut dosyası yazabilirsiniz. Biraz daha teknik olsa da, ses dosyaları ve görüntüler gibi ham medyayı web üzerinden de toplayabilirsiniz.
Python ile web kazıma hakkında bir fikir edinmek için aşağıdaki örnek koda bir göz atın güzelsoup4 HTML ayrıştırıcı kitaplığı.
bs4'ten BeautifulSoup içe aktarın
urllib.request import urlopen'den
url = "Hedef web sayfasının tam URL'sini buraya girin"
targetPage = urlopen (url)
htmlReader = targetPage.read (). decode ("utf-8")
webData = BeautifulSoup (htmlReader, "html.parser")
print (webData.get_text ())
Örnek kodu çalıştırmadan önce, kitaplığı yüklemeniz gerekir. Sanal bir ortam oluşturun komut satırınızdan ve kitaplığı çalıştırarak kurun. pip güzelsoup4 yüklemek.
2. Web Formları aracılığıyla
Veri toplama için çevrimiçi formlardan da yararlanabilirsiniz. Bu, verileri toplamak istediğiniz bir hedef insan grubunuz olduğunda çok kullanışlıdır.
Web formları göndermenin bir dezavantajı, istediğiniz kadar veri toplamayabilmenizdir. Küçük veri bilimi projeleri veya öğreticiler için oldukça kullanışlıdır, ancak çok sayıda anonim insana ulaşmaya çalışırken kısıtlamalarla karşılaşabilirsiniz.
Ücretli çevrimiçi veri toplama hizmetleri mevcut olmasına rağmen, projeye biraz para harcamaktan çekinmemeniz dışında, çoğunlukla çok pahalı oldukları için bireyler için tavsiye edilmezler.
İnsanlardan veri toplamak için çeşitli web formları vardır. Bunlardan biri, adresine giderek erişebileceğiniz Google Formlarıdır. forms.google.com. Yapabilirsin iletişim bilgilerini toplamak için Google Formlar'ı kullanın, demografik veriler ve diğer kişisel ayrıntılar.
Bir form oluşturduğunuzda, yapmanız gereken tek şey bağlantıyı hedef kitlenize posta, SMS veya mevcut herhangi bir yolla göndermektir.
Ancak, Google Formlar, popüler web formlarının yalnızca bir örneğidir. Mükemmel veri toplama işleri de yapan birçok alternatif var.
Ayrıca Facebook, LinkedIn, Instagram ve Twitter gibi sosyal medya kuruluşları aracılığıyla da veri toplayabilirsiniz. Sosyal medyadan veri almak, diğer yöntemlerden biraz daha tekniktir. Tamamen otomatiktir ve farklı API araçlarının kullanılmasını içerir.
Sosyal medyanın, nispeten organize olmadığı ve büyük bir miktarı olduğu için, veri çıkarmak zor olabilir. Düzgün bir şekilde düzenlenmiş olan bu tür veri kümesi, çevrimiçi duygu analizi, pazar eğilimleri analizi ve çevrimiçi markalaşmayı içeren veri bilimi projelerinde yararlı olabilir.
Örneğin, Twitter, çok sayıda veri kümesi ile toplayabileceğiniz bir sosyal medya veri kaynağı örneğidir. tweepy İle yükleyebileceğiniz Python API paketi pip tweepy yüklemek komut.
Temel bir örnek olarak, Twitter ana sayfası Tweetlerini çıkarmak için kullanılan kod bloğu şuna benzer:
ithal tweepy
yeniden ithal
myAuth = tweepy. OAuthHandler (tüketici anahtarını buraya yapıştırın, tüketici_ gizli anahtarını buraya yapıştırın)
auth.set_access_token (access_token'ı buraya yapıştırın, access_token_secret'i buraya yapıştırın)
kimlik doğrulaması = tweepy. API (myAuth)
target_tweet = api.home_timeline ()
target_tweet içindeki hedefler için:
baskı (hedefler.metin)
Ziyaret edebilirsiniz docs.tweepy.org web sitesine erişmek için tweepy nasıl kullanılacağı hakkında daha fazla ayrıntı için belgeler. Twitter'ın API'sini kullanmak için, bir geliştiricinin hesabına başvurmanız gerekir. developer.twitter.com İnternet sitesi.
Facebook, veri toplamak için bir başka güçlü sosyal medya platformudur. Facebook Graph API adlı özel bir API uç noktası kullanır. Bu API, geliştiricilerin Facebook platformundaki belirli kullanıcıların davranışları hakkında veri toplamasına olanak tanır. Facebook Graph API belgelerine şu adresten erişebilirsiniz: Developers.facebook.com bunun hakkında daha fazla bilgi edinmek için.
API ile sosyal medya veri toplamanın ayrıntılı bir açıklaması bu makalenin kapsamı dışındadır. Daha fazlasını öğrenmekle ilgileniyorsanız, onlar hakkında derinlemesine bilgi için her platformun belgelerine göz atabilirsiniz.
Bir API uç noktasına bağlanmak için komut dosyaları yazmaya ek olarak, sosyal medya verileri gibi üçüncü taraf araçlarını toplayan Kazıma Uzmanı ve diğerleri de mevcuttur. Ancak, bu web araçlarının çoğunun bir bedeli vardır.
4. Resmi Kaynaklardan Önceden Mevcut Veri Kümelerini Toplama
Yetkili kaynaklardan önceden var olan veri kümelerini de toplayabilirsiniz. Bu yöntem, resmi veri bankalarını ziyaret etmeyi ve onlardan doğrulanmış veri kümelerini indirmeyi içerir. Web kazıma ve diğer seçeneklerden farklı olarak, bu seçenek daha hızlıdır ve çok az teknik bilgi gerektirir veya hiç gerektirmez.
Bu tür kaynaklardaki veri kümeleri genellikle CSV, JSON, HTML veya Excel formatlarında mevcuttur. Bazı yetkili veri kaynaklarına örnekler: Dünya Bankası, Verileri kaldırve diğerleri.
Bazı veri kaynakları, halkın bunlara erişmesini önlemek için mevcut verileri gizli hale getirebilir. Ancak, arşivleri sıklıkla indirilebilir.
Makine Öğrenimi Projeniz için Daha Fazla Resmi Veri Kümesi Kaynağı
Bu liste, projelerinizde çalışmak üzere farklı veri türleri elde etmek için size iyi bir başlangıç noktası sağlamalıdır.
- AB Açık Veri Portalı
- Kaggle Veri Kümeleri
- Google Veri Kümesi Araması
- Veri Merkezi
- AWS'de Açık Veri Kaydı
- Avrupa Devlet Kurumu - Veriler ve Haritalar
- Microsoft Research Open Data
- GitHub'da Harika Herkese Açık Veri Kümeleri Deposu
- Veri. Gov: ABD Hükümeti'nin açık verilerinin merkezi
Bundan çok daha fazla kaynak var ve dikkatli arama sizi kendi veri bilimi projeleriniz için mükemmel verilerle ödüllendirecek.
Daha İyi Sonuçlar için Bu Modern Teknikleri Birleştirin
Görev için mevcut araçlar sınırlı olduğunda veya anlaşılması zor olduğunda veri toplama yorucu olabilir. Eski ve geleneksel yöntemler hala iyi çalışıyor ve bazı durumlarda kaçınılmaz olsa da, modern yöntemler daha hızlı ve daha güvenilirdir.
Ancak, tek bir yönteme güvenmek yerine, verilerinizi toplamanın bu modern yollarının bir kombinasyonu daha iyi sonuçlar sağlama potansiyeline sahiptir.
Veri analitiğine girmek mi istiyorsunuz? İşte öğrenmeniz gereken bazı araçlar.
- Programlama
- Python
- Büyük veri
- Makine öğrenme
- Veri Toplama
- Veri analizi
Idowu, akıllı teknoloji ve üretkenlik konusunda tutkulu. Boş zamanlarında kodlama ile oynar ve sıkıldığında satranç tahtasına geçer, ancak arada bir rutinden uzaklaşmayı da sever. İnsanlara modern teknolojinin etrafındaki yolu gösterme tutkusu onu daha fazla yazmaya motive ediyor.
Haber bültenimize abone ol
Teknoloji ipuçları, incelemeler, ücretsiz e-kitaplar ve özel fırsatlar için haber bültenimize katılın!
Bir adım daha…!
Lütfen size az önce gönderdiğimiz e-postadaki e-posta adresinizi onaylayın.