Sizin gibi okuyucular MUO'yu desteklemeye yardımcı oluyor. Sitemizdeki bağlantıları kullanarak bir satın alma işlemi gerçekleştirdiğinizde, bir ortaklık komisyonu kazanabiliriz.
HTML'yi kazımak zahmetli olabilir, bu yüzden biraz Python alıştırması yaparak bu işlemi anladığınızdan emin olun.
Twitter, gelmiş geçmiş en etkili sosyal medya platformlarından biridir. En iyi politikacılar, ünlüler ve CEO'lar da dahil olmak üzere milyonlarca insan, her gün düşüncelerini paylaşmak için platformu kullanıyor.
Trend sekmesi, gerçek zamanlı haberleri ve sosyal medya duyarlılığını öğrenmek için en iyi yerlerden biridir. Marka reklamları planlamak, kampanyalar yürütmek ve satışları kat kat artırmak için bu verileri analiz edebilir ve kullanabilirsiniz. Ancak Twitter'da trend olan ilk on hashtag'i nasıl edinebilirsiniz?
Algoritma Oluşturma Süreci
Herhangi bir program oluşturmanın ilk adımı, bir Twitter kazıyıcı oluşturmak için gereken adımları not etmek ve anlamaktır. Bunlar:
- Google Chrome'u açın.
- Twitter'ın trend sayfasını ziyaret edin.
- Hashtag'leri ve ilgili sayfa bağlantısını toplayın.
- Verileri bir elektronik tabloya kaydedin.
Bu, problem bildiriminin algoritması olarak hizmet eder.
Twitter Web Sayfasını Anlamak
Bir web sayfasını ayıklayabilmeniz için önce verilerini nasıl işaretlediğini bilmeniz gerekir. İyi bir anlayışa sahipseniz çok yardımcı olur HTML'nin temelleri ve CSS.
Twitter'ın trend olan bir hashtag'i ve URL'sini nasıl temsil ettiğini öğrenmek için şu adımları izleyin:
- Ziyaret etmek Twitter'ın trend sayfası. Ayrıca şuraya da gidebilirsiniz: twitter.com → Keşfetmek → trend görüntülemek için
- Ana sütunu inceleyin Chrome Geliştirme Araçlarını kullanma. git Menü (3 nokta)>Daha Fazla Araç >Geliştirici Araçları ve öğe seçici aracını trend alanının üzerine getirin.
- Trend Zaman Çizelgesi bir div bir ile arya etiketi değeri olan öznitelik "Zaman Çizelgesi: Keşfet". İşaretlemenin üzerine gelin Elementler paneli sayfa yapısını daha iyi anlamak için. Bir diğer div trend olan hashtag'i/konuyu saklar. Bu div'i bir sayaç olarak kullanın ve trend olan konuyu/hashtag'i içeren sayfadaki tüm div'leri yineleyin. içerik bir içinde saklanır açıklık veya birkaç açıklık elemanı. Açık sekmeyi gözlemleyin ve hiyerarşiye dikkat edin. Bunu bir XPath ifadesi oluşturmak için kullanabilirsiniz. Bu belirli öğe için XPath ifadesi şöyledir:
div[3], div[4], div[5] vb. yineleyin ve hedefleyin. İlk on hashtag için sayaç 3'ten 13'e kadar çalışır. Genelleştirilmiş XPath şöyle olur:'//div[@aria-label="Zaman Çizelgesi: Keşfet"]/div[1]/div[3]/div[1]/div[1]/div[1]/div[1]/div[2]/span[1]'
//div[@aria-label="Zaman Çizelgesi: Keşfet"]/div[1]/div[{i}]/div[1]/div[1]/div[1]/div[1]/div[2]/span[1]'
- Sayfalarının URL'sini anlamak için herhangi bir etikete tıklayın. URL'leri karşılaştırırsanız, hashtag'in adıyla eşleşmek için yalnızca sorgu parametresinin değiştiğini fark etmelisiniz. URL'leri gerçekten ayıklamadan oluşturmak için bu içgörüyü kullanabilirsiniz.
Bu proje aşağıdaki Python modüllerini ve araçlarını kullanır:
1. Pandalar Modülü
Yapabilirsiniz Pandalar DataFrame sınıfını kullanın hashtag'leri ve ilgili bağlantılarını tablo biçiminde saklamak için. Bu, harici olarak paylaşabileceğiniz bir CSV dosyasına bu içerikleri eklemek söz konusu olduğunda yardımcı olacaktır.
2. Zaman Modülü
Sayfa içeriğinin tam olarak yüklenmesini sağlamak amacıyla Python programına bir gecikme eklemek için Zaman modülünü kullanın. Bu örnekte 15 saniyelik bir gecikme kullanılmaktadır, ancak deneyebilir ve koşullarınız için uygun bir gecikme seçebilirsiniz.
3. Selenyum Modülü
Selenyum, web ile etkileşim sürecini otomatikleştirebilir. Bir web tarayıcı örneğini kontrol etmek, trend sayfasını açmak ve aşağı kaydırmak için kullanabilirsiniz. Selenium'u Python ortamınıza yüklemek için, terminal ve yürütpip yükleme selenyum.
4. Web Sürücüsü
Tarayıcıyla etkileşim kurmak için Selenium ile birlikte bir web sürücüsü kullanın. Otomatikleştirmek istediğiniz tarayıcıya bağlı olarak kullanılabilen farklı web sürücüleri vardır. Bu derleme için popüler Google Chrome tarayıcısını kullanın. Chrome için web sürücüsünü yüklemek için:
- adresini ziyaret ederek kullandığınız tarayıcının sürümünü kontrol edin. Menü (3 nokta) > Yardım>Google Chrome hakkında.
- Tarayıcının sürümünü not edin; bu durumda 106.0.5249.62'dir.
- seninkine git terminal ve yazın pip kurulumu chromedriver-binary==version_number:
Eşleşen sürüm yoksa, pip size mevcut olanların bir listesini gösterir; krom sürümünüze en yakın olanı seçin.bip düzenlemek krom sürücü-ikili==106.0.5249.62
Twitter Kazıyıcı Nasıl Yapılır?
Programınızı oluşturmak ve gerçek zamanlı trend hashtag'leri almak için bu adımları izleyin. Kaynak kodunun tamamını burada bulabilirsiniz. GitHub Deposu.
- Gerekli modülleri Python ortamına aktarın.
# gerekli modülleri içe aktarma
itibaren selenyum içe aktarmak web sürücüsü
itibarenselenyum.web sürücüsü.yaygın.ileiçe aktarmakİle
içe aktarmak chromedriver_binary
içe aktarmak zaman
içe aktarmak pandalar gibi pd - ChromeDriver'ı başlatmak ve Google Chrome tarayıcısını başlatmak için bir nesne oluşturun. web sürücüsü. Krom() işlev.
# google chrome tarayıcısını aç
tarayıcı = web sürücüsü. Krom() - URL'sini şuraya geçirerek Twitter'ın trend sayfasını açın: elde etmek() işlev.
# Twitter'ın trend sayfasını aç
tarayıcı.get('https://twitter.com/explore/tabs/trending') - Sayfa içeriğinin tam olarak yüklenmesi için bir gecikme uygulayın.
# sayfa içeriğinin yüklenmesi için gecikme
zaman.uyumak(15) - Hashtag'leri depolamak için boş bir liste oluşturun ve önceki XPath ifadesindeki değişkenle eşleşmesi için 3'ten 13'e kadar çalışan bir döngü bildirin.
# trend olan konuları ve hashtag'leri saklamak için listeyi başlat
trending_topic_content=[]# Twitter'ın trend sayfasındaki konuları ve hashtag'leri toplayın
(3,13) aralığındaki i için: - Kullan find_element() Twitter'da trend olan konuları ve hashtag'leri almak için XPath seçiciyi kullanın ve geçin:
xpath = f'//div[@aria-label="Zaman Çizelgesi: Keşfet"]/div[1]/div[{i}]/div[1]/div[1]/div[1]/div[1]/div[2]/span[1]'
trending_topic = browser.find_element (XPATH, xpath tarafından)
trending_topic_content.ekleme(yükselen Konu.metin) - Tüm URL'leri depolamak için boş bir liste oluşturun ve tüm hashtag'lerden geçen bir döngü bildirin.
URL'sini oluşturmak için hashtag'i atlamak ve boşlukları URL kodlamasıyla değiştirmek için dilim operatörünü kullanın, %20. Bağlantıları listeye ekleyin.# toplanan hashtag'leri kullanarak URL'ler oluşturun
url'ler=[]
trending_topic_content'te ben için:i.ile başlarsa("#"):
ben = ben[1:]
url='https://twitter.com/search? q=%23' + ben + '&src=trend_click'
başka:
url = 'https://twitter.com/search? q=' + ben + '&src=trend_click'
url = url.değiştir("", "%20")
url'ler.ekleme(url) - Anahtarları hashtag olarak ve değerleri URL'leri olarak kullanarak bir anahtar-değer çifti Sözlüğü oluşturun.
# hem etiketi hem de URL'leri içeren bir sözlük oluştur
dik={'Başlık etiketi':trending_topic_content,'URL':url'ler} - Yapılandırılmamış sözlüğü tablo şeklinde bir DataFrame'e dönüştürün.
# sözlüğü pandalarda bir veri çerçevesine dönüştür
df=pd. DataFrame (dik)
Yazdır(df) - DataFrame'i Microsoft Excel'de görüntüleyebileceğiniz veya daha fazla işleyebileceğiniz bir CSV dosyasına kaydedin.
# veri çerçevesini seri numarası olmayan Virgülle Ayrılmış Değer biçimine dönüştürün
df.to_csv("Twitter_HashTags.csv",dizin=Yanlış)
Web Scraping Kullanarak Değerli İçgörüler Elde Edin
Web kazıma, istenen verileri elde etmek ve kararlar almak için analiz etmek için güçlü bir yöntemdir. Beautiful Soup, yükleyip Python kullanarak herhangi bir HTML veya XML dosyasından veri sıyırmak için kullanabileceğiniz etkileyici bir kitaplıktır.
Bununla, gerçek zamanlı haber başlıkları, ürün fiyatları, spor skorları, hisse senedi değeri ve daha fazlasını elde etmek için interneti kazıyabilirsiniz.