Sizin gibi okuyucular MUO'yu desteklemeye yardımcı oluyor. Sitemizdeki bağlantıları kullanarak bir satın alma işlemi gerçekleştirdiğinizde, bir ortaklık komisyonu kazanabiliriz.

İle Sai Ashish Konchada
PaylaşmakCıvıldamakPaylaşmakE-posta

HTML'yi kazımak zahmetli olabilir, bu yüzden biraz Python alıştırması yaparak bu işlemi anladığınızdan emin olun.

Twitter, gelmiş geçmiş en etkili sosyal medya platformlarından biridir. En iyi politikacılar, ünlüler ve CEO'lar da dahil olmak üzere milyonlarca insan, her gün düşüncelerini paylaşmak için platformu kullanıyor.

Trend sekmesi, gerçek zamanlı haberleri ve sosyal medya duyarlılığını öğrenmek için en iyi yerlerden biridir. Marka reklamları planlamak, kampanyalar yürütmek ve satışları kat kat artırmak için bu verileri analiz edebilir ve kullanabilirsiniz. Ancak Twitter'da trend olan ilk on hashtag'i nasıl edinebilirsiniz?

Algoritma Oluşturma Süreci

Herhangi bir program oluşturmanın ilk adımı, bir Twitter kazıyıcı oluşturmak için gereken adımları not etmek ve anlamaktır. Bunlar:

instagram viewer
  1. Google Chrome'u açın.
  2. Twitter'ın trend sayfasını ziyaret edin.
  3. Hashtag'leri ve ilgili sayfa bağlantısını toplayın.
  4. Verileri bir elektronik tabloya kaydedin.

Bu, problem bildiriminin algoritması olarak hizmet eder.

Twitter Web Sayfasını Anlamak

Bir web sayfasını ayıklayabilmeniz için önce verilerini nasıl işaretlediğini bilmeniz gerekir. İyi bir anlayışa sahipseniz çok yardımcı olur HTML'nin temelleri ve CSS.

Twitter'ın trend olan bir hashtag'i ve URL'sini nasıl temsil ettiğini öğrenmek için şu adımları izleyin:

  1. Ziyaret etmek Twitter'ın trend sayfası. Ayrıca şuraya da gidebilirsiniz: twitter.comKeşfetmektrend görüntülemek için
  2. Ana sütunu inceleyin Chrome Geliştirme Araçlarını kullanma. git Menü (3 nokta)>Daha Fazla Araç >Geliştirici Araçları ve öğe seçici aracını trend alanının üzerine getirin.
  3. Trend Zaman Çizelgesi bir div bir ile arya etiketi değeri olan öznitelik "Zaman Çizelgesi: Keşfet". İşaretlemenin üzerine gelin Elementler paneli sayfa yapısını daha iyi anlamak için. Bir diğer div trend olan hashtag'i/konuyu saklar. Bu div'i bir sayaç olarak kullanın ve trend olan konuyu/hashtag'i içeren sayfadaki tüm div'leri yineleyin. içerik bir içinde saklanır açıklık veya birkaç açıklık elemanı. Açık sekmeyi gözlemleyin ve hiyerarşiye dikkat edin. Bunu bir XPath ifadesi oluşturmak için kullanabilirsiniz. Bu belirli öğe için XPath ifadesi şöyledir:
    '//div[@aria-label="Zaman Çizelgesi: Keşfet"]/div[1]/div[3]/div[1]/div[1]/div[1]/div[1]/div[2]/span[1]'
    div[3], div[4], div[5] vb. yineleyin ve hedefleyin. İlk on hashtag için sayaç 3'ten 13'e kadar çalışır. Genelleştirilmiş XPath şöyle olur:
    //div[@aria-label="Zaman Çizelgesi: Keşfet"]/div[1]/div[{i}]/div[1]/div[1]/div[1]/div[1]/div[2]/span[1]'
  4. Sayfalarının URL'sini anlamak için herhangi bir etikete tıklayın. URL'leri karşılaştırırsanız, hashtag'in adıyla eşleşmek için yalnızca sorgu parametresinin değiştiğini fark etmelisiniz. URL'leri gerçekten ayıklamadan oluşturmak için bu içgörüyü kullanabilirsiniz.

Bu proje aşağıdaki Python modüllerini ve araçlarını kullanır:

1. Pandalar Modülü

Yapabilirsiniz Pandalar DataFrame sınıfını kullanın hashtag'leri ve ilgili bağlantılarını tablo biçiminde saklamak için. Bu, harici olarak paylaşabileceğiniz bir CSV dosyasına bu içerikleri eklemek söz konusu olduğunda yardımcı olacaktır.

2. Zaman Modülü

Sayfa içeriğinin tam olarak yüklenmesini sağlamak amacıyla Python programına bir gecikme eklemek için Zaman modülünü kullanın. Bu örnekte 15 saniyelik bir gecikme kullanılmaktadır, ancak deneyebilir ve koşullarınız için uygun bir gecikme seçebilirsiniz.

3. Selenyum Modülü

Selenyum, web ile etkileşim sürecini otomatikleştirebilir. Bir web tarayıcı örneğini kontrol etmek, trend sayfasını açmak ve aşağı kaydırmak için kullanabilirsiniz. Selenium'u Python ortamınıza yüklemek için, terminal ve yürütpip yükleme selenyum.

4. Web Sürücüsü

Tarayıcıyla etkileşim kurmak için Selenium ile birlikte bir web sürücüsü kullanın. Otomatikleştirmek istediğiniz tarayıcıya bağlı olarak kullanılabilen farklı web sürücüleri vardır. Bu derleme için popüler Google Chrome tarayıcısını kullanın. Chrome için web sürücüsünü yüklemek için:

  1. adresini ziyaret ederek kullandığınız tarayıcının sürümünü kontrol edin. Menü (3 nokta) > Yardım>Google Chrome hakkında.
  2. Tarayıcının sürümünü not edin; bu durumda 106.0.5249.62'dir.
  3. seninkine git terminal ve yazın pip kurulumu chromedriver-binary==version_number:
    bip düzenlemek krom sürücü-ikili==106.0.5249.62
    Eşleşen sürüm yoksa, pip size mevcut olanların bir listesini gösterir; krom sürümünüze en yakın olanı seçin.

Twitter Kazıyıcı Nasıl Yapılır?

Programınızı oluşturmak ve gerçek zamanlı trend hashtag'leri almak için bu adımları izleyin. Kaynak kodunun tamamını burada bulabilirsiniz. GitHub Deposu.

  1. Gerekli modülleri Python ortamına aktarın.
    # gerekli modülleri içe aktarma
    itibaren selenyum içe aktarmak web sürücüsü
    itibarenselenyum.web sürücüsü.yaygın.ileiçe aktarmakİle
    içe aktarmak chromedriver_binary
    içe aktarmak zaman
    içe aktarmak pandalar gibi pd
  2. ChromeDriver'ı başlatmak ve Google Chrome tarayıcısını başlatmak için bir nesne oluşturun. web sürücüsü. Krom() işlev.
    # google chrome tarayıcısını aç
    tarayıcı = web sürücüsü. Krom()
  3. URL'sini şuraya geçirerek Twitter'ın trend sayfasını açın: elde etmek() işlev.
    # Twitter'ın trend sayfasını aç
    tarayıcı.get('https://twitter.com/explore/tabs/trending')
  4. Sayfa içeriğinin tam olarak yüklenmesi için bir gecikme uygulayın.
    # sayfa içeriğinin yüklenmesi için gecikme
    zaman.uyumak(15)
  5. Hashtag'leri depolamak için boş bir liste oluşturun ve önceki XPath ifadesindeki değişkenle eşleşmesi için 3'ten 13'e kadar çalışan bir döngü bildirin.
    # trend olan konuları ve hashtag'leri saklamak için listeyi başlat
    trending_topic_content=[]

    # Twitter'ın trend sayfasındaki konuları ve hashtag'leri toplayın
    (3,13) aralığındaki i için:

  6. Kullan find_element() Twitter'da trend olan konuları ve hashtag'leri almak için XPath seçiciyi kullanın ve geçin:
    xpath = f'//div[@aria-label="Zaman Çizelgesi: Keşfet"]/div[1]/div[{i}]/div[1]/div[1]/div[1]/div[1]/div[2]/span[1]'
    trending_topic = browser.find_element (XPATH, xpath tarafından)
    trending_topic_content.ekleme(yükselen Konu.metin)
  7. Tüm URL'leri depolamak için boş bir liste oluşturun ve tüm hashtag'lerden geçen bir döngü bildirin.
    # toplanan hashtag'leri kullanarak URL'ler oluşturun
    url'ler=[]
    trending_topic_content'te ben için:
    URL'sini oluşturmak için hashtag'i atlamak ve boşlukları URL kodlamasıyla değiştirmek için dilim operatörünü kullanın, %20. Bağlantıları listeye ekleyin.
    i.ile başlarsa("#"):
    ben = ben[1:]
    url='https://twitter.com/search? q=%23' + ben + '&src=trend_click'
    başka:
    url = 'https://twitter.com/search? q=' + ben + '&src=trend_click'
    url = url.değiştir("", "%20")
    url'ler.ekleme(url)
  8. Anahtarları hashtag olarak ve değerleri URL'leri olarak kullanarak bir anahtar-değer çifti Sözlüğü oluşturun.
    # hem etiketi hem de URL'leri içeren bir sözlük oluştur
    dik={'Başlık etiketi':trending_topic_content,'URL':url'ler}
  9. Yapılandırılmamış sözlüğü tablo şeklinde bir DataFrame'e dönüştürün.
    # sözlüğü pandalarda bir veri çerçevesine dönüştür
    df=pd. DataFrame (dik)
    Yazdır(df)
  10. DataFrame'i Microsoft Excel'de görüntüleyebileceğiniz veya daha fazla işleyebileceğiniz bir CSV dosyasına kaydedin.
    # veri çerçevesini seri numarası olmayan Virgülle Ayrılmış Değer biçimine dönüştürün
    df.to_csv("Twitter_HashTags.csv",dizin=Yanlış)

Web Scraping Kullanarak Değerli İçgörüler Elde Edin

Web kazıma, istenen verileri elde etmek ve kararlar almak için analiz etmek için güçlü bir yöntemdir. Beautiful Soup, yükleyip Python kullanarak herhangi bir HTML veya XML dosyasından veri sıyırmak için kullanabileceğiniz etkileyici bir kitaplıktır.

Bununla, gerçek zamanlı haber başlıkları, ürün fiyatları, spor skorları, hisse senedi değeri ve daha fazlasını elde etmek için interneti kazıyabilirsiniz.

Bu Güzel Çorba Python Eğitimi ile Bir Web Sitesini Kazıyın

Sonrakini Oku

PaylaşmakCıvıldamakPaylaşmakE-posta

İlgili konular

  • Programlama
  • Programlama
  • Piton
  • Web Geliştirme
  • Web Kazıma
  • twitter

Yazar hakkında

Sai Ashish Konchada (3 Makale Yayınlandı)

Sai Ashish, web siteleri ve web uygulamaları oluşturma konusunda endüstri deneyimine sahip Tam Yığın Geliştiricidir. Yenilikçi ürünler geliştirmeyi ve programlama üzerine anlayışlı makaleler yazmayı seviyor.

Sai Ashish Konchada'dan Daha Fazla

Yorum

Haber bültenimize abone ol

Teknik ipuçları, incelemeler, ücretsiz e-kitaplar ve özel fırsatlar için bültenimize katılın!

Abone olmak için buraya tıklayın

tel üzerinde

bu aralar moda