Web kazıma, web sitelerinden veya sayfalardan veri biçiminde bilgi toplamayı içerir. Sizinki bilinçli bir hareket olmasa da, bilgi toplarken bir şekilde web'i de kazıdınız. Ama bu genellikle zekice.
Web kazıma veya ekran kazıma genellikle amaçlı bir eylemdir ve profesyoneller, muazzam veriler elde etmek için tasarımı otomatikleştirir. İster bir web sitesindeki metinleri manuel olarak kopyalayarak, ister özel araçlar kullanarak veya web kazıma komut dosyaları yazarak, web kazıyıcıları bazen aynı anda birden fazla istekte bulunarak bir web sitesine sert bir şekilde vururlar.
Ancak artık birçok işletme rekabet avantajı sağlamak için web kazımadan yararlansa da, bu gerçekten yasal mı?
Hangi Web Sitelerini Kazımalı ve Kesmemelisiniz?
İnternet, insanlara eski ve gerçek zamanlı verilere erişim sağlayan bir bilgi havuzudur. Web kazıma veya ekran kazıma bir süredir ortalıkta. Ama onu ne kadar kullanmalısın ve hangi web sitelerini kazıyabilirsin?
Bazı web siteleri, web tarayıcıları veya ekran kazıyıcıları konusunda katıdır ve bunları tamamen engeller. Bu nedenle, bu tür web sitelerini kazımamanız gerektiği apaçık ortada. Ancak insanlar hala bunu yapıyor.
Ne yazık ki, bu tür sitelerin boşluklarını kapatmak dışında bunu durdurmak için yapabilecekleri neredeyse hiçbir şey yok.
Bir web sitesini kazımadan önce, ideal olarak, taramaya izin verip vermediğini kontrol etmelisiniz. Bunu genellikle sitenin robots.txt dosyasını kontrol ederek öğrenebilirsiniz. Bunu "[web sitesi URL'si] /robots.txt" yazarak yapabilirsiniz.
Bir robots.txt, genellikle çeşitli tarayıcılar veya kullanıcı aracıları için kurallar belirler. Ancak, bu kurallar ilgili web sitesine bağlı olarak değişir. Bazı siteler tüm sayfalarda taramaya izin verirken, bazıları bir botun tarayabileceği sayfaları belirtir ve bazıları tarayıcıları tamamen engeller.
Tüm kullanıcı aracılarının tüm sayfaları taramasını engelleyen bir web sitesi, genellikle aşağıdaki kuralları belirler:
kullanıcı aracısı: *
İzin verme: /
Tüm botların belirli dizinleri veya sayfaları taramasını engelleyen bir robots.txt dosyası genellikle şuna benzer:
kullanıcı aracısı: *
İzin verme: / 1. sayfanın URL'si
İzin verme: / 2. sayfanın URL'si
Robots.txt taramak istediğiniz sayfaya izin vermiyorsa, muhtemelen onu kazıyabilirsiniz. Aksi takdirde, geri adım atmalı veya yöneticinin onayını almalısınız. Size erişim izni verebilirler.
Ek olarak, bazı web siteleri kullanım şartlarında taramaya izin verip vermediklerini açıkça belirtir. Hatta bazıları bunu robots.txt dosyalarının en üstünde de belirtir. Doğru şeyi yaptığınızdan emin olmak için her zaman bunu da kontrol edin.
Web Kazıma Nasıl Kötüye Kullanılıyor?
Dolayısıyla, web sitelerinden veya kişisel bilgilerinizi asla sağlamadığınız kişilerden spam e-postalar veya SMS aldıysanız, muhtemelen bir şekilde bir yere atılmışsınızdır. Ve çoğunlukla, sosyal medya hesaplarınızdan biri aracılığıyla.
Bununla birlikte, web kazıma bazen sadece ön uca işleyen verileri toplamaktan daha fazlasıdır. Kötü amaçlarla kullanılırsa, kişisel ve sınıflandırılmış bilgilerin sızmasına neden olabilir.
Çoğu sosyal medya platformu buna kaşlarını çatarken, gezinen botlar hala insanların profillerine erişiyor ve iletişim bilgileri sızdırılıyor ve kazınıyor.
Örneğin Facebook'un, kullanıcıların onları gizli tutmasına rağmen geçmişte kullanıcıların iletişim bilgilerini sızdıran güvenlik açıklarına sahip olduğu bildirildi.
Benzer şekilde, LinkedIn yakın zamanda kişisel verilerin sızdırılmasına neden olan bir güvenlik ihlali yaşadı. 500 milyondan fazla hesaba ait. Sonuç olarak, bu güvenlik açığı, profil sahiplerinin izni olmadan birçok e-posta adresinin ve telefon numarasının paylaşılmasına neden oldu.
Bir Web Sitesini Kazımak Yasadışı mı?
Web kazımanın yasallığı hakkında hiçbir zaman bir sonuç çıkmadı. Bunun yerine, bir tarayıcının duruma göre nasıl çalıştığı ve toplanan verileri ne elde etmek için kullandıkları üzerine odaklanır.
Bu nedenle, kasıtlı olarak yapıldığında kazıma yasallığı sonucuna varmak yerine yasa dışıdır. Ancak mantıklı bir şekilde yapılırsa, yasa dışı değildir.
Ancak beklendiği gibi, kullanıcıların gizliliği çok önemli olduğu için sosyal medya verilerinin toplanması ve kullanılması konusunda daha katı bir politika var gibi görünüyor. Ancak, yine de insanların verileri nasıl kazındığına bağlı.
İnternet ve Sosyal Medya Hukuk Blogu HiQ Labs'ın halka açık LinkedIn kullanıcılarının verilerini toplamasını engellemeye çalıştıktan sonra, 2019'da LinkedIn aleyhine dava kazanan veri kazıma şirketi hiQ Labs vakasını analiz etti.
HiQ Labs, Bilgisayar Sahtekarlığı ve Kötüye Kullanım Yasasının (CFAA) yalnızca yetkisiz erişimi yasakladığını iddia ederken, karar, LinkedIn'in verilerinin halka açık olduğunu doğruladı, bu nedenle bunları alan herkes bunu yaptı çünkü erişilebilir.
Ayrıca, hiQ Labs, daha iyi işe alım kararları alabilmeleri için şirketlere analitik çözümleri sağlamak için yalnızca kazınan verileri kullandı.
Aksine, Facebook kısa süre önce Chrome uzantı geliştiricilerine dava açtı Facebook kullanıcılarının profillerini rızaları olmadan toplayanlar.
Benzer şekilde, bir taklitçi site Facebook tarafından dava edildi Birkaç Instagram kullanıcısının profil bilgilerini kazımak ve ardından bunları klonlar oluşturmak için kullanmak için. Bu rapora göre, Facebook suçluya karşı kalıcı bir mahkeme emri çıkarmak için daha da ileri gitti.
Bunlar, insanların yasa dışı olarak web kazımayı kullanmış olabileceği birkaç durumdur. Söz konusu şirketler Facebook kullanıcılarının verilerini, kullanıcılarının izni olmaksızın aldatıcı bir şekilde toplamıştır. Bu yüzden gizlilik politikalarını ihlal etti.
Bu nedenle, web kazıma, verileri aldığı siteyi hayal kırıklığına uğratabilirken, şu anda hiçbir genel kural, internet yasalarını doğrudan ihlal etmedikleri sürece insanların istediklerini elde etmelerini engelleyemez.
Web Kazıma, Korsanlıkla Eşanlamlı mıdır?
Ağ kazıma ile ilgili birkaç efsane vardır. Bunlardan biri, bir web sitesini kazımanın onu hacklediğiniz anlamına geldiği inancıdır. Bilgisayar korsanlığı, sonunda verilerin kazınmasına yol açsa da, terimin kendisinin bir web sitesini hacklemek anlamına geldiği iddiası doğru değildir.
Web kazıma, aşağıdakilerin kullanımını içerebilir: özel tarama veya kazıma araçları, Uygulama Programlama Arayüzleri (API'ler) veya bir web sitesinden işlenmiş verileri almak için web kazıma komut dosyaları. Bilgisayar korsanlığından farklı olarak, kazıdığı web sitesini tehlikeye atmaz veya kullanıcılarının deneyimini bozmaz.
İlişkili: Web Kazıma Nedir? Web Sitelerinden Veri Nasıl Toplanır
Bu nedenle, bilgisayar korsanlığı, genellikle bir web sitesinin veritabanına yetkisiz erişimi içerirken, web kazıma yalnızca ön uçta zaten görünen verileri hedefler. İnsanlar web kazımayı kötü niyetle kullanabilseler de, yine de bilgisayar korsanlığı ile eşanlamlı değildir.
Buna ek olarak, web kazımadan farklı olarak, kasıtlı ve etik olmayan bilgisayar korsanlığı yasa dışıdır.
Web Kazıma İşleminin Olumlu Yönleri Nelerdir?
Web kazımanın birçok pozitif yönü vardır ve hatta bazı teknoloji şirketleri artık verilerini API'ler aracılığıyla ücretsiz olarak sunmaktadır. Bu bilgi genellikle iş trendlerini değerlendirmek ve kararlar almak için yeterli değildir.
Böylece şirketler artık uygulamaları iyileştirmek ve satışları artırmak için web'i kullanarak daha fazla veri elde ediyor. Ek olarak, veri bilimcileri makine öğrenimi algoritmalarını ekran kazıma yoluyla toplanan verilerle besler.
Bu tür veriler, görüntü tanımada kullanılan resimler, duyarlılık analizi için düz metinler veya pazar bilgisi ve tüketici davranış analizi için doğrudan ürün verileri olabilir.
İlişkili: Makine Öğrenimi Projeniz için Veri Kümeleri Edinmenin Benzersiz Yolları
Dolayısıyla, web kazıma daha da yararlıdır çünkü rakibinizin sahip olmadığı bilgilere erişiminiz varsa, onları yenebilirsiniz.
Bazı siteler web sıyırıcılara kaşlarını çatarken, bazıları, hatta e-ticaret hizmetleri, verilerini kazıp çıkarmamanızı umursamıyor. EBay ve Salesforce gibi web devleri, API'lerini 2000 yılında başlattı ve programcılara ilk kez halka açık verilere erişim sağladı.
Gerçekten Web'i Kazımalı mısınız?
Doğru şekilde yapıldığında web kazımanın yasa dışı olmadığını belirledik. Ancak kazıdığınız verilerle ne yaptığınız da bir endişe kaynağıdır. Bu nedenle, bunu kötüye kullanmak yerine, sizin ve başkalarının bilinçli kararlar vermesine yardımcı olacak daha fazla bilgi edinmek için kullanın.
Bununla birlikte, bir beceri olarak web kazıma, size veya şirketinizin iş nişinin üstünde kalmasına yardımcı olabilecek büyük internet veri yığınlarına erişmenizi sağlar. Bir veri bilimci olarak, kapsamınızı genişletir ve kodlama ve teknik becerilerinizi geliştirir.
Örneğin Python, Beautiful Soup kitaplığı veya Scrapy çerçevesi ile bir web sitesini kolayca kazımanıza yardımcı olan programlama dillerinden biridir.
Web kazıma ile ilgileniyor musunuz? Beautiful Soup Python kitaplığıyla bir web sitesini içerik ve daha fazlası için nasıl kazıyacağınız aşağıda açıklanmıştır.
Sonrakini Oku
- Güvenlik
- Programlama
- Çevrimiçi Güvenlik
- Web Kazıma
Idowu, akıllı teknoloji ve üretkenlik konusunda tutkulu. Boş zamanlarında kodlama ile oynar ve sıkıldığında satranç tahtasına geçer, ancak arada bir rutinden uzaklaşmayı da sever. İnsanlara modern teknolojinin etrafındaki yolu gösterme tutkusu, onu daha fazla yazmaya motive ediyor.
Haber bültenimize abone ol
Teknoloji ipuçları, incelemeler, ücretsiz e-kitaplar ve özel fırsatlar için haber bültenimize katılın!
Bir adım daha…!
Lütfen size az önce gönderdiğimiz e-postadaki e-posta adresinizi onaylayın.