Bir veri analisti olarak, genellikle birden çok veri kümesini birleştirme ihtiyacıyla karşı karşıya kalırsınız. Analizinizi tamamlamak ve işletmeniz/paydaşlarınız için bir sonuca varmak için bunu yapmanız gerekecektir.

Farklı tablolarda depolandığında verileri temsil etmek genellikle zordur. Bu gibi durumlarda, üzerinde çalıştığınız programlama dilinden bağımsız olarak birleşimler değerlerini kanıtlar.

Python birleşimleri, SQL birleşimleri gibidir: veri kümelerini ortak bir dizinde satırlarını eşleştirerek birleştirirler.

Referans için İki DataFrame Oluşturun

Bu kılavuzdaki örnekleri takip etmek için iki örnek DataFrame oluşturabilirsiniz. Kimlik, ad ve soyadı içeren ilk DataFrame'i oluşturmak için aşağıdaki kodu kullanın.

içe aktarmak pandalar olarak pd

bir = pd. Veri çerçevesi({"İD": ["001", "002", "003", "004", "005"],
"isim": ["Ron", "John", "Helen", "Jenny", "Kenny"],
"ad": ["Keith", "harley", "Smith", "Kerr-Hislop", "berber"]})
Yazdır(a)

İlk adım için, içe aktarın pandalar kütüphane. Daha sonra bir değişken kullanabilirsiniz,

instagram viewer
a, sonucu DataFrame yapıcısından depolamak için. Oluşturucuya gerekli değerlerinizi içeren bir sözlük iletin.

Son olarak, her şeyin beklediğiniz gibi göründüğünü kontrol etmek için DataFrame değerinin içeriğini yazdırma işleviyle görüntüleyin.

Benzer şekilde, başka bir DataFrame oluşturabilirsiniz, b, bir kimlik ve maaş değerleri içerir.

b = pd. Veri çerçevesi({"İD": ["001", "002", "003", "004", "005"],
"Aylık maaş": [100000, 700000, 80000, 904750, 604772]})

Yazdır(b)

Çıktıyı bir konsolda veya bir IDE'de kontrol edebilirsiniz. DataFrames'inizin içeriğini doğrulamalıdır:

Python'da Birleştirmeler Birleştirme İşlevinden Nasıl Farklıdır?

Pandalar kitaplığı, DataFrame'leri işlemek için kullanabileceğiniz ana kitaplıklardan biridir. DataFrame'ler birden çok veri kümesi içerdiğinden, Python'da bunlara katılmak için çeşitli işlevler mevcuttur.

Python, DataFrame'leri birleştirmek için kullanabileceğiniz pek çok diğerinin yanı sıra birleştirme ve birleştirme işlevleri sunar. Bu iki işlev arasında, birini kullanmadan önce aklınızda bulundurmanız gereken büyük bir fark vardır.

Join işlevi, indeks değerlerine göre iki DataFrame'i birleştirir. bu birleştirme işlevi DataFrame'leri birleştirir indeks değerlerine ve sütunlara göre.

Python'da Birleştirmeler Hakkında Bilmeniz Gerekenler?

Mevcut birleştirme türlerini tartışmadan önce, burada dikkat edilmesi gereken bazı önemli noktalar bulunmaktadır:

  • SQL birleşimleri en temel işlevlerden biridir. ve Python'un birleşimlerine oldukça benzer.
  • DataFrames'a katılmak için şunları kullanabilirsiniz: pandalar. DataFrame.join() yöntem.
  • Varsayılan birleştirme, bir sol birleştirme gerçekleştirirken birleştirme işlevi bir iç birleştirme gerçekleştirir.

Python birleşmesi için varsayılan sözdizimi aşağıdaki gibidir:

DataFrame.join (diğer, on=Yok, nasıl='sol/sağ/iç/dış', lsonek='', rs sonek='',
sıralama=Yanlış)

İlk DataFrame'de birleştirme yöntemini çağırın ve ikinci DataFrame'i ilk parametresi olarak iletin, başka. Kalan argümanlar:

  • üzerinde, birden fazla varsa, katılmak için bir dizini adlandırır.
  • nasıl, iç, dış, sol ve sağ dahil olmak üzere birleştirme türünü tanımlar.
  • lsoneki, sütun adınızın sol son ek dizesini tanımlar.
  • rs eki, sütun adınızın sağ son ek dizesini tanımlar.
  • çeşit, sonuçta elde edilen DataFrame'in sıralanıp sıralanmayacağını belirten bir boole.

Python'da Çeşitli Birleşim Türlerini Kullanmayı Öğrenin

Python, saatin ihtiyacına bağlı olarak egzersiz yapabileceğiniz birkaç birleştirme seçeneğine sahiptir. İşte birleştirme türleri:

1. Sol yönden katılım

Sol birleştirme, ikinciden eşleşen değerleri getirirken ilk DataFrame'in değerlerini olduğu gibi tutar. Örneğin, eşleşen değerleri şuradan getirmek istiyorsanız: b, aşağıdaki gibi tanımlayabilirsiniz:

c = a.join (b, nasıl="ayrıldı", lsoneki = "_ayrıldı", rs eki = "_Sağ", sıralama = Doğru)
Yazdır(c)

Sorgu yürütüldüğünde, çıktı aşağıdaki sütun referanslarını içerir:

  • ID_left
  • isim
  • ad
  • ID_right
  • Aylık maaş

Bu birleştirme, ilk DataFrame'den ilk üç sütunu ve ikinci DataFrame'den son iki sütunu çeker. Kullanmıştır lsoneki ve rs eki Sonuç alan adlarının benzersiz olmasını sağlamak için her iki veri kümesinden kimlik sütunlarını yeniden adlandırmak için değerler.

Çıktı aşağıdaki gibidir:

2. Sağ Katıl

Doğru birleştirme, birinci tablodan eşleşen değerleri getirirken ikinci DataFrame'in değerlerini olduğu gibi tutar. Örneğin, eşleşen değerleri şuradan getirmek istiyorsanız: a, aşağıdaki gibi tanımlayabilirsiniz:

c = b.join (a, nasıl="Sağ", lsoneki = "_Sağ", rs eki = "_ayrıldı", sıralama = Doğru)
Yazdır(c)

Çıktı aşağıdaki gibidir:

Kodu incelerseniz, birkaç belirgin değişiklik vardır. Örneğin, sonuç, birinci DataFrame'den önceki ikinci DataFrame sütunlarını içerir.

değerini kullanmalısın Sağ için nasıl bir doğru birleştirme belirtmek için argüman. Ayrıca, nasıl değiştirebileceğinizi de not edin. lsoneki ve rs eki doğru birleştirmenin doğasını yansıtan değerler.

Normal birleştirmelerinizde, kendinizi sağ birleştirmeye kıyasla sol, iç ve dış birleştirmeleri daha sık kullanırken bulabilirsiniz. Ancak, kullanım tamamen veri gereksinimlerinize bağlıdır.

3. İç birleşim

Bir iç birleşim, her iki DataFrame'den de eşleşen girdileri teslim eder. Birleştirmeler satırları eşleştirmek için dizin numaralarını kullandığından, bir iç birleştirme yalnızca eşleşen satırları döndürür. Bu örnek için aşağıdaki iki DataFrame'i kullanalım:

bir = pd. Veri çerçevesi({"İD": ["001", "002", "003", "004", "005", "006", "007"],
"isim": ["Ron", "John", "Helen", "Jenny", "Kenny", "Daryl", "Cathy"],
"ad": ["Keith", "harley", "Smith", "Kerr-Hislop", "berber", "Hooper", "Ümit etmek"]})
b = pd. Veri çerçevesi({"İD": ["001", "002", "003", "004", "005"],
"Aylık maaş": [100000, 700000, 80000, 904750, 604772]})

Yazdır(a)
Yazdır(b)

Çıktı aşağıdaki gibidir:

Aşağıdaki gibi bir iç birleştirme kullanabilirsiniz:

c = a.join (b, lsonfix="_ayrıldı", rs sonek="_Sağ", nasıl='')
Yazdır(c)

Ortaya çıkan çıktı, yalnızca her iki giriş DataFrame'inde bulunan satırları içerir:

4. Dış Birleştirme

Bir dış birleştirme, her iki DataFrame'deki tüm değerleri döndürür. Eşleşen değerleri olmayan satırlar için tek tek hücrelerde boş bir değer üretir.

Yukarıdakiyle aynı DataFrame'i kullanarak, dış birleştirme için kod:

c = a.join (b, lsonfix="_ayrıldı", rs sonek="_Sağ", nasıl='dış')
Yazdır(c)

Python'da Birleştirmeleri Kullanma

Birleştirmeler, karşılık gelen işlevleri olan birleştirme ve birleştirme gibi, basit bir birleştirme işlevinden çok daha fazlasını sunar. Seçenekler ve işlevler dizisi göz önüne alındığında, gereksinimlerinizi karşılayan seçenekleri seçebilirsiniz.

Python'un sunduğu esnek seçeneklerle, birleştirme işlevi olsun veya olmasın, elde edilen veri kümelerini nispeten kolay bir şekilde sıralayabilirsiniz.