Bir veri kümesini analiz etmek için önce verileri anlamanız gerekir. Bazen, bir veri kümesi hakkında önceden bilgi sahibi olmayabilirsiniz ve bu da ondan en iyi şekilde yararlanmanızı engeller. Bir veri analisti olarak, derinlemesine analizden önce veri kümeniz hakkında bilgi edinmek için Keşifsel veri analizini (EDA) kullanabilirsiniz.

Keşifsel veri analizi (EDA), anlamlı içgörüler elde etmek için bir veri kümesini araştırır. EDA gerçekleştirme süreci, bir veri kümesinin yapısı ve içeriği hakkında bilgi sorgulamayı içerir.

Gota Paketini Yükleme

Gota paketi en popüler olanıdır. veri analizi Go'da; bu gibi Python Pandalar paketi ama Git için. Gota paketi, veri kümelerini analiz etmek ve JSON, CSV ve HTML formatlarını okumak için birçok yöntem içerir.

Bu komutu, bir Go modül dosyasını başlattığınız dizinde terminalinizde çalıştırın:

Git -u github.com/ olsunGit-aldım/aldım

Komut, Gota'yı yerel dizine kuracak ve paketi kullanmanız için içe aktarmanız için hazır olacak.

Pandalar gibi Gota da seri ve veri çerçevesi işlemlerini destekler. Gota paketinde iki alt paket vardır: seri ve veri çerçevesi paketi. İhtiyaçlarınıza bağlı olarak birini veya her ikisini de içe aktarabilirsiniz.

instagram viewer

içe aktarmak (
"github.com/Git-gota/gota/seri"
"github.com/Git-gota/gota/veri çerçevesi"
)

Gota Paketini Kullanarak Bir Veri Kümesini Okumak

İstediğiniz herhangi bir CSV dosyasını kullanabilirsiniz, ancak aşağıdaki örnekler aşağıdakilerden elde edilen sonuçları göstermektedir: bir Kaggle veri kümesi, dizüstü bilgisayar fiyat verilerini içerir.

Gota kullanarak veri çerçeveleri oluşturmak için CSV, JSON ve HTML dosya biçimlerini okumanıza izin verir. OkuCSV, JSON oku, ve OkuHTML yöntemler. Bir CSV dosyasını bir dataframe nesnesine şu şekilde yüklersiniz:

dosya, hata := os. Open("/path/to/csv-file.csv")

eğer hata != sıfır {
fmt. Println("dosya açma hatası")
}

dataFrame := dataframe. ReadCSV(dosya)
fmt. Println (veri çerçevesi)

kullanabilirsiniz Açık yöntemi işletim sistemi CSV dosyasını açmak için paket. ReadCSV yöntemi, dosya nesnesini okur ve bir veri çerçevesi nesnesi döndürür.

Bu nesneyi yazdırdığınızda çıktı tablo biçiminde olur. Gota'nın sağladığı çeşitli yöntemleri kullanarak veri çerçevesi nesnesini daha fazla değiştirebilirsiniz.

Nesne, bir veri kümesinin bir set değerinden fazlasına sahip olması durumunda yalnızca bazı sütunları yazdıracaktır.

Veri Kümesinin Boyutunu Getirme

Bir veri çerçevesinin boyutları, içerdiği satır ve sütun sayısıdır. kullanarak bu boyutları getirebilirsiniz. karartır veri çerçevesi nesnesinin yöntemi.

var satırlar, sütunlar = dataFrame. karartır()

Yalnızca diğer boyutu getirmek için değişkenlerden birini alt çizgi ile değiştirin. Ayrıca, satır ve sütun sayısını ayrı ayrı sorgulayabilirsiniz. Şimdi ve Ncol yöntemler.

var satırlar = dataFrame. Nrow()
var sütunlar = dataFrame. Ncol()

Sütunların Veri Türlerini Getirme

Analiz etmek için bir veri kümesinin sütunlarındaki bileşik veri türlerini bilmeniz gerekir. Bunları kullanarak getirebilirsiniz Türler dataframe nesnenizin yöntemi:

var türler = dataFrame. Türler()
fmt. Println (türler)

Types yöntemi, sütunun veri türlerini içeren bir dilim döndürür:

Sütun Adlarını Alma

İşlemler için belirli sütunları seçmek için sütun adlarına ihtiyacınız olacak. kullanabilirsiniz İsimler onları getirme yöntemi.

var columnNames := dataFrame. İsimler()
fmt. Println (sütun İsimleri)

Names yöntemi, sütun adlarının bir dilimini döndürür.

Eksik Değerleri Kontrol Etme

Boş veya sayısal olmayan değerler içeren bir veri kümeniz olabilir. kullanarak bu tür değerleri kontrol edebilirsiniz. HasNaN ve IsNaN bir dizi nesnesinin yöntemleri:

aCol := dataFrame. Sütun("display_size")
var hasNull = aCol. HasNaN()
var isNotNumber = aCol. IsNaN()

HasNan, bir sütunun boş öğeler içerip içermediğini kontrol eder. IsNaN, sütundaki her değerin bir sayı olup olmadığını gösteren bir boole dilimi döndürür.

Tanımlayıcı İstatistiksel Analiz Gerçekleştirme

Tanımlayıcı istatistiksel analiz sayısal sütunların dağılımını anlamanıza yardımcı olur. Kullanmak Betimlemek yöntemiyle, veri kümenizin tanımlayıcı bir istatistiksel analizini oluşturabilirsiniz:

açıklama := dataFrame. Betimlemek()
fmt. Println (açıklama)

Tanımlama yöntemi, bir veri kümesindeki sütunların ortalama, standart sapma ve maksimum değerleri gibi metrikleri döndürür. Bunları tablo biçiminde özetler.

Ayrıca, belirli bir sütunu seçip ardından istediğiniz metriği sorgulayarak spesifik olabilir ve sütunlara ve metriklere odaklanabilirsiniz. Önce belirli bir sütunu temsil eden diziyi getirmeli, ardından yöntemlerini şu şekilde kullanmalısınız:

aCol := dataFrame. Sütun("display_size")
var ortalama = aCol. Kastetmek()
var medyan = aCol. Medyan()
var minimum = aCol. Min()
var standartSapma = aCol. StandartDev()
var maksimum = aCol. Maks()
var nicelikler25 = aCol. Çeyreklik(25.0)

Bu yöntemler, Açıklama'nın gerçekleştirdiği tanımlayıcı istatistiksel analizin sonuçlarını yansıtır.

Bir Sütundaki Öğeleri Getirme

Gerçekleştirmek isteyeceğiniz son görevlerden biri, genel bir bakış için bir sütundaki değerleri kontrol etmektir. kullanabilirsiniz Kayıtlar Bir sütunun değerlerini görüntüleme yöntemi.

aCol := dataFrame. Sütun ("marka")
fmt. Println (aCol. Kayıtlar())

Bu yöntem, seçtiğiniz sütundaki değerleri içeren bir dizi dize döndürür:

Bir Gota Veri Çerçevesini Dosyaya Dışa Aktarma

Daha ileri gitmeyi ve tam veri analizi için Gota paketini kullanmayı seçerseniz, verileri dosyalara kaydetmeniz gerekir. kullanabilirsiniz CSV yaz ve JSON yaz Dosyaları dışa aktarmak için veri çerçevesi yöntemleri. Yöntemler, kullanarak oluşturacağınız bir dosyayı alır. işletim sistemi paket Oluşturmak yöntem.

Gota paketini kullanarak bir veri çerçevesini nasıl dışa aktarabileceğiniz aşağıda açıklanmıştır.

dataFrame := dataframe. ReadCSV(dosya)
çıktıDosyası, hata := os. Oluştur("çıktı.csv")

eğer hata != sıfır {
kayıt. Ölümcül (hata)
}

hata = veri Çerçevesi. WriteCSV(çıktıDosyası)

eğer hata != sıfır {
kayıt. Fatalln("Veri çerçevesi içeriği dosyaya yazılırken bir hata oluştu")
}

bu veri çerçevesi değişken, veri çerçevesinin bir temsilidir. kullandığınızda Oluşturmak yöntemi işletim sistemi paketi, belirtilen ada sahip yeni, boş bir dosya oluşturur ve dosyayı döndürür. WriteCSV yöntemi dosya örneğini alır ve bir hata döndürür veya sıfır eğer hata yoksa.

Keşfedici Veri Analizi Önemlidir

Veri analistleri ve makine öğrenimi uzmanları için veri ve veri kümelerini anlamak çok önemlidir. Bu, iş döngülerinde kritik bir işlemdir ve keşifsel veri analizi, bunu başarmak için kullandıkları tekniklerden biridir.

Gota paketinde daha fazlası var. Veri analizi için Python Pandas kitaplığını kullandığınız gibi, onu çeşitli veri karıştırma işlevleri için kullanabilirsiniz. Ancak Gota, Pandalar kadar işlevsellik desteklemiyor.