Belajar Pandas, Series dan DataFrame dengan Pyhton
artikel ini berisi Belajar Pandas, Series dan DataFrame dengan Pyhton
Pengertian Pandas pada Python
Pandas kependekan dari Python Data Analysis Library. Nama Pandas tersebut
adalah turunan dari kata Panel Data. Pandas merupakan sebuah open source
python package/library dengan lisensi BSD yang menyediakan banyak perkakas
untuk kebutuhan data analisis, manipulasi dan pembersihan data. Pandas
mendukung pembacaan dan penulisan data dengan media berupa excel
spreadsheet, CSV, dan SQL yang kemudian akan dijadikan sebagai objek python
dengan rows dan columns yang disebut data frame seperti halnya pada tabel
statistik.
Pengertian Series
Series merupakan struktur data dasar dalam Pandas. Series bisa juga
diibaratkan sebagai array satu dimensi seperti halnya yang ada pada numpy
array, hanya bedanya mempunyai index dan kita dapat mengontrol index dari
setiap elemen tersebut.
Struktur data yang bisa ditampung berupa integer, float, dan juga string.
Series juga mendukung operasi vektor. Secara definisi, Series tidak dapat
mempunyai kolom ganda, untuk masalah ini bisa menggunakan struktur data
frame.
Pengertian DataFrame
DataFrame adalah struktur data 2 dimensi yang berbentuk tabular (mempunyai
baris dan kolom) Hampir semua data tidak hanya memiliki 1 kolom tetapi lebih
sehingga lebih cocok menggunakan pandas DataFrame untuk mengolahnya
DataFrame dapat dibuat lebih dari satu Series atau dapat kita katakan bahwa
DataFrame adalah kumpulan Series
Membuat DataFrame dengan Pandas
DataFrame dari List
Ada beberapa cara untuk membuat DataFrame antara lain melalui List, Dict,
Series, File atau DataFrame lain Untuk implementasi DataFrame anda dapat
gunakan Jupyter Notebook
Langkah#1
DatarFrame dari List Pertama import terlebih dahulu library Pandas
import pandas as pd
Langkah#2
Selanjutnya buat variabel data yang menyimpan beberapa List dan gunakan fungsi
DataFrame() untuk membuat DataFrame baru
data = {'satu': [4,4,4,4,4],
'dua' : [5,6,7,8,9],
'tiga': [10,11,12,13,14]}
df = pd.DataFrame(data)
df.head()
Hasilnya adalah seperti ini :
Kita juga bisa memberikan index label seperti pada Series
data = {'kol1': [1,1,1,1,1],
'kol2' : [2,2,2,2,2],
'kol3': [3,3,3,3,3]}
df = pd.DataFrame(data, index=['baris1','baris2','baris3','baris4','baris5'])
df.head()
Hasilnya adalah
index default berupa angka menjadi bentu nama baris yang telah kita set :
DataFrame dari Dictionary
Kita juga bisa membuat DataFrame dari kumpulan
Dictionary yang digabungkan di dalam List
data = [{'satu': 1, 'dua': 2,'tiga': 3}, # index ke-0
{'satu': 1, 'dua': 2,'tiga': 3}, # index ke-1
{'satu': 1, 'dua': 2,'tiga': 3}] # index ke-3
df = pd.DataFrame(data)
df.head()
Hasilnya adalah
DataFrame dari Series
Kita dapat juga membuat DataFrame dari Series
data = {'satu': pd.Series([1,1,1,1,1]),
'dua' : pd.Series([2,2,2,2,2]),
'tiga': pd.Series([3,3,3,3,3])}
df = pd.DataFrame(data)
df.head()
Hasilnya
adalah :
DataFrame dari File
Sebenarnya lebih cocok disebut dengan membaca file
dengan DataFrame, Kita bisa gunakan fungsi read_csv(), Misalnya kita akan membaca file CSV maka caranya seperti ini
df = pd.read_csv('titanic.csv')
df.head()
Gabung dalam percakapan