Memanipulasi data akan menjadi sangat penting dalam banyak hal. Kata “Manipulasi” sendiri yang sudah memiliki konotasi negative akan menjadi positif jika digunakan untuk sesuatu yang benar. Manipulasi Data contohnya, dengan memanipulasi data kita dapat mendapatkan informasi lebih banyak daripada hanya data mentahan. So it’s all about getting more information 😄


Pandas DataFrame


Pandas adalah library yang sering digunakan untuk mengolah data dan memvisualisasikan data. Pandas sendiri dibuat berdasarkan 2 packages yaitu NumPy yang sangat berguna dalam pengolahan data, dan Matplotlib untuk memvisualisasikan data tersebut.


Membuat DataFrame


Untuk Latihan kita akan menggunakan Google Colab untuk menulis code sekaligus mengambil contoh datanya.

Import pandas dengan menggunakan code seperti dibawah.

import pandas as pd

Setelah itu kita membuat variable untuk dataframe dengan memasukan data yang akan diolah menggunakan code dibawah.

dataframe = pd.read_csv(path)

Variabel path adalah letak dimana file ‘csv’ kita berada.

Pada Tab Files di Google Colab kita bisa menemukan data-data lain dalam bentuk csv sebagai contoh data. Klik kanan dan pilih ‘Copy path’ untuk mempermudah dalam mencari lokasi dari data tersebut.

Tab Files
Data yang bisa dipakai di Tab Files

Jika digabungkan dengan code sebelumnya, maka akan menjadi seperti dibawah.

dataframe = pd.read_csv('/content/sample_data/california_housing_test.csv')

Dengan begini dataframe kita telah siap untuk dimanipulasi.


Mengamati Data.


Ada banyak Teknik yang dapat digunakan untuk mengamati sebuah data. Tetapi bagaimanapun juga mengamati data harus dilakukan sebelum mengolah data. Tujuan utamanya adalah untuk mengenali data tersebut. Karena seperti kata pepatah

“tak kenal maka kenalan” :D

Jika sebelumnya kita telah membuat dataframe dari contoh data yang disediakan oleh Google Colab. Kita dapat melihat datanya dengan menuliskan nama dataframe tersebut.

Data Frame
Dataframe csv yang divisualisasikan

Dengan menjalankan dataframe, maka akan ditampilkan 5 baris data teratas dan 5 baris data terkecil.

Untuk menyederhanakannya kita dapat menambahkan head() untuk menampilkan 5 baris teratas atau tail() untuk menampilkan 5 baris terbawah.

Data Frame
Dataframe untuk 5 teratas

Data Frame
Dataframe untuk 5 terbawah

Dua fungsi diatas dapat ditambahkan dengan parameter angka, yaitu jumlah data yang ingin ditampilkan urut dari atas atau bawah.

Data Frame
Dataframe untuk 7 terbawah

Setelah kita melihat beberapa sample dari data tersebut, kita akan mencari tahu informasi mengenai kolom yang ada pada dataframe tersebut.

Dengan menggunakan info() maka kita akan mendapatkan informasi mengenai data tersebut. Tidak hanya informasi mengenai masing-masing kolom yang ada, tetapi juga informasi general pada data itu.

Data Frame
Informasi dari dataframe yang kita proses

Setelah kita berhasil mendapatkan sedikit informasi awal dari data tersebut, selanjutnya kita akan coba mengulik lagi informasi yang bisa kita dapatkan.

. . .

Jangan lupa sharing hasil belajar kalian dan jika ada kritik, saran atau pertanyaan boleh ditanyakan dibawah. Nanti kita diskusikan bersama :3