Setelah kita menyelesaikan Part 1, kita sudah mencoba berbagai macam cara untuk medapatkan informasi dasar dari dataframe, selanjutnya kita akan mencoba sedikit untuk mengotak-atik dataframe tersebut.


Manipulating Rows


Kemarin kita berhasil sampai pada tahap Mengamati Data. Sekarang mari kita belajar untuk memanipulasi baris.


Sorting Row

Pertama kita akan mencoba untuk mengurutkan baris sesuai yang kita inginkan. Kita akan menggunakan 2 metode pengurutan yaitu sort_values() dan sort_index.

Dengan menambahkan sort_values() pada dataframe, kita dapat mengurutkan data berdasarkan value yang ada. Parameter by menunjukan baris mana yang akan di urutkan, dan ascending dapat bernilai False atau True.

dataframe = dataframe.sort_values(by='households', ascending='False')

‘Hasil Sorting Pada Dataframe’
Hasil Sorting Pada Dataframe

Lalu selanjutnya menggunakan metode sort_index(). Method ini berfungsi mengurutkan data berdasarkan indexnya.

dataframe = dataframe.sort_index()

‘Hasil Sorting Pada Dataframe’
Hasil Sorting Pada Dataframe


Dropping Row

Selanjutnya adalah Dropping Row atau bisa juga disebut menghilangkan baris. Dropping Row bertujuan untuk menghapus data - data yang tidak bisa diproses, atau data yang membuat model tidak akurat seperti null atau none.

Untuk menghilangkan baris kita akan menggunakan fungsi drop() yang sudah ada pada library pandas.

dataframe = dataframe.drop(labels=[0, 1, 3], axis=0)

‘Menghapus Baris index ke 0, 1, 3 ‘
Menghapus Baris index ke 0, 1, 3

Kode diatas bermaksud untuk menghilangkan baris pertama, kedua dan keempat yang dianalogikan dengan list [0,1,3] sebagai index baris tersebut.

axis = 0 berarti baris, sedangkan axis = 1 berarti kolom

Dengan menggunakan list pada parameter labels, kita dapat menghilangkan beberapa baris sekaligus untuk mempersingkat code.

Selanjutnya kita akan mencoba menghilangkan nilai null pada dataframe dengan method dropna().

import pandas as pd
import numpy as np

df = pd.dataframe({"name": ['Alifian','Hamid','Bagus'],
                   "status": [np.nan, 'PDKT', 'Taken'],
                   "born": [pd.NaT, pd.Timestamp("2020-04-25"), pd.NaT]})

‘Contoh dataset pada dataframe’
Contoh dataset pada dataframe

Pada dataframe diatas kita akan menghilangkan nilai kolom yang pada barisnya terdapat nilai null.

df.dropna()

‘Hasil dataframe yang sudah di dropna’
Hasil dataframe yang sudah di dropna

. . .

Yaudah gitu dulu nanti lanjut yang kolom deh hehe