Apa Itu Data Pre-Processing?

Jum'at, 05 November 2021, 14:01 WIB

Langkah-Langkah Data Pre-Processing

Data melewati serangkaian langkah selama pre-processing:

1. Data Cleaning: Data dibersihkan melalui proses seperti mengisi nilai-nilai yang hilang atau menghapus baris dengan data yang hilang, menghaluskan data yang bising, atau menyelesaikan inkonsistensi dalam data.

Menghaluskan data yang masih 'kasar' sangat penting untuk set data machine learning, karena mesin tidak dapat menggunakan data yang tidak dapat mereka tafsirkan. Data dapat dibersihkan dengan membaginya menjadi segmen-segmen dengan ukuran yang sama dan kemudian akan dihaluskan (binning), dengan menyesuaikannya dengan fungsi regresi linier atau berganda (regression), atau dengan mengelompokkannya ke dalam kelompok-kelompok data yang serupa (clustering).

Inkonsistensi data dapat terjadi karena kesalahan manusia (informasi disimpan di bidang yang salah). Nilai duplikat harus dihapus melalui deduplikasi untuk menghindari memberikan objek data itu keuntungan (bias).

2. Data Integration: Data dengan representasi berbeda disatukan dan konflik di dalam data diselesaikan.

3. Data Transformation: Data dinormalisasi dan digeneralisasikan. Normalisasi adalah proses yang memastikan bahwa tidak ada data yang berlebihan, semuanya disimpan di satu tempat, dan semua dependensinya logis.

4. Data Reduction: Ketika volume data sangat besar, basis data bisa menjadi lebih lambat, mahal untuk diakses, dan sulit untuk disimpan dengan benar. Data reduction bertujuan untuk menyajikan representasi data yang direduksi dalam sebuah gudang data.

Ada berbagai metode untuk mereduksi data. Misalnya, setelah subset atribut yang relevan dipilih untuk signifikansinya, apa pun di bawah level tertentu akan dibuang.

Mekanisme encoding juga dapat digunakan untuk mengurangi ukuran data. Jika semua data asli dapat dipulihkan setelah kompresi, maka akan diberi label sebagai lossless. Jika beberapa data hilang, maka itu disebut sebagai lossy. Agregasi juga dapat digunakan untuk menyingkat transaksi yang tak terhitung jumlahnya menjadi satu nilai mingguan atau bulanan, yang secara signifikan mengurangi jumlah objek data.

5. Data Discretization: Data juga dapat didiskritisasi untuk menggantikan nilai mentah dengan level interval. Langkah ini melibatkan pengurangan sejumlah nilai atribut kontinu dengan membagi rentang interval atribut.

6. Data Sampling: Terkadang karena keterbatasan waktu, penyimpanan, atau memori, kumpulan data terlalu besar atau terlalu rumit untuk dikerjakan. Teknik pengambilan sampel dapat digunakan untuk memilih dan bekerja hanya dengan subset dari dataset, asalkan memiliki sifat yang kurang lebih sama dengan data yang asli.

Tampilkan Semua

Halaman:

Mau Berita Terbaru Lainnya dari Warta Ekonomi? Yuk Follow Kami di Google News dengan Klik Simbol Bintang.

Penulis: Patrick Trusto Jati Wibowo
Editor: Alfi Dinilhaq

Tag Terkait:

Data Center

News

EkBis

New Economy

Kabar Finansial

Global Connections

Social Media

Apa Itu Data Pre-Processing?

Berita Terkait

Berita Terpopuler

Featured News

PT Timah Bagi 50% Laba 2025 untuk Dividen, Nilainya Capai Rp656,8 Miliar

Cuan Bisnis Propertinya dengan Salim Grup Melonjak 10 Kali Lipat, Aguan Ungkap Rahasia Sukses

BRI Siapkan Buyback Saham Rp500 Miliar di Tengah Gejolak Pasar

Berita Terkini

Tergiur Upah Rp 22 Juta , 3 Ibu Rumah Tangga Nekat Jadi Kurir 9 Kg Sabu

'Kami Bukan Pihak dalam Perjanjian Ini', Israel Tolak Mentah-mentah Kesepakatan Damai AS-Iran

Misi Radar Berujung Tragedi, Pesawat Pembom B-52 Jatuh di Los Angeles dan Tewaskan 8 Awak

Hilal Tidak Terlihat, PBNU Tetapkan 1 Muharram 1448 H Jatuh Pada Rabu 17 Juni

CIMB Niaga, BCA, dan Danamon Kucurkan Pembiayaan Hijau Rp4,7 Triliun ke Plaza Indonesia

AS-Iran Sepakat Berdamai, Pemerintah Indonesia Serukan De-eskalasi Total di Kawasan Teluk

Dorong Sinergi Antar Direktorat, Purbaya Klaim Kemenkeu Kini Lebih Agile

Ditenggat 5x24 Jam oleh Mahasiswa, Wapres Gibran Janji Bawa 6 Tuntutan ke Presiden Prabowo

Dompet Aman Saat Bepergian, Cek Daftar 13 Kereta Ekonomi Subsidi yang Masih Eksis di 2026

Purbaya Sebut Perdamaian AS-Iran Buka Peluang Realokasi Anggaran Subsidi Energi