Apa Itu Data Pre-Processing?

Jum'at, 05 November 2021, 14:01 WIB

Warta Ekonomi, Jakarta -

Data benar-benar dianggap sebagai sumber daya di dunia saat ini. Sesuai World Economic Forum, pada tahun 2025 nanti kita akan menghasilkan sekitar 463 exabyte data secara global per harinya. Tetapi apakah semua data ini cukup cocok untuk digunakan oleh algoritma machine learning? Bagaimana kita memutuskan itu?

Dalam artikel ini, kita akan mengeksplorasi topik data pre-processing yang dapat mengubah data sedemikian rupa sehingga menjadi dapat dibaca mesin.

Baca Juga: Apa Itu Risiko Operasional?

Apa Itu Data Pre-Processing?

Data Pre-Processing melibatkan transformasi data mentah menjadi kumpulan data yang terbentuk dengan baik, sehingga analitik data mining dapat diterapkan. Data mentah seringkali tidak lengkap dan memiliki format yang tidak konsisten. Kecukupan atau ketidakcukupan persiapan data memiliki korelasi langsung dengan keberhasilan setiap proyek yang melibatkan analisis data.

Pre-processing melibatkan validasi data dan imputasi data. Tujuan dari validasi data adalah untuk menilai apakah data yang bersangkutan sudah lengkap dan akurat. Sedangkan tujuan imputasi data adalah untuk memperbaiki kesalahan dan memasukkan nilai yang hilang, baik secara manual atau otomatis melalui pemrograman bussiness process automation (BPA).

Data pre-processing digunakan dalam aplikasi berbasis database dan berbasis aturan. Dalam proses machine learning (ML), data pre-processing sangat penting untuk memastikan kumpulan data besar diformat sedemikian rupa sehingga data yang dikandungnya dapat ditafsirkan dan diuraikan oleh algoritme machine learning.

Memahami Fitur Data Machine Learning

Kumpulan data dapat dijelaskan dengan atau dikomunikasikan sebagai "fitur" yang membentuknya. Ini bisa berdasarkan ukuran, lokasi, usia, waktu, warna, dan lainnya. Fitur muncul sebagai kolom dalam kumpulan data dan juga dikenal sebagai atribut, variabel, bidang, dan karakteristik.

Wikipedia menggambarkan fitur data machine learning sebagai "properti terukur individu atau karakteristik dari fenomena yang diamati".

Penting untuk memahami apa itu "fitur" saat melakukan data pra-processing, karena Anda harus memilih mana yang menjadi fokus bergantung pada apa tujuan bisnis Anda.

Pertama, mari kita bahas dua jenis fitur berbeda yang digunakan untuk mendeskripsikan data, yaitu kategorikal dan numerik:

1. Fitur kategoris: Fitur yang penjelasan atau nilainya diambil dari serangkaian kemungkinan penjelasan atau nilai yang ditentukan. Nilai kategoris bisa berupa warna rumah; jenis hewan; bulan dalam setahun; Benar salah; positif, negatif, netral, dan masih banyak lagi. Kumpulan kemungkinan kategori yang dapat ditampung oleh fitur ini telah ditentukan sebelumnya.

2. Fitur numerik: Fitur dengan nilai yang berkelanjutan pada skala, statistik, atau berkaitan dengan bilangan bulat. Nilai numerik diwakili oleh bilangan bulat, pecahan, atau persentase. Fitur numerik dapat berupa harga rumah, jumlah kata dalam dokumen, waktu yang diperlukan untuk bepergian ke suatu tempat, dan lainnya.

Teks dijalankan melalui ekstraktor fitur (untuk menarik atau menyorot kata atau frasa) dan potongan teks ini diklasifikasikan atau diberi tag berdasarkan fiturnya. Setelah model dilatih dengan benar, teks dapat dijalankan melaluinya, dan itu akan membuat prediksi tentang fitur teks atau "menandai" teks itu sendiri.

Halaman Berikutnya

Halaman:

Mau Berita Terbaru Lainnya dari Warta Ekonomi? Yuk Follow Kami di Google News dengan Klik Simbol Bintang.

Penulis: Patrick Trusto Jati Wibowo
Editor: Alfi Dinilhaq

Tag Terkait:

Data Center

News

EkBis

New Economy

Kabar Finansial

Global Connections

Social Media

Apa Itu Data Pre-Processing?

Berita Terkait

Berita Terpopuler

Featured News

PT Timah Bagi 50% Laba 2025 untuk Dividen, Nilainya Capai Rp656,8 Miliar

Cuan Bisnis Propertinya dengan Salim Grup Melonjak 10 Kali Lipat, Aguan Ungkap Rahasia Sukses

BRI Siapkan Buyback Saham Rp500 Miliar di Tengah Gejolak Pasar

Berita Terkini

Tergiur Upah Rp 22 Juta , 3 Ibu Rumah Tangga Nekat Jadi Kurir 9 Kg Sabu

'Kami Bukan Pihak dalam Perjanjian Ini', Israel Tolak Mentah-mentah Kesepakatan Damai AS-Iran

Misi Radar Berujung Tragedi, Pesawat Pembom B-52 Jatuh di Los Angeles dan Tewaskan 8 Awak

Hilal Tidak Terlihat, PBNU Tetapkan 1 Muharram 1448 H Jatuh Pada Rabu 17 Juni

CIMB Niaga, BCA, dan Danamon Kucurkan Pembiayaan Hijau Rp4,7 Triliun ke Plaza Indonesia

AS-Iran Sepakat Berdamai, Pemerintah Indonesia Serukan De-eskalasi Total di Kawasan Teluk

Dorong Sinergi Antar Direktorat, Purbaya Klaim Kemenkeu Kini Lebih Agile

Ditenggat 5x24 Jam oleh Mahasiswa, Wapres Gibran Janji Bawa 6 Tuntutan ke Presiden Prabowo

Dompet Aman Saat Bepergian, Cek Daftar 13 Kereta Ekonomi Subsidi yang Masih Eksis di 2026

Purbaya Sebut Perdamaian AS-Iran Buka Peluang Realokasi Anggaran Subsidi Energi