Menu
News
EkBis
New Economy
Kabar Finansial
Global Connections
Sport & Lifestyle
Video
Indeks
About Us
Social Media

Apa Itu Data Pre-Processing?

Apa Itu Data Pre-Processing? Kredit Foto: Cahyo Prayogo
Warta Ekonomi, Jakarta -

Data benar-benar dianggap sebagai sumber daya di dunia saat ini. Sesuai World Economic Forum, pada tahun 2025 nanti kita akan menghasilkan sekitar 463 exabyte data secara global per harinya. Tetapi apakah semua data ini cukup cocok untuk digunakan oleh algoritma machine learning? Bagaimana kita memutuskan itu?

Dalam artikel ini, kita akan mengeksplorasi topik data pre-processing yang dapat mengubah data sedemikian rupa sehingga menjadi dapat dibaca mesin.

Baca Juga: Apa Itu Risiko Operasional?

Apa Itu Data Pre-Processing?

Data Pre-Processing melibatkan transformasi data mentah menjadi kumpulan data yang terbentuk dengan baik, sehingga analitik data mining dapat diterapkan. Data mentah seringkali tidak lengkap dan memiliki format yang tidak konsisten. Kecukupan atau ketidakcukupan persiapan data memiliki korelasi langsung dengan keberhasilan setiap proyek yang melibatkan analisis data.

Pre-processing melibatkan validasi data dan imputasi data. Tujuan dari validasi data adalah untuk menilai apakah data yang bersangkutan sudah lengkap dan akurat. Sedangkan tujuan imputasi data adalah untuk memperbaiki kesalahan dan memasukkan nilai yang hilang, baik secara manual atau otomatis melalui pemrograman bussiness process automation (BPA).

Data pre-processing digunakan dalam aplikasi berbasis database dan berbasis aturan. Dalam proses machine learning (ML), data pre-processing sangat penting untuk memastikan kumpulan data besar diformat sedemikian rupa sehingga data yang dikandungnya dapat ditafsirkan dan diuraikan oleh algoritme machine learning.

Memahami Fitur Data Machine Learning

Kumpulan data dapat dijelaskan dengan atau dikomunikasikan sebagai "fitur" yang membentuknya. Ini bisa berdasarkan ukuran, lokasi, usia, waktu, warna, dan lainnya. Fitur muncul sebagai kolom dalam kumpulan data dan juga dikenal sebagai atribut, variabel, bidang, dan karakteristik.

Wikipedia menggambarkan fitur data machine learning sebagai "properti terukur individu atau karakteristik dari fenomena yang diamati".

Penting untuk memahami apa itu "fitur" saat melakukan data pra-processing, karena Anda harus memilih mana yang menjadi fokus bergantung pada apa tujuan bisnis Anda. 

Pertama, mari kita bahas dua jenis fitur berbeda yang digunakan untuk mendeskripsikan data, yaitu kategorikal dan numerik:

1. Fitur kategoris: Fitur yang penjelasan atau nilainya diambil dari serangkaian kemungkinan penjelasan atau nilai yang ditentukan. Nilai kategoris bisa berupa warna rumah; jenis hewan; bulan dalam setahun; Benar salah; positif, negatif, netral, dan masih banyak lagi. Kumpulan kemungkinan kategori yang dapat ditampung oleh fitur ini telah ditentukan sebelumnya.

2. Fitur numerik: Fitur dengan nilai yang berkelanjutan pada skala, statistik, atau berkaitan dengan bilangan bulat. Nilai numerik diwakili oleh bilangan bulat, pecahan, atau persentase. Fitur numerik dapat berupa harga rumah, jumlah kata dalam dokumen, waktu yang diperlukan untuk bepergian ke suatu tempat, dan lainnya.

Teks dijalankan melalui ekstraktor fitur (untuk menarik atau menyorot kata atau frasa) dan potongan teks ini diklasifikasikan atau diberi tag berdasarkan fiturnya. Setelah model dilatih dengan benar, teks dapat dijalankan melaluinya, dan itu akan membuat prediksi tentang fitur teks atau "menandai" teks itu sendiri.

Penulis: Patrick Trusto Jati Wibowo
Editor: Alfi Dinilhaq

Tag Terkait:

Bagikan Artikel:

Video Pilihan