Apa Itu Data Pre-Processing?

Jum'at, 05 November 2021, 14:01 WIB

Warta Ekonomi, Jakarta -

Data benar-benar dianggap sebagai sumber daya di dunia saat ini. Sesuai World Economic Forum, pada tahun 2025 nanti kita akan menghasilkan sekitar 463 exabyte data secara global per harinya. Tetapi apakah semua data ini cukup cocok untuk digunakan oleh algoritma machine learning? Bagaimana kita memutuskan itu?

Dalam artikel ini, kita akan mengeksplorasi topik data pre-processing yang dapat mengubah data sedemikian rupa sehingga menjadi dapat dibaca mesin.

Baca Juga: Apa Itu Risiko Operasional?

Apa Itu Data Pre-Processing?

Data Pre-Processing melibatkan transformasi data mentah menjadi kumpulan data yang terbentuk dengan baik, sehingga analitik data mining dapat diterapkan. Data mentah seringkali tidak lengkap dan memiliki format yang tidak konsisten. Kecukupan atau ketidakcukupan persiapan data memiliki korelasi langsung dengan keberhasilan setiap proyek yang melibatkan analisis data.

Pre-processing melibatkan validasi data dan imputasi data. Tujuan dari validasi data adalah untuk menilai apakah data yang bersangkutan sudah lengkap dan akurat. Sedangkan tujuan imputasi data adalah untuk memperbaiki kesalahan dan memasukkan nilai yang hilang, baik secara manual atau otomatis melalui pemrograman bussiness process automation (BPA).

Data pre-processing digunakan dalam aplikasi berbasis database dan berbasis aturan. Dalam proses machine learning (ML), data pre-processing sangat penting untuk memastikan kumpulan data besar diformat sedemikian rupa sehingga data yang dikandungnya dapat ditafsirkan dan diuraikan oleh algoritme machine learning.

Memahami Fitur Data Machine Learning

Kumpulan data dapat dijelaskan dengan atau dikomunikasikan sebagai "fitur" yang membentuknya. Ini bisa berdasarkan ukuran, lokasi, usia, waktu, warna, dan lainnya. Fitur muncul sebagai kolom dalam kumpulan data dan juga dikenal sebagai atribut, variabel, bidang, dan karakteristik.

Wikipedia menggambarkan fitur data machine learning sebagai "properti terukur individu atau karakteristik dari fenomena yang diamati".

Penting untuk memahami apa itu "fitur" saat melakukan data pra-processing, karena Anda harus memilih mana yang menjadi fokus bergantung pada apa tujuan bisnis Anda.

Pertama, mari kita bahas dua jenis fitur berbeda yang digunakan untuk mendeskripsikan data, yaitu kategorikal dan numerik:

1. Fitur kategoris: Fitur yang penjelasan atau nilainya diambil dari serangkaian kemungkinan penjelasan atau nilai yang ditentukan. Nilai kategoris bisa berupa warna rumah; jenis hewan; bulan dalam setahun; Benar salah; positif, negatif, netral, dan masih banyak lagi. Kumpulan kemungkinan kategori yang dapat ditampung oleh fitur ini telah ditentukan sebelumnya.

2. Fitur numerik: Fitur dengan nilai yang berkelanjutan pada skala, statistik, atau berkaitan dengan bilangan bulat. Nilai numerik diwakili oleh bilangan bulat, pecahan, atau persentase. Fitur numerik dapat berupa harga rumah, jumlah kata dalam dokumen, waktu yang diperlukan untuk bepergian ke suatu tempat, dan lainnya.

Teks dijalankan melalui ekstraktor fitur (untuk menarik atau menyorot kata atau frasa) dan potongan teks ini diklasifikasikan atau diberi tag berdasarkan fiturnya. Setelah model dilatih dengan benar, teks dapat dijalankan melaluinya, dan itu akan membuat prediksi tentang fitur teks atau "menandai" teks itu sendiri.

Halaman Berikutnya

Halaman:

Mau Berita Terbaru Lainnya dari Warta Ekonomi? Yuk Follow Kami di Google News dengan Klik Simbol Bintang.

Penulis: Patrick Trusto Jati Wibowo
Editor: Alfi Dinilhaq

Tag Terkait:

Data Center

News

EkBis

New Economy

Kabar Finansial

Global Connections

Social Media

Apa Itu Data Pre-Processing?

Berita Terkait

Berita Terpopuler

Featured News

Kejutkan Pasar! Direktur Emiten Milik Raffi Ahmad (RANS) Mengundurkan Diri Usai IPO

IFG Life Raup Laba Rp155,97 Miliar, Naik 228% Berkat Investasi

10 Saham Paling Boncos Sepekan, Ada RANS Milik Raffi Ahmad

Berita Terkini

Teknologi Bukan Sekadar Soal Skala, tetapi Manfaat

PBHI Kecam Pernyataan Prabowo soal 'Londo Ireng', Dinilai Ancam Ruang Sipil

Momentum Hari Anak Nasional, Prudential Syariah Kampanyekan Perlindungan Keluarga

Bukan Sekadar Uang dan Emas, Asal-Usul Harta Eks Jampidsus Didesak Dibuka

Tiket Ludes 1 Bulan Sebelum Acara, Head & Shoulders Super Cool Run 2026 Diikuti 2.500 Pelari di GBK

Taruhan Terbesar Kubu Solo: Kalau PSI Gagal Lolos Senayan, Kartu Politik Jokowi Habis!

Tingkatkan Efisiensi Usaha Tani, Kementan Dorong Poktan dan UPJA Kelola Pompa Air

Efek Anies Baswedan Masih Besar, Partai Gerakan Rakyat Ikut Diuntungkan

PDI Perjuangan Bandung Desak Tuntaskan Tragedi Kudatuli

Dedi Mulyadi Bakal Bangun Kembali 51 Rumah Adat Korban Kebakaran di Kasepuhan Adat Ciptamulya