Apa Itu Data Pre-Processing?

Jum'at, 05 November 2021, 14:01 WIB

Kredit Foto: Cahyo Prayogo

Warta Ekonomi, Jakarta -

Data benar-benar dianggap sebagai sumber daya di dunia saat ini. Sesuai World Economic Forum, pada tahun 2025 nanti kita akan menghasilkan sekitar 463 exabyte data secara global per harinya. Tetapi apakah semua data ini cukup cocok untuk digunakan oleh algoritma machine learning? Bagaimana kita memutuskan itu?

Dalam artikel ini, kita akan mengeksplorasi topik data pre-processing yang dapat mengubah data sedemikian rupa sehingga menjadi dapat dibaca mesin.

Baca Juga: Apa Itu Risiko Operasional?

Apa Itu Data Pre-Processing?

Data Pre-Processing melibatkan transformasi data mentah menjadi kumpulan data yang terbentuk dengan baik, sehingga analitik data mining dapat diterapkan. Data mentah seringkali tidak lengkap dan memiliki format yang tidak konsisten. Kecukupan atau ketidakcukupan persiapan data memiliki korelasi langsung dengan keberhasilan setiap proyek yang melibatkan analisis data.

Pre-processing melibatkan validasi data dan imputasi data. Tujuan dari validasi data adalah untuk menilai apakah data yang bersangkutan sudah lengkap dan akurat. Sedangkan tujuan imputasi data adalah untuk memperbaiki kesalahan dan memasukkan nilai yang hilang, baik secara manual atau otomatis melalui pemrograman bussiness process automation (BPA).

Data pre-processing digunakan dalam aplikasi berbasis database dan berbasis aturan. Dalam proses machine learning (ML), data pre-processing sangat penting untuk memastikan kumpulan data besar diformat sedemikian rupa sehingga data yang dikandungnya dapat ditafsirkan dan diuraikan oleh algoritme machine learning.

Memahami Fitur Data Machine Learning

Kumpulan data dapat dijelaskan dengan atau dikomunikasikan sebagai "fitur" yang membentuknya. Ini bisa berdasarkan ukuran, lokasi, usia, waktu, warna, dan lainnya. Fitur muncul sebagai kolom dalam kumpulan data dan juga dikenal sebagai atribut, variabel, bidang, dan karakteristik.

Wikipedia menggambarkan fitur data machine learning sebagai "properti terukur individu atau karakteristik dari fenomena yang diamati".

Penting untuk memahami apa itu "fitur" saat melakukan data pra-processing, karena Anda harus memilih mana yang menjadi fokus bergantung pada apa tujuan bisnis Anda.

Pertama, mari kita bahas dua jenis fitur berbeda yang digunakan untuk mendeskripsikan data, yaitu kategorikal dan numerik:

1. Fitur kategoris: Fitur yang penjelasan atau nilainya diambil dari serangkaian kemungkinan penjelasan atau nilai yang ditentukan. Nilai kategoris bisa berupa warna rumah; jenis hewan; bulan dalam setahun; Benar salah; positif, negatif, netral, dan masih banyak lagi. Kumpulan kemungkinan kategori yang dapat ditampung oleh fitur ini telah ditentukan sebelumnya.

2. Fitur numerik: Fitur dengan nilai yang berkelanjutan pada skala, statistik, atau berkaitan dengan bilangan bulat. Nilai numerik diwakili oleh bilangan bulat, pecahan, atau persentase. Fitur numerik dapat berupa harga rumah, jumlah kata dalam dokumen, waktu yang diperlukan untuk bepergian ke suatu tempat, dan lainnya.

Teks dijalankan melalui ekstraktor fitur (untuk menarik atau menyorot kata atau frasa) dan potongan teks ini diklasifikasikan atau diberi tag berdasarkan fiturnya. Setelah model dilatih dengan benar, teks dapat dijalankan melaluinya, dan itu akan membuat prediksi tentang fitur teks atau "menandai" teks itu sendiri.

Langkah-Langkah Data Pre-Processing

Data melewati serangkaian langkah selama pre-processing:

1. Data Cleaning: Data dibersihkan melalui proses seperti mengisi nilai-nilai yang hilang atau menghapus baris dengan data yang hilang, menghaluskan data yang bising, atau menyelesaikan inkonsistensi dalam data.

Menghaluskan data yang masih 'kasar' sangat penting untuk set data machine learning, karena mesin tidak dapat menggunakan data yang tidak dapat mereka tafsirkan. Data dapat dibersihkan dengan membaginya menjadi segmen-segmen dengan ukuran yang sama dan kemudian akan dihaluskan (binning), dengan menyesuaikannya dengan fungsi regresi linier atau berganda (regression), atau dengan mengelompokkannya ke dalam kelompok-kelompok data yang serupa (clustering).

Inkonsistensi data dapat terjadi karena kesalahan manusia (informasi disimpan di bidang yang salah). Nilai duplikat harus dihapus melalui deduplikasi untuk menghindari memberikan objek data itu keuntungan (bias).

2. Data Integration: Data dengan representasi berbeda disatukan dan konflik di dalam data diselesaikan.

3. Data Transformation: Data dinormalisasi dan digeneralisasikan. Normalisasi adalah proses yang memastikan bahwa tidak ada data yang berlebihan, semuanya disimpan di satu tempat, dan semua dependensinya logis.

4. Data Reduction: Ketika volume data sangat besar, basis data bisa menjadi lebih lambat, mahal untuk diakses, dan sulit untuk disimpan dengan benar. Data reduction bertujuan untuk menyajikan representasi data yang direduksi dalam sebuah gudang data.

Ada berbagai metode untuk mereduksi data. Misalnya, setelah subset atribut yang relevan dipilih untuk signifikansinya, apa pun di bawah level tertentu akan dibuang.

Mekanisme encoding juga dapat digunakan untuk mengurangi ukuran data. Jika semua data asli dapat dipulihkan setelah kompresi, maka akan diberi label sebagai lossless. Jika beberapa data hilang, maka itu disebut sebagai lossy. Agregasi juga dapat digunakan untuk menyingkat transaksi yang tak terhitung jumlahnya menjadi satu nilai mingguan atau bulanan, yang secara signifikan mengurangi jumlah objek data.

5. Data Discretization: Data juga dapat didiskritisasi untuk menggantikan nilai mentah dengan level interval. Langkah ini melibatkan pengurangan sejumlah nilai atribut kontinu dengan membagi rentang interval atribut.

6. Data Sampling: Terkadang karena keterbatasan waktu, penyimpanan, atau memori, kumpulan data terlalu besar atau terlalu rumit untuk dikerjakan. Teknik pengambilan sampel dapat digunakan untuk memilih dan bekerja hanya dengan subset dari dataset, asalkan memiliki sifat yang kurang lebih sama dengan data yang asli.

Mau Berita Terbaru Lainnya dari Warta Ekonomi? Yuk Follow Kami di Google News dengan Klik Simbol Bintang.

Penulis: Patrick Trusto Jati Wibowo
Editor: Alfi Dinilhaq

Tag Terkait:

Data Center

News

EkBis

New Economy

Kabar Finansial

Sport & Lifestyle

Kabar Sawit

Video

Indeks

About Us

Social Media

Apa Itu Data Pre-Processing?

Berita Terkait

Sinar Primera dan Gaw Capital Partners Lakukan Kolaborasi untuk Kembangkan Inovasi Pusat Data di Indonesia

Sambut Hari Sumpah Pemuda, Turnamen Sains Data Nasional 2023 Kembali Digelar!

Lembaga Pengelola Investasi Ungkap Kapasitas Pusat Data Indonesia Masih Tertinggal: Ini Peluang

Strategi SG+ PDG, Rencana Investasi Awal US$1 Miliar dan Ekspansi ke Batam & Johor

Terbesar se-ASEAN, Revenue Data Center Indonesia Diperkirakan Tembus US$3,01 Miliar pada 2023

Berita Terpopuler

Telkomsel Dorong Transformasi Digital UKM Lewat Program DCE ke-4

Bencana Hidrometeorologi Ancam Jabar Saat Libur Nataru 2024/2025

Smartfren Catat Jumlah Pelanggan Capai 35,9 Juta di Kuartal 3 2024, Pendapatan Tembus Rp8,5 triliun

Sritex Ditetapkan Pailit, Bos BNI Beri Penjelasan Soal Utang Rp 374 miliar

Harga Emas di Pegadaian Melompat Berjamaah pada 21 Desember 2024, Cek Rinciannya!

Cadangan Pangan di Jabar Belum Ideal, Kabupaten/Kota Diminta Tingkatkan Pengadaan

Gas Jadi Jembatan Transisi Energi, Begini Kata Dirut PGN

Harga Emas Antam Terbang Rp18.000 Hari Ini, Dijual Mulai Rp816.500

Berita Terkini

Lihat semua

Program BINA Diskon 2024 Resmi Digelar, Pemerintah Bidik Transaksi Rp22 Triliun

Arsjad Rasjid: Swasta Siap Dukung Konektivitas Lintas Perbatasan Indonesia dan Timor Leste

Percepat Inklusi Keuangan, Bank Indonesia Uji Coba QRIS Tap NFC di Bus Damri

Berdayakan Masyarakat, Begini Cara yang Dilakukan Moxa

55 Kali Berturut, Neraca Perdagangan Indonesia Kembali Lanjutkan Tren Surplus

SPKS: Selamatkan Petani Kecil, Jangan Melemahkan EUDR

Tingkatkan Sistem Keamanan, Jasnita Telekomindo (JAST) Hadirkan CCTV Berbasis AI

Harga Emas Antam Terbang Rp18.000 Hari Ini, Dijual Mulai Rp816.500

Perkuat Jaringan dan Kompetensi Alumni, Formasi Kagama Gagas Pembentukan Himpunan Pengusaha dan Profesional

Masalah Fraud, CEO eFishery Gibran Huzaifah Dicopot

Informasi

WE Group