Menu
News
EkBis
New Economy
Kabar Finansial
Sport & Lifestyle
Kabar Sawit
Video
    Indeks
      About Us
        Social Media

        Apa Itu Data Pre-Processing?

        Apa Itu Data Pre-Processing? Kredit Foto: Cahyo Prayogo
        Warta Ekonomi, Jakarta -

        Data benar-benar dianggap sebagai sumber daya di dunia saat ini. Sesuai World Economic Forum, pada tahun 2025 nanti kita akan menghasilkan sekitar 463 exabyte data secara global per harinya. Tetapi apakah semua data ini cukup cocok untuk digunakan oleh algoritma machine learning? Bagaimana kita memutuskan itu?

        Dalam artikel ini, kita akan mengeksplorasi topik data pre-processing yang dapat mengubah data sedemikian rupa sehingga menjadi dapat dibaca mesin.

        Baca Juga: Apa Itu Risiko Operasional?

        Apa Itu Data Pre-Processing?

        Data Pre-Processing melibatkan transformasi data mentah menjadi kumpulan data yang terbentuk dengan baik, sehingga analitik data mining dapat diterapkan. Data mentah seringkali tidak lengkap dan memiliki format yang tidak konsisten. Kecukupan atau ketidakcukupan persiapan data memiliki korelasi langsung dengan keberhasilan setiap proyek yang melibatkan analisis data.

        Pre-processing melibatkan validasi data dan imputasi data. Tujuan dari validasi data adalah untuk menilai apakah data yang bersangkutan sudah lengkap dan akurat. Sedangkan tujuan imputasi data adalah untuk memperbaiki kesalahan dan memasukkan nilai yang hilang, baik secara manual atau otomatis melalui pemrograman bussiness process automation (BPA).

        Data pre-processing digunakan dalam aplikasi berbasis database dan berbasis aturan. Dalam proses machine learning (ML), data pre-processing sangat penting untuk memastikan kumpulan data besar diformat sedemikian rupa sehingga data yang dikandungnya dapat ditafsirkan dan diuraikan oleh algoritme machine learning.

        Memahami Fitur Data Machine Learning

        Kumpulan data dapat dijelaskan dengan atau dikomunikasikan sebagai "fitur" yang membentuknya. Ini bisa berdasarkan ukuran, lokasi, usia, waktu, warna, dan lainnya. Fitur muncul sebagai kolom dalam kumpulan data dan juga dikenal sebagai atribut, variabel, bidang, dan karakteristik.

        Wikipedia menggambarkan fitur data machine learning sebagai "properti terukur individu atau karakteristik dari fenomena yang diamati".

        Penting untuk memahami apa itu "fitur" saat melakukan data pra-processing, karena Anda harus memilih mana yang menjadi fokus bergantung pada apa tujuan bisnis Anda. 

        Pertama, mari kita bahas dua jenis fitur berbeda yang digunakan untuk mendeskripsikan data, yaitu kategorikal dan numerik:

        1. Fitur kategoris: Fitur yang penjelasan atau nilainya diambil dari serangkaian kemungkinan penjelasan atau nilai yang ditentukan. Nilai kategoris bisa berupa warna rumah; jenis hewan; bulan dalam setahun; Benar salah; positif, negatif, netral, dan masih banyak lagi. Kumpulan kemungkinan kategori yang dapat ditampung oleh fitur ini telah ditentukan sebelumnya.

        2. Fitur numerik: Fitur dengan nilai yang berkelanjutan pada skala, statistik, atau berkaitan dengan bilangan bulat. Nilai numerik diwakili oleh bilangan bulat, pecahan, atau persentase. Fitur numerik dapat berupa harga rumah, jumlah kata dalam dokumen, waktu yang diperlukan untuk bepergian ke suatu tempat, dan lainnya.

        Teks dijalankan melalui ekstraktor fitur (untuk menarik atau menyorot kata atau frasa) dan potongan teks ini diklasifikasikan atau diberi tag berdasarkan fiturnya. Setelah model dilatih dengan benar, teks dapat dijalankan melaluinya, dan itu akan membuat prediksi tentang fitur teks atau "menandai" teks itu sendiri.

        Langkah-Langkah Data Pre-Processing

        Data melewati serangkaian langkah selama pre-processing:

        1. Data Cleaning: Data dibersihkan melalui proses seperti mengisi nilai-nilai yang hilang atau menghapus baris dengan data yang hilang, menghaluskan data yang bising, atau menyelesaikan inkonsistensi dalam data.

        Menghaluskan data yang masih 'kasar' sangat penting untuk set data machine learning, karena mesin tidak dapat menggunakan data yang tidak dapat mereka tafsirkan. Data dapat dibersihkan dengan membaginya menjadi segmen-segmen dengan ukuran yang sama dan kemudian akan dihaluskan (binning), dengan menyesuaikannya dengan fungsi regresi linier atau berganda (regression), atau dengan mengelompokkannya ke dalam kelompok-kelompok data yang serupa (clustering).

        Inkonsistensi data dapat terjadi karena kesalahan manusia (informasi disimpan di bidang yang salah). Nilai duplikat harus dihapus melalui deduplikasi untuk menghindari memberikan objek data itu keuntungan (bias).

        2. Data Integration: Data dengan representasi berbeda disatukan dan konflik di dalam data diselesaikan.

        3. Data Transformation: Data dinormalisasi dan digeneralisasikan. Normalisasi adalah proses yang memastikan bahwa tidak ada data yang berlebihan, semuanya disimpan di satu tempat, dan semua dependensinya logis.

        4. Data Reduction: Ketika volume data sangat besar, basis data bisa menjadi lebih lambat, mahal untuk diakses, dan sulit untuk disimpan dengan benar. Data reduction bertujuan untuk menyajikan representasi data yang direduksi dalam sebuah gudang data.

        Ada berbagai metode untuk mereduksi data. Misalnya, setelah subset atribut yang relevan dipilih untuk signifikansinya, apa pun di bawah level tertentu akan dibuang.

        Mekanisme encoding juga dapat digunakan untuk mengurangi ukuran data. Jika semua data asli dapat dipulihkan setelah kompresi, maka akan diberi label sebagai lossless. Jika beberapa data hilang, maka itu disebut sebagai lossy. Agregasi juga dapat digunakan untuk menyingkat transaksi yang tak terhitung jumlahnya menjadi satu nilai mingguan atau bulanan, yang secara signifikan mengurangi jumlah objek data.

        5. Data Discretization: Data juga dapat didiskritisasi untuk menggantikan nilai mentah dengan level interval. Langkah ini melibatkan pengurangan sejumlah nilai atribut kontinu dengan membagi rentang interval atribut.

        6. Data Sampling: Terkadang karena keterbatasan waktu, penyimpanan, atau memori, kumpulan data terlalu besar atau terlalu rumit untuk dikerjakan. Teknik pengambilan sampel dapat digunakan untuk memilih dan bekerja hanya dengan subset dari dataset, asalkan memiliki sifat yang kurang lebih sama dengan data yang asli.

        Mau Berita Terbaru Lainnya dari Warta Ekonomi? Yuk Follow Kami di Google News dengan Klik Simbol Bintang.

        Penulis: Patrick Trusto Jati Wibowo
        Editor: Alfi Dinilhaq

        Tag Terkait:

        Bagikan Artikel: