Langkah-Langkah Data Pre-Processing
Data melewati serangkaian langkah selama pre-processing:
1. Data Cleaning: Data dibersihkan melalui proses seperti mengisi nilai-nilai yang hilang atau menghapus baris dengan data yang hilang, menghaluskan data yang bising, atau menyelesaikan inkonsistensi dalam data.
Menghaluskan data yang masih 'kasar' sangat penting untuk set data machine learning, karena mesin tidak dapat menggunakan data yang tidak dapat mereka tafsirkan. Data dapat dibersihkan dengan membaginya menjadi segmen-segmen dengan ukuran yang sama dan kemudian akan dihaluskan (binning), dengan menyesuaikannya dengan fungsi regresi linier atau berganda (regression), atau dengan mengelompokkannya ke dalam kelompok-kelompok data yang serupa (clustering).
Inkonsistensi data dapat terjadi karena kesalahan manusia (informasi disimpan di bidang yang salah). Nilai duplikat harus dihapus melalui deduplikasi untuk menghindari memberikan objek data itu keuntungan (bias).
2. Data Integration: Data dengan representasi berbeda disatukan dan konflik di dalam data diselesaikan.
3. Data Transformation: Data dinormalisasi dan digeneralisasikan. Normalisasi adalah proses yang memastikan bahwa tidak ada data yang berlebihan, semuanya disimpan di satu tempat, dan semua dependensinya logis.
4. Data Reduction: Ketika volume data sangat besar, basis data bisa menjadi lebih lambat, mahal untuk diakses, dan sulit untuk disimpan dengan benar. Data reduction bertujuan untuk menyajikan representasi data yang direduksi dalam sebuah gudang data.
Ada berbagai metode untuk mereduksi data. Misalnya, setelah subset atribut yang relevan dipilih untuk signifikansinya, apa pun di bawah level tertentu akan dibuang.
Mekanisme encoding juga dapat digunakan untuk mengurangi ukuran data. Jika semua data asli dapat dipulihkan setelah kompresi, maka akan diberi label sebagai lossless. Jika beberapa data hilang, maka itu disebut sebagai lossy. Agregasi juga dapat digunakan untuk menyingkat transaksi yang tak terhitung jumlahnya menjadi satu nilai mingguan atau bulanan, yang secara signifikan mengurangi jumlah objek data.
5. Data Discretization: Data juga dapat didiskritisasi untuk menggantikan nilai mentah dengan level interval. Langkah ini melibatkan pengurangan sejumlah nilai atribut kontinu dengan membagi rentang interval atribut.
6. Data Sampling: Terkadang karena keterbatasan waktu, penyimpanan, atau memori, kumpulan data terlalu besar atau terlalu rumit untuk dikerjakan. Teknik pengambilan sampel dapat digunakan untuk memilih dan bekerja hanya dengan subset dari dataset, asalkan memiliki sifat yang kurang lebih sama dengan data yang asli.
Mau Berita Terbaru Lainnya dari Warta Ekonomi? Yuk Follow Kami di Google News dengan Klik Simbol Bintang.
Penulis: Patrick Trusto Jati Wibowo
Editor: Alfi Dinilhaq
Tag Terkait: