PRE-PROCESSING
PRE-PROCESSING
- Data Cleaning
- Data Collection/Integration
- Data Transform
- Data Reduction
Apa itu Data Pre-processing?
Data preprocessing merupakan sekumpulan teknik yang diterapkan pada database untuk menghapus noise, missing value, dan data yang tidak konsisten. Data preprocessing dibagi menjadi beberapa langkah, yaitu cleaning data, data transformation, dan data reduction. Data preprocessing ini digunakan karena dalam data realtime database seringkali tidak lengkap dan tidak konsisten sehingga mengakibatkan hasil data mining tidak tepat dan kurang akurat. Oleh karena itu, untuk meningkatkan kualitas data yang akan dianalisis, perlu dilakukan langkah-langkah preprocessing data.
Langkah-langkah Pre-processing data- Data Cleaning
Data yang baru saja dikumpulkan kemungkinan besar memiliki banyak bagian yang tidak relevan bahkan ada bagian yang hilang. Oleh karena itu perlu adanya proses pembersihan data atau biasa dikenal dengan data cleaning. Hal yang bisa diatasi menggunakan data cleaning adalah penanganan missing value dan noise. Missing value merupakan kondisi dimana adanya data yang hilang atau tidak lengkap di dalam database. Cara untuk mengatasi missing value adalah dengan mengabaikan tupel dan mengisi missing value tersebut. Pengabaian tuple cocok digunakan jika dataset yang digunakan cukup besar dan ada beberapa missing value dalam sebuah tupel. Pengisian missing value dapat dilakukan dengan beberapa cara, seperti mengisi manual missing value tersebut dengan mean atau nilai lain sesuai dengan jenis data. Noise merupakan data yang tidak berguna yang tidak dapat diinterpretasikan oleh tools. Noise ini muncul karena pengumpulan data yang salah, entri data yang kurang tepat, dan lain sebagainya. Dibawah ini adalah contoh code python data cleaning
2. Data Collection/Integration
Kedua, tahap preprocessing data adalah data integration. Hal ini melibatkan penggabungan data dari berbagai sumber menjadi satu dataset yang kohesif.
Tahapan ini penting dilakukan ketika informasi dikumpulkan dari berbagai database atau saat bekerja dengan dataset besar yang tersebar. Berikut langkah-langkahnya:
Penyelesaian Konflik: Mengidentifikasi dan menyelesaikan ketidaksesuaian antara data dari sumber yang berbeda. Misalnya, perbedaan dalam unit pengukuran atau format tanggal.
Penggabungan Data set: Menggabungkan data set yang berbeda dengan mempertahankan konsistensi struktur dan format data.
3. Data Transform
Data transformation digunakan untuk mengubah data dalam bentuk yang sesuai dalam proses data mining. Beberapa teknik untuk data transformation adalah normalization, pemilihan attribute, dan discretization. Normalization dilakukan untuk menskalakan nilai data dalam rentang nilai tertentu, misalnya -1 sampai 1 atau 0 sampai 1. Teknik kedua adalah pemilihan atribut. Pemilihan atribute merupakan proses pemilihan atribut yang diberikan untuk proses data mining. Terakhir adalah teknik discretization. Teknik ini dilakukan untuk mengganti raw value pada atribut numerik dengan nilai interval.
4. Data Reduction
Analisis data yang menggunakan dataset dalam ukuran besar akan sangat sulit dilakukan, oleh karena itu, perlu adanya teknik data reduction dengan tujuan untuk meningkatkan efisiensi penyimpanan serta mengurangi biaya penyimpanan dan analisis data. Data reduction dibagi menjadi beberapa teknik, yaitu Data Cube Aggregation, Attribute Subset Selection, Numerosity Reduction, dan Dimensionality Reduction. Teknik-teknik ini memiliki fungsi dan tujuan masing-masing.
Link untuk contoh pre-processing Pre-processing
- Data Cleaning
Kedua, tahap preprocessing data adalah data integration. Hal ini melibatkan penggabungan data dari berbagai sumber menjadi satu dataset yang kohesif.
Tahapan ini penting dilakukan ketika informasi dikumpulkan dari berbagai database atau saat bekerja dengan dataset besar yang tersebar. Berikut langkah-langkahnya:
Penyelesaian Konflik: Mengidentifikasi dan menyelesaikan ketidaksesuaian antara data dari sumber yang berbeda. Misalnya, perbedaan dalam unit pengukuran atau format tanggal.
Penggabungan Data set: Menggabungkan data set yang berbeda dengan mempertahankan konsistensi struktur dan format data.
Data transformation digunakan untuk mengubah data dalam bentuk yang sesuai dalam proses data mining. Beberapa teknik untuk data transformation adalah normalization, pemilihan attribute, dan discretization. Normalization dilakukan untuk menskalakan nilai data dalam rentang nilai tertentu, misalnya -1 sampai 1 atau 0 sampai 1. Teknik kedua adalah pemilihan atribut. Pemilihan atribute merupakan proses pemilihan atribut yang diberikan untuk proses data mining. Terakhir adalah teknik discretization. Teknik ini dilakukan untuk mengganti raw value pada atribut numerik dengan nilai interval.
4. Data Reduction
Komentar
Posting Komentar