Data mining adalah proses menemukan anomali, pola, maupun korelasi dalam data set yang besar untuk memprediksi hasil. Dasar dari data mining sendiri berkaitan dengan disiplin ilmu seperti statistik, AI, machine learning, dan teknologi database. Data mining juga dikenal dengan sebutan lain seperti data/pattern analysis, knowledge discovery, knowledge extraction, dan information harvesting.

CRISP-DM

Banyak teknik dan metode yang ada untuk melakukan berbagai jenis tugas data mining. Metode ini dikelompokkan dalam 3 paradigma utama data mining: Predictive Modeling, Discovery, dan Deviation Detection.

Data mining merupakan salah satu dari rangkaian Knowledge discovery In Database (KDD).
KDD berhubungan dengan tekhnik integrasi dan penemuan ilmiah, interpretasi dan visualisasi dari pola-pola sejumlah data.
Serangkaian proses tahapan data mining tersebut memiliki tahap sebagai berikut (Tan, 2004):

Pembersihan data (untuk membuang data yang tidak konsisten dan noise)
Integrasi data (penggabungan data dari beberapa sumber)
Transformasi data (data diubah menjadi bentuk yang sesuai untuk di-mining)
Aplikasi teknik Data Mining, proses ekstraksi pola dari data yang ada
Evaluasi pola yang ditemukan (proses interprestasi pola menjadi pengetahuan yang dapat digunakan untuk mendukung pengambilan keputusan)
Presentasi pengetahuan (dengan teknik visualisasi)

Cross-Industry Standard Process for Data Mining atau CRISP-DM adalah salah satu model proses datamining (datamining framework) yang awalnya (1996) dibangun oleh 5 perusahaan yaitu Integral Solutions Ltd (ISL), Teradata, Daimler AG, NCR Corporation dan OHRA. Framework ini kemudian dikembangan oleh ratusan organisasi dan perusahaan di Eropa untuk dijadikan methodology standard non-proprietary bagi data mining. Versi pertama dari methodologi ini dipresentasikan pada 4th CRISP-DM SIG Workshop di Brussels pada bulan Maret 1999 (Pete Chapman, 1999); dan langkah langkah proses datamining berdasarkan model ini di publikasikan pada tahun berikutnya (Pete Chapman,2000).

Antara tahun 2006 dan 2008 terbentuklah grup CRISP-DM 2.0 SIG yang berkeinginan untuk mengupdate CRISP-DM process model (Colin Shearer, 2006). Namun produk akhir dari inisiatip ini tidak diketahui.

Banyak hasil penelitian yang mengungkapkan bahwa CRISP-DM adalah datamining model yang masih digunakan secara luas di kalangan industry, sebahagian dikarenakan keunggulannya dalam menyelesaikan banyak persoalan dalam proyek proyek data mining.

Masing-masing tahapan tersebut dijelaskan sebagai berikut :

Business Understanding

Ini adalah tahap pertama dalam CRISP-DM dan termasuk bagian yang cukup vital. Pada tahap ini membutuhkan pengetahuan dari objek bisnis, bagaimana membangun atau mendapatkan data, dan bagaimana untuk mencocokan tujuan pemodelan untuk tujuan bisnis sehingga model terbaik dapat dibangun. Kegiatan yang dilakukan antara lain: menentukan tujuan dan persyaratan dengan jelas secara keseluruhan, menerjemahkan tujuan tersebut serta menentukan pembatasan dalam perumusan masalah data mining, dan selanjutnya mempersiapkan strategi awal untuk mencapai tujuan tersebut.

Data Understanding

Secara garis besar untuk memeriksa data, sehingga dapat mengidentifikasi masalah dalam data. Tahap ini memberikan fondasi analitik untuk sebuah penelitian dengan membuat ringkasaan (summary) dan mengidentifikasi potensi masalah dalam data. Tahap ini juga harus dilakukan secara cermat dan tidak terburu-buru, seperti pada visualisasi data, yang terkadang insight-nya sangat sulit didapat dika dihubungkan dengan summary data nya. Jika ada masalah pada tahap ini yang belum terjawab, maka akan menggangu pada tahap modeling.

Ringkasan atau summary dari data dapat berguna untuk mengkonfirmasi apakah data terdistribusi seperti yang diharapkan, atau mengungkapkan penyimpangan tak terduga yang perlu ditangani pada tahap selanjutnya, yaitu Data Preperation.

Masalah dalam data biasanya seperti nilai-nilai yang hilang, outlier, berdistribusi spike, berdistribusi bimodal harus diidentifikasi dan diukur sehingga dapat diperbaiki dalam Data Preperation.

Data Preparation

Secara garis besar untuk memperbaiki masalah dalam data, kemudian membuat variabel derived. Tahap ini jelas membutuhkan pemikiran yang cukup matang dan usaha yang cukup tinggi untuk memastikan data tepat untuk algoritma yang digunakan.

Bukan berarti saat Data Preperation pertama kali dimana masalah-masalah pada data sudah diselesaikan, data sudah dapat digunakan hingga tahap terakhir. Tahap ini merupakan tahap yang sering ditinjau kembali saat menemukan masalah pada saat pembangunan model. Sehingga dilakukan iterasi sampai menemukan hal yang cocok dengan data.

Tahap sampling dapat dilakukan disini dan data secara umum dibagi menjadi dua, data training dan data testing.

Kegiatan yang dilakukan antara lain: memilih kasus dan parameter yang akan dianalisis (Select Data), melakukan transformasi terhadap parameter tertentu (Transformation), dan melakukan pembersihan data agar data siap untuk tahap modeling (Cleaning).

Modeling

Secara garis besar untuk membuat model prediktif atau deskriptif. Pada tahap ini dilakukan metode statistika dan Machine Learning untuk penentuan terhadap teknik data mining, alat bantu data mining, dan algoritma data mining yang akan diterapkan. Lalu selanjutnya adalah melakukan penerapan teknik dan algoritma data mining tersebut kepada data dengan bantuan alat bantu. Jika diperlukan penyesuaian data terhadap teknik data mining tertentu, dapat kembali ke tahap data preparation.

Beberapa modeling yang biasa dilakukan adalah classification, scoring, ranking, clustering, finding relation, dan characterization.

Evaluation

Melakukan interpretasi terhadap hasil dari data mining yang dihasilkan dalam proses pemodelan pada tahap sebelumnya. Evaluasi dilakukan terhadap model yang diterapkan pada tahap sebelumnya dengan tujuan agar model yang ditentukan dapat sesuai dengan tujuan yang ingin dicapai dalam tahap pertama.

Deployment

Tahap deployment atau rencana penggunaan model adalah tahap yang paling dihargai dari proses CRISP-DM. Perencanaan untuk Deployment dimulai selama Business Understanding dan harus menggabungkan tidak hanya bagaimana untuk menghasilkan nilai model, tetapi juga bagaimana mengkonversi skor keputusan, dan bagaimana untuk menggabungkan keputusan dalam sistem operasional.

Pada akhirnya, rencana sistem Deployment mengakui bahwa tidak ada model yang statis. Model tersebut dibangun dari data yang diwakili data pada waktu tertentu, sehingga perubahan waktu dapat menyebabkan berubahnya karakteristik data. Modelpun harus dipantau dan mungkin diganti dengan model yang sudah diperbaiki.

SEMMA

Dalam mengatasi permasalahan bisnis yang lebih kompleks di era modern ini, data mining tidak diragukan lagi telah mendapatkan popularitasnya sebagai alat untuk mengatasi permasalahan yang membingungkan tersebut. Tidak hanya sebagai pemecah permasalahan yang mendesak, data mining juga telah membuka banyak peluang karena telah terbukti efektif dan akomodatif di berbagai bidang: perbankan, manufaktur dan produksi, asuransi, layanan kesehatan, dan lain-lain. berguna untuk keuntungan bisnis. Dengan menerapkan alat penambangan data (yaitu CRISP-DM, SEMMA, dll.), ke sumber informasi yang sangat besar dan kaya ini, memberikan mereka wawasan—berguna untuk persiapan menghadapi masa depan, menciptakan pandangan holistik untuk respons dan pengelolaan yang lebih baik dan lebih cepat.

Sebagai salah satu proses standar dalam data mining, SEMMA dari SAS Institute menyinggung proses pusat dalam melakukan data mining. Disingkat dari sampel, eksplorasi, modifikasi, model, dan penilaian, SEMMA dimulai dengan sampel data yang mewakili secara statistik. Kemudian menerapkan teknik eksplorasi dan visualisasi, diikuti dengan memodifikasi representasi variabel, memodelkan variabel untuk meramalkan hasil, dan terakhir menegaskan presisi model.

Sample/Sampel – Menghasilkan data dalam fase ini dapat bersifat opsional. Ini melibatkan penggalian kumpulan data yang besar sehingga sebagian besar informasi dapat dikurangkan dalam bentuk pola. Sebagai cara untuk mengoptimalkan biaya dan kinerja, SAS Institute menerapkan sampel sumber informasi detail lengkap yang dapat diandalkan dan mewakili secara statistik, alih-alih menambang seluruh volume data.
Explore/Jelajahi – Data dieksplorasi dengan mencari pola dan keanehan yang tidak terduga. Hal ini dapat meningkatkan pemahaman dan gagasan terhadap data. Selain itu juga memperhalus proses pengungkapannya, karena jika visualisasinya tidak ada, atau visualnya sendiri tidak jelas, maka dapat dilakukan melalui teknik statistik (clustering, analisis faktor, dan lain-lain).
Modifikasi – Data dimodifikasi dengan membuat, memilih, dan mengubah variabel untuk memusatkan pemilihan model, dan informasi atau variabel tambahan apa pun dapat ditambahkan untuk membuat keluaran informasi menjadi signifikan. Setiap kali informasi baru tersedia, metode penambangan data dapat diperbarui atau dimodifikasi.
Model – Data dimodelkan dengan mengizinkan perangkat lunak mencari campuran data yang dapat memprediksi hasil ideal secara andal, dengan cara otomatis. Misalnya model statistik seperti analisis deret waktu, penalaran berbasis memori, dll.
Menilai – Data dinilai dengan mengevaluasi apakah temuan dari data tersebut cukup berharga (berguna) dan dapat diandalkan. Pada fase ini, data juga dapat diukur seberapa baik kinerjanya. Jika model data valid, model tersebut akan berfungsi dengan baik pada sampel yang dicadangkan dan sampel yang dibuat.

CCC (Computational, Cognitive, and Communication)

Data Acquisition and Recording
Information Extraction and Cleaning
Data Integration, Aggregation, and Representation
Query Processing, Data Modeling, and Analysis
Interpretation

Data Acquisition and Recording

Data Besar tidak muncul dari hampa: data tersebut direkam dari sumber penghasil data tertentu. Sebagai contoh, pertimbangkan kemampuan kita untuk merasakan dan mengamati dunia di sekitar kita, mulai dari detak jantung seorang warga lanjut usia, keberadaan toksin di udara yang kita hirup, hingga teleskop array kilometer persegi yang direncanakan, yang akan menghasilkan hingga 1 juta terabyte data mentah per hari. Demikian pula, eksperimen ilmiah dan simulasi saat ini dapat dengan mudah menghasilkan petabyte data.

Sebagian besar data ini tidak menarik, dan dapat difilter dan dikompresi banyak kali lipat. Salah satu tantangannya adalah mendefinisikan filter-filter ini sedemikian rupa sehingga mereka tidak membuang informasi yang berguna. Sebagai contoh, misalkan satu pembacaan sensor berbeda secara signifikan dari yang lain: kemungkinan besar disebabkan oleh sensor yang rusak, tetapi bagaimana kita bisa yakin bahwa itu bukan artefak yang perlu mendapat perhatian? Selain itu, data yang dikumpulkan oleh sensor-sensor ini seringkali berkorelasi secara spasial dan temporal (misalnya, sensor lalu lintas di segmen jalan yang sama). Kita memerlukan penelitian dalam ilmu reduksi data yang dapat memproses data mentah ini secara cerdas menjadi ukuran yang dapat diatasi oleh penggunanya tanpa melewatkan informasi yang penting. Selain itu, kita memerlukan teknik analisis "on-line" yang dapat memproses data streaming tersebut secara langsung, karena kita tidak mampu menyimpan terlebih dahulu dan mengurangi kemudian.

Tantangan besar kedua adalah untuk secara otomatis menghasilkan metadata yang tepat untuk menjelaskan data apa yang direkam dan bagaimana cara merekam dan mengukurnya. Sebagai contoh, dalam eksperimen ilmiah, detail yang signifikan mengenai kondisi eksperimental dan prosedur tertentu mungkin diperlukan untuk dapat menginterpretasikan hasil dengan benar, dan penting bahwa metadata semacam itu direkam bersama data observasional. Sistem akuisisi metadata dapat mengurangi beban manusia dalam merekam metadata. Masalah penting lainnya di sini adalah provenans data. Merekam informasi tentang data saat lahirnya tidaklah berguna kecuali informasi ini dapat diinterpretasikan dan dibawa bersama melalui jalur analisis data. Contohnya, kesalahan pemrosesan pada satu langkah dapat membuat analisis selanjutnya menjadi tidak berguna; dengan provenans yang sesuai, kita dapat dengan mudah mengidentifikasi semua pemrosesan selanjutnya yang bergantung pada langkah ini. Oleh karena itu, kita memerlukan penelitian baik dalam menghasilkan metadata yang sesuai maupun dalam sistem data yang membawa provenans data dan metadata-nya melalui jalur analisis data.

2. Information Extraction and Cleaning

Seringkali, informasi yang dikumpulkan tidak akan berada dalam format yang siap untuk analisis. Sebagai contoh, pertimbangkan pengumpulan catatan kesehatan elektronik di sebuah rumah sakit, yang terdiri dari transkripsi diktat dari beberapa dokter, data terstruktur dari sensor dan pengukuran (mungkin dengan beberapa ketidakpastian yang terkait), dan data gambar seperti sinar-X. Kita tidak bisa meninggalkan data dalam bentuk ini dan masih efektif menganalisanya. Sebaliknya, kita memerlukan proses ekstraksi informasi yang mengekstrak informasi yang diperlukan dari sumber-sumber yang mendasarinya dan mengekspresikannya dalam bentuk terstruktur yang cocok untuk analisis. Melakukan ini dengan benar dan lengkap adalah tantangan teknis yang berkelanjutan. Perlu dicatat bahwa data ini juga mencakup gambar dan di masa depan akan mencakup video; ekstraksi semacam ini seringkali sangat bergantung pada aplikasi (misalnya, apa yang ingin Anda ambil dari MRI sangat berbeda dari apa yang akan Anda ambil dari gambar bintang, atau foto pengawasan). Selain itu, karena kamera pengawasan yang tersebar luas dan popularitas ponsel pintar yang dilengkapi GPS, kamera, dan perangkat portable lainnya, data lokasi dan lintasan (yaitu, pergerakan di ruang) yang kaya dan berkualitas tinggi juga dapat diekstrak.

Kita terbiasa berpikir bahwa Big Data selalu memberi kita kebenaran, tetapi sebenarnya jauh dari kenyataan. Sebagai contoh, pasien mungkin memilih untuk menyembunyikan perilaku berisiko dan orang yang merawat kadang-kadang bisa salah mendiagnosis suatu kondisi; pasien juga mungkin secara tidak akurat mengingat nama obat atau bahkan bahwa mereka pernah mengonsumsinya, menyebabkan informasi yang hilang dalam catatan medis mereka (bagian riwayat). Pekerjaan yang ada tentang pembersihan data mengasumsikan batasan yang diakui dengan baik pada data yang valid atau model kesalahan yang dipahami dengan baik; untuk banyak domain Big Data yang muncul, hal-hal ini tidak ada.

3. Data Integration, Aggregation, and Representation

Dengan heterogenitas banjir data, tidak cukup hanya mencatatnya dan melemparkannya ke dalam repositori. Pertimbangkan, sebagai contoh, data dari berbagai eksperimen ilmiah. Jika kita hanya memiliki sekelompok set data di sebuah repositori, kemungkinan kecil seseorang akan pernah bisa menemukan, apalagi menggunakan kembali, data ini. Dengan metadata yang memadai, ada sedikit harapan, tetapi bahkan demikian, tantangan akan tetap ada karena perbedaan dalam detail eksperimental dan struktur pencatatan data.

Analisis data jauh lebih menantang daripada sekadar menemukan, mengidentifikasi, memahami, dan mengutip data. Untuk analisis skala besar yang efektif, semua ini harus terjadi secara sepenuhnya otomatis. Ini memerlukan perbedaan dalam struktur data dan semantik diekspresikan dalam bentuk yang dapat dimengerti komputer, dan kemudian dapat dipecahkan secara "robotik". Ada sejumlah besar penelitian dalam integrasi data yang dapat memberikan sebagian jawaban. Namun, diperlukan upaya tambahan yang signifikan untuk mencapai resolusi perbedaan yang bebas dari kesalahan secara otomatis.

Bahkan untuk analisis yang lebih sederhana yang bergantung hanya pada satu set data, masih ada pertanyaan penting tentang desain basis data yang sesuai. Biasanya, akan ada banyak cara alternatif untuk menyimpan informasi yang sama. Beberapa desain akan memiliki kelebihan dibandingkan yang lain untuk tujuan tertentu, dan mungkin memiliki kekurangan untuk tujuan lain. Lihatlah, sebagai contoh, variasi besar dalam struktur basis data bioinformatika dengan informasi mengenai entitas yang substansial serupa, seperti gen. Desain basis data saat ini adalah seni, dan dijalankan dengan hati-hati dalam konteks perusahaan oleh para profesional yang dibayar tinggi. Kita harus memungkinkan para profesional lain, seperti ilmuwan domain, untuk menciptakan desain basis data yang efektif, baik melalui penyusunan alat untuk membantu mereka dalam proses desain atau dengan melewatkan proses desain sepenuhnya dan mengembangkan teknik sehingga basis data dapat digunakan secara efektif dalam ketiadaan desain basis data yang cerdas.

4. Query Processing, Data Modeling, and Analysis

Metode untuk menanyakan dan menambang Big Data secara fundamental berbeda dari analisis statistik tradisional pada sampel kecil. Big Data seringkali bising, dinamis, heterogen, saling terkait, dan tidak dapat dipercaya. Namun, bahkan Big Data yang bising dapat lebih berharga daripada sampel kecil karena statistik umum yang diperoleh dari pola-pola yang sering muncul dan analisis korelasi biasanya lebih kuat daripada fluktuasi individual dan sering kali mengungkapkan pola dan pengetahuan tersembunyi yang lebih dapat diandalkan. Selain itu, Big Data yang saling terkait membentuk jaringan informasi heterogen besar, di mana redundansi informasi dapat dieksplorasi untuk mengkompensasi data yang hilang, memeriksa kasus-kasus yang konflik, memvalidasi hubungan yang dapat dipercaya, mengungkapkan klaster-kelaster yang melekat, dan mengungkapkan hubungan dan model yang tersembunyi.

Penambangan membutuhkan data yang terintegrasi, bersih, dapat dipercaya, dan dapat diakses dengan efisien, antarmuka kueri dan penambangan deklaratif, algoritma penambangan yang dapat diskalakan, dan lingkungan komputasi big data. Pada saat yang sama, penambangan data juga dapat digunakan untuk membantu meningkatkan kualitas dan kepercayaan data, memahami semantiknya, dan menyediakan fungsi kueri yang cerdas. Seperti yang disebutkan sebelumnya, catatan medis kehidupan nyata memiliki kesalahan, heterogen, dan sering didistribusikan di berbagai sistem. Nilai analisis Big Data dalam perawatan kesehatan, hanya sebagai contoh domain aplikasi, hanya dapat direalisasikan jika dapat diterapkan secara robust di bawah kondisi-kondisi sulit ini. Di sisi lain, pengetahuan yang dikembangkan dari data dapat membantu dalam memperbaiki kesalahan dan menghilangkan ambiguitas. Sebagai contoh, seorang dokter mungkin menulis "DVT" sebagai diagnosis untuk seorang pasien. Singkatan ini umum digunakan untuk "trombosis vena dalam" dan "divertikulitis," dua kondisi medis yang sangat berbeda. Basis pengetahuan yang dikonstruksi dari data terkait dapat menggunakan gejala atau obat-obatan terkait untuk menentukan mana dari kedua kondisi yang dimaksud oleh dokter.

Big Data juga memungkinkan generasi berikutnya dari analisis data interaktif dengan jawaban real-time. Di masa depan, kueri terhadap Big Data akan secara otomatis dihasilkan untuk penciptaan konten di situs web, untuk mengisi daftar panas atau rekomendasi, dan untuk memberikan analisis ad hoc dari nilai satu set data untuk memutuskan apakah menyimpan atau membuangnya. Memperbesar teknik pemrosesan kueri kompleks ke terabyte sambil memungkinkan waktu respons interaktif adalah masalah penelitian terbuka utama saat ini.

Masalah dengan analisis Big Data saat ini adalah kurangnya koordinasi antara sistem database, yang menyimpan data dan menyediakan kueri SQL, dengan paket analitik yang melakukan berbagai bentuk pemrosesan non-SQL, seperti penambangan data dan analisis statistik. Analis saat ini terhambat oleh proses yang membosankan untuk mengekspor data dari database, melakukan proses non-SQL, dan mengembalikan data tersebut. Ini adalah hambatan untuk meneruskan keanggunan interaktif dari generasi pertama sistem OLAP yang didorong oleh SQL ke jenis analisis penambangan data yang semakin diminati. Keterkaitan yang erat antara bahasa kueri deklaratif dan fungsi-fungsi dari paket-paket tersebut akan menguntungkan baik ekspresivitas maupun kinerja analisis.

5. Interpretation

Kemampuan untuk menganalisis Big Data memiliki nilai yang terbatas jika pengguna tidak dapat memahami analisis tersebut. Pada akhirnya, seorang pengambil keputusan, setelah diberikan hasil analisis, harus menginterpretasikan hasil tersebut. Interpretasi ini tidak dapat terjadi dalam hampa. Biasanya, hal ini melibatkan meneliti semua asumsi yang dibuat dan melacak kembali analisis tersebut. Selain itu, seperti yang telah kita bahas sebelumnya, ada banyak sumber kesalahan yang mungkin terjadi: sistem komputer bisa memiliki bug, model hampir selalu memiliki asumsi, dan hasil dapat didasarkan pada data yang salah. Oleh karena itu, tidak ada pengguna yang bertanggung jawab akan memberikan wewenang secara penuh kepada sistem komputer. Sebaliknya, dia akan mencoba untuk memahami, dan memverifikasi, hasil yang dihasilkan oleh komputer. Sistem komputer harus memudahkan pengguna untuk melakukannya. Ini merupakan tantangan yang cukup besar dengan Big Data karena kompleksitasnya. Seringkali terdapat asumsi penting di balik data yang tercatat. Pipa analitik seringkali melibatkan beberapa langkah, juga dengan asumsi yang disertakan di dalamnya. Guncangan terkait hipotek belakangan ini secara dramatis menggarisbawahi perlunya kehati-hatian pengambil keputusan -- daripada menerima dengan mudah solvabilitas yang dinyatakan dari sebuah lembaga keuangan, seorang pengambil keputusan harus secara kritis memeriksa banyak asumsi pada berbagai tahap analisis.

Singkatnya, jarang cukup hanya memberikan hasil saja. Sebaliknya, kita harus menyediakan informasi tambahan yang menjelaskan bagaimana setiap hasil diperoleh, dan didasarkan pada input-input tertentu. Informasi tambahan semacam ini disebut provenans dari data (hasil). Dengan mempelajari cara terbaik untuk menangkap, menyimpan, dan meng-query provenans, bersama dengan teknik untuk menangkap metadata yang memadai, kita dapat menciptakan infrastruktur untuk memberikan kemampuan kepada pengguna untuk menginterpretasikan hasil analitik yang diperoleh dan mengulangi analisis dengan asumsi, parameter, atau set data yang berbeda.

Sistem dengan beragam visualisasi menjadi penting dalam menyampaikan hasil query kepada pengguna dengan cara yang paling mudah dipahami dalam domain tertentu. Sementara pengguna sistem intelligence bisnis awal puas dengan presentasi tabel, analis-analis hari ini perlu mengemas dan menyajikan hasil dalam visualisasi yang kuat yang membantu interpretasi, dan mendukung kerja sama pengguna seperti dibahas di Bagian 3.5

Selain itu, dengan beberapa klik, pengguna harus dapat menelusuri setiap bagian data yang dilihatnya dan memahami provenansnya, yang merupakan fitur kunci untuk memahami data. Pengguna perlu dapat melihat bukan hanya hasil, tetapi juga memahami mengapa mereka melihat hasil tersebut. Namun, provenans mentah, terutama mengenai fase-fase dalam pipa analitik, kemungkinan terlalu teknis bagi banyak pengguna untuk sepenuhnya memahaminya. Salah satu alternatif adalah untuk memungkinkan pengguna untuk "bermain" dengan langkah-langkah dalam analisis - melakukan perubahan kecil pada pipa, misalnya, atau memodifikasi nilai untuk beberapa parameter. Pengguna kemudian dapat melihat hasil dari perubahan-perubahan inkremental ini. Dengan cara ini, pengguna dapat mengembangkan perasaan intuitif terhadap analisis dan juga memverifikasi bahwa analisis tersebut berjalan sesuai yang diharapkan dalam kasus-kasus tertentu. Untuk mencapai hal ini, sistem harus menyediakan fasilitas yang nyaman bagi pengguna untuk menentukan analisis. Spesifikasi deklaratif, yang dibahas di Bagian 4, adalah salah satu komponen dari sistem semacam itu.

Cari Blog Ini

TUGAS

DATA MINING

CRISP-DM

SEMMA

Komentar

Posting Komentar

Postingan populer dari blog ini

HARAPAN UNTUK MK BASIS DATA

Supervised Learning (Prediksi) dan Algoritma yang Ada Didalamnya