Data Mining (Teknik Data Mining, Proses KDD)

Artikel Terkait Ilmu Komputer
Sumber: ispartnersllc.com

Secara umum data mining terdiri dari dua suku kata yaitu Data yang artinya merupakan kumpulan fakta yang terekam atau sebuah entitas yang tidak mempunyai arti dan selama ini sering diabaikan berbeda dengan informasi. Kata kedua yaitu Mining yang artinya proses penambangan sehingga data mining dapat diartikan sebagai suatu prose panambangan data yang menghasilkan keluaran (output) berupa pengetahuan atau informasi baru yang bermanfaat. Selain itu definisi data mining dikutip dari beberapa ahli adalah sebagai berikut :

Menurut Pramudiono (2006), Data Mining merupakan analisis otomatis dari data yang berjumlah besar atau kompleks dengan tujuan untuk menemukan pola atau kecenderungan yang penting yang biasanya tidak disadari keberadaanya.

Menurut Larose (2005), Data mining adalah bidang dari beberapa bidang keilmuan yang menyatukan teknik dari machine learning, pengenalan pola, statistik, basis data dan visualisasi untuk menangani permasalahan pengambilan informasi dari database yang besar.

Siklus Fase Proses
Siklus Fase Proses


Perlu kita ketahui bersama bahwa setiap proses setidaknya terdiri dari tiga fase yaitu input, proses dan output.  Dalam mengetahui suatu hal itu dapat diselesaikan dimulai dengan sebuah masukan data kemudian di proses sehingga menghasilkan sebuah keluaran atau hasil. Pada data mining juga mengalami fase tersebut hanya saja yang membedakannya adalah pada data mining yang menjadi masukan adalah himpunan data, prosesnya adalah algoritma atau metode dalam data mining untuk menggali pengetahuan pada data tersebut, dan keluarannya berupa pengetahuan dalam pola, decision tree, cluster, klasifikasi, estimasi ataupun yang lainnya.

Proses Gold Mining dan Data Mining
Proses Gold Mining dan Data Mining


Knowledge Discovery in Database (KDD)

Dalam proses data mining terdapat beberapa teknik untuk menganalisis data seperti Knowledge Discovery in Database (KDD), CRISP-DM dan lain sebagainya. Pada KDD sendiri terdapat beberapa tahapan proses diantaranya adalah sebagai berikut :

Proses KDD
Proses KDD


Seleksi Data (Data Selection)

Seleksi data merupakan sekumpulan data operasional yang diperlukan sebelum tahap mining atau penggalian  informasi dalam KDD dimulai. Data hasil seleksi yang akan digunakan pada proses data mining, disimpan dalam suatu berkas dan sebaiknya terpisah dari basis data operasional.

Pemilihan Data (Preprocessing)

Tahap preprocessing meliputi proses pembersihan (cleaning)  degan membuang duplikasi daa, memeriksa data yang inkosisten, dan memperbaiki kesalahan pada data misalkan typo. Dan melakukan enrichment atau memperkaya data yang sudah ada dengan data atau informasi lain yang relevan yang diperlukan pada KDD.

Transformasi (Transformation)

Pada tahap ini adalah mentransformasi bentuk data yang belum mempunyai entitas yang jelas ke dalam bentuk data yang valid atau siap untuk dilakukan proses data mining.

Data Mining

Pada tahapan ini menerapkan metode atau algoritma yang sesuai dengan informasi atau pengetahuan apa yang akan digali atau dicari, seperti menerapkan algoritma atau metode untuk klasifikasi, estimasi, prediksi, keterhubungan, klustering dan lain sebagainya.

Evaluasi/Interpretasi

Tahap ini merupakan tahapan terakhir yang dilakukan dengan mengevaluasi pembentukan keluaran atau output dari proses data mining agar mudah untuk dipahami dan dimengerti.

Teknik Data Mining

Dalam proses untuk memecahkan masaah dan menggali informasi atau pengetahuan baru , pada data mining memiliki jenis secara umum diantaranya adalah :
  • Estimasi, merupakan teknik dalam melakukan estimasi terhadap suau data baru yang tidak mempunyai keputusan berdasarkan riwayat data yang telah ada. Misalkan ketika melakukan estimasi biaya pembangunan untuk sebuah hotel baru pada kota yang berbeda.
  • Asosiasi, merupakan teknik untuk mengenali kelakuan dari kejadian-kejadian khusus atau proses dimana keterkaitan yang muncul terhadap setiap kejadian. Adapun metode dalam pemecahan masalah yang sering dipergunakan seperti algoritma apriori, FP-Growth, eclat dan lain-lain. Contoh penerapan asosiasi misalkan pada bidang perpustakaan dengan tata letak buku yang disimpan berdampingan dengan buku yang sering dipinjam secara bersamaan.
  • Klasifikasi, merupakan teknik dalam memberikan klasifikasi pada data dengan memanipulasi data yang telah diklasifikasi dan dengan menggunakan hasilnya dalam memberikan sejumlah aturan. Dalam mengklasifikasi digunakan suatu metode decision tree yang cukup populer seperti algoritma C4.5, ID3 dan lain-lain. Penerapan klasifikasi misalkan pada bidang akademik dengan mengklasifikasikan siswa yang layak kedalam kelas akselerasi.
  • Klastering, Merupakan teknik dalam menganalisis pengelompokan berbeda terhadap suatu data, terkesan mirip dengan klasifikasi, namun pengelompokkan belum didefinisikan sebelum dijalankannya tool data mining. Klustering pada umumnya membagi item menjadi kelompok-kelompok berdasarkan hasil temua pada proses data mining. Biasanya menggunakan meode algoritma neural network, K-Means Clustering.
  • Prediksi, merupakan teknik dalam memperkirakan atau forecasting suatu peristiwa sebelum peristiwa atau kejadian tersebut terjadi. Misalkan pada bidang cuaca dengan memperkirakan cuaca kedepannya apakah hujan, berawan ataupun cerah. Metode yang sering dipergunakan salah satunya adalah metode rough set.

Rekomendasi Web Hosting
  1. 20rb perbulan. Diskon hingga 40% kode kupon: MCP Daftar disini (apache).
  2. 10rb perbulan. Diskon hingga 75% kode kupon: MCP Daftar disini (litespeed).
  3. 10rb perbulan. Diskon hingga 70% kode kupon: aff-MCP Daftar disini (apache).