1. Pengertian
Data Mining
Data
mining merupakan proses pencarian pola-pola yang menarik dan tersembunyi
(hidden pattern) dari suatu kumpulan data yang berukuran besar yang tersimpan
dalam suatu basis data, data warehouse, atau tempat penyimpanan data lainnya.
2.
Metodologi CRISP-DM
CRISP-DM
(Cross Industry Standart Process for Data Mining) adalah standarisasi data
mining yang disusun oleh tiga penggagas data mining market. Yaitu Daimler
Chrysler (Daimler-Benz), SPSS (ISL), NCR. Kemudian dikembangkan pada berbagai workshops
(antara 1997 – 1999). Lebih dari 300 organisasi yang berkontribusi dalam proses
modeling ini dan akhirnya CRISP-DM 1.0 dipublikasikan pada 1999. Proses data
mining berdasarkan CRISP-DM terdiri dari 6 fase, yaitu :
1.Fase
Pemahaman Bisnis (Business Understanding Phase)
a. Penentuan tujuan proyek dan
kebutuhan secara detail dalam lingkup bisnis atau
unit penelitian secara keseluruhan
b.Menerjemahkan tujuan
dan batasan menjadi formula dari permasalahan data mining.
c. Menyiapkan strategi awal untuk mencapai tujuan.
2.Fase
Pemahaman Data (Data Understanding Phase)
a. Mengumpulkan data
b. Menggunakan analisis
penyelidikan data untuk mengenali lebih lanjut data
dan pencarian
pengetahuan awal.
c. Mengevaluasi
kualitas data
3.Fase
Pengolahan Data (Data Preparation Phase)
a. Siapkan dari data
awal, kumpulan data yang akan digunakan untuk keseluruhan fase berikutnya. Fase
ini merupakan pekerjaan berat yang perlu dilaksanakan secara intensif.
b.Pilih kasus dan variabel
yang ingin di analisis dan yang sesuai analisa yang akan dilakukan.
c. Siapkan data awal
sehingga siap untuk perangkat pemodelan.
4.Fase
Pemodelan (Modeling Phase)
a. Pilih dan
aplikasikan teknik pemodelan yang sesuai
b.Kalibrasi aturan
model untuk mengoptimalkan hasil
c. Perlu diperhatikan
bahwa beberapa teknik mungkin untuk digunakan pada permasalahan data mining yang
sama
d.Jika diperlukan
proses dapat kembali ke fase pengolahan data
untuk menjadikan data
ke dalam bentuk yang sesuai dengan spesifikasi kebutuhan teknik data mining
tertentu.
5.Fase
Evaluasi (Evaluation Phase)
a. Mengevaluasi satu
atau lebih model yang digunakan dalam fase pemodelan untuk mendapatkan kualitas
dan efektivitas sebelum disebarkan untuk digunakan.
b.Menetapkan apakah
terdapat model yang memenuhi tujuan pada fase awal.
c. Menentukan apakah
terdapat permasalahan penting dari bisnis atau penelitian yang tidak tertangani
dengan baik.
d.Mengambil keputusan
berkaitan dengan penggunaan hasil dari data mining.
6.Fase
Penyebaran (Deployment Phase)
a. Menggunakan model
yang dihasilkan. Terbentuknya model tidak menandakan telah terselesaikannya
proyek.
3.
Clustering
Garcia‐Molina
et al. menyatakan Clustering adalah mengelompokkan item data ke dalam sejumlah
kecil grup sedemikian sehingga masing‐masing grup mempunyai sesuatu persamaan
yang esensial. Pengklusteran merupakan pengelompokan record, pengamatan, atau
memperhatikan dan membentuk kelas objek-objek yang memiliki kemiripan. Kluster
adalah kumpulan record yang memiliki kemiripan suatu dengan yang lainnya dan
memiliki
ketidakmiripan
dengan record dalam kluster lain.
4.
Algoritma
K-Means
Pada
algoritma ini, pusat cluster atau centroid dipilih pada tahap awal secara acak
dari sekumpulan kolesi (populasi) data. Kemudian K-Means menguji masing-masing
komponen didalam populasi data dan menandai komponen tersebut ke salah satu
centroid yang telah didefinisikan sebelumnya berdasarkan jarak minimum antara komponen
(data) dengan masingmasing centroid. Posisi centroid akan dihitung kembali
sampai semua komponen data dikelompokkan ke setiap centroid dan terakhir akan terbentuk
posisi centroid baru. Iterasi
ini
akan terus dilakukan sampai tercipta kondisi konvergen. Secara lebih detail, algoritma
K-Means Clustering adalah sebagai berikut :
5.
Fase Pemahaman Bisnis
Pemahaman
bisnis dilakukan denganmempelajari objek penelitian yaitu Puskesmas Pandanaran.
Dalam fase ini dilakukan penentuan tujuan bisnis yaitu untuk mengetahui jenis
obat dengan pemakaian tertinggi setiap bulannya selama 3 tahun, sehingga
nantinya jika akan melakukan persediaan, pertugas dapat melihat apakah jenis
obat yang akan di-stok memang layak untuk disediakan dalam jumlah besar atau disediakan
dalam jumlah kecil sesuai dengan pemakaian yang telah terjadi setiap bulannya
selama 3 tahun. Setelah itu dilakukan penerapan tujuan, penerapan tujuan sama
dengan menentuan tujuan data mining yaitu dengan menggali pengetahuan tentang jenis
obat yang pemakaiannya cepat dan lama yang didapatkan dari proses clustering.
Selanjutnya adalah menyiapkan strategi awal penelitian, yang dilakukan dengan
permintaan data pada Puskesmas Pandanaran. Data yang akan diminta merupakan
data LPLPO dari tahun 2011 – 2013.
3.
Data yang dikumpulkan merupakan data LPLPO dari tahun 2011 – 2013. Data LPLPO
didapatkan dari bagian yang mengurusi Laporan Data Obat dan data LPLPO disimpan
dalam bentuk excel. Setelah data didapatkan, proses selanjutnya adalah memahami
data tersebut. Data yang didapatkan sejumlah 9697 data selama 3 tahun. Selanjutnya
dilakukan pengevaluasian kualitas data dan kelengkapan data. Nilai-nilai yang
hilang sering terjadi,
terutama
jika data yang dikumpulkan di jangka waktu yang lama. Memeriksa atribut yang
hilang atau kosong, ejaan nilai-nilai, dan apakah atribut dengannilai yang
berbeda memiliki arti yang sama.
6.
Fase Pemahaman Data
Persiapan
data dilakukan dengan memilih atribut yang nantinya akan digunakan untuk proses
modeling yang diambil dari LPPO. Atribut yang telah dipilih nantinya akan
disimpan kembali kedalam dataset yang baru yang siap untuk diproses kedalam
proses modeling. Atribut yang dipilih merupakan atribut nama obat, stock
awal,
penerimaan, pemakaian, persediaan, pemakaian, stok akhir dan permintaan.
Kemudian dilakukan transformasi data dengan memindahkan atribut yang telah
dipilih pada proses pemilihan data untuk dipindahkan pada dataset yang baru
yang nantinya siap
diproses
pada fase pemodelan.
7.
Fase
Pemodelan
Pada
tahap pemodelan akan menggunakan metode clustering dengan algoritma k-means.
Dalam penerapan metode clustering, akan dibagi menjadi 2 cluster yang nantinya
akan mengcluster jenis obat dengan pemakaian cepat dan jenis obat dengan
pemakaian lama. Alat pemodelan yang digunakan adalah Rapidminer 5.3. Rapidminer
dapat digunakan untuk memudahkan dalam perhitungan dengan algoritma kmeans. Hasil
yang didapatkan dari
proses
clustering bulan Januari 2011 telah membagi 2 cluster yaitu cluster0
dan
cluster1 yang masing-masing bernilai 11 dan 471. Setelah didapatkan hasilnya,
data dianalisa berdasarkan atribut yang dipakai. Sehingga didapatkan hasil
bahwa cluster0 merupakan obat dengan pemakaian cepat dan cluster1 merupakan
obat dengan pemakaian lama. Data akan diproses secara clustering setiap bulannya
sehingga masing-masing data
akan
diketahui apakah obat tersebut termasuk cluster dengan pemakaian cepat
atau cluster dengan pemakaian lama. Kemudian masing-masing cluster
yang telah dibagi diberi penamaan sebagai label, yaitu label cepat dan lama.
Setelah label ditambahkan, data
dengan
pemakaian cepat setiap bulannya, akan dipisahkan untuk dipakai pada metode
persedian obat nantinya. Pemisahan dilakukan per bulan selama 3 tahun, sehinnga
akan
diketahui
obat dengan pemakaian cepat pada bulan Januari 2011, Januari 2012
dan
Januari 2013. Dari proses tersebut akan diketahui obat yang selalu mengalami fast
moving setiap tahunnya pada bulan yang sama, dan mengetahui obat tersebut
digunakan untuk penyakit apa, sehingga nantinya dapat digunakan untuk
rekomendasi Puskesmas untuk
melakukan
tindakan seperti sosialisasi pada masyarakat tentang penyakit
tersebut.
8. Fase Evaluasi
Pada
tahap evaluasi model akan dinilai apakah hasil yang didapatkan dari proses clustering
telah memenuhi tujuan yang telah ditentukan dalam tahap business
understanding. Pada tahapan business understanding telah ditentukan tujuan
yaitu untuk mengetahui obat
dengan
pemakaian cepat agar dapat digunakan untuk metode pengendalian persediaan pada
Puskesmas Pandanaran. Dan hasil dari proses data mining dapat meng-cluster obat
menjadi 2 cluster yaitu pemakaian cepat dan pemakaian lama. Setelah
hasil yang didapatkan sama dengan tujuan pada business understanding, maka akan
dilakukan
proses
pengecekkan yang berfungsi untuk memastikan bahwa semua tahap telah dilakukan
dalam proses pengolahan data atau tidak ada factor penting yang terleweatkan.
Kemudian
dipastikan
bahwa semua tahapan / faktor penting yang telah dilakukan dengan pengolahan
data tidak ada yang terlewatkan. Dengan demikian dapat dilakukan proses
selanjutnya pada
proses
pengolahan data karena telah memenuhi tujuan dari data mining. Selanjutnya pada
tahap ini mempunyai 2 pilihan, yaitu kembali pada tahap awal atau melanjutkan
ke tahap akhir. Karena pada tahap sebelumnya telah memenuhi tujuan dan tidak
ada tahap yang
terlewatkan,
maka tahap selanjutnya adalah menuju tahapan akhir dengan menentukan persebaran
dari hasil yang telah diperoleh dengan cara meakukan
analisis.
9. Fase Penyebaran
Merupakan
fase penerapan teknik klastering sesuai dengan tujuan / sasaran yang ingin
dicapai pada fase pertama, yaitu untuk mengetahui obat dengan pemakaian cepat
setiap
bulannya
yang diambil dari data 3 tahun. Sehingga nantinya dapatdigunakan sebagai metode
persediaan obat pada Puskesmas Pandanaran. Pada fase penyebaran, akan digunakan
model
pengendalian
persediaan yaitu Model Deterministik. Model deterministic ditandai oleh
karakteristik permintaan dan periode kedatangan yang dapat diketahui secara
pasti sebelumnya. Dalam model persediaan deterministic parameter-parameter yang
berpengaruh
terhadap
sistem persediaan dapat diketahui dengan pasti. Rata-rata kebutuhan dan
biaya-biaya persediaan diasumsi diketahui dengan pasti. Lamanya lead time juga
diasumsikan
selalu
tetap. Karena semua parameter bersifat deterministik maka tidak dimungkinkan
adanya kekurangan peersediaan. Dalam dunia nyata, akan sangat jarang ditemukan
situasi dimana
seluruh
parameter dapat diketahui dengan pasti. Karena itu, akan lebih masuk akal jika
digunakan modelmodel probabilistik yang mempertimbangkan ketidakpastian pada parameter
- parameternya. Namun, model deterministik terkadang merupakan pendekatan yang
sangat
baik,
atau paling tidak merupakan langkah awal yang baik untuk menggambarkan fenomena
persediaan. Dengan hasil clustering dapat digunakan Model Deterministik untuk pengendalian
persediaan, yaitu dengan mengetahui karakteristik permintaan obat yang sering
dipakai.
Tidak ada komentar:
Posting Komentar