Archive for the ‘Data Mining dan Data Warehouse’ Category

Perkerjaan yang berkaitan dengan data mining dapat dibagi menjadi empat kelompok, yaitu model prediksi (predictinon modelling), analisis kelompok (cluster analysis), analisis asosiasi (association analysis), dan deteksi anomali (anomaly detection).

Model Prediksi

Model prediksi berkaitan dengan pembuatan sebuah model yang dapat melakukan pemetaan dari setiap himpunan variabel ke setiap targetnya, kemudian menggunakan model tersebut untuk memberikan nilai target pada himpunan baru yang didapat. Ada dua jenis model prediksi, yaitu klasifikasi dan regresi. Klasifikasi digunakan untuk variabel target diskret, sedangkan regresi untuk variabel target kontinu.

Misalnya, pekerjaan untuk melakukan deteksi jenis penyakit pasien berdasarkan sejumlah nilai parameter penyakit yang diderita masuk dalam jenis klasifikasi karena disini target yang diharapkan adalah diskret, hanya beberapa jenis kemungkinan nilai target yang didapatkan, tidak ada nilai deret waktu (time series) yang harus didapatkan untuk mendapat target nilai akhir. Sementara, pekerjaan prediksi jumlah penjualan yang didapatkan pada tiga bulan ke depan termasuk regresi karena untuk mendapatkan nilai penjualan bulan ketiga nilai penjulan bulan kedua harus didapatkan dan untuk mendapatkan nilai penjualan bulan kedua, nilai penjualan bulan pertama harus didapatkan. Disini ada nilai deret waktu yang harus dihitung untuk sampai pada target akhir yang diinginkan, ada nilai kontinu yang harus dihitung untuk mendapatkan nilai target akhir yang diinginkan. Read the rest of this entry »

Data Mining muncul berdasarkan kenyataan bahwa jumlah data yang tersimpan dalam basis data semakin besar.
Sebagai contoh pada sebuah Supermarket, berapa banyak transaksi yang terjadi dalam satu hari, satu bulan, dan berapa banyak data yang tersimpan dalam satu tahun?
ada berapa juta data yang sudah tersimpan? Akan diapakan data-data yang semakin menggunung jumlahnya dari waktu ke waktu? Apakah hanya untuk laporan akhir tahun?
kemudian dibuang, apakah hanya akan dikubur dalam gudang data dan dibiarkan? akan sangat disayangkan jika data-data tersebut tidak dimanfaatkan untuk kepentingan Perusahaan.
Semua masalah ini coba dijawab dengan munculnya Disiplin ilmu data mining dengan melakukan proses yang dapat menemukan suatu informasi baru yang berguna bagi perusahaan.
Informasi baru ini dapat membantu keputusan dalam menetapkan keputusan yang akan mendukung keberhasil bisnis dalam sebuah perusahaan.dataMining

Setiap perusahaan, lembaga atau instansi mempunyai sistem operasional yang setiap transaksi kegiatan operasinya selalu dicatat dan didokumentasikan. Proses dokumentasi setiap transaksi
sangat berguna bagi lembaga tersebut untuk segala keperluan. Data-data tersebut tersimpan dalam sebuah basis data berkapasitas besar.
Bagi perusahaan, data-data yang tersimpan di basisdata dapat dimanfaatkan untuk membuat laporan penjualan, kontrol inventaris, dan sebagainya, yang pada akhirnya dapat digunakan untuk mengetahui pola grafik jumlah produksi berdasarkan data-data produksi yang sudah diketahui sebelumnya, perkiraan nilai penjualaan yang akan didapatkan, pola pembelian konsumen, analisis kebutuhan pasar yang paling signifikan dalam sumbangan laba perusahaan, dan sebagainya. Semua hal tersebut bisa didapatkan dengan memanfaatkan data-data yang sudah ada di dalam basisdata.

Dalam dunia pendidikan, proses penentuan bidang minat siswa juga menjadi hal yang penting untuk dapat diputuskan dengan benar. Faktor-faktor penentu masuknya siswa dalam sebuah bidang minat menjadi data awal yang dapat digunakan untuk membantu penentuan keputusan.

Dalam dunia kesehatan, diagnosis penyakit pasien menjadi hal yang sangat sulit dilakukan. Namun demikian, catatan rekam medis telah menyimpan gejala-gejala penyakit pasien dan diagnosis penyakitnya. Hal seperti ini tentu sangat berguna bagi para dokter muda. mereka bisa menggunakan catatan rekam medis yang sudah ada sebagai bantuan untuk mengambil keputusan tentang diagnosis penyakit pasien.

Dalam dunia perbankan, jika mempunyai kartu kredit, Anda mungkin sering menerima surat penawaran barang atau jasa. Jika bank mempunyai 2.000.000 nasabah dan biaya pengiriman surat per nasabah adalah 1000 rupiah, biaya yang harus dikeluarkan adalah 2 Milyar rupiah, padahal nasabah yang mungkin benar-benar membeli hanya sekitar 20% sehingga ada pembuangan biaya sekitar 80% dari 2 Milyar atau sekitar 1,6 Milyar Rupiah. Jika perusahaan dapat memanfaatkan data-data yang ada sehingga hanya mengirimkan surat kepada nasabah yang berpotensi untuk membeli, biaya pengiriman tersebut dapat ditekan.

DEFINISI DATA MINING
Data Mining merupakan sebuah proses untuk mendapatkan informasi yang berguna dari gudang data yang berukuran besar (Tan,2006). Data Mining juga dapat diartikan sebagai pengekstrakan informasi baru yang diambil dari bongkahan data besar yang membantu dalam pengambilan keputusan. Istilah Data Mining kadang disebut juga dengan Knowledge Discovery.
Salah satu teknik yang dibuat dalam data mining adalah bagaimana menulusuri data yang ada untuk membangun sebuah model, kemudian menggunakan model tersebut agar dapat mengenali pola data yang lain yang tidak berada dalam basis data yang tersimpan. Kebutuhan untuk prediksi juga dapt memanfaatkan teknik ini. Dalam data mining, pengelompokan data juga dapat dilakukan. Tujuannya adalah agar dapat mengetahui pola universal data-data yang ada.

POSISI DATA MINING DALAM BERBAGAI DISIPLIN ILMU
Para ahli berusaha menentukan posisi bidang data mining di antara bidang-bidang ilmu yang lain. Hal ini dikarenakan ada kesamaan antara bahasan dalam data mining dengan bahasan yang ada dibidang ilmu lain walaupun tidak semuannya sama, tetapi ada sejumlah kesamaan karakteristik dalam beberapa hal. Kesamaan bidang data mining dengan bidang statistik adalah penyampelan, estimasi, dan pengujian hipotesis. Kesamaan data mining dengan ilmu bidang kecerdasan buatan, pengenalan pola dan pembelajaran mesin adalah algoritma pencarian, teknik pemodelan dan teori pembelajaran.

datamining2
Bidang lain yang juga mempengaruhi data mining adalah teknologi basisdata, yang mendukung penyediaan pemyimpanan yang efisien, pengindeksan dan pemrosesan query.
Teknik komputasi paralel sering digunakan untuk memberikan kinerja yang tinggi untuk ukuran set data yang besar, sedangkan komputasi terdistribusi dapat digunakan untuk menangani masalah ketika data tidak dapat disimpan di satu tempat.

Archives
Kalender
April 2019
M T W T F S S
« Sep    
1234567
891011121314
15161718192021
22232425262728
2930