Pengantar Teori Data Mining

Pendahuluan

Perkembangan teknologi informasi yang sangat pesat, telah mengakibatkan jumlah data yang sangat besar terakumulasi.Tetapi pertumbuhan yang pesat dari akumulasi data itu telah menciptakan kondisi yang sering disebut sebagai rich of data but poor of information karena data yang terkumpul itu tidak dapat digunakan untuk aplikasi yang berguna. Tidak jarang kumpulan data itu dibiarkan begitu saja seakan-akan kuburan data (data tombs).
Saat ini pertumbuhan jumlah data yang besar dari berbagai sumber sebagai berikut:
  • World wide web, dll
  • Bisnis: e-commerce, data transaksi, data stok barang, dll
  • Sains: remote sensing, bioinformatik, simulasi, dll
  • Media sosial: news, kamera digital, youtube, forum, blog, google, dll
Kebutuhan dari dunia bisnis yang ingin memperoleh nilai tambah dari data yang telah mereka kumpulkan telah mendorong penerapan teknik analisa data dari berbagai bidang seperti statistik, kecerdasan buatan dan lain-lain pada data berskala besar itu.

Penerapan teknik dalam pengolahan data berskala besar memberikan tantangan dan teknik baru yang akhirnya memunculkan metodologi baru yang disebut data mining. Pada awalnya penerapan data mining dilakukan di dunia bisnis, namun dalam perkembangannya diterapkan pada bidang-bidang lain yang memerlukan analisa data berskala besar seperti bioinformasi, pertahanan dan lain-lain.

Evolusi science

  • Sebelum tahun 1600, empirical science. 
  • Tahun 1600 - 1950, theoritical science.Pada masa ini berkembang komponen teoritikal, model dan lain-lain.
  • Tahun 1950 – 1990, computational science. Pada masa ini terdapat perkembangan dalam ilmu pengetahuan yang menggunakan media komputer untuk melakukan penelitian atau eksperimennya. Berbagai simulasi dapat dikembangakan dan model matematik dapat diterapkan dalam media komputer.
  • Tahun 1990 – sekarang, data science.Pada masa ini terjadi pertumbuhan data yang sangat besar yang dihasilkan dari berbagai simulasi dan penelitian. Hal ini berpengaruh pada kebutuhan penyimpanan data yang sangat besar. Namun pada saat ini dengan perkembangan teknologi  informasi penyimpanan data tidak menjadi permasalahan. Namun yang menjadi permasalahan adalah jumlah data yang besar tidak memberikan informasi yang siginifikan bahkan terkadang menjadi hanya tumpukan data tidak berguna. Seiring dengan pertumbuhan data yang besar, data mining menjadi sebuah kesempatan yang baik dalam melakukan analisis data. Dengan data mining maka dapat dilakukan analisis untuk mendapatkan pola atau pengetahuan yang diinginkan dan berpotensi berguna di masa depan. 

Evolusi teknologi database

Membahas tentang data mining tidak terlepas dari database, hal ini dikarenakan database merupakan salah satu sumber data bagi proses data mining. Dalam perkembangannya teknologi database dapat bagii dalam tahapan sebagai berikut:
  • Tahun 1960an. Pada masa ini teknologi database memungkinkan untuk mengoleksi data, membuat database, dan network DBMS.
  • Tahun 1970an. Pada masa ini berkembangnya model data relasional, dan diimplementasikannya relational database manajemen sistem (RDBMS).
  • Tahun 1980an. Pada masa ini teknologi RDBMS semakin canggih, berkembangnya model database berorientasi objek, dan berbagai aplikasi yan berorientasi DBMS semakin berkembang (penelitian, spasial, engineering).
  • Tahun 1990an. Munculnya data mining, data warehouse, database multimedia, database web.
  • Tahuan 2000an. Berkembangnya Stream data management dan mining, semakin berkembangnya aplikasi data mining, berkembangnya teknologi web (XML, data integration), dan global information system.

Definisi data mining

Ada beberapa definisi dari data mining, diantaranya adalah:
Data mining adalah serangkaian proses untuk menggali nilai tambah dari suatu kumpulan data berupa pengetahuan yang selama ini tidak diketahui secara manual. 
Data mining adalah analisa otomatis dari data yang berjumlah besar atau kompleks dengan tujuan untuk menemukan pola atau kecenderungan yang penting yang biasanya tidak disadari keberadaannya. Menarik untuk diingat bahwa kata mining sendiri berarti usaha untuk mendapatkan sedikit barang berharga dari sejumlah besar material dasar.
Data mining adalah proses ekstraksi pola atau pengetahuan dari sejumlah data yang besar (bersifat non-trivial, implisit, sebelumnya tidak diketahui, dan berpotensi untuk berguna). 

Dari definisi itu, dapat diambil kesimpulan bahwa faktor yang ada dalam data mining adalah sebagai berikut:
data mining adalah proses otomatis terhadap data yang dikumpulkan di masa lalu.
objek dari data mining adalah data yang berjumlah besar atau kompleks.
tujuan dari data mining adalah menemukan pola atau pengetahuan yang sebelumnya tidak diketahui dan berpotensi bermanfaat.
Berbagai istilah yang digunakan sebagai nama lain dari data mining adalah knowledge discovery (mining) in databases (KDD), knowledge extraction, data/patern analysis, data archeology, data dredging, information harvesting, business intelligent dan lain-lain.

Gambar tahapan proses KDD

Tahap-Tahap Data Mining

Data mining seharusnya dipahami sebagai suatu proses, yang memiliki tahapan-tahapan tertentu dan juga ada umpan balik dari setiap tahapan ke tahapan sebelumnya. Pada umumnya proses data mining berjalan interaktif karena tidak jarang hasil data mining pada awalnya tidak sesuai dengan harapan analisnya sehingga perlu dilakukan desain ulang prosesnya.

Secara garis besar tahapan dalam proses data mining adalah sebagai berikut:
1. Pembersihan data (untuk membuang data yang tidak konsisten dan noise).
2. Integrasi data (penggabungan data dari beberapa sumber).
3. Transformasi data (data diubah menjadi bentuk yang sesuai untuk di-mining).
4. Aplikasi teknik data mining.
5. Evaluasi pola yang ditemukan (untuk menemukan yang menarik/bernilai).
6. Presentasi pola yang ditemukan untuk menghasilkan aksi.

Apa yang bisa dan tidak bisa dilakukan data mining? Secara umum, data mining dapat melakukan dua hal : memberikan kesempatan untuk menemukan informasi menarik yang tidak terduga, dan juga bisa menangani data berskala besar.

Referensi:
Han, Jiawei and Kember, Michele. 2006. Data Mining: Concepts and Techniques, Second Edition. Elsevier. San Francisco
Previous
Next Post »
0 Komentar