Knowledge Discovery dan Data Mining

Post oleh : Muhamad Rafly Aditya (10121758)

Data mining adalah suatu proses ekstraksi pengetahuan atau informasi yang berharga dari suatu set data yang besar dan kompleks. Tujuan utama dari data mining adalah mengidentifikasi pola, hubungan, atau informasi yang mungkin tidak terlihat secara langsung dalam data, sehingga dapat memberikan wawasan yang lebih dalam dan bernilai. Data mining itu sendiri meiliki beragam metode yang bisa digunakan yaitu KDD, CRISP-DM, SEMMA, dll. Setiap proses memiliki metode yang berbeda-beda dalam pencarian informasi penting yang ada di dalam database orgnisasi. Pada artikel ini kita akan membahas KDD atau Knowledge Discovery in Database Process.

Seleksi Data: Langkah pertama adalah memilih dan mengumpulkan data yang relevan dari berbagai sumber. Data ini bisa dalam berbagai bentuk, termasuk basis data, teks, gambar, atau suara.
Data Pre-processing: Data yang diambil mungkin memiliki kekurangan, duplikasi, atau noise. Oleh karena itu, tahap pre-processing melibatkan pembersihan data, transformasi, dan integrasi untuk memastikan bahwa data siap untuk analisis lebih lanjut.
Pembentukan Model (Data Mining): Ini adalah tahap inti dari proses KDD. Pada tahap ini, teknik[1]teknik data mining seperti klasifikasi, klastering, regresi, atau asosiasi diterapkan untuk mengekstraksi pola-pola dari data. Model prediktif atau deskriptif dibangun selama tahap ini.
Evaluasi Model: Setelah model dibangun, tahap evaluasi dilakukan untuk menilai sejauh mana model tersebut efektif dan dapat diandalkan. Evaluasi dapat melibatkan pengujian model menggunakan data yang tidak terlihat sebelumnya atau dengan menggunakan metrik evaluasi seperti akurasi, presisi, recall, dan sebagainya.
Evaluasi Model: Setelah model dibangun, tahap evaluasi dilakukan untuk menilai sejauh mana model tersebut efektif dan dapat diandalkan. Evaluasi dapat melibatkan pengujian model menggunakan data yang tidak terlihat sebelumnya atau dengan menggunakan metrik evaluasi seperti akurasi, presisi, recall, dan sebagainya.
Visualisasi Hasil: Hasil dari analisis data mining diinterpretasikan dalam konteks bisnis atau ilmiah. Visualisasi sering digunakan untuk membantu pemahaman dan komunikasi hasil dengan pemangku kepentingan yang mungkin tidak memiliki latar belakang analisis data yang mendalam.
Knowledge Utilization: Pengetahuan yang ditemukan atau pola yang diidentifikasi selama proses KDD digunakan untuk mendukung pengambilan keputusan atau tindakan yang lebih baik. Implementasi solusi atau perubahan berdasarkan temuan dapat melibatkan penggunaan teknologi informasi atau perubahan prosedur bisnis.

Contoh Kasus:

Sebuah konservatorium botani ingin mengelompokkan spesies iris berdasarkan fitur-fitur morfologinya.

import pandas as pd
from sklearn.cluster import KMeans
import matplotlib.pyplot as plt
from sklearn.preprocessing import StandardScaler
from sklearn.decomposition import PCA

1. Seleksi Data

# 1. Load dataset Iris
from sklearn.datasets import load_iris
iris = load_iris()
df = pd.DataFrame(data=iris.data, columns=iris.feature_names)

Pada tahap ini, kita menggunakan dataset Iris yang sudah disediakan oleh scikit-learn. Dataset ini berisi informasi tentang tiga spesies iris dengan panjang dan lebar kelopak dan mahkota dalam sentimeter.

2. Data Pre-processing

#2. Pre-processing Data
# Menghapus entri yang tidak lengkap
df.dropna(inplace=True)
# Menghapus duplikat
df.drop_duplicates(inplace=True)

Dataset Iris sudah cukup bersih, sehingga tahap pre-processing tidak terlalu diperlukan dalam contoh ini.

3. Data Transformation

# 3. Data Transformation
# Standarisasi fitur-fitur
scaler = StandardScaler()
scaled_features = scaler.fit_transform(df)

kita melakukan standarisasi fitur-fitur menggunakan StandardScaler untuk memastikan bahwa semua fitur memiliki skala yang serupa.

4. Pembentukan Model (Data Mining)

# 4. Pembentukan Model (Data Mining)
# Menggunakan algoritma K-Means untuk clustering
kmeans = KMeans(n_clusters=3, random_state=42)
kmeans.fit(scaled_features)

Pada tahap ini, kita menggunakan algoritma K-Means untuk melakukan clustering pada dataset Iris. Kami menggunakan jumlah klaster yang diinginkan sebanyak 3.

5. Evaluasi Model

# 5. Evaluasi Model
# Tidak diperlukan dalam unsupervised learning, tetapi bisa dilihat inertia
print("Inertia:", kmeans.inertia_)

Dalam unsupervised learning seperti clustering, evaluasi model tidak seperti pada supervised learning. Namun, inertia dapat digunakan sebagai metrik untuk mengevaluasi bagaimana titik data tersebar di sekitar pusat klaster mereka.

6. Visualisasi Hasil

# 6. Visualisasi Hasil
# Reduksi dimensi menggunakan PCA untuk visualisasi
pca = PCA(n_components=2)
principal_components = pca.fit_transform(scaled_features)
 
# Plot hasil clustering
plt.figure(figsize=(10, 6))
plt.scatter(principal_components[:, 0], principal_components[:, 1], c=kmeans.labels_, cmap='viridis')
plt.xlabel('Principal Component 1')
plt.ylabel('Principal Component 2')
plt.title('Hasil Clustering pada Dataset Iris')
plt.show()

Kita menggunakan PCA untuk mereduksi dimensi fitur menjadi dua dimensi sehingga hasil clustering dapat divisualisasikan dengan mudah.

7. Knowledge Utilization

Dalam tahap ini, hasil clustering dapat digunakan untuk mengetahui pola alami yang ada dalam dataset Iris. Knowledge yang diperoleh dari clustering ini dapat digunakan untuk keperluan seperti segmentasi atau analisis lebih lanjut terhadap spesies iris.

Tips komputer dan Android

Kamis, 02 Mei 2024