METODE DATA SAINS

APA SIH DATA SCIENCE METHODOLOGY??? Mari Bahas...




PENGERTIAN

    Metodologi data science adalah langkah-langkah digunakan dalam proyek data science agar dapat menghasilkan hasil yang optimal yang dapat menjawab pertanyaan dari suatu masalah yang ingin diselesaikan. Metodologi ini tidak bergantung pada teknologi atau tools tertentu. Secara umum terdapat dua kelompok metodologi, metodologi teknis dan metodologi bisnis.

JENIS-JENIS

1. Metodologi Kegiatan Teknis: KDD dan SEMMA

1. Knowledge Discovery dan Data Mining 









Knowledge Discovery dan Data Mining (KDD) adalah proses yang kompleks dan berkelanjutan untuk mengekstraksi pengetahuan yang berharga dari data. Memiliki serangkaian proses sebagai berikut:

- Selection: Pemilihan data (data target) yang akan menjadi sampel untuk proses selanjutnya.

- Preprocessing data: Melakukan serangkaian proses untuk melengkapi data dan menjaga

konsistensi data.

- Transformation: Mengubah representasi data untuk mempermudah dan memperbaiki agar

sesuai dengan teknik data mining yang akan dipergunakan

- Data Mining: Kegiatan pengembangan model untuk mencari pola dari data yang diberikan

- Evaluation: Proses interpretasi dan evaluasi pola yang diperoleh apakah pola yang menarik,

berguna atau relevan.

KDD dapat membantu organisasi untuk mengambil keputusan berdasarkan analisis data yang lebih tepat dan mendalam, serta meningkatkan efisiensi dan efektivitas bisnis secara keseluruhan.

2. Sample, Emplore, Modify, Model dan Assess (SEMMA)



Dapat digunakan untuk memudahkan penggguna untuk memprediksi tentang variable-variabel yang mengacu melakukan proses sebuah proyek data mining. 




Berikut adalah penjelasan singkat tentang setiap tahapan dalam proses SEMMA:

a. Sample: Proses ekstraksi data untuk mendapatkan dataset yang cukup untuk mendapatkan 

informasi signifikan namun tidak terlalu besar sehingga mudah untuk diproses selanjutnya.

b. Explore: Proses untuk mengeksplorasi data dengan mencari trend dan anomali untuk

mendapatkan pemahaman tentang data.

c. Modify: Proses modifikasi data dengan membuat, memilih dan transformasi variable untuk

proses pemodelan.

d. Model: Proses pemodelan dari data dengan mencari secara otomatis kombinasi data yang 

dapat dipakai untuk prediksi.

e. Assess: Mengevaluasi pola yang ditemukan apakah berguna dan cukup andal.


2. Cross-Industry Standard Process for Data Mining (CRISP-DM)

CRISP-DM adalah salah satu model proses datamining (datamining framework) yang awalnya (1996) dibangun oleh 5 perusahaan yaitu Integral Solutions Ltd (ISL), Teradata, Daimler AG, NCR Corporation DATA ANALYTIC | 33 dan OHRA.

Model proses CRISP-DM terdiri dari enam tahapan:
1. Business Understanding: Menentukan tujuan dan persyaratan dengan jelas secara keseluruhan, menerjemahkan tujuan tersebut serta menentukan pembatasan dalam perumusan masalah data mining, dan selanjutnya mempersiapkan strategi awal untuk mencapai tujuan tersebut.

2. Data Understanding: Memberikan fondasi analitik untuk sebuah penelitian dengan membuat ringkasaan (summary) dan mengidentifikasi potensi masalah dalam data.

3. Data Preparation: Memilih kasus dan parameter yang akan dianalisis (Select Data), melakukan transformasi terhadap parameter tertentu (Transformation), dan melakukan pembersihan data agar data siap untuk tahap modeling (Cleaning).

4. Modeling: Secara garis besar untuk membuat model prediktif atau deskriptif, lalu melakukan penerapan teknik dan algoritma data mining kepada data dengan bantuan alat bantu.

5. Evaluation: Melakukan interpretasi terhadap hasil dari data mining yang dihasilkan dalam proses pemodelan pada tahap sebelumnya. 

6. Deployment: Perencanaan untuk Deployment dimulai selama Business Understanding dan harus menggabungkan tidak hanya bagaimana untuk menghasilkan nilai model, tetapi juga bagaimana mengkonversi skor keputusan, dan bagaimana untuk menggabungkan keputusan dalam sistem operasional.

3. IBM Data Science











Tujuan dari metodologi data science adalah untuk berbagi metodologi yang dapat 
digunakan dalam data science, untuk memastikan bahwa data yang digunakan dalam pemecahan masalah adalah relevan dan dimanipulasi dengan benar untuk menjawab pertanyaan.

a. Business Understanding: memahami apakah tujuan bisnis untuk meningkatkan efisiensi 
kegiatan atau untuk menambah jenis kegiatan. Setelah tujuan diklarifikasi, langkah 
selanjutnya adalah mencari tahu kira-kira apa saja yang bisa mendukung tujuan.
b. Analytic Understanding: Berdasarkan pemahaman bisnis sebelumnya, kita harus 
memutuskan pendekatan analitis mana yang harus diikuti, yaitu:
c. Deskriptif → status saat ini dan informasi yang diberikan.
d. Diagnostik → analisis statistik, apa yang terjadi dan mengapa itu terjadi.
e. Prediktif → meramalkan tren atau kemungkinan kejadian di masa depan.
f. Preskriptif → bagaimana masalah harus diselesaikan
g. Data Requirements: Metode analisis yang telah dipilih sebelumnya menunjukkan isi, 
format, dan sumber data yang diperlukan untuk dikumpulkan. Selama proses kebutuhan data, 
kita harus menemukan jawaban atas pertanyaan-pertanyaan seperti apa, dimana, kapan, 
mengapa, bagaimana, siapa.
h. Data Collenction: Data yang dikumpulkan dapat diperoleh dalam format acak, selanjutnya 
data yang dikumpulkan harus divalidasi. Dengan demikian, jika diperlukan, seseorang dapat 
mengumpulkan lebih banyak data atau membuang data yang tidak relevan.
i. Data Understanding: mengumpulkan data berdasarkan masalah yang akan 
dipecahkan. Statistik perlu digunakan untuk memastikan apakah ada nilai yang hilang atau tidak. Terkadang nilai yang hilang bisa berarti “0” atau “tidak” atau bahkan “tidak 
diketahui”.
j. Data Preparation: melakukan pembersihan data dan pemilihan data.
k. Modelling: Pada tahap ini Data Scientist menentukan apakah data yang disiapkan sudah 
sesuai atau membutuhkan lebih banyak finishing dan bumbu. Ilmuwan data memiliki 
kesempatan untuk mengambil sampel data dan fokus pada pengembangan model deskriptif 
atau prediktif. 
l. Evaluation: Evaluasi model dilakukan selama proses pengembangan model. Di sini Data 
Scientist memeriksa kualitas model apakah memenuhi persyaratan yang diberikan oleh 
stakeholder atau tidak. 
m. Deployment: Setelah Data Scientist mendapatkan model terbaik untuk pemecahan masalah 
bisnis, akan bermanfaat jika stakeholder dapat menggunakannya. Oleh karena itu, tahap 
setelah evaluasi adalah implementasi dan pengujian akhir. Pada tahap ini, Data Scientist akan 
bekerja sama dengan para backend dan frontend engineer untuk mengimplementasikan 
model yang telah dibuat agar mudah digunakan oleh para stakeholder.
n. Feedback: Setelah proses penyebaran model, stakeholder akan mendapatkan feedback 
tentang kinerja model. Menganalisis umpan balik memungkinkan Data Scientist untuk 
menyempurnakan model dan meningkatkan akurasi dan kegunaannya.


4. Microsoft's Team Data Science Process












Proses Data Science Tim (TDSP) adalah metodologi data science yang tangkas dan berulang untuk memberikan solusi analisis prediktif dan aplikasi cerdas secara efisien. TDSP membantu meningkatkan kolaborasi dan tim pembelajaran dengan menyarankan bagaimana peran-peran tim dapat bekerja bersama semaksimal mungkin. Tujuannya adalah untuk membantu perusahaan sepenuhnya mendapatkan manfaat dari program analitik mereka.

Metodologi lain adalah dari Microsoft. Sama dengan sebelumnya, proses diawali dengan kegiatan 
Business Understanding. Daftar proses utamanya adalah sebagai berikut:

a. Business Understanding: Kegiatan untuk memahami masalah yang dihadapi.

b. Data Acquisition and Understanding: Kegiatan yang meliputi proses pengumpuilan dan 
eksplorasi data. Data bisa diambil dari data internal (on promise) ataupun dari cloud dan 
bisa berupa database ataupun file flat. Proses dilakukan melalui pipeline, yang dapat berupa
proses batch atau streaming. Eksplorasi (data wrangling) meliputi pembersihan data, 
validasi dan visualisasi.

c. Modeling: Pengembangan model yang meliputi feature engineering, model fitting, dan 
model evaluation.

d. Deployment: Pemasangan model ke dalam aplikasi intelijen, suatu web service atau objek
pada model store. Proses diakhiri dengan UAT (Customer Acceptance).

e. Domino DataLab

Metodologi lainnya adalah Metodologi dari Domino (Domino DataLab Methodology). Proses
utama pada metodologi ini adalah:

a. Ideation adalah pemahaman terhadap masalah pada proses bisnis serta identifikasi objektif
bisnisnya. Langkah berikutnya adalah melakukan perhitungan terhadap objektif bisnis
tersebut beserta Cost-Benefit Analysis.

b. Data Acquisition and Preparation: Menentukan data yang diperlukan baik yang berasal dari 
sistem internal ataupun eksternal. Setelah proses akuisisi dilakukan eksplorasi terhadap data
dan juga proses persiapan data.

c. Research and Development: Pemodelan dilakukan sebagai suatu kegiatan pembuktian
hipotesa dan pemodelan. Jika hasil sudah dianggap cukup makadilakukan kegiatan berikutnya 
sementara jika belum dilakukan perbaikan data atau perubahan hipotesa. Dalam proses
eksperimen, selaain metrik statistic dipergunhakan juga KPI organisasi.

d. Validation: Model yang sudah dibuat divalidasi dari sudut bisnis dan teknis sebelum dipasang (deployment).

e. Delivery: Deployment yang dimulai dengan perencanaan, lalu pemasangan dan perawatan sistem. Dalam proses ini juga dilakukan UAT (User Acceptance Testing).


Perbandingan Langkah Antara Berbagai Metodologi: Langkah-langkah pada proses Cross-Industry Standard Process for Data Mining (CRISP-DM) dan IBM Data Science secara memiliki makna yang sama, akan tetapi pada CRISP-DM dan IBM Data Science tidak membedakan siapa serta melakukan apa, seolah-olah semua kerjaan data science dikerjakan oleh data scientist yang padahal kegiatan data science itu merupakan suatu kegiatan tim. Lalu pada proses langkah-langkah Microsoft’s Team Data Science Process menambah dengan memberi berbagai macam rule terhadap kegiatan tersebut dan pada langkah-langkah Domino Data Lab membuat lebih detail dibadingkan yang lain, lalu menambahkan kelompoknya siapa mengerjakan apa, serta menambahkan tools apa yang diperlukan pada proses tersebut.


Faktor Kesuksesan Pada Tahapan Generik Metodologi Data Science

1. Ketersediaan data yang berkualitas: Tim Data Science harus mampu mengumpulkan data dengan cara yang efektif dan efisien serta memastikan bahwa data yang dikumpulkan berkualitas baik.
2. Tujuan bisnis yang jelas: Memastikan bahwa tujuan bisnis yang ingin dicapai sudah jelas dan terdefinisi dengan baik. Dengan begitu, tim Data Science dapat fokus pada menemukan solusi yang tepat untuk masalah tersebut.
3. Pemilihan model yang tepat: Memastikan bahwa tim Data Science memilih model yang paling cocok untuk data yang ada dan melakukan analisis dengan benar.
4. Proses persiapan data yang efektif: Proses persiapan data dilakukan dengan efektif dan efisien, termasuk membersihkan, mengintegrasikan, dan mempersiapkan data dengan benar.
5. Komunikasi yang efektif: Tim Data Science harus mampu mengkomunikasikan temuan mereka dengan cara yang jelas dan mudah dimengerti oleh para pemangku kepentingan bisnis.

Faktor Kegagalan Pada Tahapan Generik Metodologi Data Science

1. Masalah dalam identifikasi masalah bisnis: Jika pertanyaan atau masalah yang ingin dipecahkan tidak jelas atau tidak terkait dengan tujuan bisnis yang spesifik, maka tahap selanjutnya dalam metodologi Data Science mungkin tidak dapat berjalan dengan baik.
2. Proses persiapan data yang buruk: Jika proses persiapan data tidak dilakukan dengan baik, maka data yang digunakan untuk analisis dan pemodelan dapat tidak akurat atau tidak lengkap.
3. Keterampilan dan pengalaman tim yang kurang: Jika tim Data Science tidak memiliki keterampilan dan pengalaman yang memadai dalam analisis data, pemodelan, dan interpretasi hasil analisis, maka metodologi Data Science mungkin tidak akan berhasil.
4. Komunikasi yang buruk: Pemangku kepentingan bisnis mungkin tidak memahami hasil analisis atau temuan yang ditemukan, sehingga mereka tidak dapat mengambil keputusan yang tepat.
5. Pemilihan model yang salah: Jika tim Data Science memilih model yang salah untuk data yang ada, maka hasil analisis dan pemodelan tidak akan akurat dan tidak berguna untuk memecahkan masalah bisnis yang ingin dipecahkan.

Komentar