6 Prinsip Efektif Data Science

by Taxsam.co Team
22 DEC 2021

Berpegang pada enam prinsip dibawah ini akan memungkinkan data scientists membuat konsep dan mengimplementasikan proyek yang efektif.

1. Pahami kebutuhan hierarki AI

Sama seperti bagaimana manusia membutuhkan makanan, air, dan udara sebelum mereka dapat mencapai aktualisasi diri, membangun aliran data yang andal adalah kunci untuk melakukan apapun dengan data. Hanya ketika data dapat diakses maka data tersebut dapat dieksplorasi dan diubah.

Banyak perusahaan menginginkan hasil yang dihasilkan AI, tetapi tidak memiliki infrastruktur yang tepat untuk menerapkan pembelajaran mesin. Perusahaan harus menyadari bahwa pembelajaran mesin / pembelajaran mendalam datang terlambat di seluruh tumpukan data. Data pertama-tama harus dikumpulkan dengan andal, kemudian dapat diubah dan selanjutnya dieksplorasi. Proses hulu yang rusak (misalnya, jika pelacakan tidak akurat) akan mempengaruhi kebersihan data dan akhirnya wawasan yang diperolehnya. Hanya ketika data bersih dan mudah dieksplorasi, barulah dapat digunakan untuk BI, analitik, dan AI.

2. Bangun model yang menjawab pertanyaan yang tepat

Keputusan yang diambil dengan cepat, dan akibatnya asumsi awal dalam proyek, seringkali memiliki dampak yang tidak proporsional pada keseluruhan proyek. Keputusan yang dibuat sehari atau minggu ke dalam proyek — asumsi tentang kebutuhan pengguna akhir, bagaimana keluaran model dapat digunakan — memiliki dampak paling signifikan terhadap efektivitas model. Ketika keputusan dibuat kemudian dan nanti dalam proyek, pengaruhnya berkurang. Memilih cara membersihkan data kotor atau fitur apa yang akan digunakan akan mempengaruhi keakuratan model, tetapi faktor terbesar yang menentukan apakah model pembelajaran mesin dapat diterapkan ke dalam produksi berasal dari pertanyaan yang diajukan di awal proyek.

3. Ambil proyek yang menambahkan value paling besar untuk bisnis

Mengajukan pertanyaan yang tepat juga penting ketika memilih proyek apa yang akan dikerjakan. Idealnya, proyek yang diprioritaskan harus yang memiliki area peluang terbesar untuk bisnis. Proyek pembelajaran mesin membutuhkan waktu untuk diluncurkan, dan biaya untuk melakukan proyek yang salah dapat melebihi manfaatnya.

Pentingnya mengajukan pertanyaan yang tepat lebih disorot mengingat sifat empiris pembelajaran mesin di mana hasilnya tidak dijamin. Melakukan analisis data eksplorasi mungkin tidak menghasilkan banyak wawasan, dan membangun model mungkin tidak memberikan hasil yang lebih baik daripada penerapan aturan bisnis yang ada. Perlu ada asimetri yang signifikan antara keuntungan dan biaya dari melakukan sebuah proyek, dan dari asimetri seperti itulah proyek empiris dapat menghasilkan hasil.

4. Iterasi cepat

Untuk memanfaatkan sifat empiris pembelajaran mesin dan personalitas yang kita miliki untuk mempertahankan model terbaik, kita harus mengurangi biaya per upaya. Eksposur besar ke satu uji coba memiliki pengembalian yang diharapkan lebih rendah daripada portofolio uji coba kecil ketika kami berurusan dengan fungsi cembung di mana biaya kami adalah waktu yang dihabiskan per iterasi. Mengurangi biaya per percobaan berarti memiliki jumlah percobaan yang lebih tinggi, dan mengalokasikan 1/N waktu kita di N percobaan memungkinkan kita meminimalkan kemungkinan kehilangan daripada memaksimalkan keuntungan jika kita menang.

Dalam praktiknya, ini berarti bahwa model dasar tidak perlu dilatih dengan data lengkap sebelum implementasi, atau bahwa pertama-tama membangun model pembelajaran mesin sederhana dapat membantu mengukur apakah keluaran dari model dapat diimplementasikan dalam praktik.

5. Data bukanlah peluru ajaib

Memahami keterbatasan data dan cara kerja algoritma pembelajaran mesin penting untuk mengetahui model mana yang layak untuk dibuat. Efektivitas algoritma pembelajaran mesin hanya sebaik data yang digunakan, dan seringkali data yang dikumpulkan tidak sepenuhnya mewakili kenyataan, terutama jika menyangkut perilaku manusia.

Inilah sebabnya mengapa AI memiliki terobosan yang lebih besar di beberapa bidang dan bukan yang lain. Dalam masalah penglihatan komputer, angka yang digunakan untuk mewakili gambar atau video secara tepat mewakili apa yang coba diprediksi oleh model. Dengan kata lain, seluruh ruang hipotesis dikodekan dalam data dalam masalah penglihatan komputer. Sebaliknya, harga saham sangat dipengaruhi oleh bias manusia, dan menggunakan jaringan syaraf untuk memprediksi harga saham menggunakan harga penutupan harian, volume yang diperdagangkan, dan analisis sentimen berita tidak akan menghasilkan hasil yang baik seperti dalam masalah visi komputer, justru karena manusia psikologi dan emosi di balik mengapa saham dan jual beli tidak dapat dikodekan dalam data.

6. Model harus dievaluasi dengan cermat oleh bisnis sebelum diterapkan

Masalah terakhir adalah rintangan untuk menerapkan model pembelajaran mesin. Tidak mungkin meminta model pembelajaran mesin untuk memberikan jawaban yang benar 100% setiap saat dan tidak jarang mendapatkan rekomendasi dari model yang melanggar aturan bisnis dasar.

Menggunakan model prediksi churn lagi sebagai contoh, memprediksi bahwa pengguna churn beberapa minggu setelah mereka mendaftar tidak berarti. Oleh karena itu, pemangku kepentingan bisnis harus mengevaluasi output dari model pembelajaran mesin dengan hati-hati sebelum diterapkan.