HUMAN DEVELOPMENT
10 Konsep Dasar yang Perlu Diketahui Ilmuwan Data
Taxsam.co Team | 22 DEC 2021
Sebagai karir yang relatif baru muncul dengan cepat ke garis depan banyak perusahaan, pertanyaan utama pertama cenderung: apa itu ilmuwan data? Seperti namanya, ini adalah individu dengan kemampuan untuk mengintegrasikan kemampuan data (mengekstraksi, mempersiapkan, menyimpan, dll) dengan ilmu membimbing proses sampling, analisis, dan pelaporan. Mengingat rawa rekomendasi dan pertimbangan tentang bagaimana menjadi ilmuwan data, mungkin sulit untuk menguraikan apa dasar-dasar ilmu data. Ada dua domain yang mendasari kualifikasi ilmuwan data: teknis dan non-teknis, dan pemikiran desain (baik dalam arti teknis maupun bisnis) adalah kunci untuk keduanya.
Konsep Ilmu Data: Teknis
1. Matematika
Inti dari sebagian besar dasar-dasar ilmu data teknis adalah matematika, menjadikannya konsep ilmu data dasar utama. Bakat untuk (dan idealnya kenikmatan dalam) matematika adalah blok bangunan utama untuk mengembangkan kualifikasi ilmuwan data teknis. Logika dan teori dalam matematika meminjamkan langsung pada pengembangan model data dan algoritma yang diperlukan untuk memecahkan masalah bisnis.
2. Statistik
Keterampilan matematika diperlukan untuk mengembangkan konsep ilmu data dasar kedua: statistik. Konsep statistik utama meliputi:
1. Matematika
Inti dari sebagian besar dasar-dasar ilmu data teknis adalah matematika, menjadikannya konsep ilmu data dasar utama. Bakat untuk (dan idealnya kenikmatan dalam) matematika adalah blok bangunan utama untuk mengembangkan kualifikasi ilmuwan data teknis. Logika dan teori dalam matematika meminjamkan langsung pada pengembangan model data dan algoritma yang diperlukan untuk memecahkan masalah bisnis.
2. Statistik
Keterampilan matematika diperlukan untuk mengembangkan konsep ilmu data dasar kedua: statistik. Konsep statistik utama meliputi:
- Teknik pengambilan sampel yang tepat (sangat penting ketika menerapkan kondisi eksperimental dan / atau mengevaluasi asal data)
- Distribusi data (bentuk data untuk analisis yang paling akurat)
- Kecenderungan sentral (menemukan pusat distribusi)
- Dispersi (berapa banyak data bervariasi).
Latar belakang statistik memandu ilmuwan data di mana tes statistik sesuai untuk digunakan untuk data dan masalah bisnis yang dihadapi. Teori statistik kadang-kadang undervalued dalam dunia ilmu data yang serba cepat di mana penekanan tampaknya ditempatkan lebih dalam hal pengkodean dan pengolahan data. Namun, teori semacam itu menciptakan perbedaan penting antara analis: mereka yang dapat menggunakan berbagai model dan algoritma (tetapi tidak yakin mengapa mereka menggunakan beberapa daripada yang lain), dan mereka yang jelas tentang mengapa model dan algoritma tertentu dipilih dan bagaimana mereka benar-benar bekerja.
3. Bahasa Pemrograman
Python memimpin paket sebagai salah satu kualifikasi ilmuwan data teratas dalam hal pemrograman. Banyak dalam peran berbicara dengan kemudahan penggunaan dalam pengkodean dan fleksibilitasnya untuk kenaikannya yang stabil ke atas. Sebagai program yang dikembangkan khusus untuk analisis ilmu sosial, R masih merupakan bahasa yang disukai bagi banyak perusahaan. Belajar keduanya sangat dianjurkan. SQL juga diinginkan untuk query dari database relasional. Bahasa pemrograman lain seperti C / C ++ masih dianggap cukup berguna juga.
4. Teknik Data
Sangat mengejutkan bagi sebagian orang untuk mengetahui bahwa banyak waktu ilmuwan data dihabiskan untuk mencari dan menyiapkan data - tentu saja sebanyak itu pada pengembangan algoritma dan model. Satu kualifikasi ilmuwan data akan mencakup keakraban dengan ETL:
3. Bahasa Pemrograman
Python memimpin paket sebagai salah satu kualifikasi ilmuwan data teratas dalam hal pemrograman. Banyak dalam peran berbicara dengan kemudahan penggunaan dalam pengkodean dan fleksibilitasnya untuk kenaikannya yang stabil ke atas. Sebagai program yang dikembangkan khusus untuk analisis ilmu sosial, R masih merupakan bahasa yang disukai bagi banyak perusahaan. Belajar keduanya sangat dianjurkan. SQL juga diinginkan untuk query dari database relasional. Bahasa pemrograman lain seperti C / C ++ masih dianggap cukup berguna juga.
4. Teknik Data
Sangat mengejutkan bagi sebagian orang untuk mengetahui bahwa banyak waktu ilmuwan data dihabiskan untuk mencari dan menyiapkan data - tentu saja sebanyak itu pada pengembangan algoritma dan model. Satu kualifikasi ilmuwan data akan mencakup keakraban dengan ETL:
Ekstrak (data dari sumber)
Transform (masukkan ke dalam format untuk database / penyimpanan tujuan)
Memuat (memasukkannya ke dalam sistem yang digunakan untuk analisis)
Transform (masukkan ke dalam format untuk database / penyimpanan tujuan)
Memuat (memasukkannya ke dalam sistem yang digunakan untuk analisis)
Kemampuan untuk bertengkar data sangat penting ketika berhadapan dengan tidak terstruktur, set data yang tidak terdefinisi (seperti yang ditemukan ketika mengekstraksi dari media sosial atau blog).
5. Pembelajaran Mesin
Pembelajaran mesin adalah bagian dari kecerdasan buatan. Perangkat lunak digunakan di sini untuk mengajarkan mesin bagaimana mendeteksi pola dan tema dalam data tanpa serangkaian instruksi tertentu. Pembelajaran mesin adalah salah satu dasar-dasar ilmu data - membantu ilmuwan data dalam menganalisis volume data yang sangat besar secara efisien karena memungkinkan pemrosesan data real-time.
Pembelajaran mesin adalah bagian dari kecerdasan buatan. Perangkat lunak digunakan di sini untuk mengajarkan mesin bagaimana mendeteksi pola dan tema dalam data tanpa serangkaian instruksi tertentu. Pembelajaran mesin adalah salah satu dasar-dasar ilmu data - membantu ilmuwan data dalam menganalisis volume data yang sangat besar secara efisien karena memungkinkan pemrosesan data real-time.
6. Visualisasi Data/Story Telling
Kemampuan untuk menampilkan informasi yang kompleks dalam bentuk yang mudah dipahami adalah konsep ilmu data kritis. Grafik dan grafik yang dirancang dengan baik dapat menyampaikan sekilas apa yang mungkin mengambil beberapa paragraf teks sumatif. Pemikiran desain adalah keterampilan teknis dalam konteks ini - visualisasi data adalah kunci dalam membantu pengambil keputusan non-teknis dan pemangku kepentingan dalam memahami data dan hasilnya. Belajar bagaimana menjadi ilmuwan data melibatkan belajar bagaimana menceritakan kisah data dari asal-usulnya hingga cara terbaik memahami temuan.
Konsep Ilmu Data: Non-Teknis
1. Berpikir Kritis
1. Berpikir Kritis
Ketika menjawab pertanyaan "apa itu ilmuwan data," kami berbicara dengan aspek sains dari peran tersebut. Fitur utama dari setiap ilmuwan adalah kemampuannya untuk tetap objektif dalam menghadapi masalah dan membiarkan bukti dan teori memandu solusinya. Ini adalah pemikiran kritis di tempat kerja - bahwa objektivitas memungkinkan ilmuwan data untuk menemukan cara untuk meminimalkan bias dari awal (sumber data) sampai akhir (pelaporan). Berpikir kritis mendasari kemampuan untuk mengajukan pertanyaan yang tepat untuk hasil yang paling berarti. Kemampuan untuk berpikir kritis juga memungkinkan ilmuwan data untuk memisahkan informasi yang relevan dari kebisingan dalam data.
2. Komunikasi
2. Komunikasi
Seperti dalam kebanyakan disiplin ilmu, kemampuan untuk berkomunikasi sangat penting untuk berhasil sebagai ilmuwan data. Komunikasi terjadi di semua tingkatan – ilmuwan data harus dapat secara akurat menyampaikan kebutuhan dan tujuan mereka untuk:
- Orang lain dalam tim mereka (seperti pengembang)
- Unit lain (seperti pemasaran di mana kebutuhan mungkin merupakan kampanye pemasaran yang paling hemat biaya).
- Ilmuwan data harus mampu secara akurat dan jelas mengkomunikasikan hasilnya kepada para pembuat keputusan dan pemangku kepentingan utama sehingga keputusan dan strategi yang paling efektif diberlakukan.
3. Ketajaman Bisnis
Tidaklah cukup untuk berperan sebagai ilmuwan data yang dilengkapi dengan keterampilan dan kemampuan teknis - Anda tidak akan berhasil jika Anda juga tidak memiliki kemampuan untuk mempelajari budaya bisnis, misi, dan proses. Kualifikasi ilmuwan data lainnya adalah memahami pentingnya konteks bisnis yang membingkai pertanyaan yang ada. Konteks ini menyediakan kerangka kerja untuk sumber data, model, algoritma, dan makna hasil. Seorang ilmuwan data yang memiliki ketajaman bisnis juga akan dapat terlibat dalam aspek non-teknis pemikiran desain: menentukan cara yang paling efektif untuk memanfaatkan data untuk keunggulan pasar yang kompetitif. Ilmuwan data bukan hanya analis - mereka adalah pemimpin.
Membawa semuanya bersama-sama
Di antara dasar-dasar teknis dan non-teknis ilmu komputer adalah elemen yang menyatukan mereka - ketekunan intelektual dan dorongan untuk belajar dan meningkatkan keterampilan yang ada. Sekitar 75% ilmuwan data memiliki gelar master atau Ph.D. Meskipun tentu saja ada jalur informal untuk menjadi ilmuwan data, sebagian besar akan mendapat manfaat dari memiliki gelar yang lebih tinggi, terutama yang ditargetkan untuk ilmu data. Ini membawa kita ke kualifikasi ilmu data terakhir:
Pendidikan Ilmu Data
Pendidikan Ilmu Data
Pelatihan formal dalam ilmu data harus kuat, ketat, dan relevan. Namun, banyak individu yang ingin menjadi ilmuwan data tidak selalu dalam posisi untuk menghadiri program batu bata dan mortir tradisional.