HUMAN DEVELOPMENT
Apa itu Data Science? Merubah Data Menjadi Sesuatu yang Bernilai
Data science adalah metode menganalisis data terstruktur dan tidak terstruktur menggunakan berbagai pendekatan, mulai dari analisis statistik hingga machine learning. Pada sebagian besar organisasi, data science digunakan untuk mengubah data menjadi nilai dalam bentuk peningkatan pendapatan, pengurangan biaya, kelincahan bisnis, peningkatan layanan pelanggan, dan pengembangan produk baru. data science memberikan data untuk tujuan organisasi.
Data Science vs. Analisis
Meskipun sangat berkaitan, analisis data adalah komponen dari data science, analisis digunakan untuk memahami data organisasi. Hasil data science dianalisis untuk memecahkan sebuah masalah.
Adapun perbedaan antara analisis data dan data science terletak pada skala waktu, Analisis data biasanya digunakan untuk menggambarkan keadaan saat ini, sedangkan data science menggunakan data tersebut untuk memprediksi yang akan dating dan digunakan untuk memecahkan sebuah masalah.
Data Science vs. Big Data
Data science dan big data sering dilihat secara bersamaan, tetapi Data science dapat digunakan untuk mengekstrak nilai dari semua ukuran data, baik terstruktur, tidak terstruktur, atau semi terstruktur. Big data berguna bagi data scientists dalam banyak kasus karena semakin banyak data yang dimiliki, semakin banyak parameter yang dapat disertakan dalam model tertentu.
Nilai Bisnis Dari Data Science
Nilai bisnis dari Data science tergantung pada kebutuhan organisasi. Data science dapat membantu organisasi membuat alat untuk memprediksi malfungsi dari sebuah hardware, memungkinkan organisasi untuk melakukan pemeliharaan dan mencegah Downtime yang tidak terencana. Data science dapat membantu memprediksi apa yang akan diletakkan pada rak supermarket, atau seberapa populer suatu produk berdasarkan atributnya.
Ted Dunning, CTO untuk MapR di HPE, mengatakan perusahaan bisa mendapatkan nilai maksimal dari Data science ketika analis data atau data scientists tergabung dalam tim bisnis.
Tim Data Science
Data science umumnya merupakan disiplin untuk tim. Data scientists menjadi inti dalam tim Data science karena dapat memprediksi masadepan dengan data, tetapi beralih dari data ke analisis, dan kemudian mengubah analisis itu menjadi nilai produksi memerlukan berbagai keterampilan dan peran. Misalnya, analis data harus siap untuk menyelidiki data sebelum menyajikannya kepada tim dan untuk memelihara model data. Data Enginer diperlukan untuk membangun saluran data untuk memperkaya kumpulan data dan membuat data tersedia untuk seluruh perusahaan.
Pengaturan Pendekatan Untuk Data Science
Beberapa organisasi memilih untuk menggabungkan data specialists dengan fungsi lain. DataOps adalah pendekatan yang semakin umum di mana data engineers disematkan dalam tim DevOps dengan tanggung jawab ini bisnis. Tim DataOps ini cenderung lintas fungsi — melintasi "serikat keterampilan" seperti operasi, rekayasa perangkat lunak, arsitektur, dan manajemen produk — dan dapat mengatur data, alat, kode, dan lingkungan dari awal hingga akhir. Tim DataOps cenderung melihat saluran analitik sebagai analog dengan jalur manufaktur.
Menurut Michele Goetz, wakil presiden dan analis utama di Forrester, tim DataOps meliputi:
- Data specialists yang mendukung lanskap data dan praktik terbaik dalam pengembangan
- Data engineers yang menyediakan dukungan ad hoc dan sistem untuk BI, analitik, dan aplikasi bisnis
-
Data engineers utama yang merupakan pengembang yang mengerjakan produk dan hasil yang dihadapi pelanggan
Tujuan dan Hasil Data Science
Tujuan dari Data Science untuk membangun sarana untuk mengekstraksi wawasan yang berfokus pada bisnis dari data. Ini membutuhkan pemahaman tentang bagaimana nilai dan informasi mengalir dalam bisnis, dan kemampuan untuk menggunakan pemahaman itu untuk mengidentifikasi peluang bisnis. Sementara itu mungkin melibatkan proyek satu kali, tim ilmu data biasanya berusaha mengidentifikasi aset data utama yang dapat diubah menjadi saluran data yang memberi makan alat dan solusi yang dapat dipelihara. Contohnya termasuk solusi pemantauan penipuan kartu kredit yang digunakan oleh bank, atau alat yang digunakan untuk mengoptimalkan penempatan turbin angin di ladang angin.
Secara bertahap, presentasi yang mengomunikasikan apa yang sedang dilakukan tim juga merupakan hasil penting. "Memastikan mereka mengomunikasikan hasil ke seluruh perusahaan adalah sangat penting," kata Hunt dari RiskIQ. "Ketika tim ilmu data menjadi gelap terlalu lama, itu mulai mendapat sedikit masalah. Manajer produk menerima pekerjaan begitu saja kecuali kita membicarakannya sepanjang waktu, menjualnya secara internal."
Proses dan Metodologi Data Science
Menurut Adam Hunt, CTO at RiskIQ “Tim Production engineering bekerja dengan jadwal yang diproyeksikan menggunakan siklus sprint, tim Data Science seringkali kesulitan untuk melakukan hal tersebut, karena banyak waktu dihabiskan diawal hanya untuk menentukan apakah suatu proyek layak.
Seringkali, minggu pertama, atau bahkan bulan pertama, dilakukan penelitian untuk mengumpulkan data dan merapihkan data tersebut, Bisakah kami menjawab pertanyaan itu? Bisakah kami melakukannya dengan efisien? Kami menghabiskan banyak waktu untuk melakukan desain dan investigasi, jauh lebih banyak daripada yang dilakukan tim teknik standar.
Bagi Hunt, data science harus mengikuti scientific method, meskipun ia mencatat bahwa tidak selalu seperti itu, atau bahkan layak.
Anda mencoba untuk mengekstrak hasil dari beberapa data. Untuk melakukannya berulang kali dan dengan percaya diri, dan untuk memastikan Anda tidak hanya menghembuskan asap, Anda harus menggunakan metode ilmiah untuk membuktikan hipotesis Anda secara akurat, Tapi saya tidak berpikir banyak ilmuwan data yang benar-benar menggunakan sains apa pun.
Sains sejati membutuhkan waktu. Anda menghabiskan sedikit waktu untuk mengkonfirmasi hipotesis Anda dan kemudian banyak waktu mencoba untuk menyangkal diri sendiri.
Dengan data science, Anda hampir selalu berada di perusahaan nirlaba yang tidak ingin meluangkan waktu untuk menyelam cukup dalam ke dalam data untuk memvalidasi hipotesis ini. Banyak pertanyaan yang kami coba jawab berumur pendek. Dalam keamanan, misalnya, kami mencoba menemukan aktor ancaman besok, bukan tahun depan - besok, sebelum dia dapat melepaskan ancamannya ke alam liar.
Akibatnya, ilmu data sering kali berarti memilih jawaban "cukup baik" daripada jawaban terbaik, kata Hunt. Bahayanya, bagaimanapun, adalah hasil dapat menjadi korban bias konfirmasi atau overfitting.
Jika itu sebenarnya bukan sains, artinya Anda menggunakan metode ilmiah untuk mengonfirmasi hipotesis, maka yang Anda lakukan hanyalah melemparkan data ke beberapa algoritme untuk mengonfirmasi asumsi Anda sendiri.
Alat Data Science
Tim ilmu data menggunakan berbagai alat, termasuk SQL, Python, R, Java, dan banyak proyek sumber terbuka seperti Hive, oozie, dan TensorFlow. Alat ini digunakan untuk berbagai tugas terkait data, mulai dari mengekstrak dan membersihkan data, hingga menundukkan data ke analisis algoritmik melalui metode statistik atau pembelajaran mesin. Beberapa alat umum meliputi:
- Apache Hadop Hadoop digunakan untuk memecahkan masalah komputasi yang kompleks dan tugas-tugas data-intensif menggunakan pemrosesan paralel di seluruh cluster node.
- SAS Alat statistik berpemilik yang terhormat ini digunakan untuk penambangan data, analisis statistik, aplikasi BI, analisis uji klinis, dan analisis deret waktu.
- Tablo Sekarang dimiliki oleh Salesforce, Tableau adalah alat visualisasi data.
- TensorFlow Dikembangkan oleh Google dan dilisensikan di bawah Lisensi Apache 2.0, TensorFlow adalah pustaka perangkat lunak untuk pembelajaran mesin yang sering digunakan untuk pelatihan dan inferensi jaringan saraf dalam.
- DataRobot Platform pembelajaran mesin otomatis ini digunakan untuk membangun, menerapkan, dan memelihara AI.
- BigML BigML adalah platform pembelajaran mesin lainnya. Ini berfokus pada penyederhanaan pembangunan dan berbagi set data dan model.
- Knime Knime adalah platform analisis, pelaporan, dan integrasi data open source.
- Apache Spark Mesin analitik terpadu ini dirancang untuk memproses data skala besar, dengan dukungan untuk pembersihan data, transformasi, pembuatan model, dan evaluasi.
- RapidMiner Platform ilmu data ini ditujukan untuk mendukung tim, dengan dukungan untuk persiapan data, pembelajaran mesin, dan penerapan model prediktif.
- Matplotlib Pustaka plot sumber terbuka untuk Python ini menawarkan alat untuk membuat visualisasi statis, animasi, dan interaktif.
- Excel Perangkat lunak spreadsheet Microsoft mungkin merupakan alat BI yang paling banyak digunakan. Ini juga berguna untuk ilmuwan data, bekerja dengan kumpulan data yang lebih kecil.
Keterampilan Data science
Program gelar Data science meningkat dengan cepat, mereka tidak selalu menjadi apa yang dicari organisasi ketika mencari Data scientists. Kandidat dengan latar belakang statistik sangat populer, terutama jika mereka dapat menunjukkan bahwa mereka bisa melihat hasilnya; memiliki pengetahuan domain untuk menempatkan hasil dalam konteks; dan keterampilan komunikasi untuk menyampaikan hasil kepada pengguna bisnis.
Banyak organisasi mencari kandidat dengan gelar PhD. Lain dengan hunt, "Saya bias terhadap orang-orang yang memiliki gelar PhD, tetapi saya tidak akan melewatkan seseorang yang memiliki banyak pengalaman, Apa yang dikatakan PhD kepada saya adalah, mampu melakukan penelitian yang sangat mendalam tentang suatu topik, dan Anda dapat menyebarkan informasi itu kepada orang lain. Tetapi memiliki latar belakang yang kuat atau proyek pribadi lebih menarik bagi Hunt menarik."
Hunt mengatakan bahwa dia secara khusus mencari gelar PhD dalam bidang fisika, matematika, ilmu komputer, ekonomi, atau bahkan ilmu sosial. Dia tidak akan menolak pelamar dengan gelar dalam ilmu data atau analitik, tetapi dia memiliki keberatan. "Pengalaman pribadi saya adalah saya menemukan mereka sangat berguna, tetapi mereka terlalu fokus pada operasi model dan bukan pola pikir," katanya.
Beberapa ilmuwan atau pemimpin data terbaik dalam kelompok ilmu data memiliki latar belakang non-tradisional. Menurut Dunning dari HPE, beberapa yang terbaik yang pernah bekerja dengannya termasuk seseorang yang menghabiskan enam tahun bekerja sebagai tukang kebun sebelum kuliah, seseorang dengan latar belakang seni rupa, yang lain dengan gelar sastra Prancis, dan satu lagi yang merupakan mahasiswa jurnalisme. dan sangat sedikit pelatihan komputer formal.
Menurut Dunning "Anda ingin menguji orang dalam hal persepsi data, bukan mengetahui rumus, Anda menginginkan kemampuan untuk melihat sesuatu dan memahaminya."