Intro Data Science
Kali ini kita akan membahas gambaran beberapa topik dibawah
ini yang terkait dengan data science
- · Big data
- · Data science
- · vs Business Intelligence
- · Analytic Architecture
- · Case Studies (example)
- · Lifecycle
Big Data
Gambaran singkat tentang big data atau mengapa diperlukan
teknologi big data adalah Sangat banyak sekali data yang dihasilkan setiap harinya.
Karakteristik dari big data ini seperti :
- · Volume yang besar (Volume)
- · Kompleksitas tipe dan juga struktur data yang bermacam-macam (Varietas)
- · Kecepatan dari pembuatan serta pertumbuhan data data baru (Velocity)
Karena bebehal diatas data yang sangat banyak tersebut tidak
dapat dianalisis secara efisien hanya dengan menggunakan metode dan basis data
tradisional, untuk itulah dibutuhkan suatu Alat atau teknologi yang baru
Perspektif pada Repositori Data
1.
Spreadsheets
memungkinkan pengguna bisnis untuk membuat logika sederhana dan struktur data dalam baris dan kolom
memungkinkan pengguna bisnis untuk membuat logika sederhana dan struktur data dalam baris dan kolom
Kelebihan
·
Tidak perlu tahu tentang database
·
Cepat dan independen dari TICons
Cons (Kekurangan) :
·
banyak versi kebenaran
·
File yang rusak
2.
Scalable data warehousing solutions
Kelebihan
·
Data dikelola secara terpusat
·
Sumber data resmi
·
Memungkinkan pembuatan kubus OLAP dan alat
analitis BI
Cons:
·
Memiliki batasan dalam melakukan analisis data
eksploratori
·
Tergantung pada orang IT untuk mengakses dan
mengubah skema
3.
sandbox analitik
Kelebihan
·
Memungkinkan tim menjelajahi banyak kumpulan
data secara terkontrol
·
Dapat meng-host berbagai data (termasuk data
tidak terstruktur)
·
Tidak mengganggu basis data produksi yang penting
Data Science
Pekerjaan yang sedang trending dalam dunia big data. Data
Science sendiri berarti pekerjaan yang melakukan analisis, untuk satu atau
beberapa hal. Data Science sendiri membutuhkan sejumlah besar keterampilan
dalam rekayasa perangkat lunak. Lebih singkatnya lagi Data Science adalah seni
dan ilmu untuk memperoleh pengetahuan dari data, seperti
- · Membuat keputusan
- · Memprediksi masa depan
- · Memahami masa lalu / sekarang
- · Membuat industri / produk baru
Mengapa Data Science?
Pertama karena Big Data, dimana dibutuhkan suatu teknologi yang mampu digunakan untuk mengolah data- · Yang berbagai bentuk, dari berbagai sumber, dan tidak terorganisir
- · Data yang bisa hilang, tidak lengkap, atau bahkan salah
- · Juga sangat besar, serta sulit untuk dibandingkan
Disini lah Data Science berperan agar dapat digunakan untuk
membuat praktik dan prosedur eksplisit untuk menemukan dan menerapkan hubungan
dalam data.
Area atau ruang lingkup data Science
Persis seperti gambar dibawah ini
Area Data Science
Area dasar
- · Matematika dan statistik
- · Pemrograman komputer
- · Pengetahuan domain
Pengetahuan Matematika & Statistik
Memungkinkan untuk berteori dan mengevaluasi algoritma
prosedur yang ada untuk menyesuaikan situasi tertentu
Memungkinkan untuk berteori dan mengevaluasi algoritma
prosedur yang ada untuk menyesuaikan situasi tertentu
Programmer
Mereka yang memiliki keterampilan peretasan dapat membuat konsep dan program algoritma rumit menggunakan bahasa pemrograman
Mereka yang memiliki keterampilan peretasan dapat membuat konsep dan program algoritma rumit menggunakan bahasa pemrograman
Keahlian substantif (domain)
Memungkinkan untuk menerapkan konsep dan menghasilkan cara yang bermakna dan efektif
Memungkinkan untuk menerapkan konsep dan menghasilkan cara yang bermakna dan efektif
Untuk lebih jelasnya penjabaran dari masing-masing area
dasar dari data science adalah sebagai berikut
Matematika & Statistik
- · Digunakan untuk membuat model
- · Model data mengacu pada hubungan yang teratur dan formal antara elemen data, biasanya dimaksudkan untuk mensimulasikan fenomena dunia nyata
- · Banyak jenis model data, mis. pembelajaran mesin
- · Pada dasarnya, kita akan menggunakan matematika untuk memformalkan hubungan antar variabel.
Pemrograman Komputer
- · Bahasa komputer adalah cara kami berkomunikasi dengan mesin dan memberitahukannya untuk melakukan perintah
- · Bahasa pemrograman populer untuk ilmu dataPython, R, Java
- · Banyak library yang tersedia
Pengetahuan Domain
- · Perlu memiliki pengetahuan tentang topik tertentu yang sedang Anda kerjakan
- · Dapat berkonsultasi dengan pakar domain
- · Diperlukan untuk presentasi hasilnya
Perbedaan Data Science vs Business Intelligence
- BI cenderung memberikan laporan, dasbor, dan pertanyaan
tentang pertanyaan bisnis untuk periode saat ini atau di masa lalu
Misalnya. pendapatan kuartal ini, sebagian besar produk penjualan di tahun ini
Sedangkan Data Science cenderung menggunakan data terpilah dalam cara yang lebih jelas dan eksploratif, berfokus pada analisis keputusan yang ada saat ini dan memungkinkan keputusan tentang masa depan
Misalnya. menggunakan analisis deret waktu untuk memperkirakan penjualan dan pendapatan produk di masa mendatang - Pertanyaan-pertanyaan yang dapat diajukan pada BI cenderung
tertutup, menjelaskan perilaku saat ini atau masa lalu, biasanya dengan
menggabungkan data historis dan mengelompokkannya dalam beberapa cara
Umumnya digunakan untuk menjawab pertanyaan yang terkait dengan "kapan" dan "di mana" peristiwa terjadi
Sedangkan data science Lebih bersifat eksploratif dan mungkin menggunakan optimalisasi scenario
Umumnya jawaban yang berkaitan dengan peristiwa "bagaimana" dan "mengapa" terjadi - Selanjutnya masalah pada BI cenderung membutuhkan data yang
sangat terstruktur yang disusun dalam baris dan kolom untuk pelaporan yang
akurat
Untuk membuat pelaporan, dasbor, melakukan visualisasi sederhana
sedangkan Proyeksi padaData Science cenderung menggunakan banyak jenis sumber data, termasuk dataset besar atau tidak konvensional
Jika perlu analisis yang lebih canggih dengan kumpulan data yang terpisah atau beragam
0 Komentar