STDA4101 — Pengantar Sains Data
1. Seorang mahasiswa sedang mempelajari suatu bidang yang menggabungkan statistika, pemrograman, dan pengetahuan domain untuk mengekstrak wawasan dari data dalam skala besar. Bidang ini berbeda dari statistika tradisional karena memberikan penekanan kuat pada pengolahan data tidak terstruktur dan penciptaan nilai bisnis. Bidang yang dipelajari mahasiswa tersebut adalah…
- A. Kecerdasan Buatan
- B. Sains Data
- C. Statistika Inferensial
- D. Sistem Informasi
2. Perbedaan utama antara Sains Data dan Kecerdasan Buatan terletak pada fokus dan tujuannya. Pernyataan yang paling tepat menggambarkan perbedaan tersebut adalah…
- A. Sains Data berfokus pada pembangunan sistem cerdas, sedangkan AI pada ekstraksi wawasan
- B. Sains Data menekankan ekstraksi wawasan dan nilai dari data, sedangkan AI pada pembangunan sistem yang meniru kecerdasan manusia
- C. Sains Data dan AI sama-sama berfokus pada otomatisasi pengambilan keputusan tanpa campur tangan manusia
- D. AI selalu membutuhkan data dalam jumlah kecil, sedangkan Sains Data selalu membutuhkan big data
3. Dalam ekosistem sains data, terdapat komponen yang berfungsi sebagai fondasi teknis untuk menyimpan dan memproses data dalam jumlah besar sebelum dianalisis. Komponen yang dimaksud adalah…
- A. Sumber data
- B. Pengguna akhir
- C. Alat visualisasi
- D. Infrastruktur komputasi
4. Sebuah perusahaan e-commerce memiliki data transaksi yang tersimpan rapi dalam tabel-tabel dengan kolom seperti ID_Pelanggan, Nama_Produk, dan Jumlah. Di sisi lain, perusahaan juga menerima ribuan ulasan pelanggan dalam bentuk teks bebas setiap hari. Berdasarkan klasifikasi data, manakah pernyataan yang benar tentang kedua jenis data tersebut…
- A. Data transaksi adalah data terstruktur, sedangkan ulasan pelanggan adalah data tidak terstruktur
- B. Data transaksi dan ulasan pelanggan merupakan contoh data semi-terstruktur
- C. Keduanya merupakan data tidak terstruktur karena berasal dari aktivitas bisnis
- D. Data transaksi adalah data tidak terstruktur, sedangkan ulasan pelanggan adalah data semi-terstruktur
5. Sains Data sering disalahartikan sebagai sekadar penerapan statistika pada data. Karakteristik utama yang membedakan Sains Data dari statistika tradisional adalah…
- A. Sains Data mengintegrasikan pemrograman dan berfokus pada nilai bisnis dari data skala besar, melampaui inferensi statistik tradisional
- B. Sains Data hanya menggunakan data numerik, sedangkan statistika dapat menangani semua jenis data
- C. Statistika selalu menghasilkan model prediktif, sedangkan Sains Data hanya menghasilkan visualisasi
- D. Sains Data tidak memerlukan pengetahuan domain, sedangkan statistika sangat bergantung pada konteks
6. Seorang praktisi sains data sedang merancang proyek untuk memprediksi churn pelanggan. Ia telah merumuskan masalah bisnis dan kini mulai mengumpulkan data dari berbagai sumber internal perusahaan. Berdasarkan alur kerja sains data, tahapan yang sedang dilakukan praktisi tersebut adalah…
- A. Pemodelan
- B. Pengumpulan data
- C. Evaluasi
- D. Deployment
7. Tanggung jawab etis seorang data scientist mencakup beberapa prinsip moral dalam praktik profesinya. Salah satu bentuk penerapan prinsip tersebut adalah…
- A. Menggunakan data pelanggan tanpa pemberitahuan untuk meningkatkan akurasi model
- B. Menghormati privasi individu dengan tidak mengumpulkan atau menggunakan data pribadi tanpa izin yang sah
- C. Memprioritaskan keuntungan perusahaan di atas hak-hak subjek data dalam setiap situasi
- D. Menghapus data yang dapat mengidentifikasi individu tanpa mempertimbangkan relevansinya terhadap analisis
8. Perbedaan peran antara Data Scientist dan Data Analyst sering menjadi pertanyaan dalam dunia industri. Pernyataan yang paling akurat membedakan keduanya adalah…
- A. Data Analyst membangun model prediktif, sedangkan Data Scientist hanya membuat laporan
- B. Data Scientist hanya bekerja dengan data terstruktur, sedangkan Data Analyst menangani semua jenis data
- C. Data Analyst dan Data Scientist memiliki tanggung jawab yang identik, hanya berbeda pada nama jabatan
- D. Data Scientist biasanya menangani masalah yang lebih kompleks, membangun model prediktif, dan memerlukan keterampilan pemrograman yang lebih dalam dibanding Data Analyst
9. Data Science Pipeline merupakan alur kerja sistematis yang memandu proyek sains data. Seorang manajer proyek ingin memastikan bahwa model yang telah dibangun dapat diintegrasikan ke dalam sistem produksi perusahaan. Tahapan pipeline yang menjadi fokus manajer tersebut adalah…
- A. Deployment
- B. Analisis eksplorasi data
- C. Perumusan masalah
- D. Pra-pemrosesan data
10. Keterampilan utama yang harus dimiliki seorang data scientist mencakup tiga area kompetensi. Kombinasi area kompetensi yang paling fundamental adalah…
- A. Desain grafis, manajemen basis data, dan pemasaran digital
- B. Manajemen proyek, keamanan siber, dan penjualan
- C. Pemrograman, statistika, dan pengetahuan domain
- D. Jurnalisme data, pengembangan web, dan audit keuangan
11. Sebuah rumah sakit ingin menerapkan sains data untuk meningkatkan layanan kesehatan. Contoh penerapan sains data di bidang kesehatan yang berfokus pada personalisasi perawatan pasien adalah…
- A. Membangun sistem rekomendasi produk obat di apotek rumah sakit
- B. Menghitung jumlah pasien harian untuk keperluan pelaporan tahunan
- C. Menganalisis data medis pasien untuk menyesuaikan rencana terapi berdasarkan karakteristik individu
- D. Menggunakan data untuk memprediksi fluktuasi harga obat di pasar
12. Pemerintah Kota Cerdas Indonesia meluncurkan portal data terbuka yang menyediakan akses publik ke data anggaran, lalu lintas, dan demografi. Praktik ini paling mencerminkan peran sains data dalam pemerintahan, yaitu…
- A. Mengurangi jumlah pegawai negeri melalui otomatisasi penuh
- B. Membatasi akses informasi hanya untuk kalangan legislatif
- C. Meningkatkan pendapatan pemerintah dari penjualan data
- D. Mendorong transparansi dan kebijakan publik berbasis bukti
13. PT Maju Jaya ingin mengoptimalkan strategi pemasarannya dengan memahami kelompok pelanggan yang memiliki perilaku belanja serupa. Penerapan sains data yang paling tepat untuk kebutuhan tersebut adalah…
- A. Prediksi penjualan bulan depan menggunakan regresi linear
- B. Sistem rekomendasi produk individual
- C. Segmentasi pelanggan menggunakan analisis klastering
- D. Analisis sentimen media sosial
14. Dalam pengambilan keputusan berbasis data, sebuah perusahaan memilih untuk mengandalkan analisis data historis dan model prediktif daripada intuisi manajer semata. Keunggulan utama pendekatan ini adalah…
- A. Keputusan didasarkan pada bukti empiris yang dapat diuji dan dipertanggungjawabkan
- B. Proses pengambilan keputusan menjadi lebih cepat tanpa perlu diskusi
- C. Keputusan sepenuhnya bebas dari bias dan kesalahan manusia
- D. Mengeliminasi kebutuhan akan pengalaman dan pengetahuan domain
15. Badan Pusat Statistik merilis data demografi yang dapat diunduh dan digunakan oleh peneliti maupun masyarakat umum. Berdasarkan sumbernya, data tersebut diklasifikasikan sebagai…
- A. Data primer
- B. Data time series
- C. Data sekunder
- D. Data semi-terstruktur
16. Seorang analis data dihadapkan pada variabel tingkat kepuasan pelanggan dengan kategori Sangat Puas, Puas, Netral, Tidak Puas, dan Sangat Tidak Puas. Ia ingin mengetahui operasi statistik yang valid untuk variabel tersebut. Berdasarkan skala pengukuran, variabel ini adalah skala ordinal, sehingga operasi yang tepat adalah…
- A. Membuat peringkat dan menghitung median tingkat kepuasan
- B. Menghitung selisih antara Sangat Puas dan Tidak Puas
- C. Menghitung rata-rata tingkat kepuasan pelanggan
- D. Menghitung rasio antara Sangat Puas dan Sangat Tidak Puas
17. Seorang data scientist sedang menganalisis data penjualan harian sebuah toko ritel selama lima tahun terakhir. Data ini terdiri dari kolom tanggal dan jumlah penjualan, di mana setiap observasi berurutan berdasarkan waktu dan saling bergantung satu sama lain. Jenis data yang sedang dianalisis adalah…
- A. Data spasial
- B. Data kategorik
- C. Data cross-sectional
- D. Data time series
18. Seorang analis sedang mengelola data dari berbagai sumber. Ia menemukan data dalam format JSON yang memiliki struktur fleksibel dengan tag-tag penanda tetapi tidak terikat pada skema tabel kaku. Berdasarkan klasifikasi data, data tersebut termasuk dalam kategori…
- A. Data Terstruktur
- B. Data Semi-Terstruktur
- C. Data Tidak Terstruktur
- D. Data Time Series
19. Seorang peneliti mengukur suhu harian dalam derajat Celsius di laboratorium. Ia ingin mengetahui apakah operasi perkalian dua suhu (misalnya 20°C × 15°C) memiliki makna fisik yang valid. Berdasarkan skala pengukuran, suhu dalam Celsius termasuk skala…
- A. Nominal, sehingga perkalian tidak valid
- B. Interval, sehingga operasi perkalian tidak bermakna
- C. Ordinal, sehingga hanya perbandingan urutan yang valid
- D. Rasio, sehingga perkalian sepenuhnya valid
20. Seorang data scientist membandingkan dua jenis atribut dalam dataset pelanggan: atribut pertama berisi kategori pekerjaan (PNS, Swasta, Wiraswasta), dan atribut kedua berisi peringkat loyalitas (1, 2, 3). Ia ingin menentukan operasi median untuk kedua atribut tersebut. Pernyataan yang tepat adalah…
- A. Median hanya dapat dihitung untuk atribut peringkat loyalitas karena bersifat ordinal
- B. Median hanya dapat dihitung untuk atribut pekerjaan karena bersifat kategorik
- C. Median dapat dihitung untuk kedua atribut karena keduanya bersifat numerik
- D. Median tidak dapat dihitung untuk kedua atribut karena keduanya bersifat kategorik
21. PT Agro Lestari ingin mengetahui kepuasan petani terhadap program bantuan pupuk di lima provinsi. Perusahaan menyebarkan kuesioner langsung kepada 500 petani yang menjadi peserta program. Berdasarkan metode pengumpulannya, data yang diperoleh PT Agro Lestari termasuk…
- A. Data Sekunder dari sumber eksternal
- B. Data Primer yang dikumpulkan melalui web scraping
- C. Data Sekunder yang dikumpulkan melalui observasi
- D. Data Primer yang dikumpulkan melalui survei
22. Seorang mahasiswa memanfaatkan data dari Badan Meteorologi, Klimatologi, dan Geofisika (BMKG) yang dipublikasikan secara terbuka di situs resmi untuk menganalisis pola curah hujan. Data BMKG tersebut dikategorikan sebagai…
- A. Data Primer yang diperoleh melalui observasi langsung
- B. Data Sekunder yang diperoleh melalui web scraping
- C. Data Primer yang berasal dari API
- D. Data Sekunder yang berasal dari sumber publik
23. Sebuah perusahaan jasa keuangan ingin memantau berita terkini tentang regulasi industri secara otomatis dari berbagai portal berita. Tim data perlu mengekstrak judul, tanggal, dan isi berita dari halaman HTML portal berita setiap hari. Metode yang paling tepat untuk kebutuhan tersebut adalah…
- A. Menggunakan API resmi dari setiap portal berita
- B. Menerapkan web scraping pada halaman portal berita
- C. Mengunduh dataset publik dari situs pemerintah
- D. Menyebarkan survei kepada tim redaksi portal berita
24. Budi sedang mengerjakan proyek analisis sentimen media sosial. Ia menggunakan API Twitter untuk mengumpulkan data tweet secara terstruktur dalam format JSON. Keunggulan utama menggunakan API dibandingkan web scraping dalam konteks ini adalah…
- A. API memungkinkan scraping halaman yang tidak memiliki struktur HTML
- B. API tidak memerlukan koneksi internet untuk mengambil data
- C. API menyediakan akses terprogram yang legal dan terstruktur sesuai aturan platform
- D. API dapat mengekstrak data dari semua situs web tanpa otentikasi
25. Seorang peneliti sosial ingin memahami interaksi alami antara pedagang dan pembeli di pasar tradisional tanpa memengaruhi perilaku mereka. Ia hadir di lokasi pasar dan mencatat pola komunikasi serta transaksi secara sistematis. Metode pengumpulan data yang digunakan peneliti tersebut adalah…
- A. Survei dengan kuesioner terstruktur
- B. Web scraping data harga pasar
- C. Observasi dalam setting alami
- D. Wawancara mendalam dengan pedagang
26. Sebuah perusahaan memiliki data transaksi harian yang tersimpan dalam basis data relasional dan digunakan untuk operasional sehari-hari. Manajemen juga membutuhkan sistem terpisah yang mengintegrasikan data historis dari berbagai departemen untuk pelaporan analitis jangka panjang. Sistem penyimpanan yang paling tepat untuk kebutuhan analitis tersebut adalah…
- A. Data Warehouse untuk kueri analitis dan pelaporan
- B. Data Lake untuk menyimpan data mentah
- C. Basis Data Relasional untuk pemrosesan transaksi
- D. Sistem file terdistribusi untuk akses real-time
27. Sebuah startup teknologi mengumpulkan data sensor IoT, log server, dan unggahan media sosial dalam format aslinya yang beragam. Mereka membutuhkan repositori fleksibel untuk menyimpan seluruh data mentah tanpa transformasi dulu. Jenis penyimpanan yang sesuai adalah…
- A. Data Lake yang menyimpan data mentah apa adanya
- B. Data Warehouse yang mentransformasi data
- C. Basis Data Relasional dengan skema kaku
- D. Cache memory untuk akses cepat
28. Perbedaan utama antara basis data relasional dan non-relasional (NoSQL) terletak pada aspek struktur penyimpanan data. Pernyataan yang paling tepat menggambarkan perbedaan tersebut adalah…
- A. Basis data relasional menggunakan tabel dengan skema fleksibel, sedangkan NoSQL mengharuskan skema tetap
- B. Basis data relasional menggunakan tabel dengan skema tetap dan relasi kunci, sedangkan NoSQL mendukung berbagai model data tanpa skema kaku
- C. Basis data relasional hanya menyimpan data tidak terstruktur, sedangkan NoSQL menyimpan data terstruktur
- D. Basis data relasional tidak mendukung SQL, sedangkan NoSQL selalu mendukung SQL
29. Data Warehouse dan Data Lake sering digunakan dalam arsitektur big data. Manajer TI sebuah perusahaan perlu memahami kapan menggunakan masing-masing. Karakteristik yang membedakan Data Warehouse dari Data Lake adalah…
- A. Data Warehouse menyimpan data yang telah diproses dan terstruktur untuk analisis, sedangkan Data Lake menyimpan data mentah dalam format asli
- B. Data Warehouse menyimpan data mentah, sedangkan Data Lake mentransformasi data lebih dulu
- C. Data Warehouse hanya menyimpan data tidak terstruktur, sedangkan Data Lake khusus untuk data terstruktur
- D. Data Warehouse berkapasitas lebih besar dari Data Lake untuk big data
30. Konsep Big Data dicirikan oleh tiga dimensi utama yang dikenal sebagai tiga V. Sebuah perusahaan telekomunikasi menerima miliaran catatan panggilan setiap hari (volume), dalam format teks, suara, dan data lokasi (variasi), yang harus diproses seketika untuk deteksi penipuan (kecepatan). Dimensi yang dijelaskan dalam kurung secara berurutan adalah…
- A. Volume, Veracity, Velocity
- B. Variety, Volume, Value
- C. Volume, Variety, Velocity
- D. Velocity, Volume, Variety
31. Siti baru memulai belajar Python untuk sains data. Ia ingin menulis dan menjalankan kode analisis secara interaktif, menyisipkan visualisasi, serta menambahkan catatan naratif dalam satu dokumen yang dapat dibagikan. Lingkungan pengembangan yang paling sesuai untuk Siti adalah…
- A. Jupyter Notebook
- B. PyCharm IDE
- C. Terminal Python biasa
- D. Notepad dengan ekstensi Python
32. Dalam Python, seorang mahasiswa perlu memilih struktur data yang dapat menyimpan pasangan kunci-nilai untuk merepresentasikan atribut mahasiswa seperti NIM, nama, dan IPK. Struktur data yang paling tepat adalah…
- A. List, karena dapat menyimpan elemen berurutan
- B. Tuple, karena bersifat immutable
- C. Set, karena menjamin keunikan elemen
- D. Dictionary, karena mendukung akses berbasis kunci unik
33. Seorang data scientist ingin melakukan komputasi numerik pada matriks berukuran 10.000 × 10.000 secara efisien, termasuk operasi aljabar linear seperti perkalian matriks dan dekomposisi nilai singular. Pustaka Python yang paling tepat untuk tugas ini adalah…
- A. Pandas, karena menyediakan DataFrame untuk data tabular
- B. Scikit-learn, karena menyediakan algoritma machine learning
- C. Matplotlib, karena mendukung visualisasi matriks
- D. NumPy, karena menyediakan array multidimensi berkinerja tinggi
34. Seorang analis data bekerja dengan dataset penjualan yang terdiri dari 50.000 baris dan 15 kolom. Ia perlu melakukan operasi seperti filter data berdasarkan kondisi, agregasi per kategori produk, dan perhitungan statistik deskriptif. Pustaka Python yang menyediakan struktur data utama untuk keperluan ini adalah…
- A. NumPy yang menyediakan array homogen
- B. Seaborn yang menyediakan fungsi visualisasi statistik
- C. Pandas yang menyediakan DataFrame untuk data tabular heterogen
- D. Scipy yang menyediakan fungsi komputasi ilmiah
35. Seorang mahasiswa baru mengenal Python dan ingin mengeksekusi kode secara interaktif, blok per blok, sambil mencatat observasi dan menampilkan grafik di satu kanvas. Lingkungan pengembangan yang paling sesuai dengan kebutuhannya adalah…
- A. Sublime Text
- B. PyCharm
- C. Jupyter Notebook
- D. Terminal Python
36. Seorang analis data memiliki DataFrame df dengan kolom 'Nama', 'Usia', 'Kota', dan 'Penghasilan'. Ia ingin mengambil subset 10 baris pertama dan hanya kolom 'Nama' serta 'Penghasilan'. Metode Pandas yang paling efisien adalah…
- A. df.iloc[0:10, [0, 2]]
- B. df.iloc[1:10, [0, 3]]
- C. df.loc[0:9, ['Nama', 'Penghasilan']]
- D. df.loc[:9, ['Nama', 'Penghasilan']]
37. PT Sentosa memiliki data penjualan dengan kolom 'Jumlah' yang mengandung sejumlah nilai kosong. Tim data ingin mempertahankan jumlah observasi namun mengisi kekosongan dengan nilai rata-rata kolom tersebut. Teknik yang diterapkan adalah…
- A. Imputasi dengan mean
- B. Penghapusan baris
- C. Normalisasi min-max
- D. Standardisasi z-score
38. Anto menganalisis data transaksi dan perlu menghitung total penjualan per kategori produk. Ia menggunakan df.groupby('Kategori')['Penjualan'].sum() pada Pandas. Operasi ini termasuk jenis…
- A. Agregasi data
- B. Seleksi data
- C. Normalisasi data
- D. Pivot data
39. Seorang data scientist memiliki dua fitur numerik: 'Pendapatan' dalam jutaan rupiah dan 'Usia' dalam tahun. Ia ingin menskalakan kedua fitur sehingga memiliki rentang nilai yang sama untuk keperluan pemodelan KNN. Teknik yang tepat adalah…
- A. Penghapusan outlier
- B. Normalisasi min-max
- C. Encoding one-hot
- D. Seleksi fitur
40. Seorang analis ingin memilih subset baris dari DataFrame berdasarkan indeks integer, bukan label indeks. Ia perlu mengambil baris ke-5 hingga ke-9 (inklusif). Metode dan sintaks yang tepat adalah…
- A. df.iloc[5:9]
- B. df.loc[5:9]
- C. df.iloc[5:10]
- D. df.loc[5:10]
41. Di R, seorang mahasiswa ingin menggunakan filosofi tidyverse untuk manipulasi data tabular. Fungsi dalam dplyr yang digunakan untuk memilih baris berdasarkan kondisi logika adalah…
- A. select()
- B. filter()
- C. mutate()
- D. arrange()
42. Perbedaan utama antara Data Frame di R dan DataFrame di Pandas (Python) adalah…
- A. Data Frame R adalah bawaan, DataFrame Pandas di pustaka eksternal
- B. Data Frame R tidak bisa menyimpan tipe campuran
- C. DataFrame Pandas hanya bisa menyimpan data numerik
- D. Data Frame R tidak mendukung operasi pengelompokan
43. Seorang pengguna R ingin membuat visualisasi statistik yang kompleks dengan deklarasi berbasis lapisan (layer grammar). Pustaka tidyverse yang paling sesuai adalah…
- A. readr
- B. dplyr
- C. tidyr
- D. ggplot2
44. Siti beralih dari Python ke R untuk proyek analisis datanya. Ia mencari lingkungan pengembangan yang menyediakan editor kode, konsol interaktif, panel visualisasi, dan manajemen paket dalam satu antarmuka. Pilihan yang tepat adalah…
- A. R Console
- B. Jupyter Notebook
- C. VS Code
- D. RStudio
45. Seorang peneliti memilih R dibanding Python untuk analisis eksplorasi dan visualisasi statistik yang mendalam. Pertimbangan utama yang paling mendasari keputusan tersebut adalah…
- A. R lebih cepat dalam komputasi numerik matriks besar
- B. R memiliki ekosistem statistika yang lebih matang dan pustaka visualisasi khusus
- C. R mendukung pemrograman berorientasi objek lebih baik
- D. R hanya digunakan untuk data kecil
46. Seorang dosen menampilkan ringkasan nilai ujian 100 mahasiswa: rata-rata 72, nilai tengah setelah diurutkan 78, dan nilai yang paling sering muncul 80. Dari ketiga ukuran tersebut, yang paling tidak terpengaruh oleh adanya satu mahasiswa dengan nilai 10 adalah…
- A. Median
- B. Mean
- C. Modus
- D. Standar deviasi
47. Dua kelas paralel memiliki rata-rata nilai ujian yang sama, yaitu 75. Namun, rentang nilai di kelas A sangat sempit (70–80) sedangkan di kelas B sangat lebar (40–100). Ukuran penyebaran yang paling tepat untuk mengkuantifikasi perbedaan ini dalam satuan yang sama dengan data asli adalah…
- A. Rentang
- B. Variansi
- C. Standar deviasi
- D. Modus
48. Seorang peneliti mengelompokkan data pendapatan 500 rumah tangga ke dalam 10 kelas interval dan menghitung jumlah rumah tangga di setiap kelas. Hasil pengelompokan ini disebut…
- A. Distribusi frekuensi
- B. Diagram pencar
- C. Tabel kontingensi
- D. Pivot table
49. Dalam laporan tahunan, perusahaan menyajikan ukuran pemusatan data gaji karyawan. Jika distribusi gaji sangat menceng ke kanan (right-skewed) akibat beberapa eksekutif bergaji sangat tinggi, ukuran yang lebih rendah dari mean dan lebih representatif untuk mayoritas karyawan adalah…
- A. Modus
- B. Mean
- C. Median
- D. Standar deviasi
50. PT Cahaya mengukur waktu tunggu pelanggan di call center. Manager ingin mengetahui persentase panggilan yang dijawab dalam waktu kurang dari 2 menit. Jika waktu tunggu berdistribusi normal dengan mean 3 menit dan standar deviasi 1 menit, konsep yang digunakan untuk menghitung probabilitas waktu tunggu < 2 menit adalah…
- A. Distribusi binomial
- B. Distribusi normal kontinu
- C. Distribusi Poisson
- D. Distribusi seragam
51. Seorang mahasiswa menyatakan bahwa "semakin banyak jam belajar, semakin tinggi nilai ujian" setelah melihat data bahwa siswa dengan jam belajar tinggi cenderung mendapat nilai tinggi. Kesimpulan yang tepat tentang pernyataan tersebut adalah…
- A. Pernyataan menunjukkan tidak ada hubungan antar variabel
- B. Pernyataan membuktikan kausalitas antara belajar dan nilai
- C. Pernyataan adalah contoh uji hipotesis
- D. Pernyataan menunjukkan korelasi, bukan hubungan sebab-akibat
52. Seorang analis menghitung peluang seorang pasien sembuh setelah diberi obat tertentu dan menyimpulkan nilainya 0,85. Interpretasi yang tepat dari angka tersebut adalah…
- A. setiap pasien memiliki kemungkinan 0,85 untuk sembuh
- B. obat tersebut memiliki efektivitas 85% dalam jangka panjang
- C. dari 100 pasien, pasti 85 akan sembuh
- D. probabilitas kegagalan obat adalah 0,15
53. Sebuah mesin produksi memiliki probabilitas menghasilkan cacat sebesar 0,05. Jika diambil 10 produk secara acak dan independen, distribusi yang tepat untuk memodelkan jumlah produk cacat adalah…
- A. Distribusi Poisson karena menyangkut kejadian langka
- B. Distribusi Normal karena sampel lebih dari satu
- C. Distribusi Binomial karena terdapat jumlah percobaan tetap dengan dua hasil
- D. Distribusi Eksponensial karena menyangkut waktu antar kejadian
54. Suatu variabel acak kontinu X memiliki fungsi kepadatan probabilitas berbentuk lonceng simetris dengan mean 50 dan standar deviasi 8. Probabilitas X bernilai tepat 50 adalah…
- A. 0,5 karena mean adalah titik tengah distribusi
- B. 0 karena pada distribusi kontinu probabilitas titik tunggal adalah nol
- C. 1,0 karena mean pasti terjadi pada distribusi normal
- D. 0,3989 karena nilai fungsi kepadatan pada mean
55. Dua dadu setimbang dilempar bersamaan. Seorang pemain ingin menghitung nilai rata-rata jumlah mata dadu dalam jangka panjang. Konsep yang digunakan adalah…
- A. median karena distribusi jumlah mata dadu simetris
- B. nilai ekspektasi karena menghitung rata-rata tertimbang seluruh kemungkinan
- C. modus karena nilai tengah distribusi akan paling sering muncul
- D. standar deviasi karena mengukur penyebaran jumlah mata dadu
56. Tim peneliti ingin mengestimasi rata-rata tinggi badan mahasiswa di seluruh Indonesia. Mereka mengukur 400 mahasiswa dari 10 universitas dan memperoleh rata-rata 165 cm. Dalam konteks ini, 165 cm merupakan…
- A. parameter populasi karena dihitung dari data lapangan
- B. hipotesis nol karena akan diuji kebenarannya
- C. statistik sampel karena dihitung dari subset populasi
- D. interval kepercayaan karena berada dalam rentang estimasi
57. Seorang peneliti menguji efektivitas metode belajar baru. Ia menetapkan hipotesis nol bahwa metode baru tidak meningkatkan nilai dibanding metode lama. Setelah uji statistik, diperoleh nilai-p sebesar 0,03 dengan taraf signifikansi 0,05. Keputusan yang tepat adalah…
- A. gagal menolak hipotesis nol karena nilai-p lebih kecil dari 0,05
- B. mengulang eksperimen karena hasilnya tidak meyakinkan
- C. menerima hipotesis alternatif tanpa syarat karena nilai-p di bawah 0,05
- D. menolak hipotesis nol karena nilai-p lebih kecil dari taraf signifikansi
58. Dalam penelitian hubungan antara konsumsi kopi dan tekanan darah, peneliti menghitung koefisien korelasi Pearson r = 0,72. Kesimpulan yang tepat tentang temuan ini adalah…
- A. konsumsi kopi menyebabkan peningkatan tekanan darah
- B. tekanan darah menyebabkan peningkatan konsumsi kopi
- C. tidak ada hubungan antara konsumsi kopi dan tekanan darah
- D. terdapat hubungan linear positif yang cukup kuat antara kedua variabel
59. Sebuah survei melaporkan interval kepercayaan 95% untuk rata-rata pendapatan bulanan penduduk desa adalah Rp2.500.000 hingga Rp3.100.000. Interpretasi yang paling akurat adalah…
- A. 95% penduduk desa memiliki pendapatan dalam rentang tersebut
- B. jika survei diulang 100 kali, sekitar 95 interval akan memuat rata-rata populasi
- C. rata-rata pendapatan populasi pasti berada dalam rentang tersebut
- D. probabilitas rata-rata populasi berada dalam rentang itu adalah 0,95
60. Seorang peneliti menguji apakah rata-rata nilai ujian kelas A lebih tinggi dari kelas B. Hipotesis alternatifnya adalah μ_A > μ_B. Jenis uji yang digunakan adalah…
- A. uji dua arah karena membandingkan dua kelompok
- B. uji non-parametrik karena data berasal dari dua kelas berbeda
- C. uji satu arah karena hipotesis menunjukkan arah spesifik
- D. uji korelasi karena membandingkan dua variabel
61. Andi sedang melakukan analisis awal pada dataset harga rumah. Ia membuat ringkasan statistik yang terdiri dari nilai minimum 150 juta, kuartil pertama 280 juta, median 450 juta, kuartil ketiga 720 juta, dan maksimum 2,5 miliar. Ringkasan yang dibuat Andi dikenal sebagai…
- A. ringkasan lima angka yang menjadi dasar pembuatan boxplot
- B. ukuran pemusatan karena hanya menggunakan mean dan median
- C. distribusi frekuensi karena mengelompokkan data ke kelas interval
- D. standar deviasi karena menghitung penyebaran data
62. Siti memeriksa dataset transaksi e-commerce dan menemukan satu transaksi dengan jumlah pembelian 5000 unit dalam sehari, sementara transaksi lainnya berkisar 1–50 unit. Langkah pertama yang paling tepat dalam EDA untuk menangani data tersebut adalah…
- A. langsung menghapus data tersebut karena pasti kesalahan input
- B. mengabaikannya karena hanya satu data yang tidak normal
- C. menggantinya dengan rata-rata transaksi harian
- D. menyelidiki lebih lanjut apakah data tersebut valid atau anomali
63. PT Logistik Nusantara memiliki data pengiriman paket dari 15 cabang. Manajer ingin mengetahui pola hubungan antara jarak tempuh dan waktu pengiriman sebelum membangun model prediksi. Dalam EDA, pendekatan yang paling sesuai untuk tujuan ini adalah…
- A. analisis univariat dengan histogram waktu pengiriman
- B. deteksi outlier pada variabel jarak tempuh saja
- C. analisis distribusi frekuensi jumlah paket per cabang
- D. analisis bivariat menggunakan scatter plot jarak vs waktu
64. Seorang data scientist menghasilkan beberapa visualisasi dalam tahap EDA, termasuk histogram, boxplot, dan ringkasan statistik. Ia menemukan distribusi data miring kanan dan beberapa outlier. Tindakan yang paling tepat berdasarkan temuan EDA tersebut adalah…
- A. mendokumentasikan temuan dan mempertimbangkan transformasi data atau metode yang robust terhadap outlier
- B. menghapus outlier agar distribusi menjadi normal dan langsung membangun model
- C. mengabaikan outlier karena jumlahnya sedikit dan langsung menggunakan model parametrik
- D. mengganti semua outlier dengan mean agar distribusi menjadi simetris
65. Dalam EDA, seorang analis membandingkan distribusi pendapatan pelanggan di kota A dan kota B menggunakan dua boxplot berdampingan. Tujuan utama analisis ini adalah…
- A. membandingkan pemusatan, penyebaran, dan keberadaan outlier antar kedua kota
- B. mengidentifikasi outlier pada masing-masing kota secara terpisah
- C. menghitung rata-rata pendapatan kedua kota untuk laporan akhir
- D. menguji secara statistik apakah rata-rata pendapatan kedua kota berbeda
66. Seorang analis ingin menampilkan distribusi frekuensi nilai ujian 200 siswa menggunakan Python. Ia memilih pustaka Matplotlib dan fungsi hist() untuk membuat grafik batang yang saling bersentuhan. Jenis visualisasi yang dihasilkan adalah…
- A. bar chart untuk membandingkan frekuensi antar kategori
- B. scatter plot untuk menunjukkan sebaran nilai ujian
- C. histogram untuk menampilkan distribusi data numerik dalam interval
- D. boxplot untuk menampilkan ringkasan lima angka
67. PT Pangan Sejahtera memiliki data penjualan bulanan 12 produk selama 3 tahun. Direktur ingin melihat pola penjualan setiap produk dari waktu ke waktu. Jenis visualisasi yang paling efektif adalah…
- A. scatter plot antara volume dan harga setiap produk
- B. line plot penjualan bulanan untuk setiap produk
- C. histogram total penjualan seluruh produk per bulan
- D. pie chart proporsi penjualan setiap produk
68. Seorang analis data membandingkan penggunaan Matplotlib dan Seaborn untuk membuat visualisasi. Ia perlu membuat grafik yang menampilkan hubungan antara tiga variabel numerik sekaligus: pendapatan, pengeluaran, dan usia dalam satu tampilan. Pustaka yang lebih efisien dan fungsi yang tepat adalah…
- A. Seaborn dengan fungsi scatterplot() yang mendukung parameter hue untuk variabel ketiga
- B. Matplotlib dengan fungsi scatter() karena dapat mengatur ukuran titik
- C. Matplotlib dengan fungsi plot() karena lebih fleksibel untuk multi-variabel
- D. Seaborn dengan fungsi histplot() karena dapat menampilkan distribusi tiga variabel
69. Seorang analis data membuat visualisasi dengan Matplotlib dan perlu menambahkan judul, label sumbu, serta legenda secara manual melalui kode eksplisit. Ia kemudian mencoba Seaborn dan mendapati bahwa untuk dataset Pandas, elemen-elemen tersebut otomatis ditambahkan. Perbedaan teknis yang mendasari perilaku ini adalah…
- A. Seaborn memiliki integrasi bawaan dengan Pandas sedangkan Matplotlib tidak
- B. Matplotlib tidak mendukung legenda otomatis pada semua jenis grafik
- C. Matplotlib hanya mendukung array NumPy bukan DataFrame Pandas
- D. Seaborn menggunakan antarmuka tingkat tinggi berbasis fungsi plotting statistik
70. Seorang peneliti ingin membandingkan hubungan antara tiga variabel numerik: pendapatan, pengeluaran, dan usia dalam satu tampilan visual. Ia memilih menggunakan scatter plot dengan variasi warna titik berdasarkan kategori usia. Pustaka Python yang menyediakan fungsi paling praktis untuk membuat visualisasi tersebut dalam satu baris perintah adalah…
- A. Matplotlib melalui fungsi scatter() dengan parameter c
- B. Seaborn melalui fungsi lineplot() dengan parameter style
- C. Matplotlib melalui fungsi plot() dengan parameter color
- D. Seaborn melalui fungsi scatterplot() dengan parameter hue
71. Sebuah tim data science di PT Nusa Retail membangun dasbor untuk memantau metrik penjualan harian, jumlah pelanggan baru, dan tingkat retensi secara real-time. Direktur pemasaran dapat mengeklik grafik untuk memperbesar periode tertentu dan melihat detail angka dengan hover. Komponen teknologi utama yang memungkinkan interaktivitas tersebut adalah…
- A. Data Warehouse yang menyimpan data terstruktur
- B. Sistem manajemen basis data relasional
- C. Pustaka visualisasi interaktif seperti Plotly
- D. Algoritma pembelajaran mesin untuk prediksi
72. Budi mempresentasikan temuan analisis data penjualan kepada dewan direksi. Ia tidak hanya menampilkan grafik dan angka, tetapi juga membangun alur narasi: mengawali dengan tantangan bisnis, menunjukkan pola data yang relevan, lalu menyimpulkan dengan rekomendasi aksi yang konkret. Praktik yang diterapkan Budi dikenal sebagai…
- A. Exploratory Data Analysis
- B. Data Storytelling
- C. Data Visualization
- D. Dashboard Development
73. Perbedaan mendasar antara visualisasi statis dan visualisasi interaktif dalam konteks penyampaian temuan data adalah…
- A. Visualisasi statis hanya menggunakan Matplotlib, interaktif hanya menggunakan Plotly
- B. Visualisasi interaktif memungkinkan eksplorasi data oleh audiens secara mandiri
- C. Visualisasi statis tidak dapat menampilkan data time series
- D. Visualisasi interaktif selalu lebih akurat daripada visualisasi statis
74. Siti merancang dasbor data untuk memantau performa cabang-cabang perusahaan logistik. Ia menyertakan peta persebaran cabang, grafik batang volume pengiriman, dan indikator angka waktu pengiriman rata-rata dalam satu layar. Prinsip utama yang mendasari penyatuan berbagai metrik dalam satu dasbor adalah…
- A. Menyajikan indikator kinerja utama secara terpadu untuk pemantauan cepat
- B. Mengurangi kebutuhan penyimpanan data
- C. Menggantikan semua laporan tertulis perusahaan
- D. Memastikan semua data telah dinormalisasi
75. Dalam mempersiapkan presentasi hasil analisis untuk audiens non-teknis, seorang data scientist memutuskan untuk menyembunyikan detail teknis pemodelan dan hanya menampilkan visualisasi yang menjawab pertanyaan bisnis. Keputusan ini paling mencerminkan prinsip…
- A. Kompleksitas model harus selalu ditampilkan
- B. Visualisasi statis lebih baik untuk audiens non-teknis
- C. Data storytelling menyesuaikan narasi dengan audiens
- D. Dasbor hanya cocok untuk tim teknis
76. Sebuah tim riset mengembangkan model yang dapat membedakan email spam dan non-spam dengan mempelajari pola dari 10.000 email yang telah diberi label. Jenis pembelajaran mesin yang digunakan tim tersebut adalah…
- A. Pembelajaran Penguatan
- B. Pembelajaran Tak Terawasi
- C. Pembelajaran Semi-Terawasi
- D. Pembelajaran Terawasi
77. Seorang data scientist melatih model untuk memprediksi harga rumah. Model menunjukkan akurasi 98% pada data training tetapi hanya 62% pada data testing. Kondisi yang dialami model tersebut adalah…
- A. Underfitting, karena model terlalu sederhana
- B. Overfitting, karena model terlalu pas dengan data training
- C. Bias tinggi, karena model tidak menangkap pola
- D. Variansi rendah, karena model stabil pada data baru
78. Perbedaan esensial antara bias dan variansi dalam konteks pembelajaran mesin adalah…
- A. Bias selalu lebih berbahaya daripada variansi
- B. Bias mengukur kesalahan karena asumsi model yang salah, variansi mengukur sensitivitas model terhadap data training
- C. Bias terjadi pada data testing, variansi terjadi pada data training
- D. Bias hanya relevan pada regresi, variansi hanya relevan pada klasifikasi
79. Dalam proyek pembelajaran mesin, tim data membagi dataset menjadi tiga bagian: 60% untuk training, 20% untuk validasi, dan 20% untuk testing. Fungsi utama dari data validasi adalah…
- A. Menyetel hyperparameter model tanpa menyentuh data testing
- B. Melatih model dengan lebih banyak data
- C. Menggantikan data testing jika dataset terlalu kecil
- D. Mengevaluasi performa akhir model sebelum deployment
80. PT Sejahtera menggunakan algoritma yang menemukan sendiri kelompok pelanggan dengan perilaku belanja serupa tanpa label dari data historis. Algoritma ini mendeteksi tiga segmen pelanggan yang sebelumnya tidak diketahui tim pemasaran. Jenis pembelajaran mesin yang diterapkan adalah…
- A. Pembelajaran Terawasi untuk klasifikasi
- B. Pembelajaran Terawasi untuk regresi
- C. Pembelajaran Penguatan untuk optimasi
- D. Pembelajaran Tak Terawasi untuk klastering
81. Seorang analis ingin memprediksi probabilitas seorang nasabah gagal bayar kredit berdasarkan pendapatan, usia, dan jumlah tanggungan. Variabel target berupa status gagal bayar atau lancar. Algoritma yang paling tepat untuk kasus ini adalah…
- A. Regresi Linear
- B. K-Nearest Neighbor
- C. Regresi Logistik
- D. Decision Tree untuk regresi
82. Dalam dataset deteksi penipuan kartu kredit, hanya 0,5% transaksi yang tergolong penipuan (kelas positif) dan 99,5% transaksi normal. Seorang data scientist mengevaluasi modelnya. Metrik yang paling informatif untuk mengukur performa pada kelas penipuan adalah…
- A. F1-Score
- B. Presisi saja
- C. Recall saja
- D. Akurasi total model
83. Seorang data scientist menggunakan algoritma K-Nearest Neighbor dengan K=1 untuk klasifikasi. Model ini cenderung memiliki karakteristik…
- A. Bias tinggi dan variansi rendah
- B. Bias tinggi dan variansi tinggi
- C. Bias rendah dan variansi tinggi
- D. Bias rendah dan variansi rendah
84. PT Transport Cepat ingin memprediksi jumlah penumpang harian berdasarkan data historis. Tim data menggunakan model yang menghasilkan persamaan: jumlah_penumpang = 500 + 2,5 × jumlah_bus – 0,3 × cuaca_hujan. Algoritma yang digunakan adalah…
- A. Regresi Linear
- B. Decision Tree
- C. Regresi Logistik
- D. K-Nearest Neighbor
85. Seorang data scientist menggunakan pustaka Python tertentu untuk menerapkan regresi logistik pada dataset yang memiliki 20 fitur numerik. Ia ingin memastikan bahwa seluruh fitur berada pada skala yang sebanding agar koefisien model tidak didominasi oleh fitur dengan magnitudo besar. Transformasi data yang paling tepat sebelum pemodelan menggunakan pustaka tersebut adalah…
- A. Menerapkan StandardScaler sehingga setiap fitur memiliki mean 0 dan variansi 1
- B. Menerapkan OneHotEncoder untuk mengonversi seluruh fitur menjadi representasi biner
- C. Menerapkan SimpleImputer dengan strategi median untuk mengisi nilai yang mungkin kosong
- D. Menerapkan train_test_split dengan proporsi 70:30 tanpa penskalaan terlebih dahulu
86. Dalam Scikit-Learn, seorang praktisi membangun model klasifikasi dan ingin memperoleh estimasi performa yang lebih stabil dibandingkan membagi data sekali menjadi training dan testing. Ia menerapkan teknik yang membagi data menjadi 5 lipatan, di mana setiap lipatan bergiliran menjadi data uji. Teknik evaluasi yang dimaksud adalah…
- A. Grid Search untuk mencari kombinasi hyperparameter terbaik
- B. Train-test split tunggal dengan stratifikasi kelas target
- C. Bootstrapping dengan pengambilan sampel acak tanpa pengembalian
- D. 5-fold Cross-Validation yang merata-ratakan metrik dari seluruh iterasi lipatan
87. PT Logistik Nusantara memiliki dataset dengan kolom kategori 'Jenis_Kendaraan' yang berisi nilai 'Truk', 'Pickup', dan 'Motor'. Tim data ingin mengubah kolom tersebut menjadi representasi numerik untuk pemodelan tanpa menciptakan ordinalitas palsu antar kategori. Teknik encoding yang paling sesuai adalah…
- A. Label Encoding yang memberikan nomor urut 0,1,2 pada setiap kategori
- B. Normalisasi Min-Max pada kolom kategorikal untuk rentang 0 hingga 1
- C. One-Hot Encoding yang menciptakan kolom biner terpisah untuk setiap kategori
- D. Imputasi modus untuk mengganti kategori yang jarang muncul
88. Seorang mahasiswa menggunakan Scikit-Learn dan ingin membangun model regresi. Ia membaca dokumentasi bahwa beberapa algoritma dalam pustaka ini mengasumsikan fitur berada dalam skala yang serupa. Ia mempertimbangkan dua scaler: StandardScaler dan MinMaxScaler. Perbedaan teknis antara kedua scaler tersebut terletak pada…
- A. StandardScaler hanya bekerja pada variabel kategorikal, sedangkan MinMaxScaler pada variabel numerik
- B. StandardScaler menggunakan mean dan standar deviasi, sedangkan MinMaxScaler menggunakan nilai minimum dan maksimum
- C. MinMaxScaler menghasilkan distribusi normal, sedangkan StandardScaler menghasilkan distribusi seragam
- D. StandardScaler selalu menghasilkan rentang [0,1], sedangkan MinMaxScaler menghasilkan rentang [-1,1]
89. Sebuah aplikasi rekrutmen otomatis secara sistematis memberikan skor lebih rendah kepada pelamar perempuan, meskipun kualifikasi mereka setara dengan pelamar laki-laki. Setelah ditelusuri, penyebabnya adalah data pelatihan yang didominasi oleh profil laki-laki sukses. Fenomena ini merupakan contoh dari…
- A. Overfitting model terhadap pola data pelatihan yang terlalu spesifik
- B. Underfitting karena model terlalu sederhana untuk menangkap pola
- C. Bias algoritma akibat data pelatihan yang tidak representatif terhadap populasi
- D. Pelanggaran prinsip keamanan data karena data pelamar bocor ke pihak luar
90. Seorang data scientist di Indonesia mengumpulkan data pribadi pengguna untuk membangun sistem rekomendasi. Ia menyadari bahwa praktiknya harus mematuhi regulasi yang memberikan hak kepada individu untuk mengakses, mengoreksi, dan menghapus data mereka. Regulasi di Indonesia yang paling relevan dengan kewajiban tersebut adalah…
- A. GDPR yang diterbitkan oleh Uni Eropa dan berlaku secara global tanpa pengecualian
- B. CCPA yang secara spesifik mengatur data pribadi konsumen di kawasan Asia Tenggara
- C. HIPAA yang berfokus pada perlindungan data kesehatan di seluruh dunia
- D. Undang-Undang Perlindungan Data Pribadi (UU PDP) Indonesia yang mengatur pemrosesan data pribadi
91. Perbedaan konseptual antara privasi data dan keamanan data sering kali menjadi sumber kebingungan. Pernyataan berikut yang paling akurat membedakan keduanya adalah…
- A. Keamanan data memastikan data tidak pernah dikumpulkan, sedangkan privasi data mengatur enkripsi data saat transit
- B. Privasi data hanya diterapkan pada data kesehatan, sedangkan keamanan data berlaku untuk semua jenis data
- C. Privasi data berkaitan dengan kebijakan dan hak individu atas data mereka, sedangkan keamanan data berkaitan dengan perlindungan teknis terhadap akses tidak sah
- D. Privasi data dan keamanan data adalah dua istilah yang sepenuhnya identik dan dapat dipertukarkan
92. Siti bekerja sebagai data scientist di sebuah perusahaan fintech. Ia menemukan bahwa tim produk menginstruksikan untuk menyembunyikan fakta bahwa model kredit mereka secara tidak proporsional menolak aplikasi dari wilayah tertentu. Secara etika profesi, tindakan Siti yang paling bertanggung jawab adalah…
- A. Mengomunikasikan temuan bias tersebut secara transparan kepada pemangku kepentingan dan mendorong perbaikan model
- B. Mengabaikan temuan tersebut agar tidak menimbulkan konflik internal dalam perusahaan
- C. Mengikuti instruksi tim produk karena keputusan bisnis lebih diutamakan daripada temuan teknis
- D. Membocorkan data internal perusahaan ke media untuk mengungkap praktik diskriminatif tersebut
93. PT Inovasi Digital memulai proyek sains data untuk mengurangi churn pelanggan. Tim proyek menggunakan metodologi terstruktur yang terdiri dari enam fase: pemahaman bisnis, pemahaman data, persiapan data, pemodelan, evaluasi, dan deployment. Metodologi yang diterapkan oleh tim tersebut adalah…
- A. Agile Software Development yang menekankan iterasi cepat dan sprint mingguan
- B. Waterfall Model yang mensyaratkan penyelesaian setiap tahap secara linear tanpa kembali
- C. CRISP-DM yang merupakan standar lintas industri untuk proyek penambangan data
- D. Design Thinking yang berpusat pada empati pengguna dan pembuatan purwarupa cepat
94. Seorang data scientist dan dua rekannya berkolaborasi mengembangkan kode analisis data. Mereka perlu melacak setiap perubahan yang dilakukan pada berkas kode, memungkinkan rollback ke versi sebelumnya jika terjadi kesalahan, dan bekerja secara paralel pada fitur yang berbeda. Alat yang paling fundamental untuk kebutuhan tersebut adalah…
- A. GitHub, karena menyediakan hosting repositori dan antarmuka grafis untuk kolaborasi
- B. Jupyter Notebook, karena memungkinkan penulisan kode dan dokumentasi dalam satu berkas
- C. Google Drive, karena memungkinkan penyimpanan berkas secara daring dan berbagi tautan
- D. Git, karena merupakan sistem kontrol versi terdistribusi yang melacak riwayat perubahan
95. Setelah membangun model prediksi churn, tim data PT Seluler Nusantara harus menyampaikan hasilnya kepada direktur pemasaran yang tidak memiliki latar belakang teknis. Strategi komunikasi yang paling efektif adalah…
- A. Menyajikan narasi yang menghubungkan temuan model dengan dampak bisnis, menggunakan visualisasi yang sederhana dan jelas
- B. Menampilkan seluruh metrik evaluasi model termasuk AUC-ROC, confusion matrix, dan feature importance secara detail
- C. Menyerahkan laporan teknis lengkap beserta kode Python agar direktur dapat memverifikasi sendiri hasilnya
- D. Fokus menjelaskan algoritma yang digunakan secara matematis untuk menunjukkan kredibilitas tim teknis
96. Budi dan timnya mengerjakan proyek sains data selama tiga bulan. Mereka ingin mendokumentasikan seluruh keputusan analitis, perubahan kode, dan iterasi model secara sistematis. Praktik terbaik yang harus diterapkan tim Budi adalah…
- A. Menyimpan seluruh berkas akhir saja dan menghapus versi lama untuk menghemat ruang penyimpanan
- B. Menggunakan sistem kontrol versi dan menulis dokumentasi terstruktur untuk setiap keputusan dan perubahan signifikan
- C. Mengandalkan komunikasi lisan dalam rapat mingguan sebagai dokumentasi utama proyek
- D. Menunda dokumentasi hingga proyek selesai sepenuhnya agar tidak mengganggu alur kerja
97. Sebuah perusahaan ritel ingin memahami mengapa penjualan menurun di kuartal terakhir. Sebelum mengumpulkan data, tim sains data harus merumuskan pertanyaan riset yang memandu seluruh proyek. Karakteristik pertanyaan riset yang baik adalah…
- A. Bersifat umum dan terbuka agar semua kemungkinan penyebab dapat dieksplorasi tanpa batasan
- B. Spesifik, terukur, dan secara langsung terkait dengan tujuan bisnis yang ingin dicapai
- C. Fokus pada teknologi yang akan digunakan, bukan pada masalah bisnis yang mendasari
- D. Dijawab dengan intuisi manajemen sebelum analisis data dilakukan untuk menghemat waktu
98. Siti menemukan bahwa dataset yang akan digunakan untuk analisis memiliki beberapa masalah: terdapat baris duplikat, nilai yang tidak masuk akal (seperti usia 200 tahun), dan inkonsistensi format penulisan nama kota. Sebelum masuk ke tahap analisis, Siti melakukan proses identifikasi dan perbaikan terhadap data-data tersebut. Proses yang dilakukan Siti adalah…
- A. Pengumpulan data dari berbagai sumber internal dan eksternal perusahaan
- B. Analisis data eksploratif untuk menemukan pola dan outlier dalam dataset
- C. Transformasi data dengan menskalakan seluruh fitur numerik ke rentang tertentu
- D. Pembersihan data untuk memastikan akurasi, kelengkapan, dan konsistensi dataset
99. Setelah melalui tahap pemodelan, tim data PT Agro Nusantara memperoleh model prediksi hasil panen dengan R-squared 0,88 pada data testing. Manajer proyek bertanya apakah model tersebut layak diterapkan atau masih perlu diiterasi. Selain metrik statistika, tim harus mengevaluasi model berdasarkan…
- A. Kecepatan komputasi model sebagai satu-satunya kriteria keberhasilan proyek
- B. Kesesuaian hasil prediksi dengan target bisnis dan apakah model menjawab masalah yang dirumuskan di awal
- C. Popularitas algoritma yang digunakan dalam komunitas sains data terkini
- D. Jumlah baris kode yang ditulis untuk membangun dan menguji model tersebut
100. Dalam presentasi akhir proyek sains data, seorang mahasiswa menyajikan urutan: latar belakang masalah, pertanyaan riset, metodologi pengumpulan data, proses pembersihan, model yang digunakan, evaluasi, dan rekomendasi. Ia menggunakan visualisasi yang relevan di setiap bagian. Struktur presentasi ini mencerminkan…
- A. Dokumentasi seluruh siklus proyek sains data secara terstruktur untuk audiens yang beragam
- B. Penyajian hanya hasil akhir tanpa menjelaskan proses yang dilalui dalam proyek
- C. Fokus eksklusif pada aspek teknis pemodelan tanpa memperhatikan konteks bisnis
- D. Pengabaian terhadap pentingnya rekomendasi karena dianggap di luar lingkup sains data
Latihan Tambahan dengan AI
Salin prompt di bawah ini, lalu tempelkan ke ChatGPT, Gemini, Claude, atau AI lainnya untuk mendapatkan 50 soal latihan baru dengan materi yang sama. Soal yang dihasilkan AI akan berbeda dari soal di halaman ini.