STDA4101 — Pengantar Sains Data

1. Seorang mahasiswa sedang mempelajari suatu bidang yang menggabungkan statistika, pemrograman, dan pengetahuan domain untuk mengekstrak wawasan dari data dalam skala besar. Bidang ini berbeda dari statistika tradisional karena memberikan penekanan kuat pada pengolahan data tidak terstruktur dan penciptaan nilai bisnis. Bidang yang dipelajari mahasiswa tersebut adalah…

A. Kecerdasan Buatan
B. Sains Data
C. Statistika Inferensial
D. Sistem Informasi

Jawaban: B. Sains Data merupakan bidang interdisipliner yang mengintegrasikan statistika, pemrograman, dan pengetahuan domain, serta menekankan pengolahan data skala besar dan nilai bisnis, melampaui fokus statistika tradisional pada inferensi dari sampel.

2. Perbedaan utama antara Sains Data dan Kecerdasan Buatan terletak pada fokus dan tujuannya. Pernyataan yang paling tepat menggambarkan perbedaan tersebut adalah…

A. Sains Data berfokus pada pembangunan sistem cerdas, sedangkan AI pada ekstraksi wawasan
B. Sains Data menekankan ekstraksi wawasan dan nilai dari data, sedangkan AI pada pembangunan sistem yang meniru kecerdasan manusia
C. Sains Data dan AI sama-sama berfokus pada otomatisasi pengambilan keputusan tanpa campur tangan manusia
D. AI selalu membutuhkan data dalam jumlah kecil, sedangkan Sains Data selalu membutuhkan big data

Jawaban: B. Sains Data berorientasi pada pengekstrakan wawasan dan nilai dari data, sementara Kecerdasan Buatan bertujuan membangun sistem yang dapat melakukan tugas-tugas cerdas seperti manusia.

3. Dalam ekosistem sains data, terdapat komponen yang berfungsi sebagai fondasi teknis untuk menyimpan dan memproses data dalam jumlah besar sebelum dianalisis. Komponen yang dimaksud adalah…

A. Sumber data
B. Pengguna akhir
C. Alat visualisasi
D. Infrastruktur komputasi

Jawaban: D. Infrastruktur komputasi merupakan komponen ekosistem sains data yang menyediakan kapasitas penyimpanan dan pemrosesan, menjadi fondasi teknis sebelum data dianalisis menggunakan berbagai alat.

4. Sebuah perusahaan e-commerce memiliki data transaksi yang tersimpan rapi dalam tabel-tabel dengan kolom seperti ID_Pelanggan, Nama_Produk, dan Jumlah. Di sisi lain, perusahaan juga menerima ribuan ulasan pelanggan dalam bentuk teks bebas setiap hari. Berdasarkan klasifikasi data, manakah pernyataan yang benar tentang kedua jenis data tersebut…

A. Data transaksi adalah data terstruktur, sedangkan ulasan pelanggan adalah data tidak terstruktur
B. Data transaksi dan ulasan pelanggan merupakan contoh data semi-terstruktur
C. Keduanya merupakan data tidak terstruktur karena berasal dari aktivitas bisnis
D. Data transaksi adalah data tidak terstruktur, sedangkan ulasan pelanggan adalah data semi-terstruktur

Jawaban: A. Data transaksi yang tersimpan dalam tabel dengan baris dan kolom termasuk data terstruktur, sedangkan teks bebas seperti ulasan pelanggan tidak memiliki format baku sehingga termasuk data tidak terstruktur.

5. Sains Data sering disalahartikan sebagai sekadar penerapan statistika pada data. Karakteristik utama yang membedakan Sains Data dari statistika tradisional adalah…

A. Sains Data mengintegrasikan pemrograman dan berfokus pada nilai bisnis dari data skala besar, melampaui inferensi statistik tradisional
B. Sains Data hanya menggunakan data numerik, sedangkan statistika dapat menangani semua jenis data
C. Statistika selalu menghasilkan model prediktif, sedangkan Sains Data hanya menghasilkan visualisasi
D. Sains Data tidak memerlukan pengetahuan domain, sedangkan statistika sangat bergantung pada konteks

Jawaban: A. Sains Data membedakan diri dari statistika tradisional melalui integrasi keterampilan pemrograman, penanganan data skala besar, dan orientasi pada penciptaan nilai bisnis, bukan semata-mata inferensi dari sampel.

6. Seorang praktisi sains data sedang merancang proyek untuk memprediksi churn pelanggan. Ia telah merumuskan masalah bisnis dan kini mulai mengumpulkan data dari berbagai sumber internal perusahaan. Berdasarkan alur kerja sains data, tahapan yang sedang dilakukan praktisi tersebut adalah…

A. Pemodelan
B. Pengumpulan data
C. Evaluasi
D. Deployment

Jawaban: B. Setelah perumusan masalah, tahapan berikutnya dalam alur kerja sains data adalah pengumpulan data dari berbagai sumber yang relevan, sebelum masuk ke pra-pemrosesan dan analisis lebih lanjut.

7. Tanggung jawab etis seorang data scientist mencakup beberapa prinsip moral dalam praktik profesinya. Salah satu bentuk penerapan prinsip tersebut adalah…

A. Menggunakan data pelanggan tanpa pemberitahuan untuk meningkatkan akurasi model
B. Menghormati privasi individu dengan tidak mengumpulkan atau menggunakan data pribadi tanpa izin yang sah
C. Memprioritaskan keuntungan perusahaan di atas hak-hak subjek data dalam setiap situasi
D. Menghapus data yang dapat mengidentifikasi individu tanpa mempertimbangkan relevansinya terhadap analisis

Jawaban: B. Etika profesi data scientist menuntut penghormatan terhadap privasi individu, yang berarti pengumpulan dan penggunaan data pribadi harus dilakukan dengan izin yang sah dan secara bertanggung jawab.

8. Perbedaan peran antara Data Scientist dan Data Analyst sering menjadi pertanyaan dalam dunia industri. Pernyataan yang paling akurat membedakan keduanya adalah…

A. Data Analyst membangun model prediktif, sedangkan Data Scientist hanya membuat laporan
B. Data Scientist hanya bekerja dengan data terstruktur, sedangkan Data Analyst menangani semua jenis data
C. Data Analyst dan Data Scientist memiliki tanggung jawab yang identik, hanya berbeda pada nama jabatan
D. Data Scientist biasanya menangani masalah yang lebih kompleks, membangun model prediktif, dan memerlukan keterampilan pemrograman yang lebih dalam dibanding Data Analyst

Jawaban: D. Data Scientist umumnya menangani permasalahan yang lebih kompleks, melibatkan pembangunan model prediktif dan membutuhkan kemampuan pemrograman serta statistika yang lebih dalam, sementara Data Analyst lebih berfokus pada analisis deskriptif dan pelaporan.

9. Data Science Pipeline merupakan alur kerja sistematis yang memandu proyek sains data. Seorang manajer proyek ingin memastikan bahwa model yang telah dibangun dapat diintegrasikan ke dalam sistem produksi perusahaan. Tahapan pipeline yang menjadi fokus manajer tersebut adalah…

A. Deployment
B. Analisis eksplorasi data
C. Perumusan masalah
D. Pra-pemrosesan data

Jawaban: A. Deployment adalah tahapan dalam Data Science Pipeline di mana model yang telah dievaluasi dan disetujui diintegrasikan ke dalam sistem produksi agar dapat digunakan oleh pengguna akhir.

10. Keterampilan utama yang harus dimiliki seorang data scientist mencakup tiga area kompetensi. Kombinasi area kompetensi yang paling fundamental adalah…

A. Desain grafis, manajemen basis data, dan pemasaran digital
B. Manajemen proyek, keamanan siber, dan penjualan
C. Pemrograman, statistika, dan pengetahuan domain
D. Jurnalisme data, pengembangan web, dan audit keuangan

Jawaban: C. Tiga pilar kompetensi fundamental seorang data scientist adalah pemrograman untuk mengolah data, statistika untuk analisis, dan pengetahuan domain untuk memahami konteks bisnis serta menghasilkan wawasan yang relevan.

11. Sebuah rumah sakit ingin menerapkan sains data untuk meningkatkan layanan kesehatan. Contoh penerapan sains data di bidang kesehatan yang berfokus pada personalisasi perawatan pasien adalah…

A. Membangun sistem rekomendasi produk obat di apotek rumah sakit
B. Menghitung jumlah pasien harian untuk keperluan pelaporan tahunan
C. Menganalisis data medis pasien untuk menyesuaikan rencana terapi berdasarkan karakteristik individu
D. Menggunakan data untuk memprediksi fluktuasi harga obat di pasar

Jawaban: C. Sains data dalam kesehatan, khususnya untuk personalisasi perawatan, melibatkan analisis data medis individu seperti riwayat kesehatan dan respons terhadap pengobatan guna menyesuaikan terapi secara spesifik bagi setiap pasien.

12. Pemerintah Kota Cerdas Indonesia meluncurkan portal data terbuka yang menyediakan akses publik ke data anggaran, lalu lintas, dan demografi. Praktik ini paling mencerminkan peran sains data dalam pemerintahan, yaitu…

A. Mengurangi jumlah pegawai negeri melalui otomatisasi penuh
B. Membatasi akses informasi hanya untuk kalangan legislatif
C. Meningkatkan pendapatan pemerintah dari penjualan data
D. Mendorong transparansi dan kebijakan publik berbasis bukti

Jawaban: D. Penyediaan data terbuka oleh pemerintah merupakan wujud transparansi dan mendukung perumusan kebijakan publik berbasis bukti, yang merupakan peran penting sains data dalam pemerintahan modern.

13. PT Maju Jaya ingin mengoptimalkan strategi pemasarannya dengan memahami kelompok pelanggan yang memiliki perilaku belanja serupa. Penerapan sains data yang paling tepat untuk kebutuhan tersebut adalah…

A. Prediksi penjualan bulan depan menggunakan regresi linear
B. Sistem rekomendasi produk individual
C. Segmentasi pelanggan menggunakan analisis klastering
D. Analisis sentimen media sosial

Jawaban: C. Segmentasi pelanggan bertujuan mengelompokkan pelanggan berdasarkan kesamaan karakteristik atau perilaku, dan analisis klastering merupakan teknik sains data yang sesuai untuk mengidentifikasi kelompok-kelompok tersebut.

14. Dalam pengambilan keputusan berbasis data, sebuah perusahaan memilih untuk mengandalkan analisis data historis dan model prediktif daripada intuisi manajer semata. Keunggulan utama pendekatan ini adalah…

A. Keputusan didasarkan pada bukti empiris yang dapat diuji dan dipertanggungjawabkan
B. Proses pengambilan keputusan menjadi lebih cepat tanpa perlu diskusi
C. Keputusan sepenuhnya bebas dari bias dan kesalahan manusia
D. Mengeliminasi kebutuhan akan pengalaman dan pengetahuan domain

Jawaban: A. Pengambilan keputusan berbasis data mengutamakan bukti empiris dari analisis data historis dan model, sehingga keputusan lebih objektif, dapat diuji ulang, dan dipertanggungjawabkan dibandingkan intuisi semata.

15. Badan Pusat Statistik merilis data demografi yang dapat diunduh dan digunakan oleh peneliti maupun masyarakat umum. Berdasarkan sumbernya, data tersebut diklasifikasikan sebagai…

A. Data primer
B. Data time series
C. Data sekunder
D. Data semi-terstruktur

Jawaban: C. Data yang telah dikumpulkan oleh pihak lain, seperti BPS, dan digunakan kembali oleh peneliti atau masyarakat untuk tujuan analisis baru dikategorikan sebagai data sekunder.

16. Seorang analis data dihadapkan pada variabel tingkat kepuasan pelanggan dengan kategori Sangat Puas, Puas, Netral, Tidak Puas, dan Sangat Tidak Puas. Ia ingin mengetahui operasi statistik yang valid untuk variabel tersebut. Berdasarkan skala pengukuran, variabel ini adalah skala ordinal, sehingga operasi yang tepat adalah…

A. Membuat peringkat dan menghitung median tingkat kepuasan
B. Menghitung selisih antara Sangat Puas dan Tidak Puas
C. Menghitung rata-rata tingkat kepuasan pelanggan
D. Menghitung rasio antara Sangat Puas dan Sangat Tidak Puas

Jawaban: A. Skala ordinal memiliki urutan tetapi jarak antar kategori tidak seragam, sehingga median dan peringkat valid digunakan, sedangkan rata-rata dan operasi aritmatika seperti selisih atau rasio tidak tepat karena mengasumsikan jarak yang sama antar kategori.

17. Seorang data scientist sedang menganalisis data penjualan harian sebuah toko ritel selama lima tahun terakhir. Data ini terdiri dari kolom tanggal dan jumlah penjualan, di mana setiap observasi berurutan berdasarkan waktu dan saling bergantung satu sama lain. Jenis data yang sedang dianalisis adalah…

A. Data spasial
B. Data kategorik
C. Data cross-sectional
D. Data time series

Jawaban: D. Data time series adalah serangkaian data yang diindeks berdasarkan urutan waktu dengan ketergantungan temporal antar observasi, seperti data penjualan harian yang saling berkaitan dalam dimensi waktu.

18. Seorang analis sedang mengelola data dari berbagai sumber. Ia menemukan data dalam format JSON yang memiliki struktur fleksibel dengan tag-tag penanda tetapi tidak terikat pada skema tabel kaku. Berdasarkan klasifikasi data, data tersebut termasuk dalam kategori…

A. Data Terstruktur
B. Data Semi-Terstruktur
C. Data Tidak Terstruktur
D. Data Time Series

Jawaban: B. JSON memiliki struktur penanda (tag) yang memberikan organisasi hierarkis namun tidak memerlukan skema tabel tetap seperti basis data relasional, sehingga diklasifikasikan sebagai data semi-terstruktur.

19. Seorang peneliti mengukur suhu harian dalam derajat Celsius di laboratorium. Ia ingin mengetahui apakah operasi perkalian dua suhu (misalnya 20°C × 15°C) memiliki makna fisik yang valid. Berdasarkan skala pengukuran, suhu dalam Celsius termasuk skala…

A. Nominal, sehingga perkalian tidak valid
B. Interval, sehingga operasi perkalian tidak bermakna
C. Ordinal, sehingga hanya perbandingan urutan yang valid
D. Rasio, sehingga perkalian sepenuhnya valid

Jawaban: B. Suhu dalam Celsius termasuk skala interval yang memiliki titik nol tidak absolut, sehingga operasi penjumlahan dan pengurangan valid, tetapi perkalian dan pembagian tidak memiliki makna fisik yang sahih.

20. Seorang data scientist membandingkan dua jenis atribut dalam dataset pelanggan: atribut pertama berisi kategori pekerjaan (PNS, Swasta, Wiraswasta), dan atribut kedua berisi peringkat loyalitas (1, 2, 3). Ia ingin menentukan operasi median untuk kedua atribut tersebut. Pernyataan yang tepat adalah…

A. Median hanya dapat dihitung untuk atribut peringkat loyalitas karena bersifat ordinal
B. Median hanya dapat dihitung untuk atribut pekerjaan karena bersifat kategorik
C. Median dapat dihitung untuk kedua atribut karena keduanya bersifat numerik
D. Median tidak dapat dihitung untuk kedua atribut karena keduanya bersifat kategorik

Jawaban: A. Peringkat loyalitas 1, 2, 3 merupakan skala ordinal yang memiliki urutan sehingga median (nilai tengah) dapat dihitung, sedangkan pekerjaan adalah skala nominal tanpa urutan inheren sehingga median tidak valid.

21. PT Agro Lestari ingin mengetahui kepuasan petani terhadap program bantuan pupuk di lima provinsi. Perusahaan menyebarkan kuesioner langsung kepada 500 petani yang menjadi peserta program. Berdasarkan metode pengumpulannya, data yang diperoleh PT Agro Lestari termasuk…

A. Data Sekunder dari sumber eksternal
B. Data Primer yang dikumpulkan melalui web scraping
C. Data Sekunder yang dikumpulkan melalui observasi
D. Data Primer yang dikumpulkan melalui survei

Jawaban: D. Data yang dikumpulkan langsung dari responden asli (petani peserta program) untuk tujuan spesifik penelitian perusahaan merupakan data primer, dan kuesioner adalah instrumen survei.

22. Seorang mahasiswa memanfaatkan data dari Badan Meteorologi, Klimatologi, dan Geofisika (BMKG) yang dipublikasikan secara terbuka di situs resmi untuk menganalisis pola curah hujan. Data BMKG tersebut dikategorikan sebagai…

A. Data Primer yang diperoleh melalui observasi langsung
B. Data Sekunder yang diperoleh melalui web scraping
C. Data Primer yang berasal dari API
D. Data Sekunder yang berasal dari sumber publik

Jawaban: D. Data BMKG yang telah dikumpulkan sebelumnya oleh pihak lain dan dipublikasikan untuk digunakan kembali oleh peneliti merupakan data sekunder, dan situs resmi yang menyediakan akses publik menjadikannya sumber publik atau open data.

23. Sebuah perusahaan jasa keuangan ingin memantau berita terkini tentang regulasi industri secara otomatis dari berbagai portal berita. Tim data perlu mengekstrak judul, tanggal, dan isi berita dari halaman HTML portal berita setiap hari. Metode yang paling tepat untuk kebutuhan tersebut adalah…

A. Menggunakan API resmi dari setiap portal berita
B. Menerapkan web scraping pada halaman portal berita
C. Mengunduh dataset publik dari situs pemerintah
D. Menyebarkan survei kepada tim redaksi portal berita

Jawaban: B. Web scraping adalah teknik mengekstrak data secara otomatis dari halaman web dengan mengurai konten HTML, tepat digunakan ketika data tidak disediakan melalui API atau dataset publik terstruktur.

24. Budi sedang mengerjakan proyek analisis sentimen media sosial. Ia menggunakan API Twitter untuk mengumpulkan data tweet secara terstruktur dalam format JSON. Keunggulan utama menggunakan API dibandingkan web scraping dalam konteks ini adalah…

A. API memungkinkan scraping halaman yang tidak memiliki struktur HTML
B. API tidak memerlukan koneksi internet untuk mengambil data
C. API menyediakan akses terprogram yang legal dan terstruktur sesuai aturan platform
D. API dapat mengekstrak data dari semua situs web tanpa otentikasi

Jawaban: C. API menyediakan antarmuka resmi yang legal, terdokumentasi, dan terstruktur untuk mengakses data platform, berbeda dengan web scraping yang bergantung pada penguraian HTML dan berpotensi melanggar ketentuan layanan.

25. Seorang peneliti sosial ingin memahami interaksi alami antara pedagang dan pembeli di pasar tradisional tanpa memengaruhi perilaku mereka. Ia hadir di lokasi pasar dan mencatat pola komunikasi serta transaksi secara sistematis. Metode pengumpulan data yang digunakan peneliti tersebut adalah…

A. Survei dengan kuesioner terstruktur
B. Web scraping data harga pasar
C. Observasi dalam setting alami
D. Wawancara mendalam dengan pedagang

Jawaban: C. Observasi adalah metode pengumpulan data dengan mengamati dan mencatat perilaku subjek dalam setting alami tanpa intervensi, berbeda dari survei yang mengajukan pertanyaan langsung atau wawancara yang bersifat interaktif.

26. Sebuah perusahaan memiliki data transaksi harian yang tersimpan dalam basis data relasional dan digunakan untuk operasional sehari-hari. Manajemen juga membutuhkan sistem terpisah yang mengintegrasikan data historis dari berbagai departemen untuk pelaporan analitis jangka panjang. Sistem penyimpanan yang paling tepat untuk kebutuhan analitis tersebut adalah…

A. Data Warehouse untuk kueri analitis dan pelaporan
B. Data Lake untuk menyimpan data mentah
C. Basis Data Relasional untuk pemrosesan transaksi
D. Sistem file terdistribusi untuk akses real-time

Jawaban: A. Data Warehouse dirancang khusus untuk mengintegrasikan data historis dari berbagai sumber, dioptimalkan untuk kueri analitis dan pelaporan bisnis, berbeda dari basis data relasional yang dioptimalkan untuk transaksi operasional.

27. Sebuah startup teknologi mengumpulkan data sensor IoT, log server, dan unggahan media sosial dalam format aslinya yang beragam. Mereka membutuhkan repositori fleksibel untuk menyimpan seluruh data mentah tanpa transformasi dulu. Jenis penyimpanan yang sesuai adalah…

A. Data Lake yang menyimpan data mentah apa adanya
B. Data Warehouse yang mentransformasi data
C. Basis Data Relasional dengan skema kaku
D. Cache memory untuk akses cepat

Jawaban: A. Data Lake menyimpan data mentah dalam format aslinya tanpa memerlukan transformasi terlebih dahulu, cocok untuk menampung berbagai tipe data dengan volume besar sebelum diproses lebih lanjut.

28. Perbedaan utama antara basis data relasional dan non-relasional (NoSQL) terletak pada aspek struktur penyimpanan data. Pernyataan yang paling tepat menggambarkan perbedaan tersebut adalah…

A. Basis data relasional menggunakan tabel dengan skema fleksibel, sedangkan NoSQL mengharuskan skema tetap
B. Basis data relasional menggunakan tabel dengan skema tetap dan relasi kunci, sedangkan NoSQL mendukung berbagai model data tanpa skema kaku
C. Basis data relasional hanya menyimpan data tidak terstruktur, sedangkan NoSQL menyimpan data terstruktur
D. Basis data relasional tidak mendukung SQL, sedangkan NoSQL selalu mendukung SQL

Jawaban: B. Basis data relasional menyimpan data dalam tabel-tabel dengan skema tetap yang saling berelasi melalui kunci dan mendukung SQL, sedangkan basis data non-relasional mendukung berbagai model data yang lebih fleksibel tanpa skema kaku.

29. Data Warehouse dan Data Lake sering digunakan dalam arsitektur big data. Manajer TI sebuah perusahaan perlu memahami kapan menggunakan masing-masing. Karakteristik yang membedakan Data Warehouse dari Data Lake adalah…

A. Data Warehouse menyimpan data yang telah diproses dan terstruktur untuk analisis, sedangkan Data Lake menyimpan data mentah dalam format asli
B. Data Warehouse menyimpan data mentah, sedangkan Data Lake mentransformasi data lebih dulu
C. Data Warehouse hanya menyimpan data tidak terstruktur, sedangkan Data Lake khusus untuk data terstruktur
D. Data Warehouse berkapasitas lebih besar dari Data Lake untuk big data

Jawaban: A. Data Warehouse menyimpan data yang telah melalui proses ETL dan terstruktur siap analisis, sementara Data Lake menyimpan data mentah dalam berbagai format asli tanpa pemrosesan awal.

30. Konsep Big Data dicirikan oleh tiga dimensi utama yang dikenal sebagai tiga V. Sebuah perusahaan telekomunikasi menerima miliaran catatan panggilan setiap hari (volume), dalam format teks, suara, dan data lokasi (variasi), yang harus diproses seketika untuk deteksi penipuan (kecepatan). Dimensi yang dijelaskan dalam kurung secara berurutan adalah…

A. Volume, Veracity, Velocity
B. Variety, Volume, Value
C. Volume, Variety, Velocity
D. Velocity, Volume, Variety

Jawaban: C. Tiga V dalam Big Data adalah Volume (jumlah data sangat besar), Variety (beragam format data), dan Velocity (kecepatan data dihasilkan dan perlu diproses), sesuai dengan deskripsi yang diberikan.

31. Siti baru memulai belajar Python untuk sains data. Ia ingin menulis dan menjalankan kode analisis secara interaktif, menyisipkan visualisasi, serta menambahkan catatan naratif dalam satu dokumen yang dapat dibagikan. Lingkungan pengembangan yang paling sesuai untuk Siti adalah…

A. Jupyter Notebook
B. PyCharm IDE
C. Terminal Python biasa
D. Notepad dengan ekstensi Python

Jawaban: A. Jupyter Notebook adalah lingkungan pengembangan interaktif berbasis web yang memungkinkan penggabungan kode, visualisasi, dan teks naratif dalam satu dokumen yang dapat dibagikan, sangat cocok untuk analisis data eksploratif.

32. Dalam Python, seorang mahasiswa perlu memilih struktur data yang dapat menyimpan pasangan kunci-nilai untuk merepresentasikan atribut mahasiswa seperti NIM, nama, dan IPK. Struktur data yang paling tepat adalah…

A. List, karena dapat menyimpan elemen berurutan
B. Tuple, karena bersifat immutable
C. Set, karena menjamin keunikan elemen
D. Dictionary, karena mendukung akses berbasis kunci unik

Jawaban: D. Dictionary adalah struktur data Python yang menyimpan pasangan kunci-nilai (key-value pair), ideal untuk merepresentasikan atribut dengan kunci unik seperti NIM dan nilainya seperti nama dan IPK.

33. Seorang data scientist ingin melakukan komputasi numerik pada matriks berukuran 10.000 × 10.000 secara efisien, termasuk operasi aljabar linear seperti perkalian matriks dan dekomposisi nilai singular. Pustaka Python yang paling tepat untuk tugas ini adalah…

A. Pandas, karena menyediakan DataFrame untuk data tabular
B. Scikit-learn, karena menyediakan algoritma machine learning
C. Matplotlib, karena mendukung visualisasi matriks
D. NumPy, karena menyediakan array multidimensi berkinerja tinggi

Jawaban: D. NumPy adalah pustaka Python yang menyediakan objek array multidimensi berkinerja tinggi dan fungsi-fungsi matematika untuk operasi aljabar linear, dioptimalkan untuk komputasi numerik pada matriks besar.

34. Seorang analis data bekerja dengan dataset penjualan yang terdiri dari 50.000 baris dan 15 kolom. Ia perlu melakukan operasi seperti filter data berdasarkan kondisi, agregasi per kategori produk, dan perhitungan statistik deskriptif. Pustaka Python yang menyediakan struktur data utama untuk keperluan ini adalah…

A. NumPy yang menyediakan array homogen
B. Seaborn yang menyediakan fungsi visualisasi statistik
C. Pandas yang menyediakan DataFrame untuk data tabular heterogen
D. Scipy yang menyediakan fungsi komputasi ilmiah

Jawaban: C. Pandas menyediakan struktur data DataFrame yang dirancang khusus untuk manipulasi dan analisis data tabular heterogen, dengan fungsi seleksi, filter, agregasi, dan statistik deskriptif yang ekspresif.

35. Seorang mahasiswa baru mengenal Python dan ingin mengeksekusi kode secara interaktif, blok per blok, sambil mencatat observasi dan menampilkan grafik di satu kanvas. Lingkungan pengembangan yang paling sesuai dengan kebutuhannya adalah…

A. Sublime Text
B. PyCharm
C. Jupyter Notebook
D. Terminal Python

Jawaban: C. Jupyter Notebook menyediakan lingkungan interaktif berbasis web yang mengintegrasikan kode, visualisasi, dan teks naratif dalam satu dokumen.

36. Seorang analis data memiliki DataFrame df dengan kolom 'Nama', 'Usia', 'Kota', dan 'Penghasilan'. Ia ingin mengambil subset 10 baris pertama dan hanya kolom 'Nama' serta 'Penghasilan'. Metode Pandas yang paling efisien adalah…

A. df.iloc[0:10, [0, 2]]
B. df.iloc[1:10, [0, 3]]
C. df.loc[0:9, ['Nama', 'Penghasilan']]
D. df.loc[:9, ['Nama', 'Penghasilan']]

Jawaban: D. df.loc menggunakan label indeks. :9 berarti indeks 0 sampai 9 (10 baris pertama). Pemilihan kolom dengan daftar nama bersifat eksplisit.

37. PT Sentosa memiliki data penjualan dengan kolom 'Jumlah' yang mengandung sejumlah nilai kosong. Tim data ingin mempertahankan jumlah observasi namun mengisi kekosongan dengan nilai rata-rata kolom tersebut. Teknik yang diterapkan adalah…

A. Imputasi dengan mean
B. Penghapusan baris
C. Normalisasi min-max
D. Standardisasi z-score

Jawaban: A. Mengisi missing values dengan rata-rata adalah teknik imputasi yang mempertahankan jumlah observasi.

38. Anto menganalisis data transaksi dan perlu menghitung total penjualan per kategori produk. Ia menggunakan df.groupby('Kategori')['Penjualan'].sum() pada Pandas. Operasi ini termasuk jenis…

A. Agregasi data
B. Seleksi data
C. Normalisasi data
D. Pivot data

Jawaban: A. groupby yang diikuti fungsi sum menghitung statistik ringkasan per kelompok, yaitu operasi agregasi.

39. Seorang data scientist memiliki dua fitur numerik: 'Pendapatan' dalam jutaan rupiah dan 'Usia' dalam tahun. Ia ingin menskalakan kedua fitur sehingga memiliki rentang nilai yang sama untuk keperluan pemodelan KNN. Teknik yang tepat adalah…

A. Penghapusan outlier
B. Normalisasi min-max
C. Encoding one-hot
D. Seleksi fitur

Jawaban: B. Normalisasi min-max menskalakan fitur ke rentang tertentu (misal 0–1), menyamakan skala antar variabel numerik.

40. Seorang analis ingin memilih subset baris dari DataFrame berdasarkan indeks integer, bukan label indeks. Ia perlu mengambil baris ke-5 hingga ke-9 (inklusif). Metode dan sintaks yang tepat adalah…

A. df.iloc[5:9]
B. df.loc[5:9]
C. df.iloc[5:10]
D. df.loc[5:10]

Jawaban: C. iloc menggunakan posisi integer. Slicing [5:10] mengambil indeks 5 hingga 9 karena batas atas tidak inklusif.

41. Di R, seorang mahasiswa ingin menggunakan filosofi tidyverse untuk manipulasi data tabular. Fungsi dalam dplyr yang digunakan untuk memilih baris berdasarkan kondisi logika adalah…

A. select()
B. filter()
C. mutate()
D. arrange()

Jawaban: B. filter() menyeleksi baris yang memenuhi kondisi, select() untuk kolom, mutate() membuat variabel baru, arrange() mengurutkan.

42. Perbedaan utama antara Data Frame di R dan DataFrame di Pandas (Python) adalah…

A. Data Frame R adalah bawaan, DataFrame Pandas di pustaka eksternal
B. Data Frame R tidak bisa menyimpan tipe campuran
C. DataFrame Pandas hanya bisa menyimpan data numerik
D. Data Frame R tidak mendukung operasi pengelompokan

Jawaban: A. Data frame adalah struktur bawaan di R, sementara DataFrame adalah kelas dari pustaka Pandas yang harus diimpor.

43. Seorang pengguna R ingin membuat visualisasi statistik yang kompleks dengan deklarasi berbasis lapisan (layer grammar). Pustaka tidyverse yang paling sesuai adalah…

A. readr
B. dplyr
C. tidyr
D. ggplot2

Jawaban: D. ggplot2 mengimplementasikan grammar of graphics untuk membangun plot dari komponen-komponen lapisan.

44. Siti beralih dari Python ke R untuk proyek analisis datanya. Ia mencari lingkungan pengembangan yang menyediakan editor kode, konsol interaktif, panel visualisasi, dan manajemen paket dalam satu antarmuka. Pilihan yang tepat adalah…

A. R Console
B. Jupyter Notebook
C. VS Code
D. RStudio

Jawaban: D. RStudio adalah IDE khusus R yang mengintegrasikan berbagai alat pengembangan dalam satu antarmuka.

45. Seorang peneliti memilih R dibanding Python untuk analisis eksplorasi dan visualisasi statistik yang mendalam. Pertimbangan utama yang paling mendasari keputusan tersebut adalah…

A. R lebih cepat dalam komputasi numerik matriks besar
B. R memiliki ekosistem statistika yang lebih matang dan pustaka visualisasi khusus
C. R mendukung pemrograman berorientasi objek lebih baik
D. R hanya digunakan untuk data kecil

Jawaban: B. R dibangun oleh statistisi dengan repositori paket (CRAN) yang kaya akan metode statistika dan visualisasi seperti ggplot2.

46. Seorang dosen menampilkan ringkasan nilai ujian 100 mahasiswa: rata-rata 72, nilai tengah setelah diurutkan 78, dan nilai yang paling sering muncul 80. Dari ketiga ukuran tersebut, yang paling tidak terpengaruh oleh adanya satu mahasiswa dengan nilai 10 adalah…

A. Median
B. Mean
C. Modus
D. Standar deviasi

Jawaban: A. Median tidak terpengaruh oleh nilai ekstrem (outlier) karena hanya bergantung pada posisi tengah data yang telah diurutkan.

47. Dua kelas paralel memiliki rata-rata nilai ujian yang sama, yaitu 75. Namun, rentang nilai di kelas A sangat sempit (70–80) sedangkan di kelas B sangat lebar (40–100). Ukuran penyebaran yang paling tepat untuk mengkuantifikasi perbedaan ini dalam satuan yang sama dengan data asli adalah…

A. Rentang
B. Variansi
C. Standar deviasi
D. Modus

Jawaban: C. Standar deviasi mengukur sebaran dalam satuan yang sama dengan data, berbeda dengan variansi yang bersatuan kuadrat.

48. Seorang peneliti mengelompokkan data pendapatan 500 rumah tangga ke dalam 10 kelas interval dan menghitung jumlah rumah tangga di setiap kelas. Hasil pengelompokan ini disebut…

A. Distribusi frekuensi
B. Diagram pencar
C. Tabel kontingensi
D. Pivot table

Jawaban: A. Distribusi frekuensi menyajikan ringkasan data dengan mengelompokkan observasi ke dalam kelas interval disertai frekuensinya.

49. Dalam laporan tahunan, perusahaan menyajikan ukuran pemusatan data gaji karyawan. Jika distribusi gaji sangat menceng ke kanan (right-skewed) akibat beberapa eksekutif bergaji sangat tinggi, ukuran yang lebih rendah dari mean dan lebih representatif untuk mayoritas karyawan adalah…

A. Modus
B. Mean
C. Median
D. Standar deviasi

Jawaban: C. Pada distribusi menceng kanan, mean tertarik ke arah ekor kanan, sehingga median yang berada di posisi tengah lebih rendah dan representatif.

50. PT Cahaya mengukur waktu tunggu pelanggan di call center. Manager ingin mengetahui persentase panggilan yang dijawab dalam waktu kurang dari 2 menit. Jika waktu tunggu berdistribusi normal dengan mean 3 menit dan standar deviasi 1 menit, konsep yang digunakan untuk menghitung probabilitas waktu tunggu < 2 menit adalah…

A. Distribusi binomial
B. Distribusi normal kontinu
C. Distribusi Poisson
D. Distribusi seragam

Jawaban: B. Waktu tunggu adalah variabel kontinu dan dengan asumsi normal, menghitung probabilitas < 2 menit menggunakan distribusi normal dengan parameter μ=3, σ=1.

51. Seorang mahasiswa menyatakan bahwa "semakin banyak jam belajar, semakin tinggi nilai ujian" setelah melihat data bahwa siswa dengan jam belajar tinggi cenderung mendapat nilai tinggi. Kesimpulan yang tepat tentang pernyataan tersebut adalah…

A. Pernyataan menunjukkan tidak ada hubungan antar variabel
B. Pernyataan membuktikan kausalitas antara belajar dan nilai
C. Pernyataan adalah contoh uji hipotesis
D. Pernyataan menunjukkan korelasi, bukan hubungan sebab-akibat

Jawaban: D. Korelasi mengukur kekuatan hubungan linear, tetapi tidak membuktikan sebab-akibat. Bisa ada variabel perancu yang memengaruhi keduanya.

52. Seorang analis menghitung peluang seorang pasien sembuh setelah diberi obat tertentu dan menyimpulkan nilainya 0,85. Interpretasi yang tepat dari angka tersebut adalah…

A. setiap pasien memiliki kemungkinan 0,85 untuk sembuh
B. obat tersebut memiliki efektivitas 85% dalam jangka panjang
C. dari 100 pasien, pasti 85 akan sembuh
D. probabilitas kegagalan obat adalah 0,15

Jawaban: A. Probabilitas 0,85 berarti setiap individu dalam populasi memiliki peluang sebesar itu untuk sembuh, tanpa menjamin jumlah pasti dalam sampel tertentu.

53. Sebuah mesin produksi memiliki probabilitas menghasilkan cacat sebesar 0,05. Jika diambil 10 produk secara acak dan independen, distribusi yang tepat untuk memodelkan jumlah produk cacat adalah…

A. Distribusi Poisson karena menyangkut kejadian langka
B. Distribusi Normal karena sampel lebih dari satu
C. Distribusi Binomial karena terdapat jumlah percobaan tetap dengan dua hasil
D. Distribusi Eksponensial karena menyangkut waktu antar kejadian

Jawaban: C. Distribusi Binomial sesuai untuk n percobaan tetap, dua hasil (cacat/tidak), probabilitas tetap, dan independensi.

54. Suatu variabel acak kontinu X memiliki fungsi kepadatan probabilitas berbentuk lonceng simetris dengan mean 50 dan standar deviasi 8. Probabilitas X bernilai tepat 50 adalah…

A. 0,5 karena mean adalah titik tengah distribusi
B. 0 karena pada distribusi kontinu probabilitas titik tunggal adalah nol
C. 1,0 karena mean pasti terjadi pada distribusi normal
D. 0,3989 karena nilai fungsi kepadatan pada mean

Jawaban: B. Pada distribusi kontinu, probabilitas diukur pada interval, bukan titik. Probabilitas pada satu titik tunggal selalu nol.

55. Dua dadu setimbang dilempar bersamaan. Seorang pemain ingin menghitung nilai rata-rata jumlah mata dadu dalam jangka panjang. Konsep yang digunakan adalah…

A. median karena distribusi jumlah mata dadu simetris
B. nilai ekspektasi karena menghitung rata-rata tertimbang seluruh kemungkinan
C. modus karena nilai tengah distribusi akan paling sering muncul
D. standar deviasi karena mengukur penyebaran jumlah mata dadu

Jawaban: B. Nilai ekspektasi adalah rata-rata tertimbang dari semua nilai yang mungkin, dengan bobot berupa probabilitas masing-masing nilai.

56. Tim peneliti ingin mengestimasi rata-rata tinggi badan mahasiswa di seluruh Indonesia. Mereka mengukur 400 mahasiswa dari 10 universitas dan memperoleh rata-rata 165 cm. Dalam konteks ini, 165 cm merupakan…

A. parameter populasi karena dihitung dari data lapangan
B. hipotesis nol karena akan diuji kebenarannya
C. statistik sampel karena dihitung dari subset populasi
D. interval kepercayaan karena berada dalam rentang estimasi

Jawaban: C. 165 cm merupakan statistik sampel karena dihitung dari subset populasi (400 mahasiswa), bukan dari seluruh mahasiswa di Indonesia.

57. Seorang peneliti menguji efektivitas metode belajar baru. Ia menetapkan hipotesis nol bahwa metode baru tidak meningkatkan nilai dibanding metode lama. Setelah uji statistik, diperoleh nilai-p sebesar 0,03 dengan taraf signifikansi 0,05. Keputusan yang tepat adalah…

A. gagal menolak hipotesis nol karena nilai-p lebih kecil dari 0,05
B. mengulang eksperimen karena hasilnya tidak meyakinkan
C. menerima hipotesis alternatif tanpa syarat karena nilai-p di bawah 0,05
D. menolak hipotesis nol karena nilai-p lebih kecil dari taraf signifikansi

Jawaban: D. Nilai-p < α menunjukkan bukti cukup kuat melawan H0, sehingga H0 ditolak dan disimpulkan ada perbedaan signifikan.

58. Dalam penelitian hubungan antara konsumsi kopi dan tekanan darah, peneliti menghitung koefisien korelasi Pearson r = 0,72. Kesimpulan yang tepat tentang temuan ini adalah…

A. konsumsi kopi menyebabkan peningkatan tekanan darah
B. tekanan darah menyebabkan peningkatan konsumsi kopi
C. tidak ada hubungan antara konsumsi kopi dan tekanan darah
D. terdapat hubungan linear positif yang cukup kuat antara kedua variabel

Jawaban: D. Korelasi mengukur kekuatan dan arah hubungan linear, tetapi tidak membuktikan hubungan sebab-akibat.

59. Sebuah survei melaporkan interval kepercayaan 95% untuk rata-rata pendapatan bulanan penduduk desa adalah Rp2.500.000 hingga Rp3.100.000. Interpretasi yang paling akurat adalah…

A. 95% penduduk desa memiliki pendapatan dalam rentang tersebut
B. jika survei diulang 100 kali, sekitar 95 interval akan memuat rata-rata populasi
C. rata-rata pendapatan populasi pasti berada dalam rentang tersebut
D. probabilitas rata-rata populasi berada dalam rentang itu adalah 0,95

Jawaban: B. Interval kepercayaan 95% berarti dalam pengambilan sampel berulang, 95% interval yang dihasilkan akan mengandung parameter populasi.

60. Seorang peneliti menguji apakah rata-rata nilai ujian kelas A lebih tinggi dari kelas B. Hipotesis alternatifnya adalah μ_A > μ_B. Jenis uji yang digunakan adalah…

A. uji dua arah karena membandingkan dua kelompok
B. uji non-parametrik karena data berasal dari dua kelas berbeda
C. uji satu arah karena hipotesis menunjukkan arah spesifik
D. uji korelasi karena membandingkan dua variabel

Jawaban: C. Uji satu arah digunakan ketika hipotesis alternatif menyatakan arah perbedaan secara spesifik, yaitu lebih besar atau lebih kecil.

61. Andi sedang melakukan analisis awal pada dataset harga rumah. Ia membuat ringkasan statistik yang terdiri dari nilai minimum 150 juta, kuartil pertama 280 juta, median 450 juta, kuartil ketiga 720 juta, dan maksimum 2,5 miliar. Ringkasan yang dibuat Andi dikenal sebagai…

A. ringkasan lima angka yang menjadi dasar pembuatan boxplot
B. ukuran pemusatan karena hanya menggunakan mean dan median
C. distribusi frekuensi karena mengelompokkan data ke kelas interval
D. standar deviasi karena menghitung penyebaran data

Jawaban: A. Ringkasan lima angka terdiri dari minimum, Q1, median, Q3, dan maksimum, dan digunakan untuk membuat boxplot dalam EDA.

62. Siti memeriksa dataset transaksi e-commerce dan menemukan satu transaksi dengan jumlah pembelian 5000 unit dalam sehari, sementara transaksi lainnya berkisar 1–50 unit. Langkah pertama yang paling tepat dalam EDA untuk menangani data tersebut adalah…

A. langsung menghapus data tersebut karena pasti kesalahan input
B. mengabaikannya karena hanya satu data yang tidak normal
C. menggantinya dengan rata-rata transaksi harian
D. menyelidiki lebih lanjut apakah data tersebut valid atau anomali

Jawaban: D. Outlier harus diselidiki terlebih dahulu untuk menentukan apakah merupakan kesalahan input, kejadian langka, atau memang variasi data yang valid.

63. PT Logistik Nusantara memiliki data pengiriman paket dari 15 cabang. Manajer ingin mengetahui pola hubungan antara jarak tempuh dan waktu pengiriman sebelum membangun model prediksi. Dalam EDA, pendekatan yang paling sesuai untuk tujuan ini adalah…

A. analisis univariat dengan histogram waktu pengiriman
B. deteksi outlier pada variabel jarak tempuh saja
C. analisis distribusi frekuensi jumlah paket per cabang
D. analisis bivariat menggunakan scatter plot jarak vs waktu

Jawaban: D. Hubungan antara dua variabel numerik dieksplorasi dengan analisis bivariat, salah satunya melalui scatter plot.

64. Seorang data scientist menghasilkan beberapa visualisasi dalam tahap EDA, termasuk histogram, boxplot, dan ringkasan statistik. Ia menemukan distribusi data miring kanan dan beberapa outlier. Tindakan yang paling tepat berdasarkan temuan EDA tersebut adalah…

A. mendokumentasikan temuan dan mempertimbangkan transformasi data atau metode yang robust terhadap outlier
B. menghapus outlier agar distribusi menjadi normal dan langsung membangun model
C. mengabaikan outlier karena jumlahnya sedikit dan langsung menggunakan model parametrik
D. mengganti semua outlier dengan mean agar distribusi menjadi simetris

Jawaban: A. Temuan EDA digunakan untuk menginformasikan langkah selanjutnya, seperti memilih transformasi atau metode yang sesuai dengan karakteristik data, bukan menghapus data tanpa pertimbangan.

65. Dalam EDA, seorang analis membandingkan distribusi pendapatan pelanggan di kota A dan kota B menggunakan dua boxplot berdampingan. Tujuan utama analisis ini adalah…

A. membandingkan pemusatan, penyebaran, dan keberadaan outlier antar kedua kota
B. mengidentifikasi outlier pada masing-masing kota secara terpisah
C. menghitung rata-rata pendapatan kedua kota untuk laporan akhir
D. menguji secara statistik apakah rata-rata pendapatan kedua kota berbeda

Jawaban: A. Boxplot berdampingan memungkinkan perbandingan visual pemusatan, penyebaran, dan outlier antara dua kelompok dalam analisis multivariat.

66. Seorang analis ingin menampilkan distribusi frekuensi nilai ujian 200 siswa menggunakan Python. Ia memilih pustaka Matplotlib dan fungsi hist() untuk membuat grafik batang yang saling bersentuhan. Jenis visualisasi yang dihasilkan adalah…

A. bar chart untuk membandingkan frekuensi antar kategori
B. scatter plot untuk menunjukkan sebaran nilai ujian
C. histogram untuk menampilkan distribusi data numerik dalam interval
D. boxplot untuk menampilkan ringkasan lima angka

Jawaban: C. Histogram menampilkan distribusi frekuensi data numerik dengan batang yang saling bersentuhan, menunjukkan interval-interval data.

67. PT Pangan Sejahtera memiliki data penjualan bulanan 12 produk selama 3 tahun. Direktur ingin melihat pola penjualan setiap produk dari waktu ke waktu. Jenis visualisasi yang paling efektif adalah…

A. scatter plot antara volume dan harga setiap produk
B. line plot penjualan bulanan untuk setiap produk
C. histogram total penjualan seluruh produk per bulan
D. pie chart proporsi penjualan setiap produk

Jawaban: B. Line plot cocok untuk menampilkan data time series, menunjukkan tren dan pola penjualan setiap produk dari waktu ke waktu.

68. Seorang analis data membandingkan penggunaan Matplotlib dan Seaborn untuk membuat visualisasi. Ia perlu membuat grafik yang menampilkan hubungan antara tiga variabel numerik sekaligus: pendapatan, pengeluaran, dan usia dalam satu tampilan. Pustaka yang lebih efisien dan fungsi yang tepat adalah…

A. Seaborn dengan fungsi scatterplot() yang mendukung parameter hue untuk variabel ketiga
B. Matplotlib dengan fungsi scatter() karena dapat mengatur ukuran titik
C. Matplotlib dengan fungsi plot() karena lebih fleksibel untuk multi-variabel
D. Seaborn dengan fungsi histplot() karena dapat menampilkan distribusi tiga variabel

Jawaban: A. Fungsi scatterplot pada Seaborn memiliki parameter hue yang memungkinkan pemetaan variabel ketiga melalui warna, sehingga efisien untuk visualisasi tiga variabel numerik.

69. Seorang analis data membuat visualisasi dengan Matplotlib dan perlu menambahkan judul, label sumbu, serta legenda secara manual melalui kode eksplisit. Ia kemudian mencoba Seaborn dan mendapati bahwa untuk dataset Pandas, elemen-elemen tersebut otomatis ditambahkan. Perbedaan teknis yang mendasari perilaku ini adalah…

A. Seaborn memiliki integrasi bawaan dengan Pandas sedangkan Matplotlib tidak
B. Matplotlib tidak mendukung legenda otomatis pada semua jenis grafik
C. Matplotlib hanya mendukung array NumPy bukan DataFrame Pandas
D. Seaborn menggunakan antarmuka tingkat tinggi berbasis fungsi plotting statistik

Jawaban: D. Seaborn dirancang sebagai antarmuka tingkat tinggi di atas Matplotlib yang secara otomatis menangani elemen dekoratif grafik berdasarkan struktur DataFrame, sedangkan Matplotlib memberikan kendali penuh sehingga setiap elemen harus ditentukan manual.

70. Seorang peneliti ingin membandingkan hubungan antara tiga variabel numerik: pendapatan, pengeluaran, dan usia dalam satu tampilan visual. Ia memilih menggunakan scatter plot dengan variasi warna titik berdasarkan kategori usia. Pustaka Python yang menyediakan fungsi paling praktis untuk membuat visualisasi tersebut dalam satu baris perintah adalah…

A. Matplotlib melalui fungsi scatter() dengan parameter c
B. Seaborn melalui fungsi lineplot() dengan parameter style
C. Matplotlib melalui fungsi plot() dengan parameter color
D. Seaborn melalui fungsi scatterplot() dengan parameter hue

Jawaban: D. Seaborn.scatterplot() mendukung parameter hue untuk menambahkan dimensi ketiga melalui warna secara langsung, sementara Matplotlib membutuhkan pengaturan tambahan untuk mencapai hasil serupa.

71. Sebuah tim data science di PT Nusa Retail membangun dasbor untuk memantau metrik penjualan harian, jumlah pelanggan baru, dan tingkat retensi secara real-time. Direktur pemasaran dapat mengeklik grafik untuk memperbesar periode tertentu dan melihat detail angka dengan hover. Komponen teknologi utama yang memungkinkan interaktivitas tersebut adalah…

A. Data Warehouse yang menyimpan data terstruktur
B. Sistem manajemen basis data relasional
C. Pustaka visualisasi interaktif seperti Plotly
D. Algoritma pembelajaran mesin untuk prediksi

Jawaban: C. Plotly menghasilkan grafik berbasis web yang mendukung zoom, pan, dan hover interaktif, menjadikannya fondasi dasbor interaktif. Komponen lain tidak menyediakan fitur visualisasi interaktif.

72. Budi mempresentasikan temuan analisis data penjualan kepada dewan direksi. Ia tidak hanya menampilkan grafik dan angka, tetapi juga membangun alur narasi: mengawali dengan tantangan bisnis, menunjukkan pola data yang relevan, lalu menyimpulkan dengan rekomendasi aksi yang konkret. Praktik yang diterapkan Budi dikenal sebagai…

A. Exploratory Data Analysis
B. Data Storytelling
C. Data Visualization
D. Dashboard Development

Jawaban: B. Data storytelling adalah praktik menyusun narasi koheren berbasis data dan visualisasi untuk menyampaikan wawasan secara persuasif, berbeda dari sekadar menampilkan grafik atau membangun dasbor.

73. Perbedaan mendasar antara visualisasi statis dan visualisasi interaktif dalam konteks penyampaian temuan data adalah…

A. Visualisasi statis hanya menggunakan Matplotlib, interaktif hanya menggunakan Plotly
B. Visualisasi interaktif memungkinkan eksplorasi data oleh audiens secara mandiri
C. Visualisasi statis tidak dapat menampilkan data time series
D. Visualisasi interaktif selalu lebih akurat daripada visualisasi statis

Jawaban: B. Ciri utama visualisasi interaktif adalah kemampuannya memberi audiens kendali untuk mengeksplorasi data melalui zoom, filter, atau hover, sementara visualisasi statis menyajikan tampilan tetap.

74. Siti merancang dasbor data untuk memantau performa cabang-cabang perusahaan logistik. Ia menyertakan peta persebaran cabang, grafik batang volume pengiriman, dan indikator angka waktu pengiriman rata-rata dalam satu layar. Prinsip utama yang mendasari penyatuan berbagai metrik dalam satu dasbor adalah…

A. Menyajikan indikator kinerja utama secara terpadu untuk pemantauan cepat
B. Mengurangi kebutuhan penyimpanan data
C. Menggantikan semua laporan tertulis perusahaan
D. Memastikan semua data telah dinormalisasi

Jawaban: A. Dasbor menyatukan berbagai indikator kinerja kunci dalam satu tampilan agar pengambil keputusan dapat memantau kondisi terkini secara efisien tanpa harus membuka banyak laporan terpisah.

75. Dalam mempersiapkan presentasi hasil analisis untuk audiens non-teknis, seorang data scientist memutuskan untuk menyembunyikan detail teknis pemodelan dan hanya menampilkan visualisasi yang menjawab pertanyaan bisnis. Keputusan ini paling mencerminkan prinsip…

A. Kompleksitas model harus selalu ditampilkan
B. Visualisasi statis lebih baik untuk audiens non-teknis
C. Data storytelling menyesuaikan narasi dengan audiens
D. Dasbor hanya cocok untuk tim teknis

Jawaban: C. Data storytelling menekankan penyampaian wawasan yang disesuaikan dengan kebutuhan dan pemahaman audiens, termasuk menyederhanakan detail teknis untuk audiens non-teknis.

76. Sebuah tim riset mengembangkan model yang dapat membedakan email spam dan non-spam dengan mempelajari pola dari 10.000 email yang telah diberi label. Jenis pembelajaran mesin yang digunakan tim tersebut adalah…

A. Pembelajaran Penguatan
B. Pembelajaran Tak Terawasi
C. Pembelajaran Semi-Terawasi
D. Pembelajaran Terawasi

Jawaban: D. Pembelajaran terawasi menggunakan data berlabel untuk melatih model memetakan input ke output yang diinginkan, seperti klasifikasi email spam dengan label yang sudah diketahui.

77. Seorang data scientist melatih model untuk memprediksi harga rumah. Model menunjukkan akurasi 98% pada data training tetapi hanya 62% pada data testing. Kondisi yang dialami model tersebut adalah…

A. Underfitting, karena model terlalu sederhana
B. Overfitting, karena model terlalu pas dengan data training
C. Bias tinggi, karena model tidak menangkap pola
D. Variansi rendah, karena model stabil pada data baru

Jawaban: B. Overfitting terjadi ketika model mempelajari derau pada data training sehingga gagal menggeneralisasi pada data baru, ditandai dengan performa training sangat tinggi namun testing rendah.

78. Perbedaan esensial antara bias dan variansi dalam konteks pembelajaran mesin adalah…

A. Bias selalu lebih berbahaya daripada variansi
B. Bias mengukur kesalahan karena asumsi model yang salah, variansi mengukur sensitivitas model terhadap data training
C. Bias terjadi pada data testing, variansi terjadi pada data training
D. Bias hanya relevan pada regresi, variansi hanya relevan pada klasifikasi

Jawaban: B. Bias mencerminkan kesalahan dari asumsi yang terlalu sederhana dalam model, sementara variansi menunjukkan seberapa besar model berubah jika dilatih pada subset data yang berbeda.

79. Dalam proyek pembelajaran mesin, tim data membagi dataset menjadi tiga bagian: 60% untuk training, 20% untuk validasi, dan 20% untuk testing. Fungsi utama dari data validasi adalah…

A. Menyetel hyperparameter model tanpa menyentuh data testing
B. Melatih model dengan lebih banyak data
C. Menggantikan data testing jika dataset terlalu kecil
D. Mengevaluasi performa akhir model sebelum deployment

Jawaban: A. Data validasi digunakan untuk tuning hyperparameter selama pengembangan model, menjaga data testing tetap murni untuk evaluasi akhir generalisasi model.

80. PT Sejahtera menggunakan algoritma yang menemukan sendiri kelompok pelanggan dengan perilaku belanja serupa tanpa label dari data historis. Algoritma ini mendeteksi tiga segmen pelanggan yang sebelumnya tidak diketahui tim pemasaran. Jenis pembelajaran mesin yang diterapkan adalah…

A. Pembelajaran Terawasi untuk klasifikasi
B. Pembelajaran Terawasi untuk regresi
C. Pembelajaran Penguatan untuk optimasi
D. Pembelajaran Tak Terawasi untuk klastering

Jawaban: D. Pembelajaran tak terawasi menemukan struktur tersembunyi dalam data tanpa label, seperti mengelompokkan pelanggan ke segmen-segmen alami melalui klastering.

81. Seorang analis ingin memprediksi probabilitas seorang nasabah gagal bayar kredit berdasarkan pendapatan, usia, dan jumlah tanggungan. Variabel target berupa status gagal bayar atau lancar. Algoritma yang paling tepat untuk kasus ini adalah…

A. Regresi Linear
B. K-Nearest Neighbor
C. Regresi Logistik
D. Decision Tree untuk regresi

Jawaban: C. Regresi logistik dirancang untuk memprediksi probabilitas kelas biner menggunakan fungsi sigmoid, cocok untuk masalah klasifikasi seperti gagal bayar atau tidak.

82. Dalam dataset deteksi penipuan kartu kredit, hanya 0,5% transaksi yang tergolong penipuan (kelas positif) dan 99,5% transaksi normal. Seorang data scientist mengevaluasi modelnya. Metrik yang paling informatif untuk mengukur performa pada kelas penipuan adalah…

A. F1-Score
B. Presisi saja
C. Recall saja
D. Akurasi total model

Jawaban: A. F1-Score merupakan rata-rata harmonik presisi dan recall, memberikan gambaran seimbang pada dataset dengan ketidakseimbangan kelas yang ekstrem, di mana akurasi bisa menyesatkan.

83. Seorang data scientist menggunakan algoritma K-Nearest Neighbor dengan K=1 untuk klasifikasi. Model ini cenderung memiliki karakteristik…

A. Bias tinggi dan variansi rendah
B. Bias tinggi dan variansi tinggi
C. Bias rendah dan variansi tinggi
D. Bias rendah dan variansi rendah

Jawaban: C. K=1 membuat model sangat fleksibel mengikuti setiap titik data training (bias rendah), tetapi sangat sensitif terhadap perubahan data training (variansi tinggi), sehingga rentan overfitting.

84. PT Transport Cepat ingin memprediksi jumlah penumpang harian berdasarkan data historis. Tim data menggunakan model yang menghasilkan persamaan: jumlah_penumpang = 500 + 2,5 × jumlah_bus – 0,3 × cuaca_hujan. Algoritma yang digunakan adalah…

A. Regresi Linear
B. Decision Tree
C. Regresi Logistik
D. K-Nearest Neighbor

Jawaban: A. Regresi linear memodelkan hubungan linear antara variabel independen dan variabel dependen kontinu dalam bentuk persamaan garis, sesuai dengan output berupa prediksi numerik jumlah penumpang.

85. Seorang data scientist menggunakan pustaka Python tertentu untuk menerapkan regresi logistik pada dataset yang memiliki 20 fitur numerik. Ia ingin memastikan bahwa seluruh fitur berada pada skala yang sebanding agar koefisien model tidak didominasi oleh fitur dengan magnitudo besar. Transformasi data yang paling tepat sebelum pemodelan menggunakan pustaka tersebut adalah…

A. Menerapkan StandardScaler sehingga setiap fitur memiliki mean 0 dan variansi 1
B. Menerapkan OneHotEncoder untuk mengonversi seluruh fitur menjadi representasi biner
C. Menerapkan SimpleImputer dengan strategi median untuk mengisi nilai yang mungkin kosong
D. Menerapkan train_test_split dengan proporsi 70:30 tanpa penskalaan terlebih dahulu

Jawaban: A. StandardScaler menstandarkan fitur numerik ke distribusi dengan mean 0 dan variansi 1 sehingga setiap fitur memberikan kontribusi yang seimbang dalam algoritma berbasis jarak atau koefisien seperti regresi logistik.

86. Dalam Scikit-Learn, seorang praktisi membangun model klasifikasi dan ingin memperoleh estimasi performa yang lebih stabil dibandingkan membagi data sekali menjadi training dan testing. Ia menerapkan teknik yang membagi data menjadi 5 lipatan, di mana setiap lipatan bergiliran menjadi data uji. Teknik evaluasi yang dimaksud adalah…

A. Grid Search untuk mencari kombinasi hyperparameter terbaik
B. Train-test split tunggal dengan stratifikasi kelas target
C. Bootstrapping dengan pengambilan sampel acak tanpa pengembalian
D. 5-fold Cross-Validation yang merata-ratakan metrik dari seluruh iterasi lipatan

Jawaban: D. Cross-validation dengan 5 fold membagi data menjadi lima bagian dan setiap bagian bergiliran sebagai data uji, lalu metrik dari kelima iterasi dirata-ratakan untuk menghasilkan estimasi performa yang lebih stabil.

87. PT Logistik Nusantara memiliki dataset dengan kolom kategori 'Jenis_Kendaraan' yang berisi nilai 'Truk', 'Pickup', dan 'Motor'. Tim data ingin mengubah kolom tersebut menjadi representasi numerik untuk pemodelan tanpa menciptakan ordinalitas palsu antar kategori. Teknik encoding yang paling sesuai adalah…

A. Label Encoding yang memberikan nomor urut 0,1,2 pada setiap kategori
B. Normalisasi Min-Max pada kolom kategorikal untuk rentang 0 hingga 1
C. One-Hot Encoding yang menciptakan kolom biner terpisah untuk setiap kategori
D. Imputasi modus untuk mengganti kategori yang jarang muncul

Jawaban: C. One-Hot Encoding menciptakan kolom biner independen untuk setiap kategori tanpa mengimplikasikan urutan atau jarak numerik antar kategori, sehingga cocok untuk variabel nominal.

88. Seorang mahasiswa menggunakan Scikit-Learn dan ingin membangun model regresi. Ia membaca dokumentasi bahwa beberapa algoritma dalam pustaka ini mengasumsikan fitur berada dalam skala yang serupa. Ia mempertimbangkan dua scaler: StandardScaler dan MinMaxScaler. Perbedaan teknis antara kedua scaler tersebut terletak pada…

A. StandardScaler hanya bekerja pada variabel kategorikal, sedangkan MinMaxScaler pada variabel numerik
B. StandardScaler menggunakan mean dan standar deviasi, sedangkan MinMaxScaler menggunakan nilai minimum dan maksimum
C. MinMaxScaler menghasilkan distribusi normal, sedangkan StandardScaler menghasilkan distribusi seragam
D. StandardScaler selalu menghasilkan rentang [0,1], sedangkan MinMaxScaler menghasilkan rentang [-1,1]

Jawaban: B. StandardScaler mentransformasi data berdasarkan mean dan standar deviasi (z-score), sementara MinMaxScaler menskalakan data ke rentang tertentu menggunakan nilai minimum dan maksimum fitur.

89. Sebuah aplikasi rekrutmen otomatis secara sistematis memberikan skor lebih rendah kepada pelamar perempuan, meskipun kualifikasi mereka setara dengan pelamar laki-laki. Setelah ditelusuri, penyebabnya adalah data pelatihan yang didominasi oleh profil laki-laki sukses. Fenomena ini merupakan contoh dari…

A. Overfitting model terhadap pola data pelatihan yang terlalu spesifik
B. Underfitting karena model terlalu sederhana untuk menangkap pola
C. Bias algoritma akibat data pelatihan yang tidak representatif terhadap populasi
D. Pelanggaran prinsip keamanan data karena data pelamar bocor ke pihak luar

Jawaban: C. Bias algoritma terjadi ketika model menghasilkan keluaran yang tidak adil secara sistematis terhadap kelompok tertentu, seringkali disebabkan oleh data pelatihan yang tidak mewakili keberagaman populasi.

90. Seorang data scientist di Indonesia mengumpulkan data pribadi pengguna untuk membangun sistem rekomendasi. Ia menyadari bahwa praktiknya harus mematuhi regulasi yang memberikan hak kepada individu untuk mengakses, mengoreksi, dan menghapus data mereka. Regulasi di Indonesia yang paling relevan dengan kewajiban tersebut adalah…

A. GDPR yang diterbitkan oleh Uni Eropa dan berlaku secara global tanpa pengecualian
B. CCPA yang secara spesifik mengatur data pribadi konsumen di kawasan Asia Tenggara
C. HIPAA yang berfokus pada perlindungan data kesehatan di seluruh dunia
D. Undang-Undang Perlindungan Data Pribadi (UU PDP) Indonesia yang mengatur pemrosesan data pribadi

Jawaban: D. UU PDP merupakan regulasi Indonesia yang mengatur perlindungan data pribadi, termasuk hak subjek data untuk mengakses, mengoreksi, dan menghapus data mereka.

91. Perbedaan konseptual antara privasi data dan keamanan data sering kali menjadi sumber kebingungan. Pernyataan berikut yang paling akurat membedakan keduanya adalah…

A. Keamanan data memastikan data tidak pernah dikumpulkan, sedangkan privasi data mengatur enkripsi data saat transit
B. Privasi data hanya diterapkan pada data kesehatan, sedangkan keamanan data berlaku untuk semua jenis data
C. Privasi data berkaitan dengan kebijakan dan hak individu atas data mereka, sedangkan keamanan data berkaitan dengan perlindungan teknis terhadap akses tidak sah
D. Privasi data dan keamanan data adalah dua istilah yang sepenuhnya identik dan dapat dipertukarkan

Jawaban: C. Privasi data menyangkut hak individu untuk mengontrol penggunaan data pribadi mereka, sementara keamanan data berfokus pada perlindungan data dari akses, modifikasi, atau perusakan yang tidak sah.

92. Siti bekerja sebagai data scientist di sebuah perusahaan fintech. Ia menemukan bahwa tim produk menginstruksikan untuk menyembunyikan fakta bahwa model kredit mereka secara tidak proporsional menolak aplikasi dari wilayah tertentu. Secara etika profesi, tindakan Siti yang paling bertanggung jawab adalah…

A. Mengomunikasikan temuan bias tersebut secara transparan kepada pemangku kepentingan dan mendorong perbaikan model
B. Mengabaikan temuan tersebut agar tidak menimbulkan konflik internal dalam perusahaan
C. Mengikuti instruksi tim produk karena keputusan bisnis lebih diutamakan daripada temuan teknis
D. Membocorkan data internal perusahaan ke media untuk mengungkap praktik diskriminatif tersebut

Jawaban: A. Prinsip etika data menuntut transparansi dan akuntabilitas; menyampaikan temuan bias secara jujur dan mendorong perbaikan model adalah tindakan yang sesuai dengan tanggung jawab profesional.

93. PT Inovasi Digital memulai proyek sains data untuk mengurangi churn pelanggan. Tim proyek menggunakan metodologi terstruktur yang terdiri dari enam fase: pemahaman bisnis, pemahaman data, persiapan data, pemodelan, evaluasi, dan deployment. Metodologi yang diterapkan oleh tim tersebut adalah…

A. Agile Software Development yang menekankan iterasi cepat dan sprint mingguan
B. Waterfall Model yang mensyaratkan penyelesaian setiap tahap secara linear tanpa kembali
C. CRISP-DM yang merupakan standar lintas industri untuk proyek penambangan data
D. Design Thinking yang berpusat pada empati pengguna dan pembuatan purwarupa cepat

Jawaban: C. CRISP-DM (Cross-Industry Standard Process for Data Mining) terdiri dari enam fase seperti yang disebutkan dan merupakan metodologi baku untuk proyek sains data.

94. Seorang data scientist dan dua rekannya berkolaborasi mengembangkan kode analisis data. Mereka perlu melacak setiap perubahan yang dilakukan pada berkas kode, memungkinkan rollback ke versi sebelumnya jika terjadi kesalahan, dan bekerja secara paralel pada fitur yang berbeda. Alat yang paling fundamental untuk kebutuhan tersebut adalah…

A. GitHub, karena menyediakan hosting repositori dan antarmuka grafis untuk kolaborasi
B. Jupyter Notebook, karena memungkinkan penulisan kode dan dokumentasi dalam satu berkas
C. Google Drive, karena memungkinkan penyimpanan berkas secara daring dan berbagi tautan
D. Git, karena merupakan sistem kontrol versi terdistribusi yang melacak riwayat perubahan

Jawaban: D. Git adalah sistem kontrol versi yang secara fundamental melacak perubahan per berkas dan memungkinkan kolaborasi, rollback, serta penggabungan kode; GitHub adalah platform hosting yang menggunakan Git.

95. Setelah membangun model prediksi churn, tim data PT Seluler Nusantara harus menyampaikan hasilnya kepada direktur pemasaran yang tidak memiliki latar belakang teknis. Strategi komunikasi yang paling efektif adalah…

A. Menyajikan narasi yang menghubungkan temuan model dengan dampak bisnis, menggunakan visualisasi yang sederhana dan jelas
B. Menampilkan seluruh metrik evaluasi model termasuk AUC-ROC, confusion matrix, dan feature importance secara detail
C. Menyerahkan laporan teknis lengkap beserta kode Python agar direktur dapat memverifikasi sendiri hasilnya
D. Fokus menjelaskan algoritma yang digunakan secara matematis untuk menunjukkan kredibilitas tim teknis

Jawaban: A. Komunikasi hasil kepada audiens non-teknis harus fokus pada implikasi bisnis dan rekomendasi aksi, disampaikan dengan narasi yang mudah dipahami dan visualisasi yang intuitif.

96. Budi dan timnya mengerjakan proyek sains data selama tiga bulan. Mereka ingin mendokumentasikan seluruh keputusan analitis, perubahan kode, dan iterasi model secara sistematis. Praktik terbaik yang harus diterapkan tim Budi adalah…

A. Menyimpan seluruh berkas akhir saja dan menghapus versi lama untuk menghemat ruang penyimpanan
B. Menggunakan sistem kontrol versi dan menulis dokumentasi terstruktur untuk setiap keputusan dan perubahan signifikan
C. Mengandalkan komunikasi lisan dalam rapat mingguan sebagai dokumentasi utama proyek
D. Menunda dokumentasi hingga proyek selesai sepenuhnya agar tidak mengganggu alur kerja

Jawaban: B. Dokumentasi terstruktur dan kontrol versi memungkinkan reproduktibilitas, akuntabilitas, dan memudahkan anggota tim baru memahami riwayat proyek.

97. Sebuah perusahaan ritel ingin memahami mengapa penjualan menurun di kuartal terakhir. Sebelum mengumpulkan data, tim sains data harus merumuskan pertanyaan riset yang memandu seluruh proyek. Karakteristik pertanyaan riset yang baik adalah…

A. Bersifat umum dan terbuka agar semua kemungkinan penyebab dapat dieksplorasi tanpa batasan
B. Spesifik, terukur, dan secara langsung terkait dengan tujuan bisnis yang ingin dicapai
C. Fokus pada teknologi yang akan digunakan, bukan pada masalah bisnis yang mendasari
D. Dijawab dengan intuisi manajemen sebelum analisis data dilakukan untuk menghemat waktu

Jawaban: B. Pertanyaan riset yang baik harus spesifik, terukur, dan relevan terhadap masalah bisnis agar dapat memandu pengumpulan dan analisis data secara terarah.

98. Siti menemukan bahwa dataset yang akan digunakan untuk analisis memiliki beberapa masalah: terdapat baris duplikat, nilai yang tidak masuk akal (seperti usia 200 tahun), dan inkonsistensi format penulisan nama kota. Sebelum masuk ke tahap analisis, Siti melakukan proses identifikasi dan perbaikan terhadap data-data tersebut. Proses yang dilakukan Siti adalah…

A. Pengumpulan data dari berbagai sumber internal dan eksternal perusahaan
B. Analisis data eksploratif untuk menemukan pola dan outlier dalam dataset
C. Transformasi data dengan menskalakan seluruh fitur numerik ke rentang tertentu
D. Pembersihan data untuk memastikan akurasi, kelengkapan, dan konsistensi dataset

Jawaban: D. Pembersihan data melibatkan identifikasi dan perbaikan data yang tidak akurat, duplikat, tidak lengkap, atau tidak konsisten sebelum analisis dilakukan.

99. Setelah melalui tahap pemodelan, tim data PT Agro Nusantara memperoleh model prediksi hasil panen dengan R-squared 0,88 pada data testing. Manajer proyek bertanya apakah model tersebut layak diterapkan atau masih perlu diiterasi. Selain metrik statistika, tim harus mengevaluasi model berdasarkan…

A. Kecepatan komputasi model sebagai satu-satunya kriteria keberhasilan proyek
B. Kesesuaian hasil prediksi dengan target bisnis dan apakah model menjawab masalah yang dirumuskan di awal
C. Popularitas algoritma yang digunakan dalam komunitas sains data terkini
D. Jumlah baris kode yang ditulis untuk membangun dan menguji model tersebut

Jawaban: B. Evaluasi solusi data tidak hanya berdasarkan metrik teknis, tetapi juga kesesuaian dengan tujuan bisnis yang dirumuskan sejak awal proyek untuk menentukan kelayakan deployment.

100. Dalam presentasi akhir proyek sains data, seorang mahasiswa menyajikan urutan: latar belakang masalah, pertanyaan riset, metodologi pengumpulan data, proses pembersihan, model yang digunakan, evaluasi, dan rekomendasi. Ia menggunakan visualisasi yang relevan di setiap bagian. Struktur presentasi ini mencerminkan…

A. Dokumentasi seluruh siklus proyek sains data secara terstruktur untuk audiens yang beragam
B. Penyajian hanya hasil akhir tanpa menjelaskan proses yang dilalui dalam proyek
C. Fokus eksklusif pada aspek teknis pemodelan tanpa memperhatikan konteks bisnis
D. Pengabaian terhadap pentingnya rekomendasi karena dianggap di luar lingkup sains data

Jawaban: A. Presentasi proyek sains data yang baik mencakup seluruh siklus proyek secara terstruktur, dari perumusan masalah hingga rekomendasi, sehingga dapat dipahami oleh audiens teknis maupun non-teknis.

STDA4101 — Pengantar Sains Data

Latihan Tambahan dengan AI