MSIM4403 — Data Mining
1. Seorang analis data di perusahaan e-commerce melakukan proses ekstraksi pola pembelian pelanggan dari data transaksi menggunakan metode statistika dan machine learning. Aktivitas ini merupakan bagian dari tahapan yang lebih besar bernama…
- A. Data Mining
- B. Knowledge Discovery in Databases
- C. Online Analytical Processing
- D. Data Preprocessing
2. Berikut ini yang paling tepat menggambarkan hubungan antara Data Mining dan Knowledge Discovery in Databases (KDD)…
- A. KDD adalah salah satu teknik yang digunakan dalam Data Mining
- B. Data Mining dan KDD adalah dua istilah yang sepenuhnya identik
- C. Data Mining merupakan salah satu langkah dalam proses KDD
- D. KDD hanya berfokus pada visualisasi data, sedangkan Data Mining pada pemodelan
3. PT Logistik Nusantara menemukan bahwa 80% pelanggan yang membeli produk A juga membeli produk B dalam transaksi yang sama. Temuan ini dikategorikan sebagai…
- A. Pola data
- B. Visualisasi data
- C. Reduksi dimensi
- D. Model prediktif
4. Seorang mahasiswa mengklaim bahwa ia telah melakukan data mining hanya dengan menjalankan query SQL untuk menghitung rata-rata penjualan bulanan. Klaim tersebut keliru karena…
- A. SQL tidak dapat digunakan untuk data mining
- B. Query SQL hanya bisa digunakan pada data warehouse
- C. Data mining hanya bisa dilakukan dengan bahasa pemrograman Python
- D. Data mining mensyaratkan penemuan pola secara otomatis dari data, bukan sekadar agregasi
5. Karakteristik utama yang membedakan data mining dari sekadar query basis data adalah…
- A. Data mining selalu menghasilkan visualisasi grafis
- B. Data mining hanya bekerja pada data tidak terstruktur
- C. Data mining menemukan pola yang tidak diketahui sebelumnya secara otomatis
- D. Data mining memerlukan data warehouse sebagai sumber data
6. Fenomena di mana organisasi memiliki volume data yang sangat besar dari berbagai sumber seperti sensor IoT, media sosial, dan sistem transaksi, namun kesulitan mengekstrak wawasan berharga darinya disebut…
- A. Data redundancy
- B. Data explosion
- C. Data inconsistency
- D. Data-knowledge gap
7. Manajemen sebuah bank memutuskan untuk mengadopsi sistem rekomendasi produk berbasis data mining setelah sebelumnya hanya mengandalkan pengalaman para manajer cabang. Keputusan ini mencerminkan pergeseran menuju…
- A. Pengambilan keputusan berbasis intuisi
- B. Eliminasi kebutuhan data warehouse
- C. Reduksi volume data operasional
- D. Pengambilan keputusan berbasis data
8. Faktor utama yang mendorong meningkatnya kebutuhan akan data mining di era digital adalah…
- A. Penurunan biaya penyimpanan data tanpa peningkatan volume data
- B. Pertumbuhan pesat volume, variasi, dan kecepatan data akibat digitalisasi
- C. Berkurangnya kompleksitas algoritma machine learning
- D. Standarisasi format data di seluruh industri
9. Sebuah rumah sakit memiliki jutaan rekam medis elektronik tetapi belum mampu mengidentifikasi faktor risiko utama suatu penyakit dari data tersebut. Situasi ini paling tepat dikategorikan sebagai…
- A. Overfitting pada data medis
- B. Reduksi data yang berlebihan
- C. Multikolinieritas variabel
- D. Data-knowledge gap
10. Ketika volume data tumbuh secara eksponensial sementara kemampuan analisis manual manusia tetap terbatas, data mining menjadi krusial karena…
- A. Mampu menyimpan data dalam jumlah tak terbatas
- B. Menggantikan kebutuhan akan sistem basis data relasional
- C. Menyediakan teknik analisis otomatis untuk mengekstrak pola dari big data
- D. Menjamin akurasi 100% pada setiap prediksi yang dihasilkan
11. Seorang data scientist menggunakan teori probabilitas untuk memvalidasi signifikansi pola asosiasi yang ditemukan dari data transaksi. Dalam konteks ini, ia menerapkan kontribusi dari bidang…
- A. Sistem basis data
- B. Machine learning
- C. Statistika
- D. Data warehouse
12. Algoritma yang memungkinkan komputer belajar dari data untuk membuat prediksi tanpa diprogram secara eksplisit merupakan inti dari bidang…
- A. Sistem basis data
- B. Machine learning
- C. Statistika deskriptif
- D. Online Analytical Processing
13. Dalam sebuah proyek data mining, tim perlu menyimpan dan mengelola data transaksi harian dari jutaan pelanggan secara efisien sebelum analisis dilakukan. Kemampuan ini disediakan oleh kontribusi bidang…
- A. Sistem basis data
- B. Statistika inferensial
- C. Visualisasi data
- D. Machine learning
14. Perbedaan mendasar antara data mining dan machine learning terletak pada…
- A. Data mining berfokus pada penemuan pola dari data, machine learning pada pembelajaran dari data untuk prediksi
- B. Machine learning hanya menggunakan data terstruktur, data mining hanya data tidak terstruktur
- C. Keduanya identik dan istilah tersebut dapat dipertukarkan
- D. Machine learning selalu memerlukan data warehouse, data mining tidak
15. Uji hipotesis dan analisis korelasi yang digunakan untuk memastikan bahwa pola yang ditemukan dalam data mining bukanlah kebetulan statistik berasal dari bidang…
- A. Sistem basis data
- B. Statistika
- C. Data warehouse
- D. Machine learning
16. Koleksi data yang terintegrasi, berorientasi subjek, time-variant, dan non-volatile yang digunakan untuk mendukung analisis dan pengambilan keputusan disebut…
- A. Data warehouse
- B. Data lake
- C. Basis data operasional
- D. Data mart
17. Seorang manajer ingin melihat laporan penjualan yang dapat dipecah berdasarkan wilayah, lalu berdasarkan produk, dan akhirnya berdasarkan bulan secara interaktif. Teknologi yang mendukung analisis multidimensi semacam ini adalah…
- A. Online Analytical Processing
- B. SQL Query Language
- C. Data mining
- D. Machine learning
18. Seorang arsitek data merancang sistem penyimpanan terpusat yang khusus menampung data historis dari berbagai departemen untuk keperluan analisis tren penjualan lima tahunan. Sistem yang dirancang memiliki karakteristik terintegrasi, berorientasi subjek penjualan, dan tidak mengalami perubahan setelah dimasukkan. Sistem ini paling tepat disebut…
- A. Database Operasional
- B. Data Warehouse
- C. Data Lake
- D. OLTP System
19. Kepala cabang sebuah bank ingin menganalisis data kredit macet berdasarkan dimensi waktu, wilayah, dan jenis produk secara bergantian untuk menemukan pola musiman. Teknologi yang paling sesuai untuk mendukung analisis interaktif multidimensi semacam ini adalah…
- A. OLAP
- B. Data Mining
- C. SQL Query
- D. Data Warehouse
20. Perbedaan utama antara OLAP dan Data Mining terletak pada…
- A. OLAP menggunakan data terstruktur sedangkan Data Mining menggunakan data tidak terstruktur
- B. OLAP bersifat verifikasi-driven sedangkan Data Mining bersifat discovery-driven
- C. OLAP menggunakan metode statistik sedangkan Data Mining menggunakan query SQL
- D. OLAP bekerja pada data warehouse sedangkan Data Mining bekerja pada database operasional
21. Dalam sebuah dataset pelanggan, kolom 'Pendapatan Bulanan' berisi nilai dalam rupiah yang dapat dijumlahkan dan dihitung rata-ratanya. Sementara itu, kolom 'Status Pernikahan' berisi label seperti 'Menikah', 'Belum Menikah', dan 'Cerai'. Karakteristik yang membedakan kedua jenis data tersebut adalah…
- A. Data numerik selalu berdimensi tinggi sedangkan data kategorikal berdimensi rendah
- B. Data numerik selalu kontinu sedangkan data kategorikal selalu diskrit
- C. Data numerik disimpan sebagai integer sedangkan data kategorikal sebagai string
- D. Data numerik memiliki makna aritmatika sedangkan data kategorikal menyatakan label atau kelas
22. Seorang analis menemukan bahwa sebuah dataset memiliki nilai suhu udara tercatat -99°C di kota tropis serta beberapa kolom alamat yang tidak diisi. Masalah kualitas data yang dihadapi analis tersebut adalah…
- A. Data tidak akurat dan tidak lengkap
- B. Data tidak konsisten dan tidak unik
- C. Data tidak tepat waktu dan noise
- D. Data tidak terstruktur dan outlier
23. Atribut 'Tinggi Badan' yang dapat mengambil nilai dalam rentang kontinu seperti 165,5 cm atau 170,2 cm berbeda secara fundamental dengan atribut 'Jumlah Anak' yang hanya dapat bernilai bilangan bulat seperti 0, 1, 2, dan seterusnya. Perbedaan ini mendasari klasifikasi atribut menjadi…
- A. Data kontinu dan diskrit
- B. Data numerik dan kategorikal
- C. Data noise dan outlier
- D. Data primer dan sekunder
24. Ketika sebuah sensor suhu di pabrik secara konsisten mencatat nilai 5 derajat lebih tinggi dari suhu aktual karena kesalahan kalibrasi, sedangkan satu sensor lain sesekali melaporkan lonjakan suhu ekstrem yang tidak wajar, kedua fenomena ini secara berurutan disebut…
- A. Missing value dan inkonsistensi
- B. Redundansi dan duplikasi
- C. Noise dan outlier
- D. Outlier dan missing value
25. Tim data science PT Telkomsel menemukan bahwa dataset pelanggan memiliki banyak nomor telepon yang tidak valid, beberapa field kosong, dan format tanggal yang tidak seragam. Sebelum melakukan analisis clustering pelanggan, langkah pertama yang harus dilakukan adalah…
- A. Reduksi data untuk mengurangi volume dataset
- B. Transformasi data untuk normalisasi nilai numerik
- C. Pembersihan data untuk mengoreksi dan menghapus data bermasalah
- D. Visualisasi data untuk mengidentifikasi pola awal
26. Sebuah algoritma k-NN membutuhkan semua atribut numerik berada dalam skala yang setara agar perhitungan jarak tidak didominasi oleh atribut dengan nilai besar. Teknik preprocessing yang tepat untuk mengatasi masalah ini adalah…
- A. Normalisasi untuk menskalakan nilai ke rentang tertentu seperti 0 hingga 1
- B. Diskretisasi untuk mengubah numerik menjadi kategorikal
- C. Reduksi dimensi untuk mengurangi jumlah atribut
- D. Sampling untuk mengurangi jumlah data latih
27. Dalam mempersiapkan data untuk model regresi linier yang memerlukan fitur numerik, seorang analis menghadapi atribut 'Kategori Produk' yang berisi nilai 'Elektronik', 'Fashion', dan 'Makanan'. Teknik transformasi data yang sesuai untuk mengubah atribut kategorikal ini menjadi representasi numerik adalah…
- A. One-Hot Encoding
- B. Diskretisasi
- C. Normalisasi
- D. Reduksi dimensi
28. Dataset sensor IoT memiliki 1000 atribut dengan banyak atribut redundan yang saling berkorelasi tinggi. Analis ingin mengurangi kompleksitas komputasi tanpa kehilangan informasi penting secara signifikan. Pendekatan yang paling tepat adalah…
- A. Membersihkan missing value dari seluruh atribut
- B. Melakukan reduksi data melalui reduksi dimensi
- C. Melakukan normalisasi pada seluruh atribut numerik
- D. Melakukan diskretisasi atribut kontinu menjadi kategorikal
29. Seorang analis data ingin memeriksa apakah terdapat outlier dalam dataset pendapatan penduduk suatu kecamatan. Visualisasi yang paling efektif untuk menampilkan ringkasan distribusi lima angka statistik sekaligus mendeteksi outlier secara visual adalah…
- A. Histogram
- B. Scatter Plot
- C. Bar Chart
- D. Box Plot
30. Perbedaan utama antara histogram dan bar chart dalam konteks visualisasi data adalah…
- A. Histogram menampilkan data kategorikal sedangkan bar chart menampilkan data numerik
- B. Histogram menggunakan sumbu vertikal untuk frekuensi sedangkan bar chart menggunakan sumbu horizontal
- C. Histogram menampilkan distribusi data numerik kontinu sedangkan bar chart menampilkan frekuensi data kategorikal
- D. Histogram selalu berbentuk simetris sedangkan bar chart dapat bervariasi
31. PT Astra Internasional ingin menganalisis hubungan antara usia kendaraan dan harga jual kembali untuk 200 unit mobil bekas yang baru terjual. Visualisasi yang paling tepat untuk melihat pola hubungan antara kedua variabel numerik ini adalah…
- A. Box Plot
- B. Histogram
- C. Pie Chart
- D. Scatter Plot
32. Dalam eksplorasi data penjualan ritel, seorang manajer ingin melihat bagaimana distribusi frekuensi jumlah transaksi harian selama satu tahun terdistribusi. Visualisasi yang menampilkan frekuensi setiap interval jumlah transaksi secara tepat adalah…
- A. Box Plot
- B. Scatter Plot
- C. Histogram
- D. Bar Chart
33. Model prediktif yang dibangun dari data historis penjualan mampu memprediksi permintaan bulan depan dengan akurasi tinggi pada data latih, namun performanya sangat buruk saat digunakan pada data transaksi minggu berikutnya. Fenomena ini mengindikasikan bahwa model mengalami…
- A. Underfitting
- B. Generalisasi
- C. Konvergensi
- D. Overfitting
34. Dalam sebuah proyek klasifikasi email spam, tim membagi dataset menjadi 80% data latih dan 20% data uji. Alasan utama digunakannya data uji yang terpisah dan tidak pernah digunakan selama pelatihan adalah…
- A. Untuk mempercepat waktu pelatihan model
- B. Untuk mengevaluasi kemampuan generalisasi model pada data yang belum pernah dilihat
- C. Untuk mengurangi jumlah data yang harus diproses
- D. Untuk memastikan model menghafal seluruh pola dalam data
35. Seorang analis data membangun model untuk memprediksi apakah seorang nasabah akan gagal bayar kredit berdasarkan data historis pembayaran. Model ini dilatih menggunakan data nasabah tahun lalu dan akan digunakan untuk menyaring pengajuan kredit baru bulan depan. Jenis data mining yang dilakukan analis tersebut adalah…
- A. Descriptive data mining
- B. Predictive data mining
- C. Association rule mining
- D. Cluster analysis
36. Perbedaan fundamental antara model prediktif dan model deskriptif dalam data mining terletak pada…
- A. Jumlah atribut yang digunakan dalam dataset
- B. Adanya variabel target yang ingin diprediksi
- C. Jenis algoritma yang digunakan untuk komputasi
- D. Kecepatan pemrosesan data dalam jumlah besar
37. Seorang manajer pemasaran ingin mengelompokkan pelanggan ke dalam beberapa segmen berdasarkan kemiripan perilaku belanja tanpa menentukan terlebih dahulu berapa segmen yang diinginkan maupun karakteristik tiap segmen. Aktivitas ini termasuk dalam kategori…
- A. Descriptive data mining
- B. Predictive data mining
- C. Regression analysis
- D. Classification
38. Algoritma yang mengidentifikasi bahwa pelanggan yang membeli popok cenderung juga membeli bir dalam transaksi yang sama menghasilkan output berupa…
- A. Model klasifikasi
- B. Pola asosiasi
- C. Regresi linier
- D. Klaster pelanggan
39. Dalam analisis deskriptif, ukuran yang digunakan untuk menentukan seberapa mirip dua objek data sehingga dapat dikelompokkan bersama disebut…
- A. Confidence
- B. Entropi
- C. Similaritas
- D. Akurasi
40. PT Sentosa Retail menerapkan analisis deskriptif dan menemukan bahwa 70% transaksi yang mengandung kopi juga mengandung gula. Ditemukan pula tiga kelompok pelanggan dengan karakteristik belanja yang berbeda. Output pertama dan kedua secara berurutan dikategorikan sebagai…
- A. Estimasi dan klasifikasi
- B. Klaster dan pola asosiasi
- C. Klasifikasi dan estimasi
- D. Pola asosiasi dan klaster
41. Dalam regresi linier sederhana, metode yang digunakan untuk mengestimasi koefisien regresi dengan meminimalkan jumlah kuadrat selisih antara nilai aktual dan nilai prediksi disebut…
- A. Maximum likelihood estimation
- B. Gradient descent
- C. Metode kuadrat terkecil
- D. Principal component analysis
42. Seorang analis keuangan membangun model regresi untuk memprediksi harga rumah berdasarkan luas bangunan. Ia menemukan bahwa setiap penambahan 1 m² luas bangunan menaikkan harga rumah sebesar Rp5.000.000. Nilai Rp5.000.000 tersebut merepresentasikan…
- A. Intersep regresi
- B. Koefisien determinasi
- C. Koefisien regresi
- D. Nilai residual
43. Dalam konteks regresi linier sederhana, variabel dependen dan variabel independen memiliki peran yang berbeda. Variabel independen berfungsi sebagai…
- A. Variabel yang dihitung dari residual
- B. Variabel yang nilainya ingin diprediksi
- C. Variabel yang nilainya selalu konstan
- D. Variabel yang digunakan untuk memprediksi
44. Jika garis regresi antara biaya iklan (X) dan penjualan (Y) dinyatakan sebagai Y = 50 + 2,5X, artinya ketika biaya iklan nol, penjualan diprediksi sebesar 50 unit, dan setiap kenaikan biaya iklan 1 juta rupiah diprediksi menaikkan penjualan sebesar 2,5 unit. Pernyataan yang tepat terkait model ini adalah…
- A. Intersep bernilai 50 dan koefisien regresi bernilai 2,5
- B. Intersep bernilai 2,5 dan koefisien regresi bernilai 50
- C. Koefisien determinasi bernilai 50 dan intersep 2,5
- D. Residual bernilai 50 dan intersep bernilai 2,5
45. Seorang peneliti membangun model regresi dengan tiga variabel independen: pendapatan, pengeluaran, dan jumlah tanggungan untuk memprediksi pengajuan kredit. Ia menemukan bahwa pendapatan dan pengeluaran memiliki korelasi sangat tinggi (r = 0,92). Kondisi ini disebut…
- A. Autokorelasi
- B. Heteroskedastisitas
- C. Overfitting
- D. Multikolinieritas
46. Model regresi berganda untuk memprediksi IPK mahasiswa menggunakan variabel jam belajar, motivasi, dan akses internet menghasilkan R^2 = 0,78. Interpretasi yang tepat dari nilai R^2 ini adalah…
- A. 78% variasi IPK dapat dijelaskan oleh ketiga variabel independen secara bersama-sama
- B. 78% mahasiswa dalam dataset memiliki IPK di atas rata-rata
- C. Korelasi antara IPK dan jam belajar adalah 0,78
- D. Model memiliki tingkat kesalahan prediksi sebesar 78%
47. Perbedaan utama antara regresi linier sederhana dan regresi linier berganda terletak pada…
- A. Jumlah variabel independen yang digunakan
- B. Jenis variabel dependen yang diprediksi
- C. Metode estimasi koefisien yang diterapkan
- D. Bentuk hubungan antara variabel yang dihasilkan
48. PT Graha Properti menggunakan regresi berganda dengan variabel luas tanah, luas bangunan, dan usia bangunan untuk memprediksi harga jual rumah. Ditemukan bahwa luas tanah dan luas bangunan saling berkorelasi tinggi. Dampak yang mungkin terjadi akibat kondisi ini adalah…
- A. Nilai R^2 otomatis menjadi nol
- B. Estimasi koefisien menjadi tidak stabil dan sulit diinterpretasi
- C. Variabel dependen tidak dapat diprediksi sama sekali
- D. Model hanya dapat menggunakan satu variabel independen
49. Algoritma ID3 membangun pohon keputusan dengan memilih atribut yang memberikan nilai tertinggi pada suatu kriteria pemisahan. Kriteria tersebut mengukur pengurangan ketidakpastian setelah dataset dipartisi dan disebut…
- A. Information gain
- B. Gain ratio
- C. Gini index
- D. Confidence
50. Sebuah dataset berisi 20 instance dengan komposisi 12 kelas 'Ya' dan 8 kelas 'Tidak'. Entropi dataset ini dapat dihitung. Jika setelah dipartisi berdasarkan atribut 'Cuaca', entropi rata-rata turun secara signifikan, hal ini menunjukkan bahwa…
- A. Entropi awal dataset sudah sangat rendah
- B. Atribut 'Cuaca' tidak relevan dan sebaiknya tidak digunakan
- C. Dataset menjadi lebih tidak murni setelah pemisahan
- D. Atribut 'Cuaca' efektif dalam memisahkan kelas sehingga information gain tinggi
51. Dalam algoritma ID3, jika suatu simpul berisi data yang seluruhnya berasal dari satu kelas saja, maka simpul tersebut menjadi…
- A. Akar pohon yang akan diganti
- B. Simpul internal baru yang terus dipartisi
- C. Daun dengan label kelas tersebut
- D. Cabang yang akan dipangkas
52. Seorang data scientist menggunakan algoritma ID3 untuk membangun pohon keputusan dari dataset nasabah bank. Ia mengamati bahwa sebelum pemisahan, dataset terdiri dari 12 nasabah 'Lancar' dan 8 nasabah 'Macet'. Setelah dipisahkan berdasarkan atribut 'Riwayat', simpul kiri menjadi sangat homogen dengan 10 'Lancar' dan hanya 1 'Macet'. Berkurangnya ketidakpastian pada simpul kiri ini dikuantifikasi menggunakan…
- A. Entropi sebelum pemisahan
- B. Information Gain
- C. Gain Ratio
- D. Gini Index
53. Kelemahan utama algoritma ID3 yang kemudian diperbaiki oleh C4.5 adalah kecenderungannya untuk bias memilih atribut dengan…
- A. Nilai kontinu yang belum didiskretisasi
- B. Tingkat akurasi tinggi pada data uji
- C. Banyak nilai unik sebagai pemisah
- D. Missing values yang tidak tertangani
54. PT Indomarco menggunakan C4.5 untuk memprediksi loyalitas pelanggan. Dataset mencakup atribut 'Pendapatan Bulanan' dengan rentang nilai kontinu dari 2 juta hingga 50 juta rupiah. Agar atribut ini dapat digunakan sebagai pemisah dalam pohon keputusan, mekanisme yang diterapkan C4.5 adalah…
- A. Mengubah atribut menjadi threshold biner pada titik pemisah optimal
- B. Menghitung rata-rata pendapatan sebagai nilai tunggal pemisah
- C. Mengabaikan atribut kontinu dan hanya menggunakan atribut kategorikal
- D. Mengelompokkan pendapatan ke dalam tiga kategori tetap
55. Dalam C4.5, Gain Ratio diperoleh dengan membagi Information Gain dengan Split Information. Jika suatu atribut 'Kode Transaksi' memiliki 1000 nilai unik, masing-masing muncul sekali, maka Split Information atribut tersebut akan bernilai…
- A. Sangat kecil sehingga Gain Ratio mendekati nol
- B. Sama dengan jumlah nilai unik yaitu 1000
- C. Sangat besar sehingga Gain Ratio menjadi kecil
- D. Nol karena atribut tidak informatif
56. Perbedaan fundamental antara kriteria pemisahan pada ID3 dan C4.5 terletak pada bagaimana kedua algoritma…
- A. Menangani missing values dalam data latih
- B. Membangkitkan aturan dari pohon yang terbentuk
- C. Menyeimbangkan Information Gain dengan distribusi nilai atribut
- D. Menentukan kedalaman maksimum pohon keputusan
57. Seorang analis kredit menerapkan algoritma k-NN dengan k=5 untuk mengklasifikasikan pengajuan kredit baru. Dari 5 tetangga terdekat, 3 berstatus 'Lancar' dan 2 berstatus 'Macet'. Keputusan klasifikasi yang diambil algoritma adalah…
- A. Macet karena jarak rata-rata tetangga terpendek
- B. Lancar karena merupakan kelas mayoritas
- C. Tidak dapat ditentukan karena terjadi seri
- D. Macet karena bobot probabilitas lebih tinggi
58. Karakteristik lazy learner pada k-NN berarti algoritma ini…
- A. Membangun model eksplisit selama fase pelatihan
- B. Membutuhkan data latih dalam jumlah sangat besar
- C. Mengabaikan data uji dan hanya fokus pada data latih
- D. Menyimpan data latih dan menunda komputasi hingga ada data uji
59. Dalam algoritma k-NN, pemilihan nilai k yang terlalu kecil seperti k=1 pada dataset dengan noise dapat menyebabkan…
- A. Underfitting karena model terlalu sederhana
- B. Overfitting karena model sensitif terhadap outlier
- C. Akurasi menurun drastis pada data latih
- D. Waktu komputasi menjadi tidak efisien
60. Seorang analis menggunakan k-NN dengan metrik Euclidean distance pada dataset yang memiliki atribut 'Gaji' dalam jutaan rupiah dan atribut 'Usia' dalam puluhan tahun. Ia menemukan bahwa atribut 'Gaji' mendominasi perhitungan jarak. Masalah ini disebabkan oleh…
- A. Perbedaan skala antar atribut yang tidak dinormalisasi
- B. Formula Euclidean yang tidak sesuai untuk data campuran
- C. Nilai k yang terlalu besar untuk dataset tersebut
- D. Atribut gaji yang bersifat diskrit
61. PT Asuransi Sejahtera menggunakan Naive Bayes untuk memprediksi apakah seorang pemohon asuransi jiwa tergolong 'Risiko Tinggi' atau 'Risiko Rendah' berdasarkan atribut usia, pekerjaan, dan riwayat kesehatan. Asumsi independensi yang mendasari algoritma ini mensyaratkan bahwa…
- A. Semua atribut saling berkorelasi satu sama lain
- B. Kelas target dan atribut prediktor saling independen
- C. Setiap atribut independen terhadap atribut lainnya untuk setiap kelas target
- D. Atribut numerik harus diubah menjadi kategorikal terlebih dahulu
62. Dalam konteks Naive Bayes, probabilitas prior untuk kelas 'Spam' dihitung sebesar 0,3 dari data latih yang terdiri dari 300 email spam dan 700 email non-spam. Nilai ini merepresentasikan…
- A. Proporsi email spam dalam data latih sebelum melihat isi email
- B. Kemungkinan kata-kata tertentu muncul dalam email spam
- C. Probabilitas email adalah spam setelah melihat kata-kata dalam email
- D. Akurasi model dalam mengklasifikasikan email spam
63. Seorang mahasiswa menerapkan Teorema Bayes untuk mendeteksi penyakit berdasarkan hasil tes laboratorium. Diketahui probabilitas penyakit (Penyakit) adalah 0,01, probabilitas hasil tes positif jika sakit (Positif|Penyakit) adalah 0,95, dan probabilitas hasil tes positif jika tidak sakit (Positif|Tidak Penyakit) adalah 0,10. Probabilitas posterior P(Penyakit|Positif) dapat dihitung menggunakan konsep…
- A. Information Gain dibagi dengan Split Information
- B. Probabilitas prior dikalikan dengan likelihood dibagi evidence
- C. Confidence dari aturan asosiasi yang ditemukan
- D. Entropi dataset sebelum dan sesudah pemisahan
64. Perbedaan antara Naive Bayes dan algoritma Bayesian Network yang lebih umum terletak pada…
- A. Asumsi independensi antar atribut prediktor
- B. Kemampuan menangani atribut numerik
- C. Penggunaan data latih untuk pelatihan model
- D. Penerapan Teorema Bayes dalam perhitungan
65. PT Ritel Nusantara menemukan aturan asosiasi {kopi} → {gula} dengan support 0,15 dan confidence 0,80 dari data transaksi bulanan. Interpretasi yang tepat dari nilai support 0,15 adalah…
- A. 80% transaksi yang mengandung kopi juga mengandung gula
- B. 80% dari seluruh transaksi mengandung kopi atau gula
- C. 15% dari transaksi yang mengandung kopi juga mengandung gula
- D. 15% dari seluruh transaksi mengandung kopi dan gula secara bersamaan
66. Prinsip Apriori menyatakan bahwa jika suatu itemset sering muncul dalam dataset, maka…
- A. Semua superset dari itemset tersebut pasti juga sering muncul
- B. Itemset tersebut pasti memiliki lift lebih dari 1
- C. Itemset tersebut pasti memiliki confidence tinggi
- D. Semua subset dari itemset tersebut juga harus sering muncul
67. Struktur data pohon kompresi yang menyimpan informasi frequent itemset dari basis data transaksional tanpa kandidat generasi dalam algoritma FP Growth disebut…
- A. FP-Tree
- B. Conditional Pattern Base
- C. Hash Tree
- D. Prefix Tree
68. Dalam algoritma FP Growth, setelah FP-Tree terbentuk, langkah selanjutnya adalah membentuk conditional pattern base untuk setiap frequent item. Sub-basis data dari prefix path ini digunakan untuk…
- A. Menghitung support setiap itemset secara langsung
- B. Membangun FP-Tree kondisional secara rekursif
- C. Menghapus item yang tidak frequent dari FP-Tree
- D. Mengurutkan item berdasarkan support descending
69. PT Logistik Cepat menyimpan jutaan transaksi pengiriman barang. Tim data science memilih FP Growth daripada Apriori untuk analisis asosiasi. Alasan paling tepat pemilihan ini adalah…
- A. FP Growth menghasilkan aturan asosiasi dengan confidence lebih tinggi
- B. FP Growth tidak memerlukan proses pembangkitan kandidat itemset seperti Apriori
- C. FP Growth dapat menangani data numerik kontinu tanpa diskretisasi
- D. FP Growth hanya membutuhkan satu kali pemindaian basis data
70. Perbedaan utama antara algoritma Apriori dan FP Growth dalam menambang frequent itemset terletak pada…
- A. Apriori menggunakan confidence, sedangkan FP Growth menggunakan lift
- B. Apriori membangkitkan kandidat itemset secara eksplisit, sedangkan FP Growth tidak
- C. Apriori hanya untuk data kategorikal, sedangkan FP Growth untuk data numerik
- D. Apriori menggunakan pendekatan top-down, sedangkan FP Growth bottom-up
71. Titik pusat suatu klaster yang dihitung sebagai rata-rata aritmatika dari seluruh objek yang menjadi anggota klaster tersebut dalam algoritma K-Means disebut…
- A. Median
- B. Centroid
- C. Mode
- D. Support vector
72. Ketika menjalankan algoritma K-Means, keanggotaan klaster tidak lagi berubah antar iterasi. Kondisi ini menandakan bahwa algoritma telah mencapai…
- A. Overfitting
- B. Konvergensi
- C. Stabilisasi centroid
- D. Optimalisasi global
73. Tim analis pelanggan PT Makmur Santosa menerapkan K-Means untuk segmentasi pelanggan ke dalam 3 klaster. Pada iterasi pertama, hasil segmentasi sangat berbeda dengan iterasi ketiga setelah dijalankan ulang dengan dataset yang sama. Perbedaan hasil ini paling mungkin disebabkan oleh…
- A. Jumlah klaster yang terlalu banyak
- B. Data pelanggan yang terlalu sedikit
- C. Inisialisasi centroid awal yang berbeda
- D. Nilai k yang tidak optimal
74. Seorang data scientist mengamati bahwa setelah beberapa iterasi K-Means, beberapa klaster menjadi kosong tanpa anggota. Fenomena ini dapat terjadi karena…
- A. Jumlah iterasi yang terlalu sedikit
- B. Centroid awal yang dipilih terlalu dekat satu sama lain
- C. Nilai k yang ditetapkan lebih kecil dari jumlah klaster alami
- D. Inisialisasi centroid yang ekstrem atau outlier
75. Diagram pohon yang merepresentasikan proses penggabungan klaster secara hierarkis dari level paling bawah hingga membentuk satu klaster menyeluruh dalam Hierarchical Agglomerative Clustering dikenal sebagai…
- A. Scatter plot
- B. Decision tree
- C. Dendrogram
- D. FP-Tree
76. Dalam Hierarchical Agglomerative Clustering, jarak antara dua klaster dihitung sebagai jarak terdekat antara satu anggota klaster pertama dan satu anggota klaster kedua. Metode pengukuran jarak antar klaster ini disebut…
- A. Complete-linkage
- B. Average-linkage
- C. Single-linkage
- D. Centroid-linkage
77. PT Nusa Research mengelompokkan 100 spesies tanaman berdasarkan 20 atribut morfologi menggunakan Hierarchical Agglomerative Clustering. Tim peneliti memilih complete-linkage daripada single-linkage karena…
- A. Complete-linkage menghasilkan dendrogram yang lebih mudah dibaca
- B. Complete-linkage cenderung menghasilkan klaster yang lebih kompak dan tidak memanjang
- C. Single-linkage membutuhkan komputasi yang lebih besar
- D. Single-linkage tidak dapat menangani data numerik
78. Perbedaan mendasar antara algoritma K-Means (partitional) dan Hierarchical Agglomerative Clustering (HAC) terletak pada…
- A. K-Means memerlukan jumlah klaster di awal, sedangkan HAC tidak
- B. K-Means menggunakan jarak Euclidean, sedangkan HAC menggunakan Manhattan
- C. K-Means menghasilkan dendrogram, sedangkan HAC menghasilkan centroid
- D. K-Means hanya untuk data kategorikal, sedangkan HAC untuk data numerik
79. Matriks yang merangkum kinerja model klasifikasi dengan menampilkan jumlah prediksi benar dan salah untuk setiap kelas disebut…
- A. Confusion Matrix
- B. Correlation Matrix
- C. Covariance Matrix
- D. Similarity Matrix
80. Sebuah model klasifikasi email spam menghasilkan TP=80, TN=300, FP=20, dan FN=10. Berapakah nilai presisi model tersebut…
- A. 80/90
- B. 80/100
- C. 300/320
- D. 300/310
81. Tim data science PT Asuransi Aman mengembangkan model deteksi klaim palsu. Model harus meminimalkan klaim palsu yang lolos terdeteksi sebagai klaim normal. Metrik evaluasi yang paling kritis untuk kasus ini adalah…
- A. Akurasi
- B. Presisi
- C. Recall
- D. Specificity
82. Metrik evaluasi internal untuk klastering yang menggabungkan ukuran kohesi dan separasi untuk menilai seberapa dekat suatu titik dengan klaster sendiri dibandingkan dengan klaster terdekat lainnya adalah…
- A. Sum of Squared Error
- B. Davies-Bouldin Index
- C. Silhouette Coefficient
- D. Dunn Index
83. Sebuah perusahaan e-commerce menerapkan algoritma K-Means untuk segmentasi pelanggan dan menghasilkan tiga klaster. Tim data science ingin mengevaluasi seberapa baik setiap titik data ditempatkan dalam klasternya masing-masing dengan mempertimbangkan baik kohesi intra-klaster maupun separasi antar-klaster. Metrik evaluasi yang paling sesuai untuk kebutuhan ini adalah…
- A. Sum of Squared Error (SSE)
- B. Davies-Bouldin Index
- C. Confusion Matrix
- D. Silhouette Coefficient
84. Seorang analis data menjalankan dua skenario K-Means pada dataset yang sama dengan jumlah klaster berbeda: skenario pertama menghasilkan SSE sebesar 450,3 dan skenario kedua menghasilkan SSE sebesar 210,7. Berdasarkan metrik evaluasi internal ini, kesimpulan yang paling tepat adalah…
- A. Skenario pertama lebih baik karena SSE lebih besar menandakan klaster lebih menyebar
- B. Skenario kedua lebih baik karena SSE lebih kecil menandakan klaster lebih kohesif
- C. Kedua skenario tidak dapat dibandingkan hanya berdasarkan nilai SSE
- D. Skenario kedua pasti overfitting karena SSE terlalu rendah
85. PT Ekspres Logistik menerapkan hierarchical clustering untuk mengelompokkan rute pengiriman berdasarkan jarak dan volume paket. Untuk memvalidasi hasil klastering, tim menggunakan silhouette coefficient dan menemukan bahwa satu titik data memiliki silhouette coefficient sebesar -0,35. Arti dari nilai negatif tersebut adalah…
- A. Titik tersebut berada sangat dekat dengan centroid klasternya sendiri
- B. Titik tersebut merupakan outlier absolut dalam dataset
- C. Titik tersebut lebih dekat ke klaster lain dibandingkan ke klaster sendiri
- D. Titik tersebut membutuhkan normalisasi ulang
86. Tim data science sebuah bank mengevaluasi hasil klastering nasabah menggunakan dua pendekatan: evaluasi internal dengan SSE dan evaluasi eksternal dengan purity terhadap label produk yang sudah diketahui. Perbedaan mendasar antara kedua pendekatan evaluasi ini adalah…
- A. Evaluasi internal menggunakan label kelas asli sedangkan eksternal tidak
- B. Evaluasi eksternal hanya berlaku untuk K-Means sedangkan internal untuk semua algoritma
- C. Evaluasi internal hanya mengandalkan struktur data hasil klastering tanpa label acuan
- D. Evaluasi internal selalu lebih objektif dibandingkan evaluasi eksternal
87. Seorang mahasiswa baru pertama kali menggunakan WEKA untuk menganalisis dataset penelitian skripsinya. Ia perlu memahami format file standar yang digunakan WEKA agar dapat mengimpor datanya dengan benar. Format file yang mendeskripsikan data dalam dua bagian utama yaitu header (deklarasi atribut) dan data (nilai-nilai instance) disebut…
- A. CSV (Comma-Separated Values)
- B. XML (Extensible Markup Language)
- C. JSON (JavaScript Object Notation)
- D. ARFF (Attribute-Relation File Format)
88. Seorang analis membuka WEKA Explorer untuk pertama kalinya dan melihat beberapa panel yang tersedia. Ia ingin melakukan pembersihan data dengan mengganti nilai-nilai yang hilang menggunakan rata-rata atribut serta mendiskretisasi atribut numerik menjadi kategori. Panel yang menyediakan fungsi-fungsi prapemrosesan tersebut adalah…
- A. Explorer
- B. Tab Cluster
- C. Tab Classify
- D. Tab Associate
89. Ketika menggunakan WEKA untuk membersihkan dataset pelanggan, seorang analis menerapkan filter ReplaceMissingValues pada atribut 'Pendapatan' dan filter Discretize pada atribut 'Usia'. Kedua filter ini tidak mempertimbangkan atribut kelas 'Churn' dalam prosesnya. Kategori filter yang digunakan analis tersebut adalah…
- A. Filter Terawasi (Supervised Filter)
- B. Filter Hibrida (Hybrid Filter)
- C. Filter Tidak Terawasi (Unsupervised Filter)
- D. Filter Adaptif (Adaptive Filter)
90. Seorang peneliti kesehatan mengimpor dataset ke WEKA dan mendapati bahwa atribut 'Diagnosis' yang seharusnya bertipe nominal terbaca sebagai string, sementara atribut 'Usia' yang seharusnya numerik terbaca sebagai nominal. Untuk memperbaiki kesalahan tipe atribut ini sebelum analisis lebih lanjut, langkah yang paling tepat di WEKA Explorer adalah…
- A. Menjalankan filter Discretize pada kedua atribut
- B. Mengedit tipe atribut langsung pada panel Preprocess
- C. Menggunakan tab Classify untuk mengabaikan atribut tersebut
- D. Mengekspor data ke CSV dan mengimpor ulang
91. PT Asuransi Bumiputera ingin membangun model klasifikasi menggunakan WEKA untuk memprediksi klaim palsu. Tim data science memilih untuk mengevaluasi model dengan teknik yang membagi data menjadi 10 lipatan, melatih pada 9 lipatan, dan menguji pada 1 lipatan secara bergilir. Teknik evaluasi yang dipilih tim tersebut dikenal sebagai…
- A. Cross-Validation
- B. Percentage Split
- C. Supplied Test Set
- D. Use Training Set
92. Seorang mahasiswa menjalankan algoritma J48 di WEKA pada tab Classify dengan opsi cross-validation 10-fold. Setelah proses selesai, ia mengamati output yang berisi informasi tentang struktur pohon keputusan, akurasi, confusion matrix, presisi, recall, dan F-measure. Bagian output yang paling tepat untuk menilai seberapa baik model membedakan kelas minoritas adalah…
- A. Struktur pohon keputusan yang terbentuk
- B. Confusion matrix dan metrik per kelas
- C. Akurasi keseluruhan di bagian Summary
- D. Waktu yang dibutuhkan untuk membangun model
93. Tim data science PT Telkomsel membangun dua model klasifikasi churn pelanggan di WEKA: Model A diuji dengan opsi Use Training Set dan menghasilkan akurasi 98%, sedangkan Model B diuji dengan Cross-Validation 10-fold dan menghasilkan akurasi 87%. Manajer mempertanyakan mengapa tim lebih memercayai Model B meskipun akurasinya lebih rendah. Alasan yang paling tepat adalah…
- A. Cross-validation memberikan estimasi kinerja yang lebih realistis pada data baru
- B. Model B menggunakan algoritma yang lebih kompleks
- C. Use Training Set hanya berlaku untuk data numerik
- D. Model A mengalami underfitting pada data latih
94. Seorang analis keuangan menggunakan tab Classify di WEKA Explorer untuk memprediksi harga saham dengan algoritma regresi linier. Ia perlu mengubah opsi pengujian dari default ke suatu metode agar hasil evaluasi tidak terlalu optimis. Opsi pengujian di WEKA yang membagi data menjadi 70% untuk pelatihan dan 30% untuk pengujian secara acak adalah…
- A. Cross-Validation dengan 10 folds
- B. Use Training Set
- C. Supplied Test Set
- D. Percentage Split
95. Sebuah perusahaan ritel ingin menemukan pola pembelian produk tanpa memiliki label kelas tertentu pada dataset transaksinya. Manajer meminta tim menggunakan WEKA untuk mengidentifikasi aturan seperti jika pelanggan membeli roti maka cenderung membeli selai. Panel di WEKA Explorer yang secara spesifik digunakan untuk menjalankan algoritma aturan asosiasi adalah…
- A. Tab Classify
- B. Tab Cluster
- C. Tab Visualize
- D. Tab Associate
96. PT Indomarco memiliki dataset transaksi tanpa label dan ingin mengelompokkan toko-toko berdasarkan pola penjualan. Tim data science menggunakan WEKA dan memilih algoritma SimpleKMeans di tab Cluster. Setelah proses selesai, untuk memvisualisasikan hasil pengelompokan dalam bentuk scatter plot dua dimensi dengan warna berbeda untuk setiap klaster, panel yang paling tepat digunakan adalah…
- A. Tab Classify
- B. Tab Associate
- C. Visualize Panel
- D. Tab Preprocess
97. Seorang peneliti sosial menggunakan WEKA untuk menganalisis data survei. Ia menerapkan algoritma K-Means di tab Cluster dan algoritma Apriori di tab Associate pada dataset yang sama. Perbedaan mendasar antara output yang dihasilkan oleh kedua tab tersebut adalah…
- A. Tab Cluster menghasilkan aturan asosiasi sedangkan tab Associate menghasilkan kelompok data
- B. Tab Cluster menghasilkan pengelompokan instance sedangkan tab Associate menghasilkan aturan hubungan antar-item
- C. Tab Cluster memerlukan label kelas sedangkan tab Associate tidak
- D. Tab Cluster hanya untuk data numerik sedangkan tab Associate hanya untuk data kategorikal
98. Seorang data scientist mengeksplorasi dataset besar menggunakan Visualize Panel di WEKA. Ia memilih dua atribut untuk sumbu X dan Y, kemudian mewarnai titik-titik data berdasarkan atribut kelas 'Status Kredit'. Dari visualisasi tersebut, ia mengamati bahwa titik-titik dengan warna berbeda cenderung terpisah dengan jelas pada area tertentu di plot. Informasi yang dapat disimpulkan dari pengamatan ini adalah…
- A. Atribut yang dipilih memiliki kemampuan diskriminatif terhadap kelas target
- B. Dataset tidak memiliki outlier pada kedua atribut
- C. Algoritma Apriori akan menghasilkan aturan asosiasi yang kuat
- D. Data harus dinormalisasi sebelum klasifikasi
99. Seorang arsitek data diminta merancang sistem yang secara spesifik menyimpan data historis dari berbagai sumber operasional, terintegrasi berdasarkan subjek bisnis, dan dioptimalkan untuk kueri analitis kompleks. Sistem ini merupakan komponen kunci dalam arsitektur informasi perusahaan…
- A. Data Lake yang menyimpan data mentah dalam format aslinya
- B. Basis Data Operasional untuk pemrosesan transaksi harian
- C. Data Warehouse dengan skema bintang atau snowflake
- D. Sistem pemrosesan aliran data waktu-nyata
100. Seorang analis data dihadapkan pada dataset dengan fitur numerik yang memiliki satuan berbeda, seperti pendapatan dalam jutaan dan usia dalam puluhan, sebelum menerapkan algoritma yang berbasis perhitungan jarak. Prosedur prapemrosesan yang tepat untuk menjamin setiap fitur memberikan kontribusi yang setara dalam perhitungan jarak adalah…
- A. Diskretisasi berbasis lebar interval yang sama (equal-width binning) pada setiap fitur numerik
- B. Transformasi min-max yang menskalakan ulang setiap fitur ke dalam rentang [0,1]
- C. Pengurangan dimensi menggunakan Principal Component Analysis (PCA) pada seluruh fitur
- D. Agregasi data menjadi kategori-kategori yang lebih umum untuk menghilangkan perbedaan numerik
Latihan Tambahan dengan AI
Salin prompt di bawah ini, lalu tempelkan ke ChatGPT, Gemini, Claude, atau AI lainnya untuk mendapatkan 50 soal latihan baru dengan materi yang sama. Soal yang dihasilkan AI akan berbeda dari soal di halaman ini.