MSIM4403 — Data Mining

1. Seorang analis data di perusahaan e-commerce melakukan proses ekstraksi pola pembelian pelanggan dari data transaksi menggunakan metode statistika dan machine learning. Aktivitas ini merupakan bagian dari tahapan yang lebih besar bernama…

A. Data Mining
B. Knowledge Discovery in Databases
C. Online Analytical Processing
D. Data Preprocessing

Jawaban: B. KDD adalah keseluruhan proses non-trivial untuk mengidentifikasi pola dari data, di mana data mining merupakan salah satu langkah di dalamnya.

2. Berikut ini yang paling tepat menggambarkan hubungan antara Data Mining dan Knowledge Discovery in Databases (KDD)…

A. KDD adalah salah satu teknik yang digunakan dalam Data Mining
B. Data Mining dan KDD adalah dua istilah yang sepenuhnya identik
C. Data Mining merupakan salah satu langkah dalam proses KDD
D. KDD hanya berfokus pada visualisasi data, sedangkan Data Mining pada pemodelan

Jawaban: C. Data mining adalah langkah spesifik dalam kerangka KDD yang lebih luas, yang juga mencakup pembersihan data, integrasi, seleksi, transformasi, evaluasi pola, dan presentasi pengetahuan.

3. PT Logistik Nusantara menemukan bahwa 80% pelanggan yang membeli produk A juga membeli produk B dalam transaksi yang sama. Temuan ini dikategorikan sebagai…

A. Pola data
B. Visualisasi data
C. Reduksi dimensi
D. Model prediktif

Jawaban: A. Pola data adalah representasi ringkas dari keteraturan atau hubungan yang terdapat dalam data, seperti aturan asosiasi, model klasifikasi, atau klaster.

4. Seorang mahasiswa mengklaim bahwa ia telah melakukan data mining hanya dengan menjalankan query SQL untuk menghitung rata-rata penjualan bulanan. Klaim tersebut keliru karena…

A. SQL tidak dapat digunakan untuk data mining
B. Query SQL hanya bisa digunakan pada data warehouse
C. Data mining hanya bisa dilakukan dengan bahasa pemrograman Python
D. Data mining mensyaratkan penemuan pola secara otomatis dari data, bukan sekadar agregasi

Jawaban: D. Data mining adalah proses ekstraksi pola atau pengetahuan menarik dari data menggunakan metode pada irisan ilmu basis data, statistika, dan kecerdasan buatan, bukan sekadar operasi query agregatif.

5. Karakteristik utama yang membedakan data mining dari sekadar query basis data adalah…

A. Data mining selalu menghasilkan visualisasi grafis
B. Data mining hanya bekerja pada data tidak terstruktur
C. Data mining menemukan pola yang tidak diketahui sebelumnya secara otomatis
D. Data mining memerlukan data warehouse sebagai sumber data

Jawaban: C. Data mining berfokus pada penemuan pola implisit yang sebelumnya tidak diketahui, berbeda dengan query yang hanya mengambil data yang sudah eksplisit diketahui keberadaannya.

6. Fenomena di mana organisasi memiliki volume data yang sangat besar dari berbagai sumber seperti sensor IoT, media sosial, dan sistem transaksi, namun kesulitan mengekstrak wawasan berharga darinya disebut…

A. Data redundancy
B. Data explosion
C. Data inconsistency
D. Data-knowledge gap

Jawaban: D. Kesenjangan data-knowledge adalah kondisi di mana data berlimpah namun pengetahuan yang dapat ditindaklanjuti sangat sedikit, yang menjadi motivasi utama penerapan data mining.

7. Manajemen sebuah bank memutuskan untuk mengadopsi sistem rekomendasi produk berbasis data mining setelah sebelumnya hanya mengandalkan pengalaman para manajer cabang. Keputusan ini mencerminkan pergeseran menuju…

A. Pengambilan keputusan berbasis intuisi
B. Eliminasi kebutuhan data warehouse
C. Reduksi volume data operasional
D. Pengambilan keputusan berbasis data

Jawaban: D. Pengambilan keputusan berbasis data menggunakan wawasan yang diekstrak dari data untuk mendukung dan meningkatkan kualitas keputusan bisnis, menggantikan intuisi semata.

8. Faktor utama yang mendorong meningkatnya kebutuhan akan data mining di era digital adalah…

A. Penurunan biaya penyimpanan data tanpa peningkatan volume data
B. Pertumbuhan pesat volume, variasi, dan kecepatan data akibat digitalisasi
C. Berkurangnya kompleksitas algoritma machine learning
D. Standarisasi format data di seluruh industri

Jawaban: B. Ledakan data akibat digitalisasi dan otomatisasi di segala bidang menciptakan kebutuhan mendesak akan teknik analisis otomatis untuk mengekstrak nilai dari data.

9. Sebuah rumah sakit memiliki jutaan rekam medis elektronik tetapi belum mampu mengidentifikasi faktor risiko utama suatu penyakit dari data tersebut. Situasi ini paling tepat dikategorikan sebagai…

A. Overfitting pada data medis
B. Reduksi data yang berlebihan
C. Multikolinieritas variabel
D. Data-knowledge gap

Jawaban: D. Kondisi data berlimpah namun pengetahuan yang dapat ditindaklanjuti sangat sedikit merupakan definisi dari kesenjangan data-knowledge.

10. Ketika volume data tumbuh secara eksponensial sementara kemampuan analisis manual manusia tetap terbatas, data mining menjadi krusial karena…

A. Mampu menyimpan data dalam jumlah tak terbatas
B. Menggantikan kebutuhan akan sistem basis data relasional
C. Menyediakan teknik analisis otomatis untuk mengekstrak pola dari big data
D. Menjamin akurasi 100% pada setiap prediksi yang dihasilkan

Jawaban: C. Pertumbuhan data yang masif memerlukan teknik analisis otomatis agar pola dan pengetahuan dapat diekstrak tanpa bergantung sepenuhnya pada analisis manual.

11. Seorang data scientist menggunakan teori probabilitas untuk memvalidasi signifikansi pola asosiasi yang ditemukan dari data transaksi. Dalam konteks ini, ia menerapkan kontribusi dari bidang…

A. Sistem basis data
B. Machine learning
C. Statistika
D. Data warehouse

Jawaban: C. Statistika menyediakan landasan teori probabilitas, inferensi, dan uji hipotesis yang digunakan untuk memvalidasi dan menginterpretasi hasil data mining.

12. Algoritma yang memungkinkan komputer belajar dari data untuk membuat prediksi tanpa diprogram secara eksplisit merupakan inti dari bidang…

A. Sistem basis data
B. Machine learning
C. Statistika deskriptif
D. Online Analytical Processing

Jawaban: B. Machine learning adalah cabang kecerdasan buatan yang berfokus pada pengembangan algoritma yang memungkinkan komputer belajar dari data untuk membuat prediksi atau keputusan.

13. Dalam sebuah proyek data mining, tim perlu menyimpan dan mengelola data transaksi harian dari jutaan pelanggan secara efisien sebelum analisis dilakukan. Kemampuan ini disediakan oleh kontribusi bidang…

A. Sistem basis data
B. Statistika inferensial
C. Visualisasi data
D. Machine learning

Jawaban: A. Sistem basis data menyediakan teknologi untuk penyimpanan, pengelolaan, pengindeksan, dan pengambilan data terstruktur secara efisien yang menjadi fondasi penanganan data skala besar.

14. Perbedaan mendasar antara data mining dan machine learning terletak pada…

A. Data mining berfokus pada penemuan pola dari data, machine learning pada pembelajaran dari data untuk prediksi
B. Machine learning hanya menggunakan data terstruktur, data mining hanya data tidak terstruktur
C. Keduanya identik dan istilah tersebut dapat dipertukarkan
D. Machine learning selalu memerlukan data warehouse, data mining tidak

Jawaban: A. Data mining berfokus pada ekstraksi pola dari data menggunakan berbagai metode, sementara machine learning secara spesifik mengembangkan algoritma yang belajar dari data untuk meningkatkan performa tugas.

15. Uji hipotesis dan analisis korelasi yang digunakan untuk memastikan bahwa pola yang ditemukan dalam data mining bukanlah kebetulan statistik berasal dari bidang…

A. Sistem basis data
B. Statistika
C. Data warehouse
D. Machine learning

Jawaban: B. Statistika menyediakan kerangka inferensial seperti uji hipotesis untuk memvalidasi temuan data mining agar dapat dipastikan signifikan secara statistik.

16. Koleksi data yang terintegrasi, berorientasi subjek, time-variant, dan non-volatile yang digunakan untuk mendukung analisis dan pengambilan keputusan disebut…

A. Data warehouse
B. Data lake
C. Basis data operasional
D. Data mart

Jawaban: A. Data warehouse adalah koleksi data terintegrasi, berorientasi subjek, time-variant, dan non-volatile yang dirancang khusus untuk mendukung proses analisis dan pengambilan keputusan.

17. Seorang manajer ingin melihat laporan penjualan yang dapat dipecah berdasarkan wilayah, lalu berdasarkan produk, dan akhirnya berdasarkan bulan secara interaktif. Teknologi yang mendukung analisis multidimensi semacam ini adalah…

A. Online Analytical Processing
B. SQL Query Language
C. Data mining
D. Machine learning

Jawaban: A. OLAP adalah teknik analisis data multidimensi yang memungkinkan operasi seperti roll-up, drill-down, slicing, dan dicing secara interaktif.

18. Seorang arsitek data merancang sistem penyimpanan terpusat yang khusus menampung data historis dari berbagai departemen untuk keperluan analisis tren penjualan lima tahunan. Sistem yang dirancang memiliki karakteristik terintegrasi, berorientasi subjek penjualan, dan tidak mengalami perubahan setelah dimasukkan. Sistem ini paling tepat disebut…

A. Database Operasional
B. Data Warehouse
C. Data Lake
D. OLTP System

Jawaban: B. Data warehouse memiliki karakteristik terintegrasi, berorientasi subjek, time-variant, dan non-volatile, yang membedakannya dari database operasional yang bersifat transaksional dan selalu berubah.

19. Kepala cabang sebuah bank ingin menganalisis data kredit macet berdasarkan dimensi waktu, wilayah, dan jenis produk secara bergantian untuk menemukan pola musiman. Teknologi yang paling sesuai untuk mendukung analisis interaktif multidimensi semacam ini adalah…

A. OLAP
B. Data Mining
C. SQL Query
D. Data Warehouse

Jawaban: A. OLAP (Online Analytical Processing) dirancang khusus untuk analisis data multidimensi secara interaktif dengan operasi seperti roll-up, drill-down, slicing, dan dicing.

20. Perbedaan utama antara OLAP dan Data Mining terletak pada…

A. OLAP menggunakan data terstruktur sedangkan Data Mining menggunakan data tidak terstruktur
B. OLAP bersifat verifikasi-driven sedangkan Data Mining bersifat discovery-driven
C. OLAP menggunakan metode statistik sedangkan Data Mining menggunakan query SQL
D. OLAP bekerja pada data warehouse sedangkan Data Mining bekerja pada database operasional

Jawaban: B. OLAP bersifat verifikasi-driven karena pengguna harus menentukan hipotesis dan dimensi analisis terlebih dahulu, sementara Data Mining bersifat discovery-driven karena secara otomatis menemukan pola yang belum diketahui sebelumnya.

21. Dalam sebuah dataset pelanggan, kolom 'Pendapatan Bulanan' berisi nilai dalam rupiah yang dapat dijumlahkan dan dihitung rata-ratanya. Sementara itu, kolom 'Status Pernikahan' berisi label seperti 'Menikah', 'Belum Menikah', dan 'Cerai'. Karakteristik yang membedakan kedua jenis data tersebut adalah…

A. Data numerik selalu berdimensi tinggi sedangkan data kategorikal berdimensi rendah
B. Data numerik selalu kontinu sedangkan data kategorikal selalu diskrit
C. Data numerik disimpan sebagai integer sedangkan data kategorikal sebagai string
D. Data numerik memiliki makna aritmatika sedangkan data kategorikal menyatakan label atau kelas

Jawaban: D. Data numerik bersifat kuantitatif dan memiliki makna aritmatika sehingga dapat dilakukan operasi matematis, sedangkan data kategorikal bersifat kualitatif yang hanya menyatakan label atau kelas tanpa makna aritmatika.

22. Seorang analis menemukan bahwa sebuah dataset memiliki nilai suhu udara tercatat -99°C di kota tropis serta beberapa kolom alamat yang tidak diisi. Masalah kualitas data yang dihadapi analis tersebut adalah…

A. Data tidak akurat dan tidak lengkap
B. Data tidak konsisten dan tidak unik
C. Data tidak tepat waktu dan noise
D. Data tidak terstruktur dan outlier

Jawaban: A. Nilai suhu -99°C di kota tropis mencerminkan data yang tidak akurat karena tidak mencerminkan kondisi sebenarnya, sementara kolom alamat yang kosong menunjukkan data yang tidak lengkap.

23. Atribut 'Tinggi Badan' yang dapat mengambil nilai dalam rentang kontinu seperti 165,5 cm atau 170,2 cm berbeda secara fundamental dengan atribut 'Jumlah Anak' yang hanya dapat bernilai bilangan bulat seperti 0, 1, 2, dan seterusnya. Perbedaan ini mendasari klasifikasi atribut menjadi…

A. Data kontinu dan diskrit
B. Data numerik dan kategorikal
C. Data noise dan outlier
D. Data primer dan sekunder

Jawaban: A. Atribut kontinu dapat mengambil nilai dalam rentang tak terputus termasuk pecahan desimal, sedangkan atribut diskrit hanya dapat mengambil nilai terpisah yang biasanya berupa bilangan bulat.

24. Ketika sebuah sensor suhu di pabrik secara konsisten mencatat nilai 5 derajat lebih tinggi dari suhu aktual karena kesalahan kalibrasi, sedangkan satu sensor lain sesekali melaporkan lonjakan suhu ekstrem yang tidak wajar, kedua fenomena ini secara berurutan disebut…

A. Missing value dan inkonsistensi
B. Redundansi dan duplikasi
C. Noise dan outlier
D. Outlier dan missing value

Jawaban: C. Kesalahan kalibrasi yang konsisten menghasilkan noise berupa distorsi sistematis pada data, sementara lonjakan ekstrem yang tidak wajar merupakan outlier karena menyimpang jauh dari distribusi normal data.

25. Tim data science PT Telkomsel menemukan bahwa dataset pelanggan memiliki banyak nomor telepon yang tidak valid, beberapa field kosong, dan format tanggal yang tidak seragam. Sebelum melakukan analisis clustering pelanggan, langkah pertama yang harus dilakukan adalah…

A. Reduksi data untuk mengurangi volume dataset
B. Transformasi data untuk normalisasi nilai numerik
C. Pembersihan data untuk mengoreksi dan menghapus data bermasalah
D. Visualisasi data untuk mengidentifikasi pola awal

Jawaban: C. Pembersihan data merupakan langkah preprocessing paling awal untuk mendeteksi dan mengoreksi atau menghapus data yang tidak akurat, tidak lengkap, atau tidak relevan sebelum analisis dilanjutkan.

26. Sebuah algoritma k-NN membutuhkan semua atribut numerik berada dalam skala yang setara agar perhitungan jarak tidak didominasi oleh atribut dengan nilai besar. Teknik preprocessing yang tepat untuk mengatasi masalah ini adalah…

A. Normalisasi untuk menskalakan nilai ke rentang tertentu seperti 0 hingga 1
B. Diskretisasi untuk mengubah numerik menjadi kategorikal
C. Reduksi dimensi untuk mengurangi jumlah atribut
D. Sampling untuk mengurangi jumlah data latih

Jawaban: A. Normalisasi mengubah skala nilai numerik ke rentang yang seragam sehingga setiap atribut memiliki pengaruh proporsional dalam perhitungan jarak, mencegah dominasi atribut dengan magnitude besar.

27. Dalam mempersiapkan data untuk model regresi linier yang memerlukan fitur numerik, seorang analis menghadapi atribut 'Kategori Produk' yang berisi nilai 'Elektronik', 'Fashion', dan 'Makanan'. Teknik transformasi data yang sesuai untuk mengubah atribut kategorikal ini menjadi representasi numerik adalah…

A. One-Hot Encoding
B. Diskretisasi
C. Normalisasi
D. Reduksi dimensi

Jawaban: A. One-Hot Encoding mengubah setiap kategori menjadi kolom biner terpisah sehingga atribut kategorikal dapat direpresentasikan secara numerik tanpa menimbulkan hubungan ordinal palsu antar kategori.

28. Dataset sensor IoT memiliki 1000 atribut dengan banyak atribut redundan yang saling berkorelasi tinggi. Analis ingin mengurangi kompleksitas komputasi tanpa kehilangan informasi penting secara signifikan. Pendekatan yang paling tepat adalah…

A. Membersihkan missing value dari seluruh atribut
B. Melakukan reduksi data melalui reduksi dimensi
C. Melakukan normalisasi pada seluruh atribut numerik
D. Melakukan diskretisasi atribut kontinu menjadi kategorikal

Jawaban: B. Reduksi dimensi mengurangi jumlah atribut dengan tetap mempertahankan informasi penting, misalnya melalui PCA yang menggabungkan atribut berkorelasi tinggi menjadi komponen baru yang tidak redundan.

29. Seorang analis data ingin memeriksa apakah terdapat outlier dalam dataset pendapatan penduduk suatu kecamatan. Visualisasi yang paling efektif untuk menampilkan ringkasan distribusi lima angka statistik sekaligus mendeteksi outlier secara visual adalah…

A. Histogram
B. Scatter Plot
C. Bar Chart
D. Box Plot

Jawaban: D. Box Plot menampilkan minimum, kuartil pertama, median, kuartil ketiga, dan maksimum, serta secara eksplisit menandai outlier sebagai titik di luar whisker, menjadikannya ideal untuk deteksi outlier.

30. Perbedaan utama antara histogram dan bar chart dalam konteks visualisasi data adalah…

A. Histogram menampilkan data kategorikal sedangkan bar chart menampilkan data numerik
B. Histogram menggunakan sumbu vertikal untuk frekuensi sedangkan bar chart menggunakan sumbu horizontal
C. Histogram menampilkan distribusi data numerik kontinu sedangkan bar chart menampilkan frekuensi data kategorikal
D. Histogram selalu berbentuk simetris sedangkan bar chart dapat bervariasi

Jawaban: C. Histogram digunakan untuk memvisualisasikan distribusi data numerik kontinu dengan batang yang saling berdempetan, sementara bar chart membandingkan frekuensi antar kategori diskrit dengan batang yang terpisah.

31. PT Astra Internasional ingin menganalisis hubungan antara usia kendaraan dan harga jual kembali untuk 200 unit mobil bekas yang baru terjual. Visualisasi yang paling tepat untuk melihat pola hubungan antara kedua variabel numerik ini adalah…

A. Box Plot
B. Histogram
C. Pie Chart
D. Scatter Plot

Jawaban: D. Scatter Plot ideal untuk menampilkan hubungan antara dua variabel numerik melalui sebaran titik data, sehingga pola seperti korelasi negatif antara usia kendaraan dan harga jual dapat terlihat jelas.

32. Dalam eksplorasi data penjualan ritel, seorang manajer ingin melihat bagaimana distribusi frekuensi jumlah transaksi harian selama satu tahun terdistribusi. Visualisasi yang menampilkan frekuensi setiap interval jumlah transaksi secara tepat adalah…

A. Box Plot
B. Scatter Plot
C. Histogram
D. Bar Chart

Jawaban: C. Histogram membagi data numerik kontinu ke dalam interval (bin) dan menampilkan frekuensi setiap interval, sehingga distribusi jumlah transaksi harian dapat terlihat dengan jelas.

33. Model prediktif yang dibangun dari data historis penjualan mampu memprediksi permintaan bulan depan dengan akurasi tinggi pada data latih, namun performanya sangat buruk saat digunakan pada data transaksi minggu berikutnya. Fenomena ini mengindikasikan bahwa model mengalami…

A. Underfitting
B. Generalisasi
C. Konvergensi
D. Overfitting

Jawaban: D. Overfitting terjadi ketika model terlalu spesifik mempelajari pola pada data latih termasuk noisenya, sehingga gagal melakukan generalisasi dengan baik pada data baru yang belum pernah dilihat.

34. Dalam sebuah proyek klasifikasi email spam, tim membagi dataset menjadi 80% data latih dan 20% data uji. Alasan utama digunakannya data uji yang terpisah dan tidak pernah digunakan selama pelatihan adalah…

A. Untuk mempercepat waktu pelatihan model
B. Untuk mengevaluasi kemampuan generalisasi model pada data yang belum pernah dilihat
C. Untuk mengurangi jumlah data yang harus diproses
D. Untuk memastikan model menghafal seluruh pola dalam data

Jawaban: B. Data uji yang tidak digunakan selama pelatihan berfungsi sebagai simulasi data baru di dunia nyata, sehingga evaluasi pada data uji mengukur kemampuan model melakukan prediksi akurat pada data yang belum pernah ditemui sebelumnya.

35. Seorang analis data membangun model untuk memprediksi apakah seorang nasabah akan gagal bayar kredit berdasarkan data historis pembayaran. Model ini dilatih menggunakan data nasabah tahun lalu dan akan digunakan untuk menyaring pengajuan kredit baru bulan depan. Jenis data mining yang dilakukan analis tersebut adalah…

A. Descriptive data mining
B. Predictive data mining
C. Association rule mining
D. Cluster analysis

Jawaban: B. Predictive data mining bertujuan membangun model dari data historis untuk memprediksi nilai atau kelas dari data baru yang belum diketahui, seperti prediksi gagal bayar kredit.

36. Perbedaan fundamental antara model prediktif dan model deskriptif dalam data mining terletak pada…

A. Jumlah atribut yang digunakan dalam dataset
B. Adanya variabel target yang ingin diprediksi
C. Jenis algoritma yang digunakan untuk komputasi
D. Kecepatan pemrosesan data dalam jumlah besar

Jawaban: B. Model prediktif selalu memiliki variabel target atau label yang ingin diprediksi, sedangkan model deskriptif tidak memiliki variabel target dan bertujuan menemukan pola intrinsik dalam data.

37. Seorang manajer pemasaran ingin mengelompokkan pelanggan ke dalam beberapa segmen berdasarkan kemiripan perilaku belanja tanpa menentukan terlebih dahulu berapa segmen yang diinginkan maupun karakteristik tiap segmen. Aktivitas ini termasuk dalam kategori…

A. Descriptive data mining
B. Predictive data mining
C. Regression analysis
D. Classification

Jawaban: A. Pengelompokan pelanggan berdasarkan kemiripan tanpa label target merupakan contoh descriptive data mining, khususnya analisis klaster, yang mengidentifikasi struktur alami dalam data.

38. Algoritma yang mengidentifikasi bahwa pelanggan yang membeli popok cenderung juga membeli bir dalam transaksi yang sama menghasilkan output berupa…

A. Model klasifikasi
B. Pola asosiasi
C. Regresi linier
D. Klaster pelanggan

Jawaban: B. Hubungan antar-item yang sering muncul bersamaan dalam transaksi merupakan pola asosiasi, yang merupakan salah satu jenis output dari descriptive data mining.

39. Dalam analisis deskriptif, ukuran yang digunakan untuk menentukan seberapa mirip dua objek data sehingga dapat dikelompokkan bersama disebut…

A. Confidence
B. Entropi
C. Similaritas
D. Akurasi

Jawaban: C. Similaritas adalah ukuran kuantitatif kemiripan antara dua objek data, menjadi dasar dalam pengelompokan klaster maupun teknik deskriptif lainnya.

40. PT Sentosa Retail menerapkan analisis deskriptif dan menemukan bahwa 70% transaksi yang mengandung kopi juga mengandung gula. Ditemukan pula tiga kelompok pelanggan dengan karakteristik belanja yang berbeda. Output pertama dan kedua secara berurutan dikategorikan sebagai…

A. Estimasi dan klasifikasi
B. Klaster dan pola asosiasi
C. Klasifikasi dan estimasi
D. Pola asosiasi dan klaster

Jawaban: D. Aturan yang menunjukkan hubungan antar-item dalam transaksi adalah pola asosiasi, sedangkan pengelompokan pelanggan berdasarkan kemiripan karakteristik adalah klaster.

41. Dalam regresi linier sederhana, metode yang digunakan untuk mengestimasi koefisien regresi dengan meminimalkan jumlah kuadrat selisih antara nilai aktual dan nilai prediksi disebut…

A. Maximum likelihood estimation
B. Gradient descent
C. Metode kuadrat terkecil
D. Principal component analysis

Jawaban: C. Metode kuadrat terkecil (least squares) adalah pendekatan standar dalam regresi linier yang menemukan garis terbaik dengan meminimalkan Σ(y_aktual – y_prediksi)^2.

42. Seorang analis keuangan membangun model regresi untuk memprediksi harga rumah berdasarkan luas bangunan. Ia menemukan bahwa setiap penambahan 1 m² luas bangunan menaikkan harga rumah sebesar Rp5.000.000. Nilai Rp5.000.000 tersebut merepresentasikan…

A. Intersep regresi
B. Koefisien determinasi
C. Koefisien regresi
D. Nilai residual

Jawaban: C. Koefisien regresi (slope) mengukur perubahan variabel dependen untuk setiap perubahan satu unit variabel independen, dalam hal ini kenaikan harga per m².

43. Dalam konteks regresi linier sederhana, variabel dependen dan variabel independen memiliki peran yang berbeda. Variabel independen berfungsi sebagai…

A. Variabel yang dihitung dari residual
B. Variabel yang nilainya ingin diprediksi
C. Variabel yang nilainya selalu konstan
D. Variabel yang digunakan untuk memprediksi

Jawaban: D. Variabel independen adalah prediktor atau variabel bebas yang digunakan untuk memprediksi nilai variabel dependen, bukan sebaliknya.

44. Jika garis regresi antara biaya iklan (X) dan penjualan (Y) dinyatakan sebagai Y = 50 + 2,5X, artinya ketika biaya iklan nol, penjualan diprediksi sebesar 50 unit, dan setiap kenaikan biaya iklan 1 juta rupiah diprediksi menaikkan penjualan sebesar 2,5 unit. Pernyataan yang tepat terkait model ini adalah…

A. Intersep bernilai 50 dan koefisien regresi bernilai 2,5
B. Intersep bernilai 2,5 dan koefisien regresi bernilai 50
C. Koefisien determinasi bernilai 50 dan intersep 2,5
D. Residual bernilai 50 dan intersep bernilai 2,5

Jawaban: A. Dalam persamaan Y = a + bX, a adalah intersep (nilai Y saat X=0) dan b adalah koefisien regresi (perubahan Y per unit X).

45. Seorang peneliti membangun model regresi dengan tiga variabel independen: pendapatan, pengeluaran, dan jumlah tanggungan untuk memprediksi pengajuan kredit. Ia menemukan bahwa pendapatan dan pengeluaran memiliki korelasi sangat tinggi (r = 0,92). Kondisi ini disebut…

A. Autokorelasi
B. Heteroskedastisitas
C. Overfitting
D. Multikolinieritas

Jawaban: D. Multikolinieritas terjadi ketika dua atau lebih variabel independen dalam regresi berganda saling berkorelasi tinggi, yang dapat mengganggu estimasi koefisien regresi.

46. Model regresi berganda untuk memprediksi IPK mahasiswa menggunakan variabel jam belajar, motivasi, dan akses internet menghasilkan R^2 = 0,78. Interpretasi yang tepat dari nilai R^2 ini adalah…

A. 78% variasi IPK dapat dijelaskan oleh ketiga variabel independen secara bersama-sama
B. 78% mahasiswa dalam dataset memiliki IPK di atas rata-rata
C. Korelasi antara IPK dan jam belajar adalah 0,78
D. Model memiliki tingkat kesalahan prediksi sebesar 78%

Jawaban: A. Koefisien determinasi R^2 mengukur proporsi varians variabel dependen yang dapat dijelaskan oleh seluruh variabel independen dalam model regresi.

47. Perbedaan utama antara regresi linier sederhana dan regresi linier berganda terletak pada…

A. Jumlah variabel independen yang digunakan
B. Jenis variabel dependen yang diprediksi
C. Metode estimasi koefisien yang diterapkan
D. Bentuk hubungan antara variabel yang dihasilkan

Jawaban: A. Regresi sederhana hanya melibatkan satu variabel independen, sedangkan regresi berganda melibatkan dua atau lebih variabel independen untuk memprediksi satu variabel dependen.

48. PT Graha Properti menggunakan regresi berganda dengan variabel luas tanah, luas bangunan, dan usia bangunan untuk memprediksi harga jual rumah. Ditemukan bahwa luas tanah dan luas bangunan saling berkorelasi tinggi. Dampak yang mungkin terjadi akibat kondisi ini adalah…

A. Nilai R^2 otomatis menjadi nol
B. Estimasi koefisien menjadi tidak stabil dan sulit diinterpretasi
C. Variabel dependen tidak dapat diprediksi sama sekali
D. Model hanya dapat menggunakan satu variabel independen

Jawaban: B. Multikolinieritas menyebabkan varians estimasi koefisien membesar sehingga koefisien menjadi tidak stabil dan interpretasi pengaruh masing-masing variabel menjadi tidak akurat.

49. Algoritma ID3 membangun pohon keputusan dengan memilih atribut yang memberikan nilai tertinggi pada suatu kriteria pemisahan. Kriteria tersebut mengukur pengurangan ketidakpastian setelah dataset dipartisi dan disebut…

A. Information gain
B. Gain ratio
C. Gini index
D. Confidence

Jawaban: A. Information gain adalah kriteria utama dalam ID3 yang mengukur pengurangan entropi setelah dataset dibagi berdasarkan atribut, di mana atribut dengan nilai tertinggi dipilih sebagai simpul pemisah.

50. Sebuah dataset berisi 20 instance dengan komposisi 12 kelas 'Ya' dan 8 kelas 'Tidak'. Entropi dataset ini dapat dihitung. Jika setelah dipartisi berdasarkan atribut 'Cuaca', entropi rata-rata turun secara signifikan, hal ini menunjukkan bahwa…

A. Entropi awal dataset sudah sangat rendah
B. Atribut 'Cuaca' tidak relevan dan sebaiknya tidak digunakan
C. Dataset menjadi lebih tidak murni setelah pemisahan
D. Atribut 'Cuaca' efektif dalam memisahkan kelas sehingga information gain tinggi

Jawaban: D. Penurunan entropi yang signifikan setelah partisi berarti atribut tersebut memberikan information gain yang tinggi, menunjukkan atribut itu baik dalam memisahkan kelas-kelas yang berbeda.

51. Dalam algoritma ID3, jika suatu simpul berisi data yang seluruhnya berasal dari satu kelas saja, maka simpul tersebut menjadi…

A. Akar pohon yang akan diganti
B. Simpul internal baru yang terus dipartisi
C. Daun dengan label kelas tersebut
D. Cabang yang akan dipangkas

Jawaban: C. Ketika semua instance dalam simpul memiliki kelas yang sama, entropi bernilai nol dan simpul tidak perlu dipartisi lagi, sehingga menjadi daun dengan label kelas mayoritas.

52. Seorang data scientist menggunakan algoritma ID3 untuk membangun pohon keputusan dari dataset nasabah bank. Ia mengamati bahwa sebelum pemisahan, dataset terdiri dari 12 nasabah 'Lancar' dan 8 nasabah 'Macet'. Setelah dipisahkan berdasarkan atribut 'Riwayat', simpul kiri menjadi sangat homogen dengan 10 'Lancar' dan hanya 1 'Macet'. Berkurangnya ketidakpastian pada simpul kiri ini dikuantifikasi menggunakan…

A. Entropi sebelum pemisahan
B. Information Gain
C. Gain Ratio
D. Gini Index

Jawaban: B. Information Gain mengukur pengurangan entropi atau ketidakpastian setelah dataset dipartisi oleh suatu atribut. Semakin homogen simpul hasil partisi, semakin besar pengurangan entropinya.

53. Kelemahan utama algoritma ID3 yang kemudian diperbaiki oleh C4.5 adalah kecenderungannya untuk bias memilih atribut dengan…

A. Nilai kontinu yang belum didiskretisasi
B. Tingkat akurasi tinggi pada data uji
C. Banyak nilai unik sebagai pemisah
D. Missing values yang tidak tertangani

Jawaban: C. ID3 menggunakan Information Gain yang cenderung memilih atribut dengan banyak nilai unik. C4.5 memperbaikinya dengan Gain Ratio yang menormalisasi Information Gain berdasarkan Split Information.

54. PT Indomarco menggunakan C4.5 untuk memprediksi loyalitas pelanggan. Dataset mencakup atribut 'Pendapatan Bulanan' dengan rentang nilai kontinu dari 2 juta hingga 50 juta rupiah. Agar atribut ini dapat digunakan sebagai pemisah dalam pohon keputusan, mekanisme yang diterapkan C4.5 adalah…

A. Mengubah atribut menjadi threshold biner pada titik pemisah optimal
B. Menghitung rata-rata pendapatan sebagai nilai tunggal pemisah
C. Mengabaikan atribut kontinu dan hanya menggunakan atribut kategorikal
D. Mengelompokkan pendapatan ke dalam tiga kategori tetap

Jawaban: A. C4.5 menangani atribut kontinu dengan mencari threshold biner optimal yang memaksimalkan Gain Ratio, lalu mempartisi data menjadi dua subset berdasarkan threshold tersebut.

55. Dalam C4.5, Gain Ratio diperoleh dengan membagi Information Gain dengan Split Information. Jika suatu atribut 'Kode Transaksi' memiliki 1000 nilai unik, masing-masing muncul sekali, maka Split Information atribut tersebut akan bernilai…

A. Sangat kecil sehingga Gain Ratio mendekati nol
B. Sama dengan jumlah nilai unik yaitu 1000
C. Sangat besar sehingga Gain Ratio menjadi kecil
D. Nol karena atribut tidak informatif

Jawaban: C. Split Information mengukur entropi dari distribusi nilai atribut itu sendiri. Atribut dengan banyak nilai unik menghasilkan Split Information besar, sehingga Gain Ratio menjadi kecil dan mengurangi bias pemilihan atribut tersebut.

56. Perbedaan fundamental antara kriteria pemisahan pada ID3 dan C4.5 terletak pada bagaimana kedua algoritma…

A. Menangani missing values dalam data latih
B. Membangkitkan aturan dari pohon yang terbentuk
C. Menyeimbangkan Information Gain dengan distribusi nilai atribut
D. Menentukan kedalaman maksimum pohon keputusan

Jawaban: C. ID3 menggunakan Information Gain mentah yang bias ke atribut dengan banyak nilai, sedangkan C4.5 menyeimbangkannya melalui Gain Ratio yang memperhitungkan distribusi nilai atribut.

57. Seorang analis kredit menerapkan algoritma k-NN dengan k=5 untuk mengklasifikasikan pengajuan kredit baru. Dari 5 tetangga terdekat, 3 berstatus 'Lancar' dan 2 berstatus 'Macet'. Keputusan klasifikasi yang diambil algoritma adalah…

A. Macet karena jarak rata-rata tetangga terpendek
B. Lancar karena merupakan kelas mayoritas
C. Tidak dapat ditentukan karena terjadi seri
D. Macet karena bobot probabilitas lebih tinggi

Jawaban: B. k-NN mengklasifikasikan data baru berdasarkan voting mayoritas dari k tetangga terdekat. Dengan 3 dari 5 tetangga berstatus Lancar, maka kelas Lancar menjadi keputusan klasifikasi.

58. Karakteristik lazy learner pada k-NN berarti algoritma ini…

A. Membangun model eksplisit selama fase pelatihan
B. Membutuhkan data latih dalam jumlah sangat besar
C. Mengabaikan data uji dan hanya fokus pada data latih
D. Menyimpan data latih dan menunda komputasi hingga ada data uji

Jawaban: D. Lazy learner tidak membangun model selama pelatihan, melainkan menyimpan seluruh data latih dan menunda proses komputasi klasifikasi hingga data uji baru diberikan.

59. Dalam algoritma k-NN, pemilihan nilai k yang terlalu kecil seperti k=1 pada dataset dengan noise dapat menyebabkan…

A. Underfitting karena model terlalu sederhana
B. Overfitting karena model sensitif terhadap outlier
C. Akurasi menurun drastis pada data latih
D. Waktu komputasi menjadi tidak efisien

Jawaban: B. k yang terlalu kecil membuat model sangat sensitif terhadap noise dan outlier karena keputusan hanya bergantung pada sedikit tetangga, sehingga model mengikuti fluktuasi data latih dan gagal menggeneralisasi.

60. Seorang analis menggunakan k-NN dengan metrik Euclidean distance pada dataset yang memiliki atribut 'Gaji' dalam jutaan rupiah dan atribut 'Usia' dalam puluhan tahun. Ia menemukan bahwa atribut 'Gaji' mendominasi perhitungan jarak. Masalah ini disebabkan oleh…

A. Perbedaan skala antar atribut yang tidak dinormalisasi
B. Formula Euclidean yang tidak sesuai untuk data campuran
C. Nilai k yang terlalu besar untuk dataset tersebut
D. Atribut gaji yang bersifat diskrit

Jawaban: A. Euclidean distance sensitif terhadap skala atribut. Atribut dengan nilai besar seperti Gaji mendominasi perhitungan jarak jika data tidak dinormalisasi terlebih dahulu.

61. PT Asuransi Sejahtera menggunakan Naive Bayes untuk memprediksi apakah seorang pemohon asuransi jiwa tergolong 'Risiko Tinggi' atau 'Risiko Rendah' berdasarkan atribut usia, pekerjaan, dan riwayat kesehatan. Asumsi independensi yang mendasari algoritma ini mensyaratkan bahwa…

A. Semua atribut saling berkorelasi satu sama lain
B. Kelas target dan atribut prediktor saling independen
C. Setiap atribut independen terhadap atribut lainnya untuk setiap kelas target
D. Atribut numerik harus diubah menjadi kategorikal terlebih dahulu

Jawaban: C. Naive Bayes mengasumsikan independensi bersyarat, yaitu setiap atribut prediktor independen terhadap atribut lainnya diberikan kelas target tertentu. Meskipun asumsi ini jarang terpenuhi sempurna, algoritma ini tetap efektif dalam banyak kasus.

62. Dalam konteks Naive Bayes, probabilitas prior untuk kelas 'Spam' dihitung sebesar 0,3 dari data latih yang terdiri dari 300 email spam dan 700 email non-spam. Nilai ini merepresentasikan…

A. Proporsi email spam dalam data latih sebelum melihat isi email
B. Kemungkinan kata-kata tertentu muncul dalam email spam
C. Probabilitas email adalah spam setelah melihat kata-kata dalam email
D. Akurasi model dalam mengklasifikasikan email spam

Jawaban: A. Probabilitas prior adalah keyakinan awal tentang kelas sebelum mengamati bukti, dihitung dari frekuensi relatif kelas dalam data latih.

63. Seorang mahasiswa menerapkan Teorema Bayes untuk mendeteksi penyakit berdasarkan hasil tes laboratorium. Diketahui probabilitas penyakit (Penyakit) adalah 0,01, probabilitas hasil tes positif jika sakit (Positif|Penyakit) adalah 0,95, dan probabilitas hasil tes positif jika tidak sakit (Positif|Tidak Penyakit) adalah 0,10. Probabilitas posterior P(Penyakit|Positif) dapat dihitung menggunakan konsep…

A. Information Gain dibagi dengan Split Information
B. Probabilitas prior dikalikan dengan likelihood dibagi evidence
C. Confidence dari aturan asosiasi yang ditemukan
D. Entropi dataset sebelum dan sesudah pemisahan

Jawaban: B. Teorema Bayes menyatakan bahwa probabilitas posterior P(H|E) dihitung sebagai P(E|H) × P(H) / P(E), yaitu likelihood dikali prior dibagi evidence.

64. Perbedaan antara Naive Bayes dan algoritma Bayesian Network yang lebih umum terletak pada…

A. Asumsi independensi antar atribut prediktor
B. Kemampuan menangani atribut numerik
C. Penggunaan data latih untuk pelatihan model
D. Penerapan Teorema Bayes dalam perhitungan

Jawaban: A. Naive Bayes menerapkan asumsi independensi kuat antar semua atribut prediktor, sementara Bayesian Network memungkinkan representasi dependensi antar atribut melalui struktur graf.

65. PT Ritel Nusantara menemukan aturan asosiasi {kopi} → {gula} dengan support 0,15 dan confidence 0,80 dari data transaksi bulanan. Interpretasi yang tepat dari nilai support 0,15 adalah…

A. 80% transaksi yang mengandung kopi juga mengandung gula
B. 80% dari seluruh transaksi mengandung kopi atau gula
C. 15% dari transaksi yang mengandung kopi juga mengandung gula
D. 15% dari seluruh transaksi mengandung kopi dan gula secara bersamaan

Jawaban: D. Support mengukur proporsi transaksi yang memuat seluruh itemset (kopi dan gula) terhadap total transaksi. Nilai 0,15 berarti 15% dari seluruh transaksi mengandung kedua item tersebut.

66. Prinsip Apriori menyatakan bahwa jika suatu itemset sering muncul dalam dataset, maka…

A. Semua superset dari itemset tersebut pasti juga sering muncul
B. Itemset tersebut pasti memiliki lift lebih dari 1
C. Itemset tersebut pasti memiliki confidence tinggi
D. Semua subset dari itemset tersebut juga harus sering muncul

Jawaban: D. Prinsip Apriori bersifat downward closure: jika suatu itemset frequent, semua subsetnya juga frequent. Sebaliknya, jika suatu itemset tidak frequent, semua supersetnya juga tidak frequent. Prinsip ini digunakan untuk memangkas ruang pencarian.

67. Struktur data pohon kompresi yang menyimpan informasi frequent itemset dari basis data transaksional tanpa kandidat generasi dalam algoritma FP Growth disebut…

A. FP-Tree
B. Conditional Pattern Base
C. Hash Tree
D. Prefix Tree

Jawaban: A. FP-Tree adalah struktur pohon kompresi yang merepresentasikan data transaksional dan menghindari pembangkitan kandidat seperti pada Apriori.

68. Dalam algoritma FP Growth, setelah FP-Tree terbentuk, langkah selanjutnya adalah membentuk conditional pattern base untuk setiap frequent item. Sub-basis data dari prefix path ini digunakan untuk…

A. Menghitung support setiap itemset secara langsung
B. Membangun FP-Tree kondisional secara rekursif
C. Menghapus item yang tidak frequent dari FP-Tree
D. Mengurutkan item berdasarkan support descending

Jawaban: B. Conditional pattern base berisi kumpulan prefix path yang digunakan untuk membangun FP-Tree kondisional, kemudian menambang frequent itemset secara rekursif.

69. PT Logistik Cepat menyimpan jutaan transaksi pengiriman barang. Tim data science memilih FP Growth daripada Apriori untuk analisis asosiasi. Alasan paling tepat pemilihan ini adalah…

A. FP Growth menghasilkan aturan asosiasi dengan confidence lebih tinggi
B. FP Growth tidak memerlukan proses pembangkitan kandidat itemset seperti Apriori
C. FP Growth dapat menangani data numerik kontinu tanpa diskretisasi
D. FP Growth hanya membutuhkan satu kali pemindaian basis data

Jawaban: B. FP Growth unggul karena menghindari generasi kandidat yang mahal secara komputasi pada Apriori, cukup dengan dua kali pemindaian basis data untuk membangun FP-Tree.

70. Perbedaan utama antara algoritma Apriori dan FP Growth dalam menambang frequent itemset terletak pada…

A. Apriori menggunakan confidence, sedangkan FP Growth menggunakan lift
B. Apriori membangkitkan kandidat itemset secara eksplisit, sedangkan FP Growth tidak
C. Apriori hanya untuk data kategorikal, sedangkan FP Growth untuk data numerik
D. Apriori menggunakan pendekatan top-down, sedangkan FP Growth bottom-up

Jawaban: B. Apriori menghasilkan kandidat itemset di setiap level dan mengujinya ke basis data, sementara FP Growth membangun FP-Tree untuk menghindari proses pembangkitan kandidat tersebut.

71. Titik pusat suatu klaster yang dihitung sebagai rata-rata aritmatika dari seluruh objek yang menjadi anggota klaster tersebut dalam algoritma K-Means disebut…

A. Median
B. Centroid
C. Mode
D. Support vector

Jawaban: B. Centroid adalah rata-rata aritmatika dari titik-titik data dalam satu klaster yang berfungsi sebagai representasi pusat klaster dalam algoritma K-Means.

72. Ketika menjalankan algoritma K-Means, keanggotaan klaster tidak lagi berubah antar iterasi. Kondisi ini menandakan bahwa algoritma telah mencapai…

A. Overfitting
B. Konvergensi
C. Stabilisasi centroid
D. Optimalisasi global

Jawaban: B. Konvergensi terjadi saat keanggotaan klaster tidak berubah lagi atau perubahan centroid sangat kecil, sehingga iterasi K-Means dihentikan.

73. Tim analis pelanggan PT Makmur Santosa menerapkan K-Means untuk segmentasi pelanggan ke dalam 3 klaster. Pada iterasi pertama, hasil segmentasi sangat berbeda dengan iterasi ketiga setelah dijalankan ulang dengan dataset yang sama. Perbedaan hasil ini paling mungkin disebabkan oleh…

A. Jumlah klaster yang terlalu banyak
B. Data pelanggan yang terlalu sedikit
C. Inisialisasi centroid awal yang berbeda
D. Nilai k yang tidak optimal

Jawaban: C. K-Means sensitif terhadap inisialisasi centroid awal. Inisialisasi acak yang berbeda dapat menghasilkan konvergensi ke solusi lokal yang berbeda, sehingga hasil klaster pun berbeda.

74. Seorang data scientist mengamati bahwa setelah beberapa iterasi K-Means, beberapa klaster menjadi kosong tanpa anggota. Fenomena ini dapat terjadi karena…

A. Jumlah iterasi yang terlalu sedikit
B. Centroid awal yang dipilih terlalu dekat satu sama lain
C. Nilai k yang ditetapkan lebih kecil dari jumlah klaster alami
D. Inisialisasi centroid yang ekstrem atau outlier

Jawaban: D. Centroid awal yang terletak jauh dari data mayoritas atau dekat outlier dapat menyebabkan klaster tidak menarik anggota saat iterasi pertama, menghasilkan klaster kosong.

75. Diagram pohon yang merepresentasikan proses penggabungan klaster secara hierarkis dari level paling bawah hingga membentuk satu klaster menyeluruh dalam Hierarchical Agglomerative Clustering dikenal sebagai…

A. Scatter plot
B. Decision tree
C. Dendrogram
D. FP-Tree

Jawaban: C. Dendrogram memvisualisasikan urutan dan tingkat kemiripan saat klaster-klaster digabungkan secara bottom-up dalam klastering hierarkis agglomeratif.

76. Dalam Hierarchical Agglomerative Clustering, jarak antara dua klaster dihitung sebagai jarak terdekat antara satu anggota klaster pertama dan satu anggota klaster kedua. Metode pengukuran jarak antar klaster ini disebut…

A. Complete-linkage
B. Average-linkage
C. Single-linkage
D. Centroid-linkage

Jawaban: C. Single-linkage mengukur jarak antar klaster berdasarkan jarak minimum antara pasangan titik dari dua klaster yang berbeda.

77. PT Nusa Research mengelompokkan 100 spesies tanaman berdasarkan 20 atribut morfologi menggunakan Hierarchical Agglomerative Clustering. Tim peneliti memilih complete-linkage daripada single-linkage karena…

A. Complete-linkage menghasilkan dendrogram yang lebih mudah dibaca
B. Complete-linkage cenderung menghasilkan klaster yang lebih kompak dan tidak memanjang
C. Single-linkage membutuhkan komputasi yang lebih besar
D. Single-linkage tidak dapat menangani data numerik

Jawaban: B. Complete-linkage menggunakan jarak terjauh antar anggota klaster sehingga cenderung membentuk klaster yang lebih kompak dan menghindari efek rantai yang sering muncul pada single-linkage.

78. Perbedaan mendasar antara algoritma K-Means (partitional) dan Hierarchical Agglomerative Clustering (HAC) terletak pada…

A. K-Means memerlukan jumlah klaster di awal, sedangkan HAC tidak
B. K-Means menggunakan jarak Euclidean, sedangkan HAC menggunakan Manhattan
C. K-Means menghasilkan dendrogram, sedangkan HAC menghasilkan centroid
D. K-Means hanya untuk data kategorikal, sedangkan HAC untuk data numerik

Jawaban: A. K-Means mengharuskan penentuan nilai k di awal, sementara HAC membangun hierarki penggabungan tanpa perlu menentukan jumlah klaster terlebih dahulu.

79. Matriks yang merangkum kinerja model klasifikasi dengan menampilkan jumlah prediksi benar dan salah untuk setiap kelas disebut…

A. Confusion Matrix
B. Correlation Matrix
C. Covariance Matrix
D. Similarity Matrix

Jawaban: A. Confusion Matrix menyajikan perbandingan antara label aktual dan label hasil prediksi dalam bentuk tabel, memuat TP, TN, FP, dan FN.

80. Sebuah model klasifikasi email spam menghasilkan TP=80, TN=300, FP=20, dan FN=10. Berapakah nilai presisi model tersebut…

A. 80/90
B. 80/100
C. 300/320
D. 300/310

Jawaban: A. Presisi dihitung sebagai TP/(TP+FP) = 80/(80+20) = 80/90. Presisi mengukur proporsi prediksi positif yang benar-benar positif.

81. Tim data science PT Asuransi Aman mengembangkan model deteksi klaim palsu. Model harus meminimalkan klaim palsu yang lolos terdeteksi sebagai klaim normal. Metrik evaluasi yang paling kritis untuk kasus ini adalah…

A. Akurasi
B. Presisi
C. Recall
D. Specificity

Jawaban: C. Recall atau True Positive Rate mengukur kemampuan model mendeteksi semua kasus positif aktual (klaim palsu). Meminimalkan FN berarti memaksimalkan recall agar klaim palsu tidak lolos.

82. Metrik evaluasi internal untuk klastering yang menggabungkan ukuran kohesi dan separasi untuk menilai seberapa dekat suatu titik dengan klaster sendiri dibandingkan dengan klaster terdekat lainnya adalah…

A. Sum of Squared Error
B. Davies-Bouldin Index
C. Silhouette Coefficient
D. Dunn Index

Jawaban: C. Silhouette Coefficient mengukur kualitas klaster dengan rentang -1 hingga 1, menggabungkan seberapa kompak klaster sendiri (kohesi) dan seberapa jauh dari klaster terdekat (separasi).

83. Sebuah perusahaan e-commerce menerapkan algoritma K-Means untuk segmentasi pelanggan dan menghasilkan tiga klaster. Tim data science ingin mengevaluasi seberapa baik setiap titik data ditempatkan dalam klasternya masing-masing dengan mempertimbangkan baik kohesi intra-klaster maupun separasi antar-klaster. Metrik evaluasi yang paling sesuai untuk kebutuhan ini adalah…

A. Sum of Squared Error (SSE)
B. Davies-Bouldin Index
C. Confusion Matrix
D. Silhouette Coefficient

Jawaban: D. Silhouette Coefficient secara spesifik menggabungkan ukuran kohesi (kedekatan titik ke klaster sendiri) dan separasi (jarak ke klaster terdekat) menjadi satu metrik tunggal per titik, sehingga cocok untuk menilai kualitas penempatan setiap titik dalam klasternya.

84. Seorang analis data menjalankan dua skenario K-Means pada dataset yang sama dengan jumlah klaster berbeda: skenario pertama menghasilkan SSE sebesar 450,3 dan skenario kedua menghasilkan SSE sebesar 210,7. Berdasarkan metrik evaluasi internal ini, kesimpulan yang paling tepat adalah…

A. Skenario pertama lebih baik karena SSE lebih besar menandakan klaster lebih menyebar
B. Skenario kedua lebih baik karena SSE lebih kecil menandakan klaster lebih kohesif
C. Kedua skenario tidak dapat dibandingkan hanya berdasarkan nilai SSE
D. Skenario kedua pasti overfitting karena SSE terlalu rendah

Jawaban: B. SSE mengukur jumlah kuadrat jarak setiap titik ke centroid klasternya. Nilai SSE yang lebih kecil menunjukkan bahwa titik-titik dalam setiap klaster lebih dekat ke pusatnya, sehingga klaster lebih kompak dan kohesif. Oleh karena itu skenario kedua dengan SSE lebih rendah memiliki kualitas klaster yang lebih baik secara internal.

85. PT Ekspres Logistik menerapkan hierarchical clustering untuk mengelompokkan rute pengiriman berdasarkan jarak dan volume paket. Untuk memvalidasi hasil klastering, tim menggunakan silhouette coefficient dan menemukan bahwa satu titik data memiliki silhouette coefficient sebesar -0,35. Arti dari nilai negatif tersebut adalah…

A. Titik tersebut berada sangat dekat dengan centroid klasternya sendiri
B. Titik tersebut merupakan outlier absolut dalam dataset
C. Titik tersebut lebih dekat ke klaster lain dibandingkan ke klaster sendiri
D. Titik tersebut membutuhkan normalisasi ulang

Jawaban: C. Nilai silhouette coefficient negatif menandakan bahwa titik data tersebut lebih dekat ke klaster lain dibandingkan ke klaster sendiri, sehingga kemungkinan besar salah penempatan.

86. Tim data science sebuah bank mengevaluasi hasil klastering nasabah menggunakan dua pendekatan: evaluasi internal dengan SSE dan evaluasi eksternal dengan purity terhadap label produk yang sudah diketahui. Perbedaan mendasar antara kedua pendekatan evaluasi ini adalah…

A. Evaluasi internal menggunakan label kelas asli sedangkan eksternal tidak
B. Evaluasi eksternal hanya berlaku untuk K-Means sedangkan internal untuk semua algoritma
C. Evaluasi internal hanya mengandalkan struktur data hasil klastering tanpa label acuan
D. Evaluasi internal selalu lebih objektif dibandingkan evaluasi eksternal

Jawaban: C. Evaluasi internal seperti SSE hanya mengandalkan struktur data hasil klastering tanpa label acuan, sedangkan evaluasi eksternal seperti purity menggunakan label kelas yang sudah diketahui.

87. Seorang mahasiswa baru pertama kali menggunakan WEKA untuk menganalisis dataset penelitian skripsinya. Ia perlu memahami format file standar yang digunakan WEKA agar dapat mengimpor datanya dengan benar. Format file yang mendeskripsikan data dalam dua bagian utama yaitu header (deklarasi atribut) dan data (nilai-nilai instance) disebut…

A. CSV (Comma-Separated Values)
B. XML (Extensible Markup Language)
C. JSON (JavaScript Object Notation)
D. ARFF (Attribute-Relation File Format)

Jawaban: D. Format file standar WEKA adalah ARFF (Attribute-Relation File Format) yang terdiri dari bagian header untuk deklarasi atribut dan bagian data untuk nilai-nilai instance.

88. Seorang analis membuka WEKA Explorer untuk pertama kalinya dan melihat beberapa panel yang tersedia. Ia ingin melakukan pembersihan data dengan mengganti nilai-nilai yang hilang menggunakan rata-rata atribut serta mendiskretisasi atribut numerik menjadi kategori. Panel yang menyediakan fungsi-fungsi prapemrosesan tersebut adalah…

A. Explorer
B. Tab Cluster
C. Tab Classify
D. Tab Associate

Jawaban: A. Panel Explorer pada WEKA menyediakan berbagai fungsi prapemrosesan data termasuk pembersihan, transformasi, dan filtering sebelum analisis lebih lanjut.

89. Ketika menggunakan WEKA untuk membersihkan dataset pelanggan, seorang analis menerapkan filter ReplaceMissingValues pada atribut 'Pendapatan' dan filter Discretize pada atribut 'Usia'. Kedua filter ini tidak mempertimbangkan atribut kelas 'Churn' dalam prosesnya. Kategori filter yang digunakan analis tersebut adalah…

A. Filter Terawasi (Supervised Filter)
B. Filter Hibrida (Hybrid Filter)
C. Filter Tidak Terawasi (Unsupervised Filter)
D. Filter Adaptif (Adaptive Filter)

Jawaban: C. Filter ReplaceMissingValues dan Discretize yang tidak mempertimbangkan atribut kelas termasuk dalam kategori Filter Tidak Terawasi (Unsupervised Filter).

90. Seorang peneliti kesehatan mengimpor dataset ke WEKA dan mendapati bahwa atribut 'Diagnosis' yang seharusnya bertipe nominal terbaca sebagai string, sementara atribut 'Usia' yang seharusnya numerik terbaca sebagai nominal. Untuk memperbaiki kesalahan tipe atribut ini sebelum analisis lebih lanjut, langkah yang paling tepat di WEKA Explorer adalah…

A. Menjalankan filter Discretize pada kedua atribut
B. Mengedit tipe atribut langsung pada panel Preprocess
C. Menggunakan tab Classify untuk mengabaikan atribut tersebut
D. Mengekspor data ke CSV dan mengimpor ulang

Jawaban: B. Kesalahan tipe atribut dapat langsung diperbaiki dengan mengedit tipe atribut pada panel Preprocess di WEKA Explorer tanpa perlu mengekspor ulang data.

91. PT Asuransi Bumiputera ingin membangun model klasifikasi menggunakan WEKA untuk memprediksi klaim palsu. Tim data science memilih untuk mengevaluasi model dengan teknik yang membagi data menjadi 10 lipatan, melatih pada 9 lipatan, dan menguji pada 1 lipatan secara bergilir. Teknik evaluasi yang dipilih tim tersebut dikenal sebagai…

A. Cross-Validation
B. Percentage Split
C. Supplied Test Set
D. Use Training Set

Jawaban: A. Teknik evaluasi yang membagi data menjadi 10 lipatan, melatih pada 9 lipatan, dan menguji pada 1 lipatan secara bergilir disebut Cross-Validation.

92. Seorang mahasiswa menjalankan algoritma J48 di WEKA pada tab Classify dengan opsi cross-validation 10-fold. Setelah proses selesai, ia mengamati output yang berisi informasi tentang struktur pohon keputusan, akurasi, confusion matrix, presisi, recall, dan F-measure. Bagian output yang paling tepat untuk menilai seberapa baik model membedakan kelas minoritas adalah…

A. Struktur pohon keputusan yang terbentuk
B. Confusion matrix dan metrik per kelas
C. Akurasi keseluruhan di bagian Summary
D. Waktu yang dibutuhkan untuk membangun model

Jawaban: B. Confusion matrix dan metrik per kelas seperti presisi dan recall memberikan informasi paling tepat untuk menilai kemampuan model dalam membedakan kelas minoritas.

93. Tim data science PT Telkomsel membangun dua model klasifikasi churn pelanggan di WEKA: Model A diuji dengan opsi Use Training Set dan menghasilkan akurasi 98%, sedangkan Model B diuji dengan Cross-Validation 10-fold dan menghasilkan akurasi 87%. Manajer mempertanyakan mengapa tim lebih memercayai Model B meskipun akurasinya lebih rendah. Alasan yang paling tepat adalah…

A. Cross-validation memberikan estimasi kinerja yang lebih realistis pada data baru
B. Model B menggunakan algoritma yang lebih kompleks
C. Use Training Set hanya berlaku untuk data numerik
D. Model A mengalami underfitting pada data latih

Jawaban: A. Cross-validation memberikan estimasi kinerja yang lebih realistis pada data baru karena menguji model pada data yang belum pernah dilihat, tidak seperti Use Training Set yang cenderung over-optimis.

94. Seorang analis keuangan menggunakan tab Classify di WEKA Explorer untuk memprediksi harga saham dengan algoritma regresi linier. Ia perlu mengubah opsi pengujian dari default ke suatu metode agar hasil evaluasi tidak terlalu optimis. Opsi pengujian di WEKA yang membagi data menjadi 70% untuk pelatihan dan 30% untuk pengujian secara acak adalah…

A. Cross-Validation dengan 10 folds
B. Use Training Set
C. Supplied Test Set
D. Percentage Split

Jawaban: D. Opsi Percentage Split pada WEKA membagi data secara acak menjadi persentase tertentu untuk pelatihan dan pengujian, misalnya 70% untuk training dan 30% untuk testing.

95. Sebuah perusahaan ritel ingin menemukan pola pembelian produk tanpa memiliki label kelas tertentu pada dataset transaksinya. Manajer meminta tim menggunakan WEKA untuk mengidentifikasi aturan seperti jika pelanggan membeli roti maka cenderung membeli selai. Panel di WEKA Explorer yang secara spesifik digunakan untuk menjalankan algoritma aturan asosiasi adalah…

A. Tab Classify
B. Tab Cluster
C. Tab Visualize
D. Tab Associate

Jawaban: D. Panel Tab Associate pada WEKA Explorer secara spesifik digunakan untuk menjalankan algoritma aturan asosiasi seperti Apriori guna menemukan hubungan antar-item dalam data transaksi.

96. PT Indomarco memiliki dataset transaksi tanpa label dan ingin mengelompokkan toko-toko berdasarkan pola penjualan. Tim data science menggunakan WEKA dan memilih algoritma SimpleKMeans di tab Cluster. Setelah proses selesai, untuk memvisualisasikan hasil pengelompokan dalam bentuk scatter plot dua dimensi dengan warna berbeda untuk setiap klaster, panel yang paling tepat digunakan adalah…

A. Tab Classify
B. Tab Associate
C. Visualize Panel
D. Tab Preprocess

Jawaban: C. Visualize Panel memungkinkan pembuatan scatter plot dua dimensi dengan pewarnaan berdasarkan klaster atau atribut lain sehingga cocok untuk memvisualisasikan hasil pengelompokan.

97. Seorang peneliti sosial menggunakan WEKA untuk menganalisis data survei. Ia menerapkan algoritma K-Means di tab Cluster dan algoritma Apriori di tab Associate pada dataset yang sama. Perbedaan mendasar antara output yang dihasilkan oleh kedua tab tersebut adalah…

A. Tab Cluster menghasilkan aturan asosiasi sedangkan tab Associate menghasilkan kelompok data
B. Tab Cluster menghasilkan pengelompokan instance sedangkan tab Associate menghasilkan aturan hubungan antar-item
C. Tab Cluster memerlukan label kelas sedangkan tab Associate tidak
D. Tab Cluster hanya untuk data numerik sedangkan tab Associate hanya untuk data kategorikal

Jawaban: B. Tab Cluster menghasilkan pengelompokan instance ke dalam klaster, sedangkan tab Associate menghasilkan aturan hubungan antar-item seperti aturan asosiasi.

98. Seorang data scientist mengeksplorasi dataset besar menggunakan Visualize Panel di WEKA. Ia memilih dua atribut untuk sumbu X dan Y, kemudian mewarnai titik-titik data berdasarkan atribut kelas 'Status Kredit'. Dari visualisasi tersebut, ia mengamati bahwa titik-titik dengan warna berbeda cenderung terpisah dengan jelas pada area tertentu di plot. Informasi yang dapat disimpulkan dari pengamatan ini adalah…

A. Atribut yang dipilih memiliki kemampuan diskriminatif terhadap kelas target
B. Dataset tidak memiliki outlier pada kedua atribut
C. Algoritma Apriori akan menghasilkan aturan asosiasi yang kuat
D. Data harus dinormalisasi sebelum klasifikasi

Jawaban: A. Pemisahan jelas titik-titik dengan warna berbeda pada scatter plot menunjukkan bahwa atribut yang dipilih memiliki kemampuan diskriminatif terhadap kelas target.

99. Seorang arsitek data diminta merancang sistem yang secara spesifik menyimpan data historis dari berbagai sumber operasional, terintegrasi berdasarkan subjek bisnis, dan dioptimalkan untuk kueri analitis kompleks. Sistem ini merupakan komponen kunci dalam arsitektur informasi perusahaan…

A. Data Lake yang menyimpan data mentah dalam format aslinya
B. Basis Data Operasional untuk pemrosesan transaksi harian
C. Data Warehouse dengan skema bintang atau snowflake
D. Sistem pemrosesan aliran data waktu-nyata

Jawaban: C. Sistem yang menyimpan data historis, terintegrasi, berorientasi subjek, dan dioptimalkan untuk analisis adalah Data Warehouse. Berbeda dengan Data Lake yang menyimpan data mentah dalam format asli, Data Warehouse menyimpan data yang telah dibersihkan dan ditransformasi. Sementara itu, basis data operasional digunakan untuk transaksi harian dan sistem pemrosesan aliran data menangani data waktu-nyata, bukan analisis historis.

100. Seorang analis data dihadapkan pada dataset dengan fitur numerik yang memiliki satuan berbeda, seperti pendapatan dalam jutaan dan usia dalam puluhan, sebelum menerapkan algoritma yang berbasis perhitungan jarak. Prosedur prapemrosesan yang tepat untuk menjamin setiap fitur memberikan kontribusi yang setara dalam perhitungan jarak adalah…

A. Diskretisasi berbasis lebar interval yang sama (equal-width binning) pada setiap fitur numerik
B. Transformasi min-max yang menskalakan ulang setiap fitur ke dalam rentang [0,1]
C. Pengurangan dimensi menggunakan Principal Component Analysis (PCA) pada seluruh fitur
D. Agregasi data menjadi kategori-kategori yang lebih umum untuk menghilangkan perbedaan numerik

Jawaban: B. Prosedur yang tepat untuk menyetarakan kontribusi fitur numerik dengan satuan berbeda adalah transformasi min-max, yang menormalisasi semua nilai ke dalam rentang seragam sehingga perhitungan jarak tidak didominasi oleh fitur dengan magnitude lebih besar. Diskretisasi mengubah data kontinu menjadi kategorikal, PCA mengurangi dimensi tanpa menskalakan rentang secara langsung, dan agregasi tidak mempertahankan detail numerik yang dibutuhkan algoritma berbasis jarak.

MSIM4403 — Data Mining

Latihan Tambahan dengan AI