Ancaman Model Extraction Attack: Cara Kerja & Pencegahannya

Rita Puspita Sari
•
27 Feb 2025 21.32 WIB

Ilustrasi Cyber Security 13 — Ilustrasi Cyber Security

Dalam era digital yang semakin berkembang, machine learning telah menjadi teknologi kunci dalam berbagai bidang, mulai dari keuangan, kesehatan, hingga keamanan siber. Namun, di balik manfaatnya, terdapat ancaman serius yang mengintai, salah satunya adalah Model Extraction Attack. Serangan ini memungkinkan pihak tidak bertanggung jawab untuk membalikkan rekayasa (reverse-engineering) sebuah model machine learning dan mengekstrak komponen internalnya.

Artikel ini akan membahas secara mendalam apa itu Model Extraction Attack, bagaimana cara kerjanya, serta dampaknya terhadap keamanan sistem machine learning.

Apa Itu Model Extraction Attack?

Model Extraction Attack adalah jenis serangan siber di mana penyerang berusaha mereplikasi atau memahami cara kerja sebuah model machine learning tanpa izin. Penyerang mengirimkan serangkaian kueri yang dirancang secara strategis ke model, lalu menganalisis respons yang diberikan untuk menyimpulkan arsitektur, parameter, batas keputusan, serta informasi penting lainnya.

Serangan ini bisa dilakukan dengan berbagai tujuan, di antaranya:

Membuat replika model untuk kepentingan komersial atau eksploitasi.
Mengeksploitasi logika pengambilan keputusan model untuk keuntungan pribadi, seperti dalam sistem deteksi penipuan.
Mengakses data rahasia yang digunakan dalam pelatihan model.

Ancaman utama dari serangan ini adalah hilangnya kerahasiaan dan integritas model. Model yang direplikasi secara ilegal bisa disalahgunakan untuk mencuri data atau memanipulasi hasil prediksi.

Komponen Internal Model Machine Learning yang Rentan terhadap Model Extraction Attack

Untuk memahami bagaimana Model Extraction Attack bekerja, kita perlu mengenali komponen internal model machine learning yang sering menjadi target serangan. Berikut adalah beberapa komponen utama yang dapat dieksploitasi oleh penyerang:

Arsitektur Model
Arsitektur model mencakup desain keseluruhan model machine learning, termasuk jumlah lapisan (layers), jenis fungsi aktivasi, serta cara neuron dalam jaringan saraf saling berhubungan. Struktur ini menentukan bagaimana model memproses data dan membuat prediksi. Jika arsitektur model bocor, penyerang dapat mencoba meniru model dengan arsitektur yang sama.
Parameter
Parameter adalah bobot (weights) dan bias yang dipelajari oleh model selama pelatihan. Komponen ini berperan dalam mengidentifikasi pola dari data masukan. Penyerang yang berhasil mencuri parameter model dapat mereplikasi perilaku model tanpa harus melatihnya dari awal, yang bisa menghemat banyak sumber daya komputasi.
Hyperparameter
Berbeda dengan parameter yang dipelajari selama pelatihan, hyperparameter adalah konfigurasi yang ditentukan sebelum proses pelatihan dimulai. Contohnya termasuk laju pembelajaran (learning rate), ukuran batch, dan jumlah epoch yang digunakan. Hyperparameter memengaruhi performa dan efisiensi model dalam belajar dari data. Jika penyerang mengetahui hyperparameter suatu model, mereka bisa merekayasa ulang model dengan lebih akurat.
Batas Keputusan (Decision Boundaries)
Batas keputusan adalah ambang batas yang digunakan oleh model untuk membedakan antara kelas-kelas yang berbeda dalam data masukan. Dengan mengetahui batas keputusan, penyerang bisa mengeksploitasi kelemahan model, misalnya dengan menghasilkan input yang sulit diklasifikasikan atau mengarahkan model ke keputusan yang salah.
Class Label
Class Label adalah kategori atau hasil prediksi yang diberikan oleh model berdasarkan input yang diterima. Jika penyerang mengetahui semua kemungkinan label yang bisa dihasilkan model, mereka bisa menyusun strategi untuk mengakses atau meniru model tersebut dengan lebih mudah.
Tingkat Kepercayaan (Confidence Levels)
Tingkat kepercayaan menunjukkan seberapa yakin model terhadap suatu prediksi. Biasanya dinyatakan dalam bentuk probabilitas, misalnya:
- Kelas A: 80%
- Kelas B: 15%
- Kelas C: 5%
  Jika informasi ini tersedia, penyerang dapat menyusun strategi untuk menebak keputusan model dengan lebih akurat dan menirunya.
Distribusi Probabilitas
Distribusi probabilitas menggambarkan bagaimana model membagi tingkat kepercayaannya ke berbagai kelas dalam suatu prediksi. Ini bisa menjadi informasi berharga bagi penyerang karena mereka dapat memanfaatkan pola distribusi tersebut untuk memperkirakan bagaimana model mengambil keputusan dan mengembangkan versi model yang serupa.
Input Features
Fitur masukan adalah atribut atau variabel spesifik yang digunakan oleh model untuk membuat prediksi. Contohnya, dalam sistem deteksi penipuan, fitur bisa berupa lokasi pengguna, riwayat transaksi, atau perangkat yang digunakan. Jika penyerang mengetahui fitur-fitur yang digunakan oleh model, mereka bisa memanipulasi input untuk menghindari deteksi atau mengeksploitasi kelemahan model.
Karakteristik Data Pelatihan
Data pelatihan adalah sumber utama yang digunakan model untuk belajar. Karakteristik seperti distribusi data dan pola yang ada dalam data dapat memengaruhi cara model bekerja. Jika penyerang bisa menebak atau mendapatkan informasi tentang data pelatihan, mereka bisa menciptakan input yang dapat mengecoh model atau bahkan merekonstruksi dataset asli.
Respons Model
Respons model adalah hasil yang diberikan model setelah menerima suatu input. Misalnya, dalam model klasifikasi, responsnya adalah label prediksi; dalam model regresi, responsnya adalah nilai numerik tertentu. Dengan mengumpulkan cukup banyak respons model dari berbagai input, penyerang bisa mencoba mereplikasi fungsi model.
Loss Function
Fungsi kehilangan adalah metrik yang digunakan untuk mengukur seberapa jauh prediksi model dari nilai yang sebenarnya. Contoh fungsi kehilangan termasuk Mean Squared Error (MSE) untuk regresi dan Cross-Entropy Loss untuk klasifikasi. Jika fungsi kehilangan diketahui, penyerang bisa menggunakannya untuk membangun ulang model dengan cara yang lebih efisien.
Algoritma Optimasi
Algoritma optimasi adalah metode yang digunakan untuk menyesuaikan parameter model selama pelatihan. Contohnya termasuk Stochastic Gradient Descent (SGD) dan Adam Optimizer. Algoritma ini menentukan bagaimana model belajar dari data. Jika seorang penyerang mengetahui algoritma yang digunakan, mereka bisa menyesuaikan strategi serangan untuk lebih efektif meniru model.

Mengapa Komponen Ini Menjadi Target Serangan?

Semua komponen di atas merupakan bagian penting dari model machine learning dan dapat menjadi target utama dalam Model Extraction Attack. Penyerang yang berhasil mendapatkan informasi dari salah satu atau beberapa komponen ini bisa:

Mereplikasi model tanpa harus melatihnya dari awal, menghemat biaya dan waktu.
Mengeksploitasi kelemahan model, misalnya dengan menciptakan input yang menyebabkan model salah prediksi (adversarial attacks).
Menghindari deteksi dalam sistem keamanan, misalnya dalam sistem deteksi penipuan atau verifikasi identitas.

Oleh karena itu, melindungi informasi terkait model machine learning sangat penting untuk mencegah pencurian teknologi dan penyalahgunaan model oleh pihak yang tidak bertanggung jawab.

Studi Kasus: Model Extraction Attack dalam Sistem Keamanan Siber

Model machine learning (ML) semakin banyak digunakan dalam sistem keamanan siber untuk mendeteksi ancaman dan mencegah akses tidak sah ke data sensitif. Namun, di balik kecanggihannya, model ini juga memiliki celah yang bisa dimanfaatkan oleh penyerang. Salah satu ancaman yang sering terjadi adalah Model Extraction Attack, di mana penyerang berusaha menyalin model ML tanpa memiliki akses langsung ke kode sumbernya.

Bagaimana Model Extraction Attack Terjadi?
Agar lebih memahami bagaimana serangan ini bisa terjadi dalam kehidupan nyata, mari kita lihat contoh penggunaan model machine learning dalam sistem keamanan siber.

Sebuah perusahaan menggunakan model machine learning untuk mengklasifikasikan aktivitas akses pengguna terhadap data sensitif. Model ini menganalisis berbagai faktor untuk menghitung Risk Score, yang menentukan apakah suatu aktivitas akses tergolong mencurigakan atau tidak.

Berdasarkan Risk Score yang dihitung oleh model, aktivitas akses dapat dikategorikan menjadi beberapa tingkatan, yaitu:

Suspicious Activity (Aktivitas Mencurigakan)
Anomaly (Anomali)
Issue (Masalah)
Event (Kejadian)
Incident (Insiden)

Dengan sistem ini, perusahaan dapat mendeteksi upaya akses tidak sah dan merespons insiden keamanan dengan lebih cepat. Namun, jika tidak dilindungi dengan baik, model ini rentan terhadap Model Extraction Attack, yang dapat digunakan untuk menyusup ke dalam sistem tanpa terdeteksi.

Bagaimana Penyerang Mengekstrak Model?
Penyerang tidak membutuhkan akses langsung ke model atau kode sumbernya. Sebaliknya, mereka dapat mengekstrak model hanya dengan berinteraksi dengan API atau sistem yang menggunakan model tersebut. Berikut langkah-langkah yang biasanya dilakukan:

Mengirimkan Kueri Uji Coba
Penyerang secara sistematis mengirim berbagai input ke model untuk melihat bagaimana responsnya. Kueri ini dapat berupa variasi dari data yang ingin diuji, misalnya pola akses pengguna dengan parameter yang berbeda.
Menganalisis Output Model
Setelah mendapatkan berbagai output dari model (misalnya Risk Score), penyerang menganalisis bagaimana model merespons setiap input. Jika model memberikan informasi probabilitas untuk setiap kategori, ini bisa digunakan untuk memahami batas keputusan dan pola klasifikasi.
Membangun Model Tiruan
Dengan cukup banyak data dari interaksi dengan model asli, penyerang dapat melatih ulang model tiruan yang meniru cara kerja model asli, tanpa pernah mengakses kode sumbernya.

Contoh Hasil Model yang Dapat Diekstrak
Misalkan model keamanan perusahaan menggunakan aturan berikut untuk mengklasifikasikan aktivitas akses:

Risk Score < 50: Suspicious Activity
Risk Score 50-60: Anomaly
Risk Score > 90: Incident

Jika penyerang berhasil menguji model dengan berbagai input dan mencatat hasilnya, mereka dapat menyusun kembali aturan ini. Dengan pemahaman tersebut, mereka bisa menyamarkan akses yang seharusnya dikategorikan sebagai "Incident" agar tetap berada di bawah ambang batas "Anomaly", sehingga lolos dari deteksi sistem keamanan.

Lebih berbahaya lagi, jika model memberikan probabilitas untuk setiap kategori, penyerang dapat memahami pola klasifikasi secara lebih mendalam dan menggunakannya untuk:

Menghindari Deteksi: Menyesuaikan pola akses agar terlihat normal.
Mengeksploitasi Celah: Menyusun serangan dengan metode yang tidak dikenali sebagai ancaman.

Cara Mencegah Model Extraction Attack

Untuk melindungi model machine learning dari serangan ini, perusahaan dapat menerapkan berbagai strategi keamanan berikut:

Batasi Akses ke Model
- Gunakan API rate limiting untuk membatasi jumlah kueri dalam jangka waktu tertentu.
- Implementasikan autentikasi dan otorisasi untuk memastikan hanya pengguna yang berwenang yang dapat mengakses model.
Kurangi Informasi dalam Respons Model
- Hindari menampilkan distribusi probabilitas lengkap dalam hasil klasifikasi.
- Berikan hanya kategori akhir tanpa rincian lebih lanjut untuk mengurangi risiko eksploitasi.
Deteksi Pola Kueri yang Mencurigakan
- Gunakan sistem monitoring dan logging untuk mendeteksi pola akses yang tidak biasa.
- Terapkan deteksi anomali berbasis machine learning untuk mengenali upaya model extraction secara real-time.
Gunakan Teknik Pertahanan Seperti Differential Privacy
- Differential privacy menambahkan noise ke dalam output model sehingga lebih sulit untuk mengekstrak aturan keputusan dengan akurat.
- Teknik ini memastikan bahwa output model tidak secara langsung mengungkap pola data yang digunakan untuk melatihnya.
Implementasikan Watermarking pada Model
- Watermarking pada model ML memungkinkan perusahaan mendeteksi jika model mereka telah disalin atau disalahgunakan.
- Jika model tiruan muncul di tempat lain, watermark dapat membantu melacak sumber kebocoran.

Kesimpulan
Model Extraction Attack adalah ancaman serius yang dapat mengungkap informasi rahasia dari model machine learning. Dengan memahami cara kerja model, termasuk arsitektur, parameter, dan mekanisme pengambilan keputusan, penyerang dapat mengekstrak informasi sensitif dan menyalahgunakannya.

Perusahaan yang mengandalkan machine learning harus menerapkan langkah-langkah perlindungan yang tepat, seperti membatasi akses, mendeteksi pola serangan, dan menggunakan teknik keamanan canggih. Dengan langkah-langkah ini, risiko Model Extraction Attack dapat diminimalkan, sehingga sistem machine learning tetap aman dan terlindungi.

Tag Terkait