Biterm Topic Model untuk Pemodelan Topik pada Teks Pendek - Selamat sore kali ini semangat27.com akan mencoba menjelaskan tentang pemodelan topik dengan menggunakan BTM (Biterm Topic Model) untuk dokumen kecil atau teks pendek. Jadi kenapa alasan penulis membuat artikel ini adalah untuk mendokumentasikan hasil bacaan penulis agar tidak lupa hehe. Baiklah langsung saja berikut sedikit banyak tentang BTM Biterm Topic Model untuk Pemodelan Topik pada Teks Pendek.
Sebelum itu penulis akan mecoba menarasikan apa yang dialami penulis. Next saja jika tidak penting ya hehe
Jadi dalam penelitian yang lalu yakni pemodelan topik menggunakan LDA pada google play, diakhir sang peneliti menjelaskan bahwa untuk mendapatkan hasil yang baik dalam future work dapat digunakan pemodelan topik yang khusus untuk dokumen yang pendek atau teks yang pendek. Sebagai contoh yakni ada BTM Topic Model yang memperluas LDA dengan memasukan statistik bigram kedalam pemodelan topik nya. Kemudian karena kata yang ada dalam dokumen yang pendek tersebut memiliki banyak slang word dan typo jadi kita diminta juga untuk memberikan perhatian lebih dalam melakukan normalisasi pada saat proses preprocessing data, sebab hal seperti ini dapat berpengaruh juga pada pembentukan modelnya. Dalam sidang yang lalu sudah diberikan solusi untuk slang word dan typo menggunakan spelling correction dan ditambahkan dengan dictionary kata karena pada saat proses spelling masih terdapat kata yang tidak sesuai pembenaran spelling nya. Namun masih belum pada saat sidang dikatakan bahwa yang dilakukan tersebut belum sesuai dengan standar S1 Ilmu Komputer, disarankan agar mengimprove metode yang ada yakni LDA.
Nah untuk membedakan dengan penelitian yang sebelumnya yakni sebelumnya menggunakan LDA, kali ini penulis mengganti metode dengan mencoba mempelajari lebih jauh tentang BTM.
BTM atau Biterm Topic Model pada Pemodelan Topil sendiri seperti yang diterangkan pada bagian future work penelitian yang lalu menjelaskan bahwa BTM dapat memperluas LDA dengan memasukan statistik bigram kedalam pemodelan topiknya, untuk memahami kata-kata ini kemudian penulis mencoba untuk mempelajari paper berikut ini yang sebelumnya ada juga pada artikel yang telah penulis tulis dengan judul Metode Pemodelan Topik yang Bagus untuk Teks Pendek seperti Tweet.
Baiklah karena paper tersebut berbahasa inggris jadi penulis harus berhati-hati dalam mempelajarinya karena kemampuan berbahasa inggris penulis sendiri sangat minim, jadi penulis terjemahkan dengan bantuan google terjemahan dan mendapatkan pemahaman berikut ini.
Paper tersebut berjudul A Biterm Topic Model for Short Texts dan disusun oleh Xiaohui Yan, Jiafeng Guo, Yanyan Lan, Xueqi Cheng dari Institute of Computing Technology, Chinese Academy of Sciences
Untuk Latar Belakang dari paper tersebut adalah memahami topik yang ada dalam teks pendek juga sangat penting untuk beberapa hal seperti:
- content characterizing (karakterisasi konten)
- content recomendation (rekomendasi konten)
- user interest profiling (profil minat pengguna)
- emerging topic detecting (pendeteksian topik baru)
- semantic analysis (analisis semantik)
Berikutnya dalam BTM tersebut juga dijelaskan sedikit tentang topic models dari Blei
yakni mengenerate model dari dokumen dengan melihat struktur topik yang laten (tersembunyi) dengan beberapa komponen diantaranya
- Topik : distribusi probabilitas atas kata-kata
- Dokumen : Campuran dari berbagai topik
- Kata : Sample yang diambil dari suatu topik
Pada penelitian yang sebelum-sebelumnya berkenaan dengan pemodelan topik hanya berfokus pada teks normal.
PROBLEM
Kemudian untuk penelitian BTM ini, Masalah yang ada dalam dokumen atau teks yang kecil yakni Data Sparsity (Data yang Jarang sehingga informasinya tidak lengkap)
Jumlah Kata Penyusun Topik
Dokumen Normal : Kata-kata pembentuk topik kemunculannya sering (lebih dari sekali)
Dokumen Pendek : Kebanyakan kata hanya muncul sekali
Konteks kata
Dokumen Normal : Kaya akan Konteks Kata, sehingga banyak kata yang berhubungan dengan topik
Dokumen Pendek : Konteks Kata Langka, hanya ada beberapa kata saja yang berhubungan dengan topik
PREVIOUS APPROACHES
-LDA dengan document aggregation (menggabungkan dokumen). contoh tweet dengan menggabungkan tweet dari satu user menjadi satu dokumen. Kekurangan : heuristic, not general
-Mixture of Unigrams, bahwa setiap dokumen hanya memiliki satu topik. Kekurangan : asumsi menjadi terlalu sempit
-Sparse topic models, tetap mempertahankan kondisi sparse dokumen dan fokus kepada pembentukan topik model. Kekurangan : Terlalu kompleks dan mudah overfitting.
KEY IDEAS
-Topik pada dasarnya adalah kelompok kata-kata yang berkorelasi dan korelasi terungkap oleh pola co-occurrence kata dalam dokumen. Cooccurrence mengacu pada frekuensi kejadian di atas terjadinya dua istilah dari corpus teks dalam urutan tertentu (kedekatan semantik)
Mengapa tidak secara langsung memodelkan kata co-occurrence untuk pembelajaran topik?
-Model topik pada teks pendek memilik masalah pola sparse yang parah dalam dokumen pendek
mengapa tidak menggunakan pola co-occurrence kata global untuk topik pengungkapan yang lebih baik?
Selanjutnya kita akan masuk pada pembahasan Biterm Topic Model, akan tetapi akan penulis lanjut pada artikel berikutnya karena penulis ingin memahami contoh kodingannya terlebih dahulu, semoga besok paham yak hehe.
Kak boleh tidak suguhkan contoh perhitungan manualnya?
BalasHapusKak apa udah ada lanjutan artikel tentang BTM? Klo udah mau dong linknya, sangat membantu nih h:)
BalasHapus