Stop words untuk Bahasa Indonesia

Stop words adalah kata umum (common words) yang biasanya muncul dalam jumlah besar dan dianggap tidak memiliki makna.  Stop words umumnya dimanfaatkan dalam task information retrieval, termasuk oleh Google (penjelasannya di sini).  Contoh stop words untuk bahasa Inggris diantaranya “of”, “the”.  Sedangkan untuk bahasa Indonesia diantaranya “yang”, “di”, “ke”.

Saya pernah membuat daftar stop words  bahasa Indonesia untuk tugas salah satu matakuliah. Tujuannya waktu itu bukan untuk information retrieval, tapi untuk klasifikasi.  Saya gunakan stop words untuk mengurangi jumlah kata yang harus diproses.

Saya membuat daftar stop words dengan cara mengumpulkan kata paling banyak muncul pada corpus (saya menggunakan beberapa ratus berita Kompas),  setelah diurutkan kemudian diperiksa secara manual satu persatu.  Hasil lengkapnya dapat didonwload di:  http://web.archive.org/web/20100104090147/http://fpmipa.upi.edu/staff/yudi/stop_words_list.txt

Karena daftar itu dibuat secara manual dan untuk task klasifikasi, ada beberapa kata yang mungkin dapat diperdebatkan apakah stop word atau bukan, misalnya  “utara”, “senin”, “gedung” dan sebagainya.  Jadi silahkan diedit sesuai kebutuhan.  Seingat saya sih daftar tersebut sudah diurutkan dari kata yang frekuensinya paling tinggi.

Daftar stop words untuk bahasa lain (23 bahasa) dapat dilihat di: http://www.semantikoz.com/2008/04/02/free-stop-word-lists-in-23-languages/

55 tanggapan untuk “Stop words untuk Bahasa Indonesia”

  1. pak minta daftar stop wordnya untuk tugas semester membuat program menghitung kata. saya dah coba download tetapi filenya rusak. bila bapak berkenan membantu saya mohon dikirim ke email saya terima ksih banyak pak.

  2. numpang nanya dg…gmn si cara melihat suatu kata itu termasuk stopword apa bukan ?

    kalo kata “mengetahui”,”mempunyai” (dan kata2 berimbuhan lainnya) bukannya bisa di stemming (merubah kata menjadi kata dasar) lagi ya ?

  3. ^ menurut saya 2 hal: jumlahnya banyak, dan dianggap tidak memiliki makna.

    Untuk kasus saya, yaitu klasifikasi dokumen dengan model bag of words (struktur kalimat tidak diperhatikan), “mengetahui” dan “mempunyai” bisa dianggap tidak bermakna. Idealnya ditest dulu sih, apakah mempengaruhi kinerja sistem jika dua kata dimasukkan ke dalam stopwords.

  4. diriku dah coba download lewat link yang diatas, tapi kok gak bisa ya??
    dibilang “connection has been close by server”, masalahnya dimana ya???

  5. maaf pak
    itu daftar stopword secara keseluruhan pak??
    tapi kenapa masih ada kata berimbuhan di daftar stopwordnya??
    bukannya menurut definisi stopword itu kata yg tidak bermakna kalau berdiri sendiri??

    mohon bantuannya pak..buat skripsi saya tentang deteksi plagiat…:)

  6. pakk..stpwordsnya gak bisa didownload…

    pak gimana sebenarnya perbedaan antar naives bayes dengan tf-idf..

  7. Assalamualaikum, pak, saya izin mendownload daftar stopword nya dari link
    http://fpmipa.upi.edu/staff/yudi/stop_words_list.txt

    tapi saat dibuka link-nya,file itu tdk ada,
    yg terload hanya homepage FMIPA UPI,

    mohon bantuannya untuk sekiranya menyediakan sumber yg bisa di share,
    atau mengirimkan sumber ke email saya di ask4com(at)ymail.com
    saya mencari referensi stopword untuk penelitian saya

    terimakasih

    1. Tergantung domain yang digunakan. Untuk stopwords yang saya upload ini, domainnya adalah berita (bahasanya formal). Kalau domainnya tweet atau email pasti akan berbeda lagi.

  8. pak, ijin mendownload buat referensi TA. 😀
    sekalian mau tanya pak, dataset saya menggunakan artikel2 tentang review suatu hal (misal: hape, komputer, film, dll),
    kira2 dengan stopwords yang bapak susun ini, bisa meng-cover dataset saya nggak ya pak?

    terimakasih sebelumnya pak. 🙂

  9. terimakasih pak, izin download untuk TA ya pak.
    oh iya pak, saya ingin bertanya, bapak membuat daftar stopword acuannya apa ya pak?misalnya apakah harus memiliki kemunculan dalam bilangan tertentu atau misalnya yang jadi stopword adalah kata2 bilangan, penghubung dsb.
    terima kasih pak, mohon tanggapannya..

    1. Dari berita-berita kompas. Frekuensi kata dihitung, diurutkan dari yang terbanyak. Lalu ditentukan secara manual kata mana yang stopwords mana yang bukan.

  10. Pak mau tanya ni, udah pernah pake librarynya lucene u tokenisasi, stop word and stemming? kl udah pernah bagaimana y pak algorimanya u memanggil fungsi2 nya di java?

  11. pak, link di atas sedang maintenance ya? saya ingin download stopword list bahasa indonesia untuk keperluan TA saya. Data set yang saya gunakan adalah abstrak paper/karya ilmiah. apakah sesuai jika menggunkan stopword list dari bapak? terima kasih. mohon tanggapannya 🙂

  12. pak ada makalahnya gak pak saya mau pakai stopword nya buat TA tapi harus ada referensi resmimnya . -_- kalau ada tolong dikirim email pak

  13. Nggak nyangka lagi cari materi untuk mendukung tesis saya yang kebetulan melibatkan data cleansing malah ketemunya sama post dosen saya yang sudah dipublikasi sejak 9 tahun lalu. hehe. terima kasih banyak Pak.

Tinggalkan Balasan ke dyah Batalkan balasan

Isikan data di bawah atau klik salah satu ikon untuk log in:

Logo WordPress.com

You are commenting using your WordPress.com account. Logout /  Ubah )

Foto Google

You are commenting using your Google account. Logout /  Ubah )

Gambar Twitter

You are commenting using your Twitter account. Logout /  Ubah )

Foto Facebook

You are commenting using your Facebook account. Logout /  Ubah )

Connecting to %s