Stop words untuk Bahasa Indonesia

23 Juli 2008

Stop words adalah kata umum (common words) yang biasanya muncul dalam jumlah besar dan dianggap tidak memiliki makna.  Stop words umumnya dimanfaatkan dalam task information retrieval, termasuk oleh Google (penjelasannya di sini).  Contoh stop words untuk bahasa Inggris diantaranya “of”, “the”.  Sedangkan untuk bahasa Indonesia diantaranya “yang”, “di”, “ke”.

Saya pernah membuat daftar stop words  bahasa Indonesia untuk tugas salah satu matakuliah. Tujuannya waktu itu bukan untuk information retrieval, tapi untuk klasifikasi.  Saya gunakan stop words untuk mengurangi jumlah kata yang harus diproses.

Saya membuat daftar stop words dengan cara mengumpulkan kata paling banyak muncul pada corpus (saya menggunakan beberapa ratus berita Kompas),  setelah diurutkan kemudian diperiksa secara manual satu persatu.  Hasil lengkapnya dapat didonwload di: http://fpmipa.upi.edu/staff/yudi/stop_words_list.txt

Karena daftar itu dibuat secara manual dan untuk task klasifikasi, ada beberapa kata yang mungkin dapat diperdebatkan apakah stop word atau bukan, misalnya  “utara”, “senin”, “gedung” dan sebagainya.  Jadi silahkan diedit sesuai kebutuhan.  Seingat saya sih daftar tersebut sudah diurutkan dari kata yang frekuensinya paling tinggi.

Daftar stop words untuk bahasa lain (23 bahasa) dapat dilihat di: http://www.semantikoz.com/2008/04/02/free-stop-word-lists-in-23-languages/

18 Tanggapan ke “Stop words untuk Bahasa Indonesia”

  1. hanhan Berkata

    numpang mengunduh pak..
    makasih…
    wasalam.

  2. Angela Ami Berkata

    pak, saya minta daftar stop wordnya ya,
    untuk skripsi saya tentang IR..
    Terima kasih sebelumnya…

  3. yudiwbs Berkata

    lho, kan sudah ada URL-nya. Tinggal download kok, coba baca lagi deh.

  4. samsul hudhah Berkata

    pak minta daftar stop wordnya untuk tugas semester membuat program menghitung kata. saya dah coba download tetapi filenya rusak. bila bapak berkenan membantu saya mohon dikirim ke email saya terima ksih banyak pak.

  5. yudiwbs Berkata

    ^ rusak apanya ya? Bentuknya memang file teks yang berisi kumplan kata, bukan program.

  6. Magenik Berkata

    numpang nanya dg…gmn si cara melihat suatu kata itu termasuk stopword apa bukan ?

    kalo kata “mengetahui”,”mempunyai” (dan kata2 berimbuhan lainnya) bukannya bisa di stemming (merubah kata menjadi kata dasar) lagi ya ?

  7. yudiwbs Berkata

    ^ menurut saya 2 hal: jumlahnya banyak, dan dianggap tidak memiliki makna.

    Untuk kasus saya, yaitu klasifikasi dokumen dengan model bag of words (struktur kalimat tidak diperhatikan), “mengetahui” dan “mempunyai” bisa dianggap tidak bermakna. Idealnya ditest dulu sih, apakah mempengaruhi kinerja sistem jika dua kata dimasukkan ke dalam stopwords.

  8. Magenik Berkata

    ^
    ok deh..makasih ya yudiwbs..

  9. Mamang Berkata

    terimakasih…

  10. mer Berkata

    terimakasih banyak mas… saya telah download dan langsung saya pakai :)

  11. jiwa Berkata

    diriku dah coba download lewat link yang diatas, tapi kok gak bisa ya??
    dibilang “connection has been close by server”, masalahnya dimana ya???

  12. rifle Berkata

    pak kok alamat stpwordnya mati yah?
    sy butuh jg soalnya daftar stopword tsb..

  13. aziz Berkata

    pak saya minta ijin ngunduh juga…

  14. jiwa Berkata

    Sudah bisa diriku Download,
    Terima Kasih banyak…

  15. fero Berkata

    terima kasih mas
    berguna banget buat skripsi saya tentang text mining
    (^^)v

  16. adnuri Berkata

    luarbiasa mas, kbetulan sy lagi butuh, trenxkyuw


  17. [...] setahun yang lalu. Waktu itu saya mendapat  email dari seseorang di Amerika yang meminta daftar stopwords bahasa Indonesia (waktu itu memang belum saya publish).  Emailnya menggunakan bahasa Indonesia yang cukup fasih, [...]


Tinggalkan Balasan