Stop words untuk Bahasa Indonesia

23 Juli 2008

Stop words adalah kata umum (common words) yang biasanya muncul dalam jumlah besar dan dianggap tidak memiliki makna.  Stop words umumnya dimanfaatkan dalam task information retrieval, termasuk oleh Google (penjelasannya di sini).  Contoh stop words untuk bahasa Inggris diantaranya “of”, “the”.  Sedangkan untuk bahasa Indonesia diantaranya “yang”, “di”, “ke”.

Saya pernah membuat daftar stop words  bahasa Indonesia untuk tugas salah satu matakuliah. Tujuannya waktu itu bukan untuk information retrieval, tapi untuk klasifikasi.  Saya gunakan stop words untuk mengurangi jumlah kata yang harus diproses.

Saya membuat daftar stop words dengan cara mengumpulkan kata paling banyak muncul pada corpus (saya menggunakan beberapa ratus berita Kompas),  setelah diurutkan kemudian diperiksa secara manual satu persatu.  Hasil lengkapnya dapat didonwload di: http://fpmipa.upi.edu/staff/yudi/stop_words_list.txt

Karena daftar itu dibuat secara manual dan untuk task klasifikasi, ada beberapa kata yang mungkin dapat diperdebatkan apakah stop word atau bukan, misalnya  “utara”, “senin”, “gedung” dan sebagainya.  Jadi silahkan diedit sesuai kebutuhan.  Seingat saya sih daftar tersebut sudah diurutkan dari kata yang frekuensinya paling tinggi.

Daftar stop words untuk bahasa lain (23 bahasa) dapat dilihat di: http://www.semantikoz.com/2008/04/02/free-stop-word-lists-in-23-languages/

10 Tanggapan ke “Stop words untuk Bahasa Indonesia”

  1. hanhan Berkata

    numpang mengunduh pak..
    makasih…
    wasalam.

  2. Angela Ami Berkata

    pak, saya minta daftar stop wordnya ya,
    untuk skripsi saya tentang IR..
    Terima kasih sebelumnya…

  3. yudiwbs Berkata

    lho, kan sudah ada URL-nya. Tinggal download kok, coba baca lagi deh.

  4. samsul hudhah Berkata

    pak minta daftar stop wordnya untuk tugas semester membuat program menghitung kata. saya dah coba download tetapi filenya rusak. bila bapak berkenan membantu saya mohon dikirim ke email saya terima ksih banyak pak.

  5. yudiwbs Berkata

    ^ rusak apanya ya? Bentuknya memang file teks yang berisi kumplan kata, bukan program.

  6. Magenik Berkata

    numpang nanya dg…gmn si cara melihat suatu kata itu termasuk stopword apa bukan ?

    kalo kata “mengetahui”,”mempunyai” (dan kata2 berimbuhan lainnya) bukannya bisa di stemming (merubah kata menjadi kata dasar) lagi ya ?

  7. yudiwbs Berkata

    ^ menurut saya 2 hal: jumlahnya banyak, dan dianggap tidak memiliki makna.

    Untuk kasus saya, yaitu klasifikasi dokumen dengan model bag of words (struktur kalimat tidak diperhatikan), “mengetahui” dan “mempunyai” bisa dianggap tidak bermakna. Idealnya ditest dulu sih, apakah mempengaruhi kinerja sistem jika dua kata dimasukkan ke dalam stopwords.

  8. Magenik Berkata

    ^
    ok deh..makasih ya yudiwbs..

  9. Mamang Berkata

    terimakasih…


Tinggalkan Balasan