Stop words adalah kata umum (common words) yang biasanya muncul dalam jumlah besar dan dianggap tidak memiliki makna. Stop words umumnya dimanfaatkan dalam task information retrieval, termasuk oleh Google (penjelasannya di sini). Contoh stop words untuk bahasa Inggris diantaranya “of”, “the”. Sedangkan untuk bahasa Indonesia diantaranya “yang”, “di”, “ke”.
Saya pernah membuat daftar stop words bahasa Indonesia untuk tugas salah satu matakuliah. Tujuannya waktu itu bukan untuk information retrieval, tapi untuk klasifikasi. Saya gunakan stop words untuk mengurangi jumlah kata yang harus diproses.
Saya membuat daftar stop words dengan cara mengumpulkan kata paling banyak muncul pada corpus (saya menggunakan beberapa ratus berita Kompas), setelah diurutkan kemudian diperiksa secara manual satu persatu. Hasil lengkapnya dapat didonwload di: http://fpmipa.upi.edu/staff/yudi/stop_words_list.txt
Karena daftar itu dibuat secara manual dan untuk task klasifikasi, ada beberapa kata yang mungkin dapat diperdebatkan apakah stop word atau bukan, misalnya “utara”, “senin”, “gedung” dan sebagainya. Jadi silahkan diedit sesuai kebutuhan. Seingat saya sih daftar tersebut sudah diurutkan dari kata yang frekuensinya paling tinggi.
Daftar stop words untuk bahasa lain (23 bahasa) dapat dilihat di: http://www.semantikoz.com/2008/04/02/free-stop-word-lists-in-23-languages/





4 Agustus 2008 pada 9:31 pm
numpang mengunduh pak..
makasih…
wasalam.
5 Agustus 2008 pada 1:54 pm
Silahkan
2 September 2008 pada 7:24 pm
pak, saya minta daftar stop wordnya ya,
untuk skripsi saya tentang IR..
Terima kasih sebelumnya…
2 September 2008 pada 8:21 pm
lho, kan sudah ada URL-nya. Tinggal download kok, coba baca lagi deh.
12 Desember 2008 pada 4:51 pm
pak minta daftar stop wordnya untuk tugas semester membuat program menghitung kata. saya dah coba download tetapi filenya rusak. bila bapak berkenan membantu saya mohon dikirim ke email saya terima ksih banyak pak.
15 Desember 2008 pada 9:22 am
^ rusak apanya ya? Bentuknya memang file teks yang berisi kumplan kata, bukan program.
22 Maret 2009 pada 4:29 pm
numpang nanya dg…gmn si cara melihat suatu kata itu termasuk stopword apa bukan ?
kalo kata “mengetahui”,”mempunyai” (dan kata2 berimbuhan lainnya) bukannya bisa di stemming (merubah kata menjadi kata dasar) lagi ya ?
30 Maret 2009 pada 5:26 am
^ menurut saya 2 hal: jumlahnya banyak, dan dianggap tidak memiliki makna.
Untuk kasus saya, yaitu klasifikasi dokumen dengan model bag of words (struktur kalimat tidak diperhatikan), “mengetahui” dan “mempunyai” bisa dianggap tidak bermakna. Idealnya ditest dulu sih, apakah mempengaruhi kinerja sistem jika dua kata dimasukkan ke dalam stopwords.
30 Maret 2009 pada 5:48 pm
^
ok deh..makasih ya yudiwbs..
20 April 2009 pada 4:36 pm
terimakasih…