Stop words adalah kata umum (common words) yang biasanya muncul dalam jumlah besar dan dianggap tidak memiliki makna. Stop words umumnya dimanfaatkan dalam task information retrieval, termasuk oleh Google (penjelasannya di sini). Contoh stop words untuk bahasa Inggris diantaranya “of”, “the”. Sedangkan untuk bahasa Indonesia diantaranya “yang”, “di”, “ke”.
Saya pernah membuat daftar stop words bahasa Indonesia untuk tugas salah satu matakuliah. Tujuannya waktu itu bukan untuk information retrieval, tapi untuk klasifikasi. Saya gunakan stop words untuk mengurangi jumlah kata yang harus diproses.
Saya membuat daftar stop words dengan cara mengumpulkan kata paling banyak muncul pada corpus (saya menggunakan beberapa ratus berita Kompas), setelah diurutkan kemudian diperiksa secara manual satu persatu. Hasil lengkapnya dapat didonwload di: http://fpmipa.upi.edu/staff/yudi/stop_words_list.txt
Karena daftar itu dibuat secara manual dan untuk task klasifikasi, ada beberapa kata yang mungkin dapat diperdebatkan apakah stop word atau bukan, misalnya “utara”, “senin”, “gedung” dan sebagainya. Jadi silahkan diedit sesuai kebutuhan. Seingat saya sih daftar tersebut sudah diurutkan dari kata yang frekuensinya paling tinggi.
Daftar stop words untuk bahasa lain (23 bahasa) dapat dilihat di: http://www.semantikoz.com/2008/04/02/free-stop-word-lists-in-23-languages/





4 Agustus 2008 pada 9:31 pm
numpang mengunduh pak..
makasih…
wasalam.
5 Agustus 2008 pada 1:54 pm
Silahkan
2 September 2008 pada 7:24 pm
pak, saya minta daftar stop wordnya ya,
untuk skripsi saya tentang IR..
Terima kasih sebelumnya…
2 September 2008 pada 8:21 pm
lho, kan sudah ada URL-nya. Tinggal download kok, coba baca lagi deh.
12 Desember 2008 pada 4:51 pm
pak minta daftar stop wordnya untuk tugas semester membuat program menghitung kata. saya dah coba download tetapi filenya rusak. bila bapak berkenan membantu saya mohon dikirim ke email saya terima ksih banyak pak.
15 Desember 2008 pada 9:22 am
^ rusak apanya ya? Bentuknya memang file teks yang berisi kumplan kata, bukan program.
22 Maret 2009 pada 4:29 pm
numpang nanya dg…gmn si cara melihat suatu kata itu termasuk stopword apa bukan ?
kalo kata “mengetahui”,”mempunyai” (dan kata2 berimbuhan lainnya) bukannya bisa di stemming (merubah kata menjadi kata dasar) lagi ya ?
30 Maret 2009 pada 5:26 am
^ menurut saya 2 hal: jumlahnya banyak, dan dianggap tidak memiliki makna.
Untuk kasus saya, yaitu klasifikasi dokumen dengan model bag of words (struktur kalimat tidak diperhatikan), “mengetahui” dan “mempunyai” bisa dianggap tidak bermakna. Idealnya ditest dulu sih, apakah mempengaruhi kinerja sistem jika dua kata dimasukkan ke dalam stopwords.
30 Maret 2009 pada 5:48 pm
^
ok deh..makasih ya yudiwbs..
20 April 2009 pada 4:36 pm
terimakasih…
28 Juli 2009 pada 12:07 pm
terimakasih banyak mas… saya telah download dan langsung saya pakai
4 Agustus 2009 pada 10:23 am
diriku dah coba download lewat link yang diatas, tapi kok gak bisa ya??
dibilang “connection has been close by server”, masalahnya dimana ya???
5 Agustus 2009 pada 4:08 pm
pak kok alamat stpwordnya mati yah?
sy butuh jg soalnya daftar stopword tsb..
8 Agustus 2009 pada 3:26 pm
pak saya minta ijin ngunduh juga…
8 Agustus 2009 pada 4:07 pm
Sudah bisa diriku Download,
Terima Kasih banyak…
10 Agustus 2009 pada 12:12 pm
terima kasih mas
berguna banget buat skripsi saya tentang text mining
(^^)v
11 Agustus 2009 pada 5:12 pm
luarbiasa mas, kbetulan sy lagi butuh, trenxkyuw
22 November 2009 pada 3:02 pm
[...] setahun yang lalu. Waktu itu saya mendapat email dari seseorang di Amerika yang meminta daftar stopwords bahasa Indonesia (waktu itu memang belum saya publish). Emailnya menggunakan bahasa Indonesia yang cukup fasih, [...]