Kelas Kata (Word Class) Bahasa Indonesia untuk POS Tagger

7 July 2008 at 18:26 | Posted in bahasa indonesia, penelitian, text processing | 21 Comments

Setelah googling, ternyata sulit juga mencari informasi mengenai kelas kata bahasa Indonesia.  Apalagi corpus yang sudah diberi tag atau software Part of Speech (POS) Tagger-nya (atau saya yang salah mencarinya ya?).  Satu-satunya yang saya peroleh adalah dokumen TA seorang mahasiswa UI. Kondisi ini termasuk menyedihkan untuk bahasa yang digunakan oleh sekitar 200 juta orang dan dimengerti di beberapa negara (Malaysia, Singapura, Brunei).

Pemberian tag kelas-kata pada dokumen atau kalimat bermanfaat untuk berbagai hal: information retrieval,  language generator, information extraction, summarization dan machine translation.  Berikut adalah contoh kalimat yang telah diberi tag: “Anwar/NNP meninggalkan/VB Kedubes/NN Turki/NNP”.  Mengikuti penaamaan corpus Penn Treebank, NNP adalah proper noun, VB kata kerja, NN adalah kata benda.

Daripada hanya mengeluh , saya coba membuat ringkasan mengenai kelas kata bahasa Indonesia berdasarkan dua buku. Saya fokuskan terhadap aturan untuk setiap kelas kata karena inilah yang dibutuhkan sofware tagger untuk corpus yang sedang saya kumpulkan. Beberapa aturan yang saya perkirakan jarang muncul juga dihilangkan.

Pengembangan di tahap awal adalah pembuatan POS-tagger berdasarkan aturan (ruled-based), kemudian dilanjutkan dengan membuat POS-tagger yang menggunakan Hidden Markov Model.  Rencananya sih kedua tagger ini akan dijadikan open source.

Berikut adalah ringkasannya:

1. Kata Benda
Menurut [KER88][KOS04], kata benda dapat ditentukan dari dua hal, bentuk dan ciri. Dari bentuk, kata yang mengandung ke-an, pe-an, pe-, -an, ke-,  -at, -in, -wan, -wati, -isme, -isasi, -logi, -tas dapat dicalonkan sebagai kata benda. Misalnya “kebakaran”, “pembunuhan”, “karyawan”.  Sedangkan berdasarkan ciri, ciri utama kata benda adalah dapat diperluas dengan “yang”+ kata sifat,  misalkan “sinar yang terang”.  [KOS04] menambahkan ciri:  diawali “bukan” dan tidak diawali “tidak”, misalnya “bukan niatnya”.

2. Kata Kerja
Menurut [KER88] berdasarkan bentuk, kata yang mengandung  me-, ber-, -kan, di-, -i, ter- dapat dicalonkan sebagai kata kerja. Misalnya “berlari”, “menyayi”.  Sedangkan berdasarkan ciri, ciri utama kata kerja adalah kata yang dapat diperluas dengan “dengan”+kata sifat. Misalnya “tidur dengan nyenyak”.  [KOS04] menambahkan ciri: tidak dapat didahului kata “paling”, dapat didahului “akan”, “sedang”, “sudah” dan “tidak”. Ciri-ciri dari [KOS04] bukan ciri utama karena tidak eksklusif untuk kata kerja. Misalnya “sudah harum” dengan “harum” adalah kata sifat.

3. Kata Sifat
Menurut [KER88] kata sifat adalah segala kata yang dapat mengambil bentuk se + reduplikasi + nya, serta dapat diperluas dengan: “paling”, “lebih” dan  “sekali”. Misalnya “seteliti-telitinya”, “sebagus-bagusnya”, “paling cepat”, “lebih kuat”, “sakit sekali”.

4. Kata Keterangan
Kata keterangan adalah kata yang menjelaskan kata yang lain. [KER88] membagi kata keterangan menjadi 13 jenis: Keterangan kualitatif: “ia berjalan perlahan-lahan”; Keterangan waktu: “sekarang”, “nanti”, “kemarin”, “kemudian”, “sesudah itu”, “lusa”, “sebelum”, “minggu depan”; Keterangan tempat: “di sini”, “di situ”, “ke sana”, “ke mari”; Keterangan modalitas: “memang”, “pasti”, “sungguh”, “tentu”, “tidak”, “bukan”, “benar”, “sebenarnya”, “mungkin”, “rasanya”, “mudah-mudahan”, “hendaknya”, “jangan”,”mustahil”; Keterangan aspek: “sedang”, “sementara”, “sudah”, “telah”, “sering”, “biasa”; Keterangan derajat: “amat”, “hampir”, “kira-kira”, “sedikit”, “cukup”, “hanya” “satu kali”; Keterangan kesertaan: “bersama”; Keterangan syarat: “jika”, “seandainya”; Keterangan perlawanan: “meskipun”, “meski”,”jika”; Keterangan sebab: “sebab”, “karena”, “oleh karena”; Keterangan akibat: “sehingga”; Keterangan tujuan: “supaya”, “agar”, “untuk”, “hendak”; Keterangan perbandingan: “sebagai”, “seperti”, “bagaikan”; Keterangan perwatasan: “kecuali”, “hanya”.

5. Kata Depan
Kata depan adalah kata yang digunakan untuk merangkaikan kata atau bagian kalimat [KER88]. Kata-kata depan terpenting adalah  [KER88][KOS04]: “di”, “ke”, “dari”, “pada”, “akan”, “sejak”, “dengan”, “oleh”, “demi”, “guna”, “untuk”, “buat”, “berkat”, “antara”, “tentang”, “hingga”, “menurut”, “menghadap”, “mendapatkan”, “melalui”, “menuju”, “menjelang”, “sampai”, “atas”, “antara”, “bersama”, “beserta”, “sekeliling”, “selama”, “sepanjang”, “mengenai”, “terhadap”, “bagaikan”, “daripada”, “kepada”, “oleh sebab”, “sampai dengan”, “selain itu”.

6. Kata Sambung
Kata sambung adalah kata yang menghubungkan kata-kata , bagian kalimat atau kalimat  [KER88]. Beberapa kata sambung menurut [KER88]: “dan”, “lagi”, “lagipula”, “serta”, “tetapi”, “akan tetapi”, “melainkan”, “apabila”, “ketika”, “bila”, “demi”, “sambil”, “sebelum”, “sedang”, “sejak”, “selama”, “semenjak”, “sementara”, “seraya”, “setelah”, “sesudah”, “waktu”, “supaya”, “agar”, “karena”, “karena itu”, “sehingga”, “sampai”, “jika”, “andaikan”, “asal”, “asalkan”, “seandainya”, “atau”, “maupun”, “seperti”, “bagaikan”, “meskipun”, “biarpun”, “maka”, “adapun”, “akan”, “yakni”, “umpama”, “bahwa”.  Ada juga kalimat yang tidak memerlukan kata sambung. Misalnya “Dia datang, kami berangkat”.

7. Kata Ganti
Kata ganti adalah segala kata yang dipakaikan untuk mengganti kata benda [KER88]. Menurut [KER88] kata ganti dapat dibagi menjadi enam jenis. Kata ganti orang: “saya”, “aku”, “dia”, “kami”, “kita”, “kamu”, “mereka”, “anda”; Kata ganti empunya: -mu, -ku, -nya (“bukuku”, “bukumu”, “bukunya”); Kata ganti penunjuk: “ini”, “itu”, “di sana”, “di sini”, “di situ”; Kata ganti penghubung: “yang”, “tempat” (“kotak yang berisi kalung”, “kota tempat kita bertemu”); Kata ganti penanya: “apa”, “siapa”, “mana”, “mengapa”, “berapa”, “bagaimana”, “bilamana”, “kenapa”, “betapa”. Kata ganti tak tentu: “masing-masing”, “siapa-siapa”, “seseorang”, “para”, “barang”, “sesuatu”, “salah satu”, “barang siapa”.

8. Kata Bilangan
[KER88]  membagi kata bilangan menjadi empat jenis: Kata bilangan utama: “satu”, “dua”, “ribu”, “juta”, “miyar”, “triliun” ; Kata bilangan tingkat “pertama”, “kedua”; Kata bilangan tak tentu: “beberapa”, “segala”, “semua”, “tiap-tiap”, “sebagainya”; Kata bilangan kumpulan: “kedua”, “kesepuluh”, “bertiga”, “bertujuh”.

Kata Tugas
Dapat dilihat bahwa kata keterangan, kata depan dan kata sambung seringkali sulit ditentukan karena saling tumpang tindih. Oleh karena itu  [KER88]  mengusulkan kelas kata pengganti yaitu kata tugas. Jadi semua kata yang tidak masuk ke dalam kata benda, kerja dan sifat akan masuk ke dalam kelas kata tugas ini.

Penentuan kelas kata yang tidak jelas seperti ini sebenarnya adalah masalah utama yang harus dipecahkan aplikasi POS-Tagger.

Mungkin perlu diteliti apakah kata keterangan, sambung, depan memang dapat diganti dengan kata tugas. Tentunya berdasarkan kinerja untuk task tertentu, misalnya untuk summmarization atau information retrieval.

Referensi:
[KER84] Keraf, Goris (1984), “Tatabahasa Indonesia”, Nusa Indah.
[KOS04] Kosasih, E (2004), “Kompetensi Ketatabahasaan dan Kususastraan”, Yrama Widya, Cetakan 2.

21 Comments »

RSS feed for comments on this post. TrackBack URI

  1. wah.. heheh. bahasa indonesia saya dulu dapet C🙂
    pastes gak pernah ngeh yang kaya’ gini

  2. Ah masa? sederhana kok🙂

  3. Saya baru kuliah Pemrosesan Bahasa Alami mengenai POS tagger. Kebetulan, dijelaskan mengenai kelas bahasa yang dibagi 2 yaitu open class dan closed class. Open class, masih bisa berkembang sehingga jumlah katanya akan semakin banyak. Closed class, jumlahnya terbatas dan dapat ditangani hanya dengan membuat list katanya.

    Apakah lebih baik dilakukan pembagian seperti itu juga?

  4. @Lia yts
    Makasih atas masukkannya.

    Setahu saya memang ada beberapa kelas kata yang anggotanya terus berkembang, misalnya kata benda. Misalnya kata “komputer” adalah kata benda yang tahun 70-an belum ada. Untuk kelas kata seperti ini peranan pos tagger jadi lebih penting karena dapat menentukan suatu kelas kata yang belum diketahui sebelumnya.

    Tetapi ada juga kelas kata yang anggotanya relatif tidak berubah misalnya kata ganti, kata penghubung.

  5. Saya mahasiswanya Bu Masayu Pak waktu S1 dulu. Saya juga sama seperti Bapak, mencari POS tagging buat bahasa Indonesia untuk mendukung sistem tesis saya. Ternyata memang sedikit. Saya sebenarnya juga mencari apakah ada korpus Indonesia yang kayak Penn Treebank untuk bahasa Indonesia? Mohon dibagi pengetahuannya jika memang ada POS tagging dan treebank untuk bahasa Indonesia yang bisa saya acu. Terima kasih.

  6. Setahu saya tidak ada corpus bahasa Indonesia semacam penn treebank. Mungkin ada, tapi tidak dishare oleh pembuatnya.

  7. pak boleh tau, untuk mendukung thesis saya apa punya link atau contoh program / listing untuk melakukan stopword dalam bahasa
    indonesia?

    terima kasih

  8. Mohon informasi Pa :
    1. Buku2 terkini apa saja yang dapat dijadikan referensi untuk mengetahui dan memahami Cara Menulis Bahasa Indonesia yang Baik dan Benar ?
    2. Apakah EYD 1977 masih berlaku sampai saat ini ? Kalau tidak, EYD versi tahun berapa yang masih berlaku saat ini ?

    Terima kasih atas bantuan Bapak.

  9. siang pak,
    saya ingin bertanya, untuk mendukung skripsi saya tentang pos tagger menggunakan brill tagger apa ada contoh aturan kontekstual untuk bahasa Indonesia?

    terima kasih

  10. bagaimanakah cara memberikan dan mengolah materi ‘kelas kata’ supaya menarik untuk siswa tingkat SMA, karena terkadang bahasa Indonesia itu membosankan bagi mereka….terimah kasih

  11. ciri-ciri kata depan di, ke, dari apa y?

  12. Terima kasih banyak pak, tulisannya bermanfaat banget pak buat membantu TA saya, tentang NLP juga. Ternyata Pak Yudi ini suaminya Bu Masayu toh…😀

  13. contoh kalimat nya mana ini bang ????

  14. saya mahasiswi di china..wah,ternyata bukan cuma saya yang kebingungan cari bahan tentang bahasa indonesia…
    bisa minta tolong yang tentang “kata ganti penanya” diperjelas?kalau bisa dengan contoh kalimatnya…karena saya butuh bahan untuk membuat skripsi,tapi tidak dapat bahan tentang bahasa indonesianya…

  15. ada kamus data yang memuat seluruh kata sifat , kata kerja ga pak? saya butuh buat skripsi saya.

  16. banyak banget

  17. Salam,
    Perkenalkan saya Ahmad Najib, sedang memulai penelitian tentang NLP untuk Bahasa Indonesia. Saya mau tanya Pak, apakah sekarang sudah ada Open Source Pos Tagger untuk Bahasa Indonesia Pak? Terimakasih.

    • tdk ada yg opensource setahu saya, tapi anda bisa menggunakan yg bhs Inggris lalu dilatih dgn bhs Indonesia.

  18. Tutorial teknis utk POS-Tag Bahasa Indonesia pak

    https://abdiansah.wordpress.com/2015/03/20/pos-tag-bahasa-indonesia/

  19. Salam Pak, saya mahasiswi yang sedang menyusun proposal. Topik saya mengenai POS Tagger menggunakan metode Brill Tagger. Saya kurang memahami metode ini pak karena referensi di internet sedikit yang mengulas brill tagger.
    saya ingin bertanya apakah bapak mengetahui metode ini? jika bapak tahu minta tolong sekiranya dishare ilmunya pak🙂
    kemudian kalau bapak ada referensi bagus mengenai metode ini juga tolong dishare Pak. Terimakasih.


Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s

Create a free website or blog at WordPress.com.
Entries and comments feeds.

%d bloggers like this: