Kelas Kata (Word Class) Bahasa Indonesia untuk POS Tagger

7 Juli 2008

Setelah googling, ternyata sulit juga mencari informasi mengenai kelas kata bahasa Indonesia.  Apalagi corpus yang sudah diberi tag atau software Part of Speech (POS) Tagger-nya (atau saya yang salah mencarinya ya?).  Satu-satunya yang saya peroleh adalah dokumen TA seorang mahasiswa UI. Kondisi ini termasuk menyedihkan untuk bahasa yang digunakan oleh sekitar 200 juta orang dan dimengerti di beberapa negara (Malaysia, Singapura, Brunei).

Pemberian tag kelas-kata pada dokumen atau kalimat bermanfaat untuk berbagai hal: information retrieval,  language generator, information extraction, summarization dan machine translation.  Berikut adalah contoh kalimat yang telah diberi tag: “Anwar/NNP meninggalkan/VB Kedubes/NN Turki/NNP”.  Mengikuti penaamaan corpus Penn Treebank, NNP adalah proper noun, VB kata kerja, NN adalah kata benda.

Daripada hanya mengeluh , saya coba membuat ringkasan mengenai kelas kata bahasa Indonesia berdasarkan dua buku. Saya fokuskan terhadap aturan untuk setiap kelas kata karena inilah yang dibutuhkan sofware tagger untuk corpus yang sedang saya kumpulkan. Beberapa aturan yang saya perkirakan jarang muncul juga dihilangkan.

Pengembangan di tahap awal adalah pembuatan POS-tagger berdasarkan aturan (ruled-based), kemudian dilanjutkan dengan membuat POS-tagger yang menggunakan Hidden Markov Model.  Rencananya sih kedua tagger ini akan dijadikan open source.

Berikut adalah ringkasannya:

1. Kata Benda
Menurut [KER88][KOS04], kata benda dapat ditentukan dari dua hal, bentuk dan ciri. Dari bentuk, kata yang mengandung ke-an, pe-an, pe-, -an, ke-,  -at, -in, -wan, -wati, -isme, -isasi, -logi, -tas dapat dicalonkan sebagai kata benda. Misalnya “kebakaran”, “pembunuhan”, “karyawan”.  Sedangkan berdasarkan ciri, ciri utama kata benda adalah dapat diperluas dengan “yang”+ kata sifat,  misalkan “sinar yang terang”.  [KOS04] menambahkan ciri:  diawali “bukan” dan tidak diawali “tidak”, misalnya “bukan niatnya”.

2. Kata Kerja
Menurut [KER88] berdasarkan bentuk, kata yang mengandung  me-, ber-, -kan, di-, -i, ter- dapat dicalonkan sebagai kata kerja. Misalnya “berlari”, “menyayi”.  Sedangkan berdasarkan ciri, ciri utama kata kerja adalah kata yang dapat diperluas dengan “dengan”+kata sifat. Misalnya “tidur dengan nyenyak”.  [KOS04] menambahkan ciri: tidak dapat didahului kata “paling”, dapat didahului “akan”, “sedang”, “sudah” dan “tidak”. Ciri-ciri dari [KOS04] bukan ciri utama karena tidak eksklusif untuk kata kerja. Misalnya “sudah harum” dengan “harum” adalah kata sifat.

3. Kata Sifat
Menurut [KER88] kata sifat adalah segala kata yang dapat mengambil bentuk se + reduplikasi + nya, serta dapat diperluas dengan: “paling”, “lebih” dan  “sekali”. Misalnya “seteliti-telitinya”, “sebagus-bagusnya”, “paling cepat”, “lebih kuat”, “sakit sekali”.

4. Kata Keterangan
Kata keterangan adalah kata yang menjelaskan kata yang lain. [KER88] membagi kata keterangan menjadi 13 jenis: Keterangan kualitatif: “ia berjalan perlahan-lahan”; Keterangan waktu: “sekarang”, “nanti”, “kemarin”, “kemudian”, “sesudah itu”, “lusa”, “sebelum”, “minggu depan”; Keterangan tempat: “di sini”, “di situ”, “ke sana”, “ke mari”; Keterangan modalitas: “memang”, “pasti”, “sungguh”, “tentu”, “tidak”, “bukan”, “benar”, “sebenarnya”, “mungkin”, “rasanya”, “mudah-mudahan”, “hendaknya”, “jangan”,”mustahil”; Keterangan aspek: “sedang”, “sementara”, “sudah”, “telah”, “sering”, “biasa”; Keterangan derajat: “amat”, “hampir”, “kira-kira”, “sedikit”, “cukup”, “hanya” “satu kali”; Keterangan kesertaan: “bersama”; Keterangan syarat: “jika”, “seandainya”; Keterangan perlawanan: “meskipun”, “meski”,”jika”; Keterangan sebab: “sebab”, “karena”, “oleh karena”; Keterangan akibat: “sehingga”; Keterangan tujuan: “supaya”, “agar”, “untuk”, “hendak”; Keterangan perbandingan: “sebagai”, “seperti”, “bagaikan”; Keterangan perwatasan: “kecuali”, “hanya”.

5. Kata Depan
Kata depan adalah kata yang digunakan untuk merangkaikan kata atau bagian kalimat [KER88]. Kata-kata depan terpenting adalah  [KER88][KOS04]: “di”, “ke”, “dari”, “pada”, “akan”, “sejak”, “dengan”, “oleh”, “demi”, “guna”, “untuk”, “buat”, “berkat”, “antara”, “tentang”, “hingga”, “menurut”, “menghadap”, “mendapatkan”, “melalui”, “menuju”, “menjelang”, “sampai”, “atas”, “antara”, “bersama”, “beserta”, “sekeliling”, “selama”, “sepanjang”, “mengenai”, “terhadap”, “bagaikan”, “daripada”, “kepada”, “oleh sebab”, “sampai dengan”, “selain itu”.

6. Kata Sambung
Kata sambung adalah kata yang menghubungkan kata-kata , bagian kalimat atau kalimat  [KER88]. Beberapa kata sambung menurut [KER88]: “dan”, “lagi”, “lagipula”, “serta”, “tetapi”, “akan tetapi”, “melainkan”, “apabila”, “ketika”, “bila”, “demi”, “sambil”, “sebelum”, “sedang”, “sejak”, “selama”, “semenjak”, “sementara”, “seraya”, “setelah”, “sesudah”, “waktu”, “supaya”, “agar”, “karena”, “karena itu”, “sehingga”, “sampai”, “jika”, “andaikan”, “asal”, “asalkan”, “seandainya”, “atau”, “maupun”, “seperti”, “bagaikan”, “meskipun”, “biarpun”, “maka”, “adapun”, “akan”, “yakni”, “umpama”, “bahwa”.  Ada juga kalimat yang tidak memerlukan kata sambung. Misalnya “Dia datang, kami berangkat”.

7. Kata Ganti
Kata ganti adalah segala kata yang dipakaikan untuk mengganti kata benda [KER88]. Menurut [KER88] kata ganti dapat dibagi menjadi enam jenis. Kata ganti orang: “saya”, “aku”, “dia”, “kami”, “kita”, “kamu”, “mereka”, “anda”; Kata ganti empunya: -mu, -ku, -nya (“bukuku”, “bukumu”, “bukunya”); Kata ganti penunjuk: “ini”, “itu”, “di sana”, “di sini”, “di situ”; Kata ganti penghubung: “yang”, “tempat” (“kotak yang berisi kalung”, “kota tempat kita bertemu”); Kata ganti penanya: “apa”, “siapa”, “mana”, “mengapa”, “berapa”, “bagaimana”, “bilamana”, “kenapa”, “betapa”. Kata ganti tak tentu: “masing-masing”, “siapa-siapa”, “seseorang”, “para”, “barang”, “sesuatu”, “salah satu”, “barang siapa”.

8. Kata Bilangan
[KER88]  membagi kata bilangan menjadi empat jenis: Kata bilangan utama: “satu”, “dua”, “ribu”, “juta”, “miyar”, “triliun” ; Kata bilangan tingkat “pertama”, “kedua”; Kata bilangan tak tentu: “beberapa”, “segala”, “semua”, “tiap-tiap”, “sebagainya”; Kata bilangan kumpulan: “kedua”, “kesepuluh”, “bertiga”, “bertujuh”.

Kata Tugas
Dapat dilihat bahwa kata keterangan, kata depan dan kata sambung seringkali sulit ditentukan karena saling tumpang tindih. Oleh karena itu  [KER88]  mengusulkan kelas kata pengganti yaitu kata tugas. Jadi semua kata yang tidak masuk ke dalam kata benda, kerja dan sifat akan masuk ke dalam kelas kata tugas ini.

Penentuan kelas kata yang tidak jelas seperti ini sebenarnya adalah masalah utama yang harus dipecahkan aplikasi POS-Tagger.

Mungkin perlu diteliti apakah kata keterangan, sambung, depan memang dapat diganti dengan kata tugas. Tentunya berdasarkan kinerja untuk task tertentu, misalnya untuk summmarization atau information retrieval.

Referensi:
[KER84] Keraf, Goris (1984), “Tatabahasa Indonesia”, Nusa Indah.
[KOS04] Kosasih, E (2004), “Kompetensi Ketatabahasaan dan Kususastraan”, Yrama Widya, Cetakan 2.

8 Tanggapan ke “Kelas Kata (Word Class) Bahasa Indonesia untuk POS Tagger”

  1. snydez Berkata

    wah.. heheh. bahasa indonesia saya dulu dapet C :)
    pastes gak pernah ngeh yang kaya’ gini

  2. yudiwbs Berkata

    Ah masa? sederhana kok :-)

  3. Lia Berkata

    Saya baru kuliah Pemrosesan Bahasa Alami mengenai POS tagger. Kebetulan, dijelaskan mengenai kelas bahasa yang dibagi 2 yaitu open class dan closed class. Open class, masih bisa berkembang sehingga jumlah katanya akan semakin banyak. Closed class, jumlahnya terbatas dan dapat ditangani hanya dengan membuat list katanya.

    Apakah lebih baik dilakukan pembagian seperti itu juga?

  4. yudiwbs Berkata

    @Lia yts
    Makasih atas masukkannya.

    Setahu saya memang ada beberapa kelas kata yang anggotanya terus berkembang, misalnya kata benda. Misalnya kata “komputer” adalah kata benda yang tahun 70-an belum ada. Untuk kelas kata seperti ini peranan pos tagger jadi lebih penting karena dapat menentukan suatu kelas kata yang belum diketahui sebelumnya.

    Tetapi ada juga kelas kata yang anggotanya relatif tidak berubah misalnya kata ganti, kata penghubung.

  5. rosa Berkata

    Saya mahasiswanya Bu Masayu Pak waktu S1 dulu. Saya juga sama seperti Bapak, mencari POS tagging buat bahasa Indonesia untuk mendukung sistem tesis saya. Ternyata memang sedikit. Saya sebenarnya juga mencari apakah ada korpus Indonesia yang kayak Penn Treebank untuk bahasa Indonesia? Mohon dibagi pengetahuannya jika memang ada POS tagging dan treebank untuk bahasa Indonesia yang bisa saya acu. Terima kasih.

  6. yudiwbs Berkata

    Setahu saya tidak ada corpus bahasa Indonesia semacam penn treebank. Mungkin ada, tapi tidak dishare oleh pembuatnya.

  7. aidil Berkata

    pak boleh tau, untuk mendukung thesis saya apa punya link atau contoh program / listing untuk melakukan stopword dalam bahasa
    indonesia?

    terima kasih

  8. Alba Berkata

    Mohon informasi Pa :
    1. Buku2 terkini apa saja yang dapat dijadikan referensi untuk mengetahui dan memahami Cara Menulis Bahasa Indonesia yang Baik dan Benar ?
    2. Apakah EYD 1977 masih berlaku sampai saat ini ? Kalau tidak, EYD versi tahun berapa yang masih berlaku saat ini ?

    Terima kasih atas bantuan Bapak.


Tinggalkan Balasan