POS Tagger Bahasa Indonesia dengan Python

Feb 2018

Posting sebelumnya: POS Tagger dengan Syntaxnet

Posting terkait: POS Tagger dan Dependency Parser dengan StanfordNLP

Secara bertahap, saya dan istri akan migrasi dari Java ke Python. Salah satu yang kami perlukan adalah POS (Part of Speech)-Tagger Bahasa Indonesia.

Ini cara yang paling sederhana karena saya sudah sediakan modelnya, untuk cara trainingnya ada di bagian bawah.

Saya menggunakan CRFTagger, jadi library yang perlu diinstall: numpy, nltk dan python-crfsuite.

Lalu download pretrained model (1.6MB) yang saya buat berdasarkan data Fam Rashel (200rb-an token) di https://drive.google.com/open?id=12yJ82GzjnqzrjX14Ob_p9qnPKtcSmqAx

Untuk menggunakannya (sesuaikan path jika diperlukan):

from nltk.tag import CRFTagger
ct = CRFTagger()
ct.set_model_file('all_indo_man_tag_corpus_model.crf.tagger')
hasil = ct.tag_sents([['Saya','bekerja','di','Bandung']])
print(hasil)

Hasilnya akan seperti ini:

[[(‘Saya’, ‘PRP’), (‘bekerja’, ‘VB’), (‘di’, ‘IN’), (‘Bandung’, ‘NNP’)]]

Selesai… gampang kan 🙂

Jika ada yang berminat untuk training sendiri, ada beberapa dataset POS-Tag Bahasa Indonesia:

https://github.com/UniversalDependencies/UD_Indonesian
https://github.com/famrashel/idn-tagged-corpus
http://www.panl10n.net/english/OutputsIndonesia2.htm
https://lindat.mff.cuni.cz/repository/xmlui/handle/11234/1-1989

Saya menggunakan data milik Fam Rashel, code untuk training-nya adalah sbb (mungkin belum efisien, saya masih belajar Python):

from nltk.tag import CRFTagger

jumSample = 500000
namaFile = "/home/yudiwbs/dataset/pos-tag-indonesia/idn-tagged-corpus-master/Indonesian_Manually_Tagged_Corpus.tsv"
with open(namaFile, 'r', encoding='utf-8') as f:
    lines = f.read().split('\n')

pasangan = []
allPasangan = []

for line in lines[: min(jumSample, len(lines))]:
    if line == '':
        allPasangan.append(pasangan)
        pasangan = []
    else:
        kata, tag = line.split('\t')
        p = (kata,tag)
        pasangan.append(p)

ct = CRFTagger()
ct.train(allPasangan,'all_indo_man_tag_corpus_model.crf.tagger')
#test
hasil = ct.tag_sents([['Saya','bekerja','di','Bandung'],['Nama','saya','Yudi']])
print(hasil)

Dokumentasi lengkap tentang lib POS-Tag NLTK dapat dilihat di: http://www.nltk.org/api/nltk.tag.html

Untuk sekarang saya belum buat pengukuran kinerja model yang dihasilkan.

45 tanggapan untuk “POS Tagger Bahasa Indonesia dengan Python”

arankamu berkata:

21 Februari 2018 pukul 13:51

pada postingan ini, Bapak pakai Syntax Highlighter apa? (u/ menulis kodingan) tulisannya rapih.

Balas
1. yudiwbs berkata:
  
  21 Februari 2018 pukul 19:29
  
  Di posting tambahkan saja
  [[code language="python"]] [[/code]]
  (kurung siku-nya satu saja, ini saya jadikan dua karena kalau tidak di-comment jadi hilang)
  seingat saya sudah disediakan WordPress (tdk perlu install plugin)
  
  Balas
  1. arankamu berkata:
    
    24 Februari 2018 pukul 14:41
    
    nuhun ^^
gamar berkata:

5 Maret 2018 pukul 23:48

maaf pak nny… pos tag ini jlnny di python 2 apa 3? sebelumnya terimakasih

Balas
1. yudiwbs berkata:
  
  6 Maret 2018 pukul 04:56
  
  Python3.. Selalu gunakan Python3 jika memungkinkan.
  
  Balas
  1. gamar berkata:
    
    19 Maret 2018 pukul 21:45
    
    iya pak Alhmduliilah sudah berhasil, sy nanya lagi pak, boleh ya,
    
    misalkan sya sudah memeperoleh hasil seperti diatas [[(‘Saya’, ‘PRP’), (‘bekerja’, ‘VB’), (‘di’, ‘IN’), (‘Bandung’, ‘NNP’)]], selanjutnya jika sy hanya ingin memanggil hasil pos tag saja misalnya:
    
    [‘PRP’, ‘VB’, ‘IN’, ‘NNP’], kira-kira bagaimana yah pak?? seolahnya sy masih bingung variabel mana yang dijadikan sebagai key? terimakasih
  2. yudiwbs berkata:
    
    20 Maret 2018 pukul 05:58
    
    for tokenTag in hasil[0]:
    token, tag = tokenTag;
    print(token+”–>”+tag);
    
    itu hasilnya 2 nested array lalu didalamnya tuple.
  3. Gamar berkata:
    
    19 April 2018 pukul 21:35
    
    Baik pak terima kasih, oh ya pak boleh saya tahu corpus yang bapak gunakan pada post tag ini, soalnya saya berniat memasukan post tag bpk di tugas sy, tapi saya membutuhkan data corpusnya sebagai pelaporannya? sebelumnya terimakasih pak dan mohon bantuannya.
  4. yudiwbs berkata:
    
    19 April 2018 pukul 21:42
    
    kan sudah jelas di postingnya ditulis menggunakan data yg mana.
Helmi Imaduddin berkata:

19 Maret 2018 pukul 10:23

Pak, saya mau tanya cara buat pretrained model sendiri gimana ya?

Balas
1. yudiwbs berkata:
  
  19 Maret 2018 pukul 18:30
  
  Code yang atas untuk menggunakan pretrained model (model yang sudah ditrain oleh saya, tinggal pake), code yang bawah kalau mau buat model sendiri.
  
  Balas
Irfan berkata:

27 Maret 2018 pukul 11:27

permisi mas, kalau saya mau membaca file pretrained model yang mas sediakan pakai apa ya? saya mencoba untuk memakai notepad++ tidak bisa

Balas
1. yudiwbs berkata:
  
  27 Maret 2018 pukul 16:57
  
  Bagusnya coba googling dan baca2 tentang supervised learning dulu. Lalu baca-baca tentang python+nltk.
  
  Balas
Ran berkata:

14 April 2018 pukul 12:37

Saya ingin menentukan S P O K itu pake rule ya pak?? Gimana caranya kalo dipiton?

Balas
1. yudiwbs berkata:
  
  14 April 2018 pukul 16:43
  
  Coba googling tentang dependency parser
  
  Balas
roney berkata:

26 April 2018 pukul 15:02

waaah penelitian nya sama pak, bisa di jadikan literatur, bookmark dulu. hee terima kasih pak yudiwbs. kemaren buat SPOK dengan python dan NLTK, POSTAG yang di pake miliki alfan f. wicaksono. semoga kedepan trus berkembang penelitian nya pak.

Balas
mocharief24 berkata:

12 Mei 2018 pukul 16:29

saya mencoba di windows, pas gunain training Fam Rashel untuk runningnya lama. Itu disebabkan dari data trainingnya? Adakah solusi?

Balas
1. yudiwbs berkata:
  
  12 Mei 2018 pukul 16:36
  
  Saya tidak inget lama kok. Memori mungkin? saya gunakan PC dengan memory 32GB.
  
  Balas
  1. mocharief24 berkata:
    
    14 Mei 2018 pukul 13:52
    
    Udah solve pak. Untuk keempat data training itu apa bapa udh dicoba semua? Kira-kira lebih akurat yg mana dari keempat daya training tsb?
  2. yudiwbs berkata:
    
    14 Mei 2018 pukul 14:28
    
    Belum. Harusnya yang paling bagus adalah universal dependencies, paling banyak jumlah tokennya.
  3. Zhlo berkata:
    
    6 Juni 2022 pukul 02:09
    
    Pak , untuk train data menggunakan data Universal Dependencies dari https://github.com/UniversalDependencies/UD_Indonesian caranya bagaimana ya pak?
    Apakah yg digunakan hanya untuk format data training seperti Fam Rashel saja pak?
rhezaboge berkata:

19 Mei 2018 pukul 09:11

Terimakasih pak telah memberikan pencerahan 😀 hihi

Balas
Syaiful A.H Lubis berkata:

4 Agustus 2018 pukul 15:17

Pak, saya mengikuti kode yg bapak tuliskan (kode yg paling bawah). Dengan data text milik saya sendiri. Sebelumnya saya juga pakai POSTAG milik Fam Rashel, tapi saya lgsg clone dari repositori mereka dan menjalankan file shell (./tag.sh) sesuai dengan tutorial yg mereka berikan di github. Saya bandingkan dgn cara yg bapak lakukan ini (python + nltk), hasil tagging-nya banyak yg berbeda. Kira2 itu kenapa ya pak?

Balas
1. yudiwbs berkata:
  
  5 Agustus 2018 pukul 04:28
  
  Ya mungkin algoritmanya memang beda, hasilnya akan beda juga.
  
  Balas
Ali Murtadho berkata:

28 Oktober 2018 pukul 15:24

untuk setting path mengubah
….
dmna pak?

Balas
1. yudiwbs berkata:
  
  29 Oktober 2018 pukul 03:37
  
  Sebaiknya belajar dasar-dasar python dulu.
  
  Balas
yudiwbs berkata:

2 Januari 2019 pukul 23:15

Cara yang paling gampang ikuti posting ini lalu jadikan dataset anda jadi input. Jadi deh berlabel. Tinggal ada perbaiki saja label yang salah.

Balas
venikputri berkata:

16 Januari 2019 pukul 15:13

Pak maaf sebelumnya, saya ingin bertanya bagaimana cara untuk mengkonversi data menjadi format BIO pak? Terima kasih sebelumnya pak

Balas
1. yudiwbs berkata:
  
  18 Maret 2019 pukul 14:00
  
  maksudnya konversi dari apa ke mana? Kalau dari corpus pos tag yg saya gunakan di contoh ini, buat saja script kecil untuk mengkonversi.
  
  Balas
Agi Maulana berkata:

19 Februari 2019 pukul 01:15

Membantu banget. Mas, ada referensi buat liat keterangan tagnya ga ya? misal adverb itu tagnya jadi apa gitu. Makasih, mas.

Balas
1. Agi Maulana berkata:
  
  19 Februari 2019 pukul 01:21
  
  sudah nemu deh disini http://inacl.id/inacl/wp-content/uploads/2017/06/INACL-POS-Tagging-Convention-26-Mei.pdf
  
  Balas
Indy Fungs berkata:

18 Maret 2019 pukul 10:15

Maaf Pak, itu isi file (all_indo_man_tag_corpus_model.crf.tagger) apa bisa di edit ? kalau bisa menggunakan software apa ?? mohon jawabannya ya pak, ini terkait dengan skripsi saya. terimakasih

Balas
1. yudiwbs berkata:
  
  18 Maret 2019 pukul 13:57
  
  Itu model yang dihasilkan. Coba baca-baca dulu tentang tahapan buat classifier.
  
  Balas
Tri Budiyono berkata:

4 Juni 2019 pukul 22:57

Makasih Pak Yudi atas tutorial nya.

Balas
Mary berkata:

22 November 2019 pukul 11:13

Mohon maaf Pak, ini saya eror “NameError: name ‘pycrfsuite’ is not defined”
saya cari solusi tidak ketemu-ketemu. Mohon informasinya

Balas
1. yudiwbs berkata:
  
  22 November 2019 pukul 18:34
  
  Sudah install lib python-crfsuite?
  
  Balas
  1. Sam Rizky Pratama berkata:
    
    15 Februari 2020 pukul 16:06
    
    Saya juga memiliki masalah yang sama pak. name ‘pycrfsuite’ is not defined .
    Padahal sudah install python-crfsuite. gimana ya ?
Adityo Aji Pambudi Qrren berkata:

4 Mei 2020 pukul 20:06

Saya juga memiliki masalah seperti itu. Mohon bantuannya Pak termakasih.

Balas
1. redi andri berkata:
  
  28 Oktober 2021 pukul 13:42
  
  saya coba downgrade dari python 3.8 ke python 3.7.7 solved. semoga bisa membantu.
  
  Balas
liestya berkata:

20 September 2020 pukul 14:06

Selamat siang pak Yudi. terima asih atas artikelnya. sudah saya gunakan CRFTagger diatas untuk tesis saya. Pak Yudi, saya mohon info tentang keterangan kelas kata yang digunakan di dalamnya. Ada NNP, FW, CD, NEG. Mungkin ada informasi lengkapnya pak. ? terima kasih

Balas
1. yudiwbs berkata:
  
  20 September 2020 pukul 15:24
  
  googling saja ada kok
  
  Balas
liestya berkata:

27 September 2020 pukul 09:12

Pak Yudi, saya melakukan pos tagging pada sebuah kalimat, yg di dalamnya terdapat kata hoax muncul 4-5 kali. Hasil pos tagging pada kata hoax, tersebut, beberapa memasukkannya dalam ‘FW’, tetapi ada juga yang memasukkannya dalam ‘NN’. mengapa bisa demikian ya pak ?
from nltk.tag import CRFTagger

ct = CRFTagger()
ct.set_model_file(‘data/all_indo_man_tag_corpus_model.crf.tagger’)

hasil = ct.tag_sents([[‘simak’, ‘berita’, ‘berikut’, ‘ini’, ‘sejarah’, ‘mencatat’, ‘bahwa’, ‘hoax’, ‘bukan’, ‘hal’, ‘baru’, ‘berita’, ‘hoax’, ‘beragam’, ‘baik’, ‘dalam’, ‘dunia’, ‘sains’, ‘dunia’, ‘militer’, ‘bahkan’, ‘dalam’, ‘urusan’, ‘agama’, ‘sekalipun’, ‘mulai’, ‘dari’, ‘hoax’, ‘yang’, ‘berakibat’, ‘serius’, ‘hingga’, ‘hoax’, ‘sepele’, ‘yang’, ‘sekadar’, ‘memancing’, ’emosi’, ‘para’, ‘pembaca’, ‘perkembangan’, ‘teknologi’, ‘memudahkan’, ‘manusia’, ‘mengakses’, ‘informasi’, ‘apapun’, ‘namun’, ‘dibalik’, ‘kemudahan’, ‘tersebut’, ‘informasi’, ‘palsu’, ‘atau’, ‘hoax’, ‘bermunculan’, ‘dan’, ‘menimbulkan’, ‘perpecahan’, ‘hoax’, ‘merusak’, ‘hubungan’, ‘baik’, ‘antar’, ‘masyarakat’, ‘di’, ‘desa’, ‘a’, ‘seorang’, ‘pria’, ‘diamuk’, ‘massa’, ‘karena’, ‘dituduh’, ‘sebagai’, ‘penculik’, ‘anak’, ‘saat’, ‘itu’, ‘dia’, ‘berniat’, ‘untuk’, ‘menjenguk’, ‘cucunya’, ‘yang’, ‘baru’, ‘lahir’, ‘dirinya’, ‘kebingungan’, ‘mencari’, ‘rumah’, ‘anaknya’, ‘warga’, ‘yang’, ‘melihatnya’, ‘langsung’, ‘curiga’, ‘dan’, ‘menuduhnya’, ‘sebagai’, ‘pelaku’, ‘penculikan’, ‘anak’, ‘tuduhan’, ‘tersebut’, ‘didasarkan’, ‘pada’, ‘berita’, ‘hoax’, ‘yang’, ‘beredar’, ‘kala’, ‘itu’, ‘tanpa’, ‘berusaha’, ‘mencari’, ‘info’, ‘lebih’, ‘lanjut’, ‘para’, ‘warga’, ‘lantas’, ‘mengeroyok’, ‘pria’, ‘tersebut’, ‘keluarga’, ‘korban’, ‘tidak’, ‘terima’, ‘dan’, ‘kerusuhan’, ‘berlanjut’, ‘sumber’, ‘diakses’, ‘februari’, ‘jika’, ‘dikaitkan’, ‘dengan’, ‘nilai’, ‘pancasila’, ‘isi’, ‘berita’, ‘tersebut’, ‘bertentangan’, ‘dengan’, ‘nilai’, ‘pancasila’, ‘terutama’, ‘nilai’]])
hasil
[[(‘simak’, ‘NN’),
(‘berita’, ‘NN’),
(‘berikut’, ‘NN’),
(‘ini’, ‘PR’),
(‘sejarah’, ‘NN’),
(‘mencatat’, ‘VB’),
(‘bahwa’, ‘SC’),
(‘hoax’, ‘FW’),
(‘bukan’, ‘NEG’),
(‘hal’, ‘NN’),
(‘baru’, ‘JJ’),
(‘berita’, ‘NN’),
(‘hoax’, ‘NN’),

Balas
1. yudiwbs berkata:
  
  6 Oktober 2020 pukul 17:25
  
  masuk ke spam commentnya gara2 dump kata 🙂 Masalah hasil tag ya tergantung data trainingnya. Jangan-jangan data trainingnya nggak ada kata “hoax”
  
  Balas
김민희 berkata:

10 Maret 2022 pukul 14:00

Terima kasih atas informasi yang baik.
Dalam tokenisasi, “kereta api” terbagi menjadi “kereta” dan “api” meskipun diperlakukan sebagai satu kata yang berarti kereta api.
Bagaimana Anda menangani karakteristik bahasa dari kata kompleks ini di Indonesia?

Balas
1. yudiwbs berkata:
  
  19 November 2022 pukul 06:49
  
  Bisa menggunakan n-grams
  
  Balas

	Sayidina ahmadal qos… pada GloVe untuk Wikipedia Bahasa…
	Tama Romalisti pada Review KIA Picanto
	Dwiweka pada Dependency Parsing Bahasa Indo…
	yudiwbs pada POS Tagger Bahasa Indonesia de…
	Zhlo pada POS Tagger Bahasa Indonesia de…

Bagikan ini:

Terkait

45 tanggapan untuk “POS Tagger Bahasa Indonesia dengan Python”

Tinggalkan komentar Batalkan balasan