Ekstraksi Informasi: Named Entity Recognition

Posting lanjutan tentang NER:

Name Entity Recognition (NER) atau Name Entity Recognition and Classification (NERC) adalah salah satu komponen utama dari information extration yang bertujuan untuk mendeteksi dan mengklasifikasikan named-entity pada suatu teks. NER umumnya digunakan untuk mendeteksi nama orang, nama tempat dan organisasi dari sebuah dokumen, tetapi dapat juga diperluas untuk identifikasi gen, protein dan lainnya sesuai kebutuhan.

Contoh named entity dalam suatu kalimat:

“19.55: Banjir setinggi 80-100 cm di Jln yos sudarso, dekat pelabuhan 1 Cirebon, hati2 pengendara“

Setelah proses NER dijalankan, akan didapat named-entity (NE) atau sering disebut mention beserta tipenya: “19:55” bertipe waktu; “banjir” bertipe kejadian; “80-100cm” bertipe ukuran “Jln. yos sudarso”, “pelabuhan 1” dan “Cirebon” bertipe lokasi. Dari contoh di atas dapat dilihat bahwa fungsi dari NER adalah mendeteksi kata atau kumpulan kata yang merupakan entitas dan mengkategorikan kata tersebut ke dalam tipe yang sesuai

NER bermanfaat dalam banyak aplikasi NLP (Natural Language Processing) seperti question-answering, rangkuman dan sistem dialog. NER juga berkaitan task information extraction lainnya seperti dengan relation detection, event detection dan temporal analysis.

Ada dua jenis ambiguitas yang dapat ditemui NER. Pertama kata yang sama dapat berarti dua entitas yang berbeda. Misalnya kata Soekarno dapat berarti presiden pertama Indonesia, atau nama belakang seorang seniman (Enrico Soekarno), keduanya entitas berbeda walaupun tipenya sama (orang/person). Jenis ambiguitas kedua adalah nama yang sama tapi tipe berbeda. Contohnya adalah Bung Karno sebagai stadion dengan Bung Karno sebagai orang. Ambiguitas umumnya ditangani dengan menggunakan kamus.

Deteksi named entity dapat dilakukan dengan melihat pola kata disekitarnya. Misalnya frasa yang didahului oleh kalimat “pergi ke … “ atau “datang dari … “ kemungkinan besar adalah named entity bertipe lokasi. Contoh “pergi ke Bandung” dan “datang dari Amerika Serikat”. Tentu pola ini sangat banyak kombainasinya sehingga cara manual kurang feasible. Seiring dengan makin banyaknya data tersedia, machine learning dapat digunakan untuk mempelajari pola secara otomatis dan melakukan prediksi label kategori.

NER dapat diselesaikan dengan pelabelan urutan kata statistik (statisctical sequence-labeling) yang mendeteksi batas atau segmen dan tipe dari named-entity. Fitur yang dapat digunakan untuk learning antara lain: shape (uppercase atau lowercase, penggunaan angka), kata dikiri dan dikanan, jenis kata, apakah kata ada di dalam kamus atau gazetter, predictive words dan N-Gram. Setelah fitur dikumpukan, pelabelan dapat diselesaikan dengan menggunakan Hidden Markov Model atau Maximum Entropy Model.

-bersambung-

Sumber: Jurafsky, D. and Martin, J. “Speech and language processing”, Prentice Hall, 2008.

4 tanggapan untuk “Ekstraksi Informasi: Named Entity Recognition”

adi berkata:

31 Agustus 2012 pukul 07:17

Pak, numpg tny, klo cth aplikasi yg bs dikembangkan dari NLP selain QA apa aja ya pak?dan maksud ttg “rangkuman, sistem dialog juga NER pada relation detection, event detection dan temporal analysis implementasi pada kehidupan nyata seperti apa pak?
trims pak pencerahannya

Balas
1. yudiwbs berkata:
  
  31 Agustus 2012 pukul 08:01
  
  iPhone Siri contoh penerapan NLP. Google juga menggunakan NLP untuk search engine-nya, lalu google translate.
  
  Balas
fajar wicaksono berkata:

3 Oktober 2013 pukul 20:15

pak, untuk sambungannya bisa di lihat dimana,. ‘?
apa ada tutorial untuk membuat program NLP

Balas
kk berkata:

3 Maret 2016 pukul 14:38

apakah tersedia NER (orang, organisasi, dan lokasi) untuk bahasa Indonesia?

Balas

	Sayidina ahmadal qos… pada GloVe untuk Wikipedia Bahasa…
	Tama Romalisti pada Review KIA Picanto
	Dwiweka pada Dependency Parsing Bahasa Indo…
	yudiwbs pada POS Tagger Bahasa Indonesia de…
	Zhlo pada POS Tagger Bahasa Indonesia de…

Bagikan ini:

Terkait

4 tanggapan untuk “Ekstraksi Informasi: Named Entity Recognition”

Tinggalkan komentar Batalkan balasan