Ekstraksi Informasi: Named Entity Recognition

7 February 2012 at 09:08 | Posted in text processing | 4 Comments

Name Entity Recognition (NER) atau Name Entity Recognition and Classification (NERC)  adalah salah satu komponen utama dari information extration yang bertujuan untuk mendeteksi dan mengklasifikasikan named-entity pada suatu teks. NER umumnya digunakan untuk mendeteksi nama orang, nama tempat dan organisasi dari sebuah dokumen, tetapi dapat juga diperluas untuk identifikasi gen, protein dan lainnya sesuai kebutuhan.

Contoh  named entity  dalam suatu kalimat:

19.55Banjir setinggi 80-100 cm di Jln yos sudarso, dekat pelabuhan 1 Cirebon, hati2 pengendara“

Setelah proses NER dijalankan, akan didapat named-entity (NE) atau sering disebut  mention beserta tipenya: “19:55” bertipe waktu; “banjir”  bertipe kejadian; “80-100cm” bertipe ukuran “Jln. yos sudarso”, “pelabuhan 1” dan “Cirebon”  bertipe  lokasi.  Dari contoh di atas dapat dilihat bahwa fungsi dari NER adalah mendeteksi kata atau kumpulan kata yang merupakan entitas dan mengkategorikan kata tersebut ke dalam tipe yang sesuai

NER bermanfaat dalam banyak aplikasi NLP (Natural Language Processing) seperti question-answering, rangkuman dan sistem dialog.  NER juga berkaitan task information  extraction lainnya seperti  dengan relation detection,  event detection dan temporal analysis.

Ada dua jenis ambiguitas yang dapat ditemui NER. Pertama kata yang sama dapat berarti dua entitas yang berbeda. Misalnya kata Soekarno dapat berarti presiden pertama Indonesia, atau nama belakang seorang seniman (Enrico Soekarno),  keduanya entitas berbeda walaupun tipenya sama (orang/person).  Jenis ambiguitas  kedua adalah nama yang sama tapi tipe berbeda. Contohnya adalah Bung Karno  sebagai stadion dengan Bung Karno sebagai orang.  Ambiguitas umumnya ditangani dengan menggunakan kamus.

Deteksi named entity  dapat dilakukan dengan melihat pola kata disekitarnya. Misalnya frasa yang didahului oleh kalimat “pergi ke … “ atau “datang dari … “ kemungkinan besar adalah named entity bertipe lokasi. Contoh “pergi ke Bandung”  dan “datang dari Amerika Serikat”.   Tentu pola ini sangat banyak kombainasinya sehingga cara manual kurang feasible. Seiring dengan makin banyaknya data tersedia, machine learning dapat digunakan untuk mempelajari pola secara otomatis dan melakukan prediksi label kategori.

NER dapat diselesaikan dengan pelabelan urutan kata statistik (statisctical sequence-labeling) yang mendeteksi batas atau segmen  dan tipe dari named-entity.  Fitur yang dapat digunakan untuk learning antara lain:  shape (uppercase atau lowercase, penggunaan angka),  kata dikiri dan dikanan, jenis kata, apakah kata ada di dalam kamus atau gazetter,  predictive words dan N-Gram.  Setelah fitur dikumpukan, pelabelan dapat diselesaikan dengan menggunakan Hidden Markov Model atau Maximum Entropy Model.

-bersambung-

Sumber: Jurafsky, D. and Martin, J. “Speech and language processing”, Prentice Hall, 2008.

4 Comments »

RSS feed for comments on this post. TrackBack URI

  1. Pak, numpg tny, klo cth aplikasi yg bs dikembangkan dari NLP selain QA apa aja ya pak?dan maksud ttg “rangkuman, sistem dialog juga NER pada relation detection, event detection dan temporal analysis implementasi pada kehidupan nyata seperti apa pak?
    trims pak pencerahannya

    • iPhone Siri contoh penerapan NLP. Google juga menggunakan NLP untuk search engine-nya, lalu google translate.

  2. pak, untuk sambungannya bisa di lihat dimana,. ‘?
    apa ada tutorial untuk membuat program NLP

  3. apakah tersedia NER (orang, organisasi, dan lokasi) untuk bahasa Indonesia?


Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s

Blog at WordPress.com.
Entries and comments feeds.

%d bloggers like this: