Peringkasan Teks (Text Summarization)

7 October 2007 at 20:30 | Posted in penelitian, peringkasan/summarization, text processing | 8 Comments
Tags: ,

Peringkasan teks adalah topik tesis saya (yang sayangnya sampai sekarang belum beres juga hehe). Supaya semangat mengerjakan lagi tesis, saya coba buat tulisan yang tidak terlalu ilmiah tentang topik ini.

Aplikasi peringkasan teks sebenarnya ada dimana-mana. Mulai dari abstrak pada karya ilmiah sampai dengan judul artikel. Saat kita menggunakan Google, search engine itu akan menampilkan beberapa kata berisi rangkuman dokumen sehingga kita dapat memperkirakan isi dokumen tersebut tanpa harus melihat dokumen aslinya. Contoh berikut memperlihatkan salah satu hasil google dengan dengan keyword “Pemilu”:

contoh ringkasan di google

Kata-kata “Pekerjaan Rumah KPU dst” merupakan ringkasan.

Kalau kita lihat bagaimana Google meringkas dokumen, ternyata si-Google ini tidak sekedar mengambil beberapa kalimat pertama dari dokumen (main potong). Jadi bagaimana caranya? Apa secara manual mereka membuat sendiri ringkasan setiap dokumen? (dengan sekitar 10 milyar dokumen yang mereka miliki, jawabannya bisa ditebak hehe). Meledaknya jumlah dokumen teks online membuat peringkasan teks secara otomatis menjadi semakin penting.

Nah, berdasarkan cara membuatnya, ada dua jenis ringkasan. Jenis pertama, kalimat atau kata yang ada dalam ringkasan diambil secara utuh dari dokumen aslinya. Contohnya ringkasan yang dilakukan Google. Google tidak akan menambahkan kata yang baru yang tidak ada dalam dokumen aslinya. Jenis ini disebut extractive summary.

Jenis kedua, ringkasan yang menambahkan kata baru dan dapat merubah sususan kalimat. Sebenarnya ini lebih natural karena manusia membuat ringkasan dengan cara seperti ini. Coba anda meringkas sebuah dokumen, perhatikan walaupun saat meringkas kita akan mengambil kata dari dokumen asal, tetapi kadang-kadang kita menambahkan kata baru atau merubah sususan kalimat sehingga lebih padat. Jenis kedua ini disebut abstractive summary.

Mana yang lebih mudah bagi komputer? Dapat ditebak bahwa cara pertama yaitu extractive lebih mudah bagi komputer. Cara abstractive umumnya membutuhkan pembangkit kalimat (language generator) yang lebih kompleks dan membutuhkan waktu lebih lama.

Dua jenis ringkasan ini merupakan topik thesis saya, pada artikel berikutnya akan saya bahas secara lebih rinci mengenai extractive dan abstractive summarization.

8 Comments »

RSS feed for comments on this post. TrackBack URI

  1. Sangat membantu, apa ada bahan-bahan yang bisa dipakai untuk thsesis ini gak??? k

  2. ada bahan ttg perangkingan ulang dok. teks summarization g?khususnya MMR.trima kasih

  3. thanks atas peringkasan teksnya..

  4. Terimakasih atas artikelnya pak.

    Saya mahasiswa S1 dan kebetulan topik yang saya angkat adalah mengenai peringkasan dokumen teks.

    Jika bapak berkenan, bolehkah saya mendapatkan bahan atau link jurnal yang bapak pakai. Dan jika bapak tidak keberatan saya ingin berdiskusi lebih lanjut dengan bapak.

    Terimakasih.

  5. maaf bapak, kalau boleh tanya dimana ya saya bisa mendapatkan kamus kata bahasa indonesia dengan sumber yang terpercaya?
    terima kasih🙂

  6. Assalamu Alaikum,
    maaf pak ada yang ingin saya tanyakan, menurut bapak untuk implementasi Teks summerzation pada dokumen artikel berita atau absrak dokument, alangkah baiknya menggunakan algoritma apa?misl TF-IDF atau! dan apakah panjang sebuah teks juga berpengaruh pada algortitma yang kita pakai? mohon penjelasnnya pak. sebelum terima kasih.


Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s

Blog at WordPress.com.
Entries and comments feeds.

%d bloggers like this: