Analisis Tweet: Opini atau Sentimen
26 December 2011 at 19:49 | Posted in penelitian, text processing, twitter | 6 CommentsTwitter seringkali digunakan untuk ‘curhat’ mengenai sesuatu hal, baik memuji ataupun mencela. Tentunya ini punya potensi besar bagi perusahaan yang ingin mengetahui feedback masyarakat untuk merk dan layanan mereka demikian juga partai politik atau politikus yang ingin mengukur tingkat popularitas mereka. Analisa ‘curhat’ ini dikenal dalam dunia pemrosesan teks sebagai analisa opini atau sentimen (opinion analysis atau sentiment analysis). Opini artinya adalah pandangan subyektif seseorang tentang suatu hal.
Ada beberapa task utama dalam analisis opini, diantaranya:
- Menentukan tweet berisi opini atau tidak. Contoh bukan opini: “Hari ini saya belanja di supermarket X”. Sedangkan contoh opini adalah “Pelayanan kasir supermarket X tidak ramah dan lambat”.
- Menentukan apakah opini tersebut adalah opini negatif atau positif. Contoh opini positif “Supermarket X bersih, enak belanja disana”. Sedangkan contoh opini negatif bisa dilihat pada contoh no 1.
- Apa yang menjadi topik dari opini? Misalnya pada contoh no 1, yang menjadi topik adalah “layanan kasir” sedangkan pada contoh no 2 yang menjadi topik adalah “kebersihan”
Dengan cara manual, analisa opini ini bisa saja dilakukan. Misalnya memonitor berita-berita di media masa. Tapi untuk data tweet, cara manual tidak mungkin bisa dilakukan. Ini karena jumlah datanya yang sangat besar dan terus mengalir. Misalnya untuk tweet berbahasa Indonesia saja diperkirakan ada aliran 6 juta tweet per hari (2010). Disinilah peranan text processing, yang secara otomatis dapat memproses data.
Sebulan yang lalu saya mengadakan eksperimen kecil untuk analisis opini. Tentunya detil teknis tidak saya tulisan di posting ini dan nanti bisa dibaca di papernya. Data yang saya gunakan adalah tweet yang mengandung kata dua operator GSM di Indonesia. Saya kumpulkan dari bulan Agustus 2010 dan masih berlangsung sampai sekarang. Tapi untuk eksperimen ini, saya hanya gunakan sebagian data saja (35 ribuan tweet).
Beberapa hal dari hasil eksperimen:
- Dari tweet yang mengandung kata operator GSM tersebut, 65% mengandung opini.
- Dari tweet opini tersebut, opini negatif mencakup 77%. Ini masuk akal karena orang biasanya saat puas diam, dan saat kesal menulis tweet negatif.
- Kata-kata kunci (keyword) yang ditemukan oleh software adalah: “emosi, mahal, bb ,<makian>, aneh, jaringan, pulsa, provider, bis, paket, sms, sinyal”.
Jika dibuat grafik, bentuknya seperti ini
Garis biru memperlihatkan opini negatif, sedangkan garis merah adalah opini positif. Sumbu x adalah hari. Terlihat opini negatif mendominasi. Analisis keyword juga dapat dilakukan per hari. Misalnya pada tanggal 9 September 2010, satu hari menjelang idul fitri, salah satu keyword yang menonjol adalah “cs”, yaitu customer support. Contoh tweetnya:
“Susah bgt sih hubungin CS [xxx] ..sibuk2 mlulu”
”tadi gua sempet nyolot22an sama CS nya [xxxx] HAHAHA songong bet sih lau neng”
Ini mungkin disebabkan jumlah CS yang terbatas di menjelang idul fitri.
Tentunya masih banyak lagi hal-hal yang bisa digali, tapi perlu eksperimen dan studi lebih lanjut, dan itu yang sedang saya lakukan bersama beberapa mahasiswa bimbingan saya
6 Comments »
RSS feed for comments on this post. TrackBack URI
Leave a Reply
Blog at WordPress.com. | Theme: Pool by Borja Fernandez.
Entries and comments feeds.

untuk topik ini, bagaimana bapak menentukan opini tresebut negatif atau positif (metodenya) ? saya mau nanya sedikit nih pak, kebetulan tugas akhir saya sama dengan topik yg bapak angkat dan akan saya publish metode saya di blog http://zeezaah.wordpress.com setelah sidang saya tanggal 27 januari 2012.
Comment by NurAzizah Vidya— 23 January 2012 #
yg paling simple: naive bayes. Akurasinya sudah 90%-an. Belum coba teknik lain.
Comment by yudiwbs— 23 January 2012 #
saya pakai multinomial naive bayes. tidak ada proses preprocessing lain pak selain stopwords? misalnya pos tagger (kamus data) buat bahasa indonesia.?
Comment by NurAzizah Vidya— 23 January 2012 #
Hanya pemrosesan sinonim, misalnya “gak”, “tdk”, “ga”, “nggak” –> “tidak”. Detilnya ada paper saya: http://yuliadi.com/file/index.php?dir=paper/&file=yudi_wibisono_sistem_analisis_opini_microblogging_ver4.pdf
Comment by yudiwbs— 23 January 2012 #
Saya pake POS Tag juga… akurasinya di atas 95%
Comment by Jaka Arya Pradana (@aajap)— 23 January 2012 #
Domainnya tweet juga? kalau ya menarik. Dengan SVM? Bisa lihat papernya?
Klasifikasi teks kalau dengan SVM memang bisa sampai 97%-98% (tergantung domain), cuma belum menemukan library SVM yang LGPL.
Comment by yudiwbs— 23 January 2012 #