Software untuk Analisis Sentimen
30 August 2012 at 19:14 | Posted in text processing, twitter | 8 CommentsMelanjutkan posting http://yudiwbs.wordpress.com/2011/12/26/analisis-twee-analisis-opini-sentimen/ tahun ini promotor saya, saya dan Lia mengajukan tema analisis sentimen di microblog untuk hibah penelitian desentralisasi ITB dan diterima. Kesempatan bagus untuk membuat software untuk basis ekperimen dan nantinya bisa digunakan oleh masyarakat umum. Kapan lagi buat prototype dibayar
Lagipula akan bermanfaat untuk disertasi saya.
Untuk tahap awal ini, software masih berperan sebagai executive information system yang menampilkan beberapa ukuran statistik beserta visualisasinya. Belum dilakukan tweet mining untuk menemukan hal-hal penting yang tersembunyi (target berikutnya). Prinsipnya ini masih versi dasar yang nanti akan dilengkapi sedikit demi sedikit.
Ada tiga komponen penyusun software ini: crawler (pengumpul data tweet), pemroses data (preprocessing, klasifikasi, agregasi) dan terakhir visualiasi. Berbeda dengan software yang saya buat sebelumnya, software ini berbasis desktop (Java-Swing), bukan web atau mobile. Alasannya, pengembangan aplikasi desktop lebih cepat daripada web dan mobile, terutama untuk user interface yang kompleks (plus saya tidak suka javascript hehe). Sedangkan kelemahan aplikasi desktop adalah komputer harus terus menerus hidup saat melakukan crawling dan crawling akan berhenti jika koneksi internet putus. Tapi nanti bisa dibuat hybrid, crawling dilakukan di server dan datanya ‘dilempar’ ke client untuk kemudian diproses. Sedangkan untuk mobile app, crawling+proses dilakukan di server dan baru setelah itu datanya dilempar ke mobile app secara on demand.
Setelah sebulan mencoba-coba, mumpung libur lebaran, akhirnya aplikasinya mulai terbentuk (gambar bawah). ”Indosat” dipilih menjadi keyword.
Warna merah adalah jumlah tweet negatif, biru positif dan abu-abu adalah selisihnya. Satuan waktu dapat dipilih mulai jam, hari, bulan dan tahun demikian juga dengan rentang waktu. Gambar diatas untuk satuan “jam” (12 Agt sampai 28 Agt) sedangkan gambar bawah untuk satuan ”hari” pada rentang yang sama:
Terlihat puncak keluhan terjadi pada tanggal 25 Agustus. Pengguna dapat melihat lebih detil apa yang terjadi di tanggal 25 tersebut dengan mengklik point pada chart. Setelah klik maka akan ditampilkan keywords dan tweet-nya. Keywords memang masih belum ideal, kata ”demi” dan “tidak” harusnya bukan keyword walaupun kata “pending”, “jaringan” dan “lambat” sudah tepat dijadikan keyword.
Masih banyak yang dapat ditambahkan: keyword tracking, kredibilitas informasi, demografi, lokasi, clustering, network analysis, event detection, visualiasi dsb. Belum lagi aplikasi untuk mobile-nya. Jadi masih banyak yang bisa dikerjakan untuk senang-senang
8 Comments »
RSS feed for comments on this post. TrackBack URI
Leave a Reply
Blog at WordPress.com. | Theme: Pool by Borja Fernandez.
Entries and comments feeds.



Assalamu’alaikum
saya tertarik bgd pak dalemin feel di sentimen analisis, kira2 punya tutorial pembuatannya dg php atau java pak?saya baru coba di python, dan kurg menguasai untuk gui programming python lbh lanjut.
tks pak
Comment by herlambangpermadi— 30 August 2012 #
Kalau yang model seperti ini, cukup belajar text classification saja untuk membedakan opini (pos/neg) dan nonopini. Sisanya sistem informasi+database standard biasa. Bisa googling dengan keyword “text classification”, sudah banyak materi tentang itu.
Comment by yudiwbs— 30 August 2012 #
wah.. sungguh menarik pak..
untuk crawiling data yg bpk gunakan apakah hanya recent post..
atau data tweet beberapa bulan sebelumnya juga diikut sertakan dalam perhitungan?..
sy masih mengalami kesulitan untuk crawling data twitter..
karena API twitter membatasi bnyknya data yg diretrive..
apa ada cara lain agar data yg saya dapatkan lebih bnyk dari API yg disediakan API twitter?..
thanks for advance
Comment by kartikoedhi— 9 November 2012 #
crawling dilakukan terus menerus, jadi bisa dapat data dalam rentang yang panjang. API twitter memang hanya dapat mengambil data terkini.
Comment by yudiwbs— 9 November 2012 #
ada pihak ketiga yang menyediakan data twitter sebelumnya ga pak?..
misal kalo sekarang bulan november tahun 2012 dan saya ingin mengetahui tingkat sentimen di bulan yg sama di tahun 2011…
klo melihat dari api twitter maksimal setiap halaman hny menyediakan 100 data dan maksimal halaman hny 15..
artinya maksimal data yg bisa didapatin cm 1500..
btw terimakasih bnyk pak infonya..
Comment by kartikoedhi— 13 November 2012 #
ada, tapi mahal.
Comment by yudiwbs— 14 November 2012 #
keren pak
jurnalnya ada pak?
Comment by adhi— 20 November 2012 #
pak,. boleh nyoba train set nya?utk nambah2in train bt domain pak,saya jg sdg mengerjakan TA sentimen analisis utk multiple domain.trims pak
Comment by herlambang— 1 March 2013 #