Pengolahan Teks (Text Processing)

Tulisan ini seharusnya mendahului tulisan saya mengenai peringkasan teks (text summarization) karena ini merupakan latar belakangnya tapi biarlah 🙂

Riset mengenai pemrosesan teks sebenarnya telah lama dilakukan, untuk peringkasan teks misalnya, telah mulai diteliti sejak tahun 1958 oleh peneliti dari IBM. Meredup di tahun 70-80 dan kembali bergairah di akhir tahun 90-an sampai sekarang. Mengapa pemrosesan teks kembali bangkit menjadi “primadona”?

Jawabannya adalah internet. Jumlah dokumen teks yang ada di internet tumbuh dengan sangat pesat. Menurut riset dari Barkeley, ukuran internet di tahun 2002 mencapai 532,897 Terabytes dengan sekitar 41.7%-nya adalah teks (bayangkan tuh jadi berapa Tera dokumen!, dan ini berupa teks bukan multimedia!). Dokumen teks ini dapat berupa static page, dynamic page, file dokumen, email, forum online dan blog.

Dokumen teks juga semakin berperan sejalan munculnya web 2.0 yang mendorong pengguna internet untuk membuat dan berbagi content (dua yang paling terkenal: blog dan social network). Aliran content segar dengan volume besar per harinya membanjiri internet. Anda dapat membayangkan jumlah posting seluruh blog sedunia dalam sehari? Coba tambahkan dengan berita dari seluruh koran, kantor berita! Berapa ratus atau ribu halaman mungkin (per harinya). Tambahkan lagi email.. huh.

Volume yang besar membuat pengguna internet semakin sulit memperoleh informasi yang sesuai dengan apa yang diinginkan. Untuk kasus blog, penggunaan blog aggregator dapat membantu, tetapi tetap saja ada kemungkinan blog atau posting yang menarik yang terlewat dengan sia-sia (mungkin termasuk blog ini hehe, kasihan deh).

Dibutuhkan teknik tertentu untuk mengolah dokumen teks. Inilah fungsi dari pengolahan teks (text processing).

Pengolahan teks mencakup:

Information retrieval: pencarian dokumen
Klasifikasi dokumen: membagi dokumen ke dalam kelas-kelas yang telah ditentukan sebelumnya. Misalnya secara otomatis dapat menentukan apakah dokumen ini masuk ke dalam kategori politik, ekonomi, militer dan lain sebagainya.
Document Clustering: mirip dengan klasifikasi dokumen, hanya saja kelas dokumen tidak ditentukan sebelumnya. Misalnya berita tentang lalulintas dapat menjadi satu kelas dengan berita tentang kriminal karena didalamnya banyak memuat tentang orang yang tewas, cedera, rumah sakit dsb.
Peringkasan teks. Menghasilkan ringkasan suatu dokumen secara otomatis.
Ekstraksi informasi. Mengekstrak informasi yang dianggap penting dari suatu dokumen. Misalnya pada dokumen lowongan, walaupun memiliki format beragam dapat diekstrak secara otomatis job title, tingkat pendidikan, penguasaan bahasa dsb.

Contoh perusahaan yang sukses menerapkan text processing? Tidak lain dan tidak bukan adalah Google 🙂 Searching, news.google.com, ad-sense adalah contoh-contoh aplikasi text procssing.

Mengingat pentingnya ilmu text processing, jurusan ilkom di seluruh dunia mulai menawarkan perkuliahan yang khusus membahas tentang hal ini. Saya sendiri setelah lulus merencanakan akan membuka kuliah text processing ini di Ilkom UPI. Tapi saya harus lulus dulu deh hehe.

95 tanggapan untuk “Pengolahan Teks (Text Processing)”

hanhan berkata:

24 Oktober 2007 pukul 18:15

pak text prosesing itu masih berkaitan dengan data mining?
oiya pak, kalau saya ngambil TA yang dari usulan bapak tea, tentang bayes dan email (semacam pendeteksi spam), apakah bisa (maksudnya apakah terlalu berat buat saya?).
terimakasih pak.

Balas
yudiwbs berkata:

24 Oktober 2007 pukul 19:53

Sering disebut text mining sebenarnya. Teknik pada text processing sering digunakan dalam text mining.

Untuk TA, bisalah tidak terlalu susah kok. Coba cari di situs saya, ada paper yang membahas secara detil algoritma naive bayes. Cuma karena anda mahasiswa matematik, mungkin bisa lebih diperdalam aspek matematiknya.

Balas
hanhan berkata:

6 November 2007 pukul 10:27

terimakasih pak. saya sudah donlod paper bapak.

Balas
endhy berkata:

26 November 2007 pukul 13:55

pak Yudi, boleh minta source code dari klasifikasi dokumen berita berbahasa indonesia menggunakan naive bayes classifier..
terima kasih pak

Balas
yudiwbs berkata:

26 November 2007 pukul 14:38

@endhy,

Coba kirim email ke saya, kita ngobrol dulu deh 🙂 Prinsipnya saya sih tidak masalah men-share source. Tapi jangan sampai hanya digunakan begitu saja untuk skripsi atau tugas kuliah. Harus ada nilai tambahnya, misalnya Anda akan menambahkan fitur xxx, atau Anda akan membuat fitur yyyy jadi lebih baik atau sofware ini menjadi bagian dari sistem yang lebih besar dst.

Balas
endhy berkata:

27 November 2007 pukul 11:43

ok pak, yang pasti saya ingin tahu metodenya saja soalnya yang dipakai datanya pakai dokumen berbahasa inggris

Balas
yudiwbs berkata:

28 November 2007 pukul 06:07

@endhy, IMO, metodenya lebih jelas dilihat di paper saya (bisa didownload di fpmipa.upi.edu/staff/yudi). Source kode-nya masih acak-acakan soalnya hehe.

Untuk dokumen berbahasa Inggris, hanya perlu diubah di tahap preprocessing, yaitu bagian stopwords removal.

Balas
endhy berkata:

28 November 2007 pukul 08:19

terima kasih pak, tapi saya juga perlu source codenya pak, nanti mau saya convert ke java dan nanti mungkin bisa disempurnakan yang sebagai data bukan txt tapi doc

Balas
endhy berkata:

28 November 2007 pukul 08:48

oh ya pak kira kira data 600 artikel sudah bisa untuk klasifikasi 5 -6 kategori?

Balas
yudiwbs berkata:

28 November 2007 pukul 16:26

@endhy, ini maksudnya tahap training ya? Jawabannya menurut saya tergantung dokumennya. Nanti kan diukur kinerjanya, dari sana ketahuan apakah corpusnya dapat digunakan atau tidak.

BTW naive bayes adalah metode yang kinerjanya tidak terlalu bagus, biasanya hanya berperan sebagai baseline method. Yang paling bagus setahu saya adalah SVM.

Balas
hanhan berkata:

22 Desember 2007 pukul 19:43

assalamualaikum. maaf mengganggu pk, kira-kira bapak punya referensi kata-kata apa saja dalam bahasa inggris yang masuk ke dalam stopwords removal?

terimakasih pak.

Balas
yudiwbs berkata:

22 Desember 2007 pukul 23:59

Untuk bahasa Inggris banyak, googling saja dengan keyword “English stopwords”. Kalau yang bahasa Indonesia memang jauh lebih sedikit.

Balas
endhy berkata:

7 Januari 2008 pukul 11:55

Assalamualaikum.
mengganggu skali lagi, ada masalah lagi…

Pas saya buat scriptnya di localhost waktu ditampilkan di browser lancar2 saja , sewaktu saya upload di hostingan kenapa muncul error di browser

“You have an error in your SQL syntax; check the manual that corresponds to your MySQL server version for the right syntax to use near ” at line 1″

Apa memang karena beda versi Mysql nya ? jika iya bagaimana agar script tsb bisa jalan di hostingan , apa yg hrs saya rubah ?

Balas
yudiwbs berkata:

7 Januari 2008 pukul 13:47

Coba ditulis SQL-nya yang mana. Kemudian versi mysql localhost berapa? dan versi mysql di hosting berapa?

Balas
endhy berkata:

8 Januari 2008 pukul 10:10

CREATE TABLE `category` (
`ID` int(5) NOT NULL default ‘0’,
`PV` int(50) default ‘0’,
`N` int(5) default ‘0’,
`PW` varchar(100) default NULL,
PRIMARY KEY (`ID`)
) ENGINE=MyISAM DEFAULT CHARSET=latin1;

CREATE TABLE `doc` (
`id` int(5) NOT NULL auto_increment,
`content` longtext,
`clean_content` longtext,
`frek` longtext,
`kategori` int(2) default ‘0’,
PRIMARY KEY (`id`)
) ENGINE=MyISAM DEFAULT CHARSET=latin1 AUTO_INCREMENT=51 ;

software yang digunakan apache2triad_1.5.2
updated MySQL to 4.1.11
updated PHP to 5.0.4

kira kira apa yang salah dengan type tabel diatas….

Balas
yudiwbs berkata:

8 Januari 2008 pukul 10:35

Error saat create tabelnya ya? Wah nggak tahu tuh, sepertinya normal-normal saja. Tapi bukannya sekarang MySQL biasanya versi 5? Saya pernah kena masalah kompatibilitas saat MySQL 4 diupgrade ke 5.

BTW ati-ati menggunakan huruf besar dan kecil di field MySQL+PHP, bisa jadi masalah.

Balas
endhy berkata:

8 Januari 2008 pukul 10:44

untuk simpan data paragraf text dalam database type longtext itu yang buat jadi error

Balas
endhy berkata:

8 Januari 2008 pukul 13:03

untuk upgrade mysql 4 to mysql 5 apakah phpmyadmin di apache 2triad1.5.2 masih bisa berfungsi

Balas
endhy berkata:

8 Januari 2008 pukul 13:26

apa phpmyadmin juga ikut diupgrade??

Balas
yudiwbs berkata:

8 Januari 2008 pukul 14:35

Baca saja manual phpmyadminnya, biasanya ada versi minimal MySQL yang harus digunakan. Tapi seharusnya tidak terlalu masalah, phpmyadmin hanya interface saja kok.

Balas
endhy berkata:

9 Januari 2008 pukul 10:42

pak
Query was empty
penyebabnya apa???

Balas
yudiwbs berkata:

11 Januari 2008 pukul 14:29

@endny: saya tidak tahu.

Itulah mengapa saya rekomendasikan anda lebih baik buat sendiri dari nol. Kode saya itu versi awal yang masuk dalam kategori prototype. Undocumented dan terlalu rapuh untuk diutak-atik, kecuali mungkin oleh saya sendiri. Kalau masih mau pakai ya resiko tanggung sendiri 🙂 IMO, sayang waktu anda terlalu banyak dihabiskan untuk kode saya yang masih berantakan, kalau anda buat sendiri mungkin malah lebih cepat.

Balas
endhy berkata:

15 Januari 2008 pukul 11:57

ya ku coba bwat sendiri
tapi pak di web bapak juga error bagian learn bayesnya tapi kenapa kok bisa jalan…
hatur nuwun

Balas
good luck berkata:

27 Februari 2008 pukul 20:36

tooolonnnnggg……
ada yang bisa bantu saya dalam memahami apa itu text mining??
contoh kasus di dunia nyata seperti apa si??
thx

Balas
yudiwbs berkata:

1 Maret 2008 pukul 21:24

^
IMO text mining adalah proses pencarian informasi berharga yang sebelumnya tidak diketahui dari kumpulan dokumen teks.

Aplikasinya banyak, mulai dari google adsense sampai machine translation.

Dulu saya pernah coba membuat sinonim untuk bahasa Indonesia, sumbernya berita dari Kompas (tapi tidak terlalu banyak). Waktu itu muncul kumpulan sinonim yang aneh yang mengaitkan kematian, cedera, rumah sakit dan PJKA. Ternyata di dokumen yang saya gunakan ada beberapa berita tentang kecelakaan kereta api. Dipikir-pikir mungkin program saya bisa digunakan untuk humas sebuah perusahaan. Berdasarkan berita pada rentang tertentu, apa sinonim dari sebuah merk atau nama perusahaan? hal positif atau negatif? 🙂

Balas
indah_tuing berkata:

26 Maret 2008 pukul 16:45

Pak… tanya nih…
dari Klasifikasi Berita Berbahasa Indonesia menggunakan Naïve Bayes Classifier itu kalo ada document baru yang telah melalui proses klasifikasi… apakah document baru tersebut ikut dimasukkan ke dalam database..??
mohon penjelasannya…
thx before…

Balas
1. jenny berkata:
  
  5 November 2011 pukul 17:54
  
  permisi mbak indah.. saya mengalami kbingungan dalam melakukan perancangan database dan mmiliki pertanyaan yg sama dengan mbak.. apakah saya boleh meminta email,mbak untuk mohon bimbingan..terima kasih..
  
  Balas
yudiwbs berkata:

27 Maret 2008 pukul 05:13

@indah, sudah saya balas emailnya

Balas
Andy berkata:

27 Maret 2008 pukul 11:13

Selamat Pagi Pak Yudi, saya ada tugas Machine Learning dan topik saya adalah Klasifikasi Berita berbahasa Indonesia Menggunakan Teknik Support Vector Machine (SVM), rencananya saya menggunakan SVM Light (joachim 1998). saya masih bingung bagaimana penerapan SVM ke aplikasi untuk klasifikasi dokumen.
kalau boleh saya minta source code dari klasifikasi dokumen berita berbahasa indonesia menggunakan naive bayes classifier..untuk perbandingan saja.
terimakasih sebelumnya pak

Balas
yudiwbs berkata:

27 Maret 2008 pukul 20:04

Source codenya belum siap untuk orang lain 🙂

Masih berantakan dan tidak dapat langsung digunakan, coba baca comment sebelum ini, kasihan jadinya malah menghabiskan waktu.

Balas
bagus berkata:

21 September 2008 pukul 02:31

haloo mas makasi banget ilmunya. btw blh minta ilmu lagi g…. hehehe berhubung TA saya ada hubungannya ama ini tapi ditambah sama backpropagation.kira-kira ada saran gak mas buat masukan hasil bayes ke neural networkna

Balas
yudiwbs berkata:

21 September 2008 pukul 02:38

Untuk apa neural netnya?

Saya pikir neural net tidak cocok untuk text processing. Masalahnya text processing melibatkan dimensi yang sangat besar (jumlah dimensi = jumlah kata yang unik), yang tidak cocok untuk neural net.

Dulu saya pernah mendapat tugas klasifikasi dengan neural net. Dimensinya harus dikurangi 90% dulu baru sistem dapat feasible dijalankan (30 menit). Hasilnya jelas jadi jelek.

Balas
azul berkata:

13 Januari 2009 pukul 19:06

Aww.
Pak, kira-kira untuk skripsi boleh tidak melakukan analisis text mining pada blog sendiri ?
Trims

Balas
yudiwbs berkata:

14 Januari 2009 pukul 16:43

Salah satu karakteristik data mining, termasuk text mining adalah analisis terhadap data yang sangat besar. Kalau blog sendiri, kemungkinan kurang banyak datanya.

Balas
atok berkata:

13 April 2009 pukul 01:19

mas yudi, saya tertarik belajar klasifikasi teks.biasanya saya menggunakan software rapidminer, tetapi saya kesulitan untuk mengetahui tingkat akurasi per dokumen.kebanyakan software hanya menampilkan tingkat akurasi per kelasnya.Mungkin mas yudi bisa bantu saya beri informasi.
trims..

Balas
yudiwbs berkata:

14 April 2009 pukul 05:13

@atok

Untuk task klasifikasi? setahu saya memang akurasi diukur berdasarkan kelas. Cuma memang penting kita mengetahui dokumen mana yang “nyasar” ke kelas lain.

Balas
raysha berkata:

19 Mei 2009 pukul 13:58

Salam kenal..

pak sy skr sdg mengerjakan TA ttg text Summarization dg menambahkan faktor Keyphrase Extraction. Kalo Keyphrase Extraction lebih bagus mana ya pak KEA (nzdl.org/Kea) atau Turney (extractorlive). Sy coding dg php awalnya ingin pakai KEA tp terhalang di vocabulary nya. Kalau boleh share ttg keyphrase ya pak. thx

Balas
Aryo berkata:

9 Juni 2009 pukul 10:49

maap pak,saya ingin bertanya tentang text processing. selain dengan klasifikasi, cara melakukan keyphrase extraction yang lainnya apa ya pak? apa bisa hanya dengan parameter IR saja, seperti TF/IDF saja, tanpa melakukan klasifikasi?

Balas
N. Sukranadi berkata:

23 Juli 2009 pukul 17:05

Salam kenal,
Pak saya mau curhat nih.Saya ibu rumah tangga. Baru2 ini saya iseng ikut ujian S2 UI. Saya bingung menentukan jurusan. Akhirnya pas detik2 terakhir saya pilih jur Ilmu Komputer. Ternyata saya lulus (tahap1 ). Tapi saya bingung, mengingat pengalaman ( jam terbang ) sy di bidang pemrograman tidak banyak, dan sudah tidak aktif sejak lama. Tapi saya punya ketertarikan unk belajar lagi, dan berharap mendapat skill yang cukup untuk kelak berwirausaha dlm bid. komputer.Menurut bapak apakah saya masih layak ikut kuliah ilmu komputer dan kira2 apa bentuk usaha yang mungkin selain mengajar ilmu komputer? Terima kasih atas waktu & jwbnya

Balas
1. yudiwbs berkata:
  
  26 Juli 2009 pukul 19:30
  
  Kalau layak saya pikir semua orang layak bu . Lagipula bidang ini cocok untuk orang yang ingin bekerja fleksibel dari sisi waktu dan tempat.
  
  Balas
asmara berkata:

27 Juli 2009 pukul 00:17

mas saya mau nanya ada ga langkah step2 untuk teks classification dengan SVM sampe menjadi suatu implementasi? dalam artian ada cntohnya begitu…….klo ada boleh dunks….kirim ke emailku dunks…..asmara@rapid-solution.com butuh buat skripsi nih mas

Balas
aziz berkata:

8 Agustus 2009 pukul 15:51

salam kenal…
bapak… saya tertarik pada klasifikasi Berita berbahasa Indonesia dengan naive bayes bapak dan rencana saya untuk TA…
bisa saya minta konsep perhitungannya pada tahap..learn dan klasifikasinya pak….
soalnya pada tahap klasifikasi saya agak bingung pada perhitungan rumus naivenya… boleh nanti saya nanti kirim sampel learn dan klasifikasinya pada bapak lewat email…dan saya minta bimbingannya…

Balas
asry berkata:

14 Oktober 2010 pukul 10:23

assalamualaikum.
pak,saya boleh minta pendapat bpk.saya mahasiswi tingkat akhir yg sedang mengerjakan skripsi ttg RSS Aggregator berita kampus saya.dsitu saya menerapkan sistem klasifikasi utk pengelompokan beritanya.salhamdulillah sistem saya sudah jadi,tapi utk pengklasifikasiannya saya bingung harus memakai teknik klasifikasi yg mana yg paling mudah utk dterapkan dprogram saya.berhubung pemrograman saya tidak begitu baik pak.
terima kasih sebelumnya saya ucapkan.

Balas
1. yudiwbs berkata:
  
  17 Oktober 2010 pukul 20:03
  
  Menurut saya naive bayes.
  
  Balas
  1. asry berkata:
    
    22 Oktober 2010 pukul 15:19
    
    pak,,saya mau tanya lagi ya pak..
    gmn cara nerapin bayesian’a di file beritanya ya pak?saya masih bingung..
    berita’a kan dalam bentuk HTML pak,terlebih dahulu dpisahin dulu judul sama isi berita’a,atau lgsg ambil dari file HTML,dari tag2 HTMLny,atu gimana ya pak?
    terima kasih sebelumnya.
widia berkata:

17 Oktober 2010 pukul 18:46

pak saya sedang mengerjakan skripsi mengenai pengkategorian teks dengan algoritma KNN namun sayang sekali saya sangat kekurangan dengan literatur dan saya bingung mengenai step-by-step penulisan metode yang akan saya tuliskan dalam skripsi saya,, mohon bantuan,, terima kasih sebelumnya

Balas
1. yudiwbs berkata:
  
  17 Oktober 2010 pukul 20:02
  
  Coba lihat http://www.dreamflier.net/blog/user1/3/1625.html
  
  Balas
Sumartini berkata:

24 November 2010 pukul 16:29

mau nanya pak?
di mana saya bisa dapat tahapan2 text mining, saya akan menyusun tesis text mining untuk mendeteksi sms penipuan, algoritma apakah yang paling cocok dan dimana referensinya?
bisakah algoritma genetika digunakan untuk klasifikasi teks

terima kasih banyak atas informasinya pak

Balas
handaruadhy berkata:

9 Desember 2010 pukul 18:14

Assalamualaikum pak..
saya mau nanya,sumber naive bayesian dengan php susah jg ya pak,sy sekarang sedang membuat pengklasifikasian untuk keperluan taman bacaan online yang baru akan saya rintis. Saya bisa minta source kode naive bayesiannya untuk keperluan klasifikasi data buku yang ada di tamanbacaan sy ? mohon bantuan dan pencerahannya.
Terima kasih,pak.

Balas
rizki berkata:

6 Maret 2011 pukul 14:37

asalamualaikum pak,maaf menganggu,saya mahasiswa tingkat akhir,dan sedang mengerjakan tugas akhir dengan topik klasifikasi sms pengaduan pelanggan pak,nah ada beberapa hal yang ingin saya tanyakan:

1.Bagaimana cara untuk mengukur kinerja dokumen pak?yang saya maksud disini adalah mengukur jumlah dokumen untuk data training,sudah layak atau belum untuk dijadikan input

2.Kira-kira tahapan preprocessing apa saja pak yang digunakan untuk dokumen berbentuk SMS?

trimakasih banyak waktunya pak,kalo boleh tau alamat email dari bapak,supaya bisa saling bertukar informasi pak..

Balas
1. yudiwbs berkata:
  
  6 Maret 2011 pukul 17:14
  
  1. semakin banyak semakin bagus (minimal ratusan, bagusnya ribuan). Kalau masalah layak, gunakan data sebenarnya, bukan dibuat-buat.
  2. masalah prepro, coba lihat code prepro di http://code.google.com/p/id-tweetmining/ (sms mirip dengan tweet)
  
  Balas
  1. Ferdy berkata:
    
    21 September 2012 pukul 10:56
    
    Selamat siang pak…
    saya saat ini sedang mengerjakan skripsi mengenai text mining twitter…
    
    1. kalau cara pengambilan data twitter, yang menggunakan API…
    itu di kumpulkan terlebih dahulu ke dalam database, atau langsung pak??
    2. teknik algoritma apa yang bapak gunakan dalam pengerjaan text mining ini?? saya menggunakan svm, tapi dalam pelaksanaan nya masih susah buat di terapkan dalam twitter.
    
    terimakasih…
  2. yudiwbs berkata:
    
    21 September 2012 pukul 15:52
    
    1. ke database lebih enak, dulu saya ke file teks, tapi sekarang ke database.
    2. algoritma learning sih harusnya bebas, SVN, naive bayes, DT tidak masalah.
fifi fadli berkata:

16 Maret 2011 pukul 21:17

pak..kalo penggunaan algoritma tf-idf dalam text mining, sebenarnya konsep dasarnya bagaimana pak?

Balas
Novia berkata:

9 April 2011 pukul 22:26

ass pak..
saya mau bkin pkl ttg klasifikasi teks dokumen menggunakan algoritma naive bayes,, saya sudah men-download 200 dokumen berita di kompas.com.. setelah itu apa langkah selanjutnya pak?? bagaimana peng-aplikasian rumus tf-idf itu pak??
trima kasih sebelumnya..

Balas
fifi fadli berkata:

12 April 2011 pukul 18:18

Assalamualaikum,,
maaf pak saya ingin menanyakan..
saya mengambil judul tentang algoritma tf-idf untuk text mining..
berhubungan pertanyaan saya sebelumnya belum dibalas ada yang ingin saya tanyakan lagi:
1. apa sebenarnya perbedaan antara algoritma tf-idf untuk text mining dengan algoritma tf-idf untuk sistem temu kembali informasi?

2. saya mencari buku refernsi tentang algoritma tf-idf maupun text mining tidak dapat,,klo bapak ada info tentang buku tersebut tolong pak,krn sebenarnya sy udah ajukan judl ini,tapi untuk lanjut ke penelitian dan pembuatan program mengalami kesulitan..

3. Studi kasus apa yang cocok untuk judul sy ini pak,jika studi kasusnya diterapkan pada lingkungan kampus saja,,atau jika ada masukan tentang studi kasus yang cocok,bisa jadi bahan pertimbangan buat saya pak,,terima kasih..

4. Bagaimana perbandingan waktu atau dalam bentuk hal apapun jika serching menggunakan algoritma tf-idf untuk text mining dibanfingkan dengan search engine yang biasa digunakan secara online..

5. jika ada email bapak/ym/sejenisnya yang bisa buat saya berdiskusi dengan bapak,,bisa di beritahu pak..

Balas
rina puspasistha (@puspasistha) berkata:

30 September 2012 pukul 15:42

pak,,mau tanya..untuk download papernya dimana ya pak?makasih

Balas
tiobuki berkata:

10 November 2012 pukul 11:04

assalammualaikum
pak, mohon petunjuk, saya mau penelitian clustering dokumen bahasa indonesia dengan menggunakan tools rapidminer, kira-kira bisa ndak rapidminer untuk proses preprocessing, ( tokenizing, stopword dan stemming) karena di rapidminer standar dokumennya pake bahasa inggris.
sekali lagi mohon petunjuk, terima kasih
wassalammualaikum

Balas
1. yudiwbs berkata:
  
  11 November 2012 pukul 00:31
  
  Saya belum pernah menggunakan rapidminer. Untuk tokenizing tidak ada bedanya. Pada beberapa paper, stemming tidak mempengaruhi kinerja model, jadi tidak menggunakan stemming juga tidak masalah. Kalau stoword, kalaupun tidak bisa digant daftar katanya di rapidmineri, buat program sendiri untuk membuang stopwords sangat mudah.
  
  Balas
nokey berkata:

18 November 2012 pukul 10:47

pak mau minta inspirasi, saya mahasiswa semester akhir yang pusing mau menyususun TA, tpi sebenarnya saya mau mengajukan tentang Text Mining….bisa kasih masukan mengenai judul yang pas untuk text mining, dan apakah Text Mining masih Update untuk penelitian TA saat ini??

~~terima kasih sebelumnya

Balas
hafiz berkata:

1 Desember 2012 pukul 15:56

assalamuallaikm… pak saya sedang stag di T.A skripsi adakah usulan judul TA yang sesuai dengan bidang saya T.I . trima kasih sebelumnya…

Balas
bimo berkata:

15 Desember 2012 pukul 10:36

assalammualaikum
pak minta tolong mau tanya tentang pemrosesan text
apa sih yang di maksud dengan pemrosesan text
dan cara kerjanya seperti apa bila di terapkan ke dalam aplikasi
misannya saya membuat kamus translate makasi pak
mohon bimbingannya …

Balas
1. yudiwbs berkata:
  
  15 Desember 2012 pukul 11:38
  
  Kalau untuk terapannya, coba baca-baca: https://www.google.com/search?gcx=c&sourceid=chrome&ie=UTF-8&q=text+mining
  
  Balas
Rik berkata:

12 Februari 2013 pukul 10:32

permisi pak yudi apakah bapak ada pdf ebook yang menjelaskan apakah itu Text processing karena saya sendang melakukan TA tentang tokenisasi dan stemming bahasa indonesia

Balas
batraikotak berkata:

18 Februari 2013 pukul 20:23

pak mau tanya untuk klasifikasi apakah preprocessing dokumen training dengan dokumen uji dilakukan bersamaan atau sendiri2 …. thanks 😀

Balas
cimahi berkata:

30 Maret 2013 pukul 21:36

assalamualaikum..
kalo buat materi CF IDF sama TF IDF ada gak pa?

Balas
zacksyah berkata:

18 Mei 2014 pukul 07:10

Salam met kenal, mau tanya soal subjek analisis pada naive bayes, jadi misalkan saya ingin menganalisis sentimen terhadap Jokowi, nah jokowi ini subjek analisis yg harus dihilangkan krn ada pada setiap tweet & ada pada setiap kategori yg sudah saya tentukan krn akan menganggu perhitungan. Nah yg menjadi pertanyaan saya ada dasarnya ga pak klo secara teori yg valid. mohon bantuannya pak, terima kasih

Balas
1. yudiwbs berkata:
  
  18 Mei 2014 pukul 07:23
  
  teorinya di perhitungan tf-idf, semakin banyak kata itu muncul di dokumen yg berbeda maka skornya semakin kecil karena tidak punya nilai pembeda. Mirip dengan kata stopwords seperti “dan”, “yang”.
  
  Balas
zacksyah berkata:

4 Juni 2014 pukul 09:48

Terima kasih pak atas jawaban sebelumnya. Mau tanya jg pak setelah menghitung klasifikasi & didapat total kategorinya saya ingin menghitung akurasinya,Itu kan menggunakan cross validation, bisa bantu langkah2nya perhitungan menggunakan cross validationnya pak. Untuk penghitungan cross validation & matriks confusion nya itu manual ya pak atau dibuat dlm program tersendiri?

Balas
1. yudiwbs berkata:
  
  4 Juni 2014 pukul 20:20
  
  Mudah kok, misal ada 100 data. data ke 1-10 jadi test, 11-100 jadi training set. Hitung akurasinya. Lalu 11-20 jadi test, 1-10 ditambah 21-100 jadi training set. Hitung akurasinya. Demikian seterusnya. Jadi ada 10 kali (10 cross validation) sampai semua kebagian jadi test+training, Terakhir tinggal rata-ratakan akurasinya.
  
  Balas
zacksyah berkata:

26 Juni 2014 pukul 21:07

Mau tanya pak saya baca materi mengenai Text Mining Kategorisasi Teks Naïve Bayes. pada contoh jika kategori dibuat jadi tiga kelas yaitu Physics, Literature & Computer Science. Dengan dokumen pelatihan.

Dokumen Word(times occured) Label
D1 Force(2), gravity(4), speed(2), acceleration(5), time(2) Physics
D2 Beautiful(3), metaphoric(5), time(2), rose(3), complexity(1) Literature
D3 Memory(2), algorithm(4), data(2), speed(1), Java(3) Computer science

Test data:
Dokumen D4 yang mengandung kata: “java”(2). “time”(3), “complexity”(2), “algorithm”(4), “data”(1)

yang mau ditanyakan kalau jumlah word pada dokumen pelatihan berbeda misalkan pada D1 word Force tidak ada sehingga hanya gravity(4), speed(2), acceleration(5), time(2) apakah P(Vj) masih sama 1/3 masing-masing kemungkinan kelasnya? Krn peluang untuk D1 yaitu kelas physics jadi berkurang

Balas
1. yudiwbs berkata:
  
  27 Juni 2014 pukul 17:56
  
  tentang masalah kata yang tidak ada, coba googling tentang “smoothing in naive bayes”.
  
  Balas
Cut Rafiqa berkata:

9 Juli 2014 pukul 12:38

Assalamualaikum…
Pak saya mahasiswa tingkat akhir lagi menyusun skripsi tentang “Klasifikasi Analisa dan Antisipasi Gizi Buruk Menggunakan Algoritma K-NN”
saya masih bingung bagaimana mengimplementasikan metode KNN ke dalam program
saya cuman mengklasifikasikan Gizi anak tersebut yang diklasifikasinya berdasarkan berat badan dan tinggi anak

Ada ngga pak yang mudah untuk saya mengerti tentang metode KNN?

Terima Kasih

Balas
1. yudiwbs berkata:
  
  9 Juli 2014 pukul 14:25
  
  kalau cuma dua atribut (berat dan tinggi) nggak perlu repot pake algoritma macem2. Lagipula setahu saya sudah ada kok standard beratbadan dan tinggi untuk anak. Saran saya kalau mengerjakan skripsi jangan mulai dari teknik, tapi mulai dari masalah. Sepertinya untuk kasus anda, masalahnya kurang kuat karena atributnya sedikit (kemungkinan juga jumlah recordsnya sedikit), dan gizi buruk sudah terdefinisi.
  
  Balas
andika santoso berkata:

27 Oktober 2014 pukul 15:11

Selamat siang pak, saya lagi mengerjakan tugas akhir saya, dimana tugas akhir saya mengenai ektraksi kata kunci terhadap documen dengan metode Genitor-plus Extractor, saya masih bingung tahapan (prose kerja) dari algoritma extraction (milik turney).. mungkin setelah bapak baca coment saya bapak bisa bantu kebingungan saya..

Balas
1. yudiwbs berkata:
  
  27 Oktober 2014 pukul 17:06
  
  bingung bagian mananya? kalau bingung semua ya mungkin lebih baik ganti topik saja.
  
  Balas
  1. andika santoso berkata:
    
    28 Oktober 2014 pukul 11:15
    
    bingungnya dibagian algoritma genitor, genitor menghitung nilai fitness, dan fitness terbaik akan menggantikan yg rendah, genitor ini mempengaruhi 10parameter dari paramaternya Extractor, nilai fitness ini nntinya nilai dri tiap parameter atau bagaimana pak?
  2. yudiwbs berkata:
    
    31 Oktober 2014 pukul 14:33
    
    Coba baca-baca tentang genetik algorithm dulu, banyak kok resourcesnya di internet. Nanti bakal lebih jelas. Kalau yg ekstraktornya sih udah jelas kan.
dilah berkata:

9 Februari 2015 pukul 06:20

Permisi pak, mohon bantuannya.
Saya skrg sedang mencoba analisis sentimen dr artikel2 di web. Saya menggunakan svm dan pakai pos tag. Saya masi bingung pak yg masalah pos tagging, apakah stelah saya mentag kata2 tsb, bisa langsung menggunakan tf idf, atau hrs dihitung terlebih dahulu, misalnya dg metode maxent, atau mungkin ada metode lain yg lebih mudah?
Terima kasih pak.

Balas
1. yudiwbs berkata:
  
  9 Februari 2015 pukul 06:30
  
  kalau tf-idf tidak perlu pake pos tagger, karena basisnya frekuensi kemunculan kata.
  
  Balas
benhard berkata:

4 Maret 2015 pukul 14:48

Pak yudi, mau tanya,
kalau dalam klasifikasi teks itu, evaluasi dilakukan untuk setiap data uji yang diklasifikasi/berhasil diproses atau setelah seluruh data uji diproses kemudian dicari nilai recall dan precisionnya?
Mohon penjelasannya. Thanks!

Balas
1. yudiwbs berkata:
  
  11 Maret 2015 pukul 12:42
  
  Maksudnya apa ya? Untuk evaluasi model coba googling ttg k-fold cross-validation
  
  Balas
adi berkata:

31 Maret 2015 pukul 13:35

permisi pak, saya mahasiswa sedang menyusun TA, topik saya tentang Document Clustering berbahasa Indonesia, saya masih bingung untuk dataset nya, apakah sudah ada yang menyediakan standarnya, atau harus buat dataset sendiri?
terima kasih.

Balas
1. yudiwbs berkata:
  
  1 April 2015 pukul 06:56
  
  Untuk bhs Indonesia belum ada standardnya.
  
  Balas
atin berkata:

1 Juni 2015 pukul 09:30

assalamualikum pa, saya mau bertanya untuk pembagian data training dengan data uji yang efektif itu harus berapa persen per berapa persen?

Balas
1. yudiwbs berkata:
  
  3 Juni 2015 pukul 01:27
  
  Kalau menggunakan 10-fold, berarti 10% test, 90% training.
  
  Balas
Michael Abadi S (@Abadi_31) berkata:

9 September 2015 pukul 09:10

Selamat siang Pak, saya mau tanya apabila saya mau membuat algoritma SVM apakah lebih baik dgn framework khusus ex : weka lalu di transform ke PHP atau membuat sendiri ?

Balas
1. yudiwbs berkata:
  
  10 September 2015 pukul 12:43
  
  SVM susah dibuat, lebih baik gunakan saja yang sudah ada.
  
  Balas
giantika oktaviani berkata:

14 April 2016 pukul 20:27

Selamat malam pak. Saya mau nanya untuk algoritma KNN penetuan K nya itu bagaimana ya? Terimakasih pak.

Balas
ria berkata:

4 Agustus 2016 pukul 09:54

siang pak,,saya mau tanya berhubung saat ini menyusun TA TENTANG KLASIFIKASI DOKUMEN BERITA ONLINE BAHASA INDINESIA,hanya saja metode yng tepat belum tau apa,, mohon bantuannya pak.terimahkasih

Balas
1. yudiwbs berkata:
  
  5 Agustus 2016 pukul 02:08
  
  Tergantung , mau buat sendiri atau menggunakan tools yg sudah ada? kalau buat sendiri, paling mudah Naive Bayes. Kalau menggunakan tools, yang paling tinggi akurasinya SVM (support vector machine) atau bisa juga neural net (deep learning)
  
  Balas
  1. ria berkata:
    
    20 Agustus 2016 pukul 11:34
    
    bisa minta source code untuk naive bayes pak,, soalnya kalau cari di google yang ada hanya naive bayes sederhana saja,, paling klasifikasi kelas unggul dll, kalau untuk menentukan probabilitas dokumen itu susah,, terimah kasih
Fahreza Ramdan berkata:

22 September 2016 pukul 05:29

Selamat pagi pak, saya sedang menyusun TA yang berjudul “PERINGKASAN TEKS BERBAHASA INDONESIA MENGGUNAKAN METODE HIDDEN MARKOV MODEL” dan banyak mengalami kesulitan untuk menyelesaikannya. Pas nyari di google, saya menemukan artikel bapak tentang “Penggunaan Hidden Markov Model Untuk Kompresi Kalimat”. Yang ingin saya tanyakan, apakah POS tagger perlu digunakan untuk bagian “Teknik yang tidak bergantung pada bahasa tertentu” ?
Terimakasih

Balas
enggal_suci berkata:

17 April 2017 pukul 05:51

selamat pagi pak…ini saya sedang menyelesaikan TA saya tentang klasifikasi konten berita surat kabar dengan text mining menggunakan metode naive bayes. ini saya kebingungan dengan penerapan coding nya pak. klo bisa minta emailnya untuk bimbingan bapak lebih lanjut trimakasih

Balas
angga berkata:

18 Mei 2017 pukul 15:11

Tools untuk menggunakan text mining ini apa ya pak? dan untuk download paper bapak, masuknya kemana ya pak? kok saya cari tidak ada

Balas

	Sayidina ahmadal qos… pada GloVe untuk Wikipedia Bahasa…
	Tama Romalisti pada Review KIA Picanto
	Dwiweka pada Dependency Parsing Bahasa Indo…
	yudiwbs pada POS Tagger Bahasa Indonesia de…
	Zhlo pada POS Tagger Bahasa Indonesia de…

Bagikan ini:

Terkait

95 tanggapan untuk “Pengolahan Teks (Text Processing)”

Tinggalkan Balasan ke atin Batalkan balasan