Pengolahan Teks (Text Processing)

10 October 2007 at 19:11 | Posted in penelitian, text processing | 93 Comments

Tulisan ini seharusnya mendahului tulisan saya mengenai peringkasan teks (text summarization) karena ini merupakan latar belakangnya tapi biarlah🙂

Riset mengenai pemrosesan teks sebenarnya telah lama dilakukan, untuk peringkasan teks misalnya, telah mulai diteliti sejak tahun 1958 oleh peneliti dari IBM. Meredup di tahun 70-80 dan kembali bergairah di akhir tahun 90-an sampai sekarang. Mengapa pemrosesan teks kembali bangkit menjadi “primadona”?

Jawabannya adalah internet. Jumlah dokumen teks yang ada di internet tumbuh dengan sangat pesat. Menurut riset dari Barkeley, ukuran internet di tahun 2002 mencapai 532,897 Terabytes dengan sekitar 41.7%-nya adalah teks (bayangkan tuh jadi berapa Tera dokumen!, dan ini berupa teks bukan multimedia!). Dokumen teks ini dapat berupa static page, dynamic page, file dokumen, email, forum online dan blog.

Dokumen teks juga semakin berperan sejalan munculnya web 2.0 yang mendorong pengguna internet untuk membuat dan berbagi content (dua yang paling terkenal: blog dan social network). Aliran content segar dengan volume besar per harinya membanjiri internet. Anda dapat membayangkan jumlah posting seluruh blog sedunia dalam sehari? Coba tambahkan dengan berita dari seluruh koran, kantor berita! Berapa ratus atau ribu halaman mungkin (per harinya). Tambahkan lagi email.. huh.

Volume yang besar membuat pengguna internet semakin sulit memperoleh informasi yang sesuai dengan apa yang diinginkan. Untuk kasus blog, penggunaan blog aggregator dapat membantu, tetapi tetap saja ada kemungkinan blog atau posting yang menarik yang terlewat dengan sia-sia (mungkin termasuk blog ini hehe, kasihan deh).

Dibutuhkan teknik tertentu untuk mengolah dokumen teks. Inilah fungsi dari pengolahan teks (text processing).

Pengolahan teks mencakup:

  • Information retrieval: pencarian dokumen
  • Klasifikasi dokumen: membagi dokumen ke dalam kelas-kelas yang telah ditentukan sebelumnya. Misalnya secara otomatis dapat menentukan apakah dokumen ini masuk ke dalam kategori politik, ekonomi, militer dan lain sebagainya.
  • Document Clustering: mirip dengan klasifikasi dokumen, hanya saja kelas dokumen tidak ditentukan sebelumnya. Misalnya berita tentang lalulintas dapat menjadi satu kelas dengan berita tentang kriminal karena didalamnya banyak memuat tentang orang yang tewas, cedera, rumah sakit dsb.
  • Peringkasan teks. Menghasilkan ringkasan suatu dokumen secara otomatis.
  • Ekstraksi informasi. Mengekstrak informasi yang dianggap penting dari suatu dokumen. Misalnya pada dokumen lowongan, walaupun memiliki format beragam dapat diekstrak secara otomatis job title, tingkat pendidikan, penguasaan bahasa dsb.

Contoh perusahaan yang sukses menerapkan text processing? Tidak lain dan tidak bukan adalah Google :-)  Searching, news.google.com, ad-sense adalah contoh-contoh aplikasi text procssing.

Mengingat pentingnya ilmu text processing, jurusan ilkom di seluruh dunia mulai menawarkan perkuliahan yang khusus membahas tentang hal ini. Saya sendiri setelah lulus merencanakan akan membuka kuliah text processing ini di Ilkom UPI. Tapi saya harus lulus dulu deh hehe.

93 Comments »

RSS feed for comments on this post. TrackBack URI

  1. pak text prosesing itu masih berkaitan dengan data mining?
    oiya pak, kalau saya ngambil TA yang dari usulan bapak tea, tentang bayes dan email (semacam pendeteksi spam), apakah bisa (maksudnya apakah terlalu berat buat saya?).
    terimakasih pak.

  2. Sering disebut text mining sebenarnya. Teknik pada text processing sering digunakan dalam text mining.

    Untuk TA, bisalah tidak terlalu susah kok. Coba cari di situs saya, ada paper yang membahas secara detil algoritma naive bayes. Cuma karena anda mahasiswa matematik, mungkin bisa lebih diperdalam aspek matematiknya.

  3. terimakasih pak. saya sudah donlod paper bapak.

  4. pak Yudi, boleh minta source code dari klasifikasi dokumen berita berbahasa indonesia menggunakan naive bayes classifier..
    terima kasih pak

  5. @endhy,

    Coba kirim email ke saya, kita ngobrol dulu deh🙂 Prinsipnya saya sih tidak masalah men-share source. Tapi jangan sampai hanya digunakan begitu saja untuk skripsi atau tugas kuliah. Harus ada nilai tambahnya, misalnya Anda akan menambahkan fitur xxx, atau Anda akan membuat fitur yyyy jadi lebih baik atau sofware ini menjadi bagian dari sistem yang lebih besar dst.

  6. ok pak, yang pasti saya ingin tahu metodenya saja soalnya yang dipakai datanya pakai dokumen berbahasa inggris

  7. @endhy, IMO, metodenya lebih jelas dilihat di paper saya (bisa didownload di fpmipa.upi.edu/staff/yudi). Source kode-nya masih acak-acakan soalnya hehe.

    Untuk dokumen berbahasa Inggris, hanya perlu diubah di tahap preprocessing, yaitu bagian stopwords removal.

  8. terima kasih pak, tapi saya juga perlu source codenya pak, nanti mau saya convert ke java dan nanti mungkin bisa disempurnakan yang sebagai data bukan txt tapi doc

  9. oh ya pak kira kira data 600 artikel sudah bisa untuk klasifikasi 5 -6 kategori?

  10. @endhy, ini maksudnya tahap training ya? Jawabannya menurut saya tergantung dokumennya. Nanti kan diukur kinerjanya, dari sana ketahuan apakah corpusnya dapat digunakan atau tidak.

    BTW naive bayes adalah metode yang kinerjanya tidak terlalu bagus, biasanya hanya berperan sebagai baseline method. Yang paling bagus setahu saya adalah SVM.

  11. assalamualaikum. maaf mengganggu pk, kira-kira bapak punya referensi kata-kata apa saja dalam bahasa inggris yang masuk ke dalam stopwords removal?

    terimakasih pak.

  12. Untuk bahasa Inggris banyak, googling saja dengan keyword “English stopwords”. Kalau yang bahasa Indonesia memang jauh lebih sedikit.

  13. Assalamualaikum.
    mengganggu skali lagi, ada masalah lagi…

    Pas saya buat scriptnya di localhost waktu ditampilkan di browser lancar2 saja , sewaktu saya upload di hostingan kenapa muncul error di browser

    “You have an error in your SQL syntax; check the manual that corresponds to your MySQL server version for the right syntax to use near ” at line 1″

    Apa memang karena beda versi Mysql nya ? jika iya bagaimana agar script tsb bisa jalan di hostingan , apa yg hrs saya rubah ?

  14. Coba ditulis SQL-nya yang mana. Kemudian versi mysql localhost berapa? dan versi mysql di hosting berapa?

  15. CREATE TABLE `category` (
    `ID` int(5) NOT NULL default ‘0’,
    `PV` int(50) default ‘0’,
    `N` int(5) default ‘0’,
    `PW` varchar(100) default NULL,
    PRIMARY KEY (`ID`)
    ) ENGINE=MyISAM DEFAULT CHARSET=latin1;

    CREATE TABLE `doc` (
    `id` int(5) NOT NULL auto_increment,
    `content` longtext,
    `clean_content` longtext,
    `frek` longtext,
    `kategori` int(2) default ‘0’,
    PRIMARY KEY (`id`)
    ) ENGINE=MyISAM DEFAULT CHARSET=latin1 AUTO_INCREMENT=51 ;

    software yang digunakan apache2triad_1.5.2
    updated MySQL to 4.1.11
    updated PHP to 5.0.4

    kira kira apa yang salah dengan type tabel diatas….

  16. Error saat create tabelnya ya? Wah nggak tahu tuh, sepertinya normal-normal saja. Tapi bukannya sekarang MySQL biasanya versi 5? Saya pernah kena masalah kompatibilitas saat MySQL 4 diupgrade ke 5.

    BTW ati-ati menggunakan huruf besar dan kecil di field MySQL+PHP, bisa jadi masalah.

  17. untuk simpan data paragraf text dalam database type longtext itu yang buat jadi error

  18. untuk upgrade mysql 4 to mysql 5 apakah phpmyadmin di apache 2triad1.5.2 masih bisa berfungsi

  19. apa phpmyadmin juga ikut diupgrade??

  20. Baca saja manual phpmyadminnya, biasanya ada versi minimal MySQL yang harus digunakan. Tapi seharusnya tidak terlalu masalah, phpmyadmin hanya interface saja kok.

  21. pak
    Query was empty
    penyebabnya apa???

  22. @endny: saya tidak tahu.

    Itulah mengapa saya rekomendasikan anda lebih baik buat sendiri dari nol. Kode saya itu versi awal yang masuk dalam kategori prototype. Undocumented dan terlalu rapuh untuk diutak-atik, kecuali mungkin oleh saya sendiri. Kalau masih mau pakai ya resiko tanggung sendiri🙂 IMO, sayang waktu anda terlalu banyak dihabiskan untuk kode saya yang masih berantakan, kalau anda buat sendiri mungkin malah lebih cepat.

  23. ya ku coba bwat sendiri
    tapi pak di web bapak juga error bagian learn bayesnya tapi kenapa kok bisa jalan…
    hatur nuwun

  24. tooolonnnnggg……
    ada yang bisa bantu saya dalam memahami apa itu text mining??
    contoh kasus di dunia nyata seperti apa si??
    thx

  25. ^
    IMO text mining adalah proses pencarian informasi berharga yang sebelumnya tidak diketahui dari kumpulan dokumen teks.

    Aplikasinya banyak, mulai dari google adsense sampai machine translation.

    Dulu saya pernah coba membuat sinonim untuk bahasa Indonesia, sumbernya berita dari Kompas (tapi tidak terlalu banyak). Waktu itu muncul kumpulan sinonim yang aneh yang mengaitkan kematian, cedera, rumah sakit dan PJKA. Ternyata di dokumen yang saya gunakan ada beberapa berita tentang kecelakaan kereta api. Dipikir-pikir mungkin program saya bisa digunakan untuk humas sebuah perusahaan. Berdasarkan berita pada rentang tertentu, apa sinonim dari sebuah merk atau nama perusahaan? hal positif atau negatif?🙂

  26. Pak… tanya nih…
    dari Klasifikasi Berita Berbahasa Indonesia menggunakan Naïve Bayes Classifier itu kalo ada document baru yang telah melalui proses klasifikasi… apakah document baru tersebut ikut dimasukkan ke dalam database..??
    mohon penjelasannya…
    thx before…

    • permisi mbak indah.. saya mengalami kbingungan dalam melakukan perancangan database dan mmiliki pertanyaan yg sama dengan mbak.. apakah saya boleh meminta email,mbak untuk mohon bimbingan..terima kasih..

  27. @indah, sudah saya balas emailnya

  28. Selamat Pagi Pak Yudi, saya ada tugas Machine Learning dan topik saya adalah Klasifikasi Berita berbahasa Indonesia Menggunakan Teknik Support Vector Machine (SVM), rencananya saya menggunakan SVM Light (joachim 1998). saya masih bingung bagaimana penerapan SVM ke aplikasi untuk klasifikasi dokumen.
    kalau boleh saya minta source code dari klasifikasi dokumen berita berbahasa indonesia menggunakan naive bayes classifier..untuk perbandingan saja.
    terimakasih sebelumnya pak

  29. Source codenya belum siap untuk orang lain🙂

    Masih berantakan dan tidak dapat langsung digunakan, coba baca comment sebelum ini, kasihan jadinya malah menghabiskan waktu.

  30. haloo mas makasi banget ilmunya. btw blh minta ilmu lagi g…. hehehe berhubung TA saya ada hubungannya ama ini tapi ditambah sama backpropagation.kira-kira ada saran gak mas buat masukan hasil bayes ke neural networkna

  31. Untuk apa neural netnya?

    Saya pikir neural net tidak cocok untuk text processing. Masalahnya text processing melibatkan dimensi yang sangat besar (jumlah dimensi = jumlah kata yang unik), yang tidak cocok untuk neural net.

    Dulu saya pernah mendapat tugas klasifikasi dengan neural net. Dimensinya harus dikurangi 90% dulu baru sistem dapat feasible dijalankan (30 menit). Hasilnya jelas jadi jelek.

  32. Aww.
    Pak, kira-kira untuk skripsi boleh tidak melakukan analisis text mining pada blog sendiri ?
    Trims

  33. Salah satu karakteristik data mining, termasuk text mining adalah analisis terhadap data yang sangat besar. Kalau blog sendiri, kemungkinan kurang banyak datanya.

  34. mas yudi, saya tertarik belajar klasifikasi teks.biasanya saya menggunakan software rapidminer, tetapi saya kesulitan untuk mengetahui tingkat akurasi per dokumen.kebanyakan software hanya menampilkan tingkat akurasi per kelasnya.Mungkin mas yudi bisa bantu saya beri informasi.
    trims..

  35. @atok

    Untuk task klasifikasi? setahu saya memang akurasi diukur berdasarkan kelas. Cuma memang penting kita mengetahui dokumen mana yang “nyasar” ke kelas lain.

  36. Salam kenal..

    pak sy skr sdg mengerjakan TA ttg text Summarization dg menambahkan faktor Keyphrase Extraction. Kalo Keyphrase Extraction lebih bagus mana ya pak KEA (nzdl.org/Kea) atau Turney (extractorlive). Sy coding dg php awalnya ingin pakai KEA tp terhalang di vocabulary nya. Kalau boleh share ttg keyphrase ya pak. thx

  37. maap pak,saya ingin bertanya tentang text processing. selain dengan klasifikasi, cara melakukan keyphrase extraction yang lainnya apa ya pak? apa bisa hanya dengan parameter IR saja, seperti TF/IDF saja, tanpa melakukan klasifikasi?

  38. Salam kenal,
    Pak saya mau curhat nih.Saya ibu rumah tangga. Baru2 ini saya iseng ikut ujian S2 UI. Saya bingung menentukan jurusan. Akhirnya pas detik2 terakhir saya pilih jur Ilmu Komputer. Ternyata saya lulus (tahap1 ). Tapi saya bingung, mengingat pengalaman ( jam terbang ) sy di bidang pemrograman tidak banyak, dan sudah tidak aktif sejak lama. Tapi saya punya ketertarikan unk belajar lagi, dan berharap mendapat skill yang cukup untuk kelak berwirausaha dlm bid. komputer.Menurut bapak apakah saya masih layak ikut kuliah ilmu komputer dan kira2 apa bentuk usaha yang mungkin selain mengajar ilmu komputer? Terima kasih atas waktu & jwbnya

    • Kalau layak saya pikir semua orang layak bu . Lagipula bidang ini cocok untuk orang yang ingin bekerja fleksibel dari sisi waktu dan tempat.

  39. mas saya mau nanya ada ga langkah step2 untuk teks classification dengan SVM sampe menjadi suatu implementasi? dalam artian ada cntohnya begitu…….klo ada boleh dunks….kirim ke emailku dunks…..asmara@rapid-solution.com butuh buat skripsi nih mas

  40. salam kenal…
    bapak… saya tertarik pada klasifikasi Berita berbahasa Indonesia dengan naive bayes bapak dan rencana saya untuk TA…
    bisa saya minta konsep perhitungannya pada tahap..learn dan klasifikasinya pak….
    soalnya pada tahap klasifikasi saya agak bingung pada perhitungan rumus naivenya… boleh nanti saya nanti kirim sampel learn dan klasifikasinya pada bapak lewat email…dan saya minta bimbingannya…

  41. assalamualaikum.
    pak,saya boleh minta pendapat bpk.saya mahasiswi tingkat akhir yg sedang mengerjakan skripsi ttg RSS Aggregator berita kampus saya.dsitu saya menerapkan sistem klasifikasi utk pengelompokan beritanya.salhamdulillah sistem saya sudah jadi,tapi utk pengklasifikasiannya saya bingung harus memakai teknik klasifikasi yg mana yg paling mudah utk dterapkan dprogram saya.berhubung pemrograman saya tidak begitu baik pak.
    terima kasih sebelumnya saya ucapkan.

    • Menurut saya naive bayes.

      • pak,,saya mau tanya lagi ya pak..
        gmn cara nerapin bayesian’a di file beritanya ya pak?saya masih bingung..
        berita’a kan dalam bentuk HTML pak,terlebih dahulu dpisahin dulu judul sama isi berita’a,atau lgsg ambil dari file HTML,dari tag2 HTMLny,atu gimana ya pak?
        terima kasih sebelumnya.

  42. pak saya sedang mengerjakan skripsi mengenai pengkategorian teks dengan algoritma KNN namun sayang sekali saya sangat kekurangan dengan literatur dan saya bingung mengenai step-by-step penulisan metode yang akan saya tuliskan dalam skripsi saya,, mohon bantuan,, terima kasih sebelumnya

  43. mau nanya pak?
    di mana saya bisa dapat tahapan2 text mining, saya akan menyusun tesis text mining untuk mendeteksi sms penipuan, algoritma apakah yang paling cocok dan dimana referensinya?
    bisakah algoritma genetika digunakan untuk klasifikasi teks

    terima kasih banyak atas informasinya pak

  44. Assalamualaikum pak..
    saya mau nanya,sumber naive bayesian dengan php susah jg ya pak,sy sekarang sedang membuat pengklasifikasian untuk keperluan taman bacaan online yang baru akan saya rintis. Saya bisa minta source kode naive bayesiannya untuk keperluan klasifikasi data buku yang ada di tamanbacaan sy ? mohon bantuan dan pencerahannya.
    Terima kasih,pak.

  45. asalamualaikum pak,maaf menganggu,saya mahasiswa tingkat akhir,dan sedang mengerjakan tugas akhir dengan topik klasifikasi sms pengaduan pelanggan pak,nah ada beberapa hal yang ingin saya tanyakan:

    1.Bagaimana cara untuk mengukur kinerja dokumen pak?yang saya maksud disini adalah mengukur jumlah dokumen untuk data training,sudah layak atau belum untuk dijadikan input

    2.Kira-kira tahapan preprocessing apa saja pak yang digunakan untuk dokumen berbentuk SMS?

    trimakasih banyak waktunya pak,kalo boleh tau alamat email dari bapak,supaya bisa saling bertukar informasi pak..

    • 1. semakin banyak semakin bagus (minimal ratusan, bagusnya ribuan). Kalau masalah layak, gunakan data sebenarnya, bukan dibuat-buat.
      2. masalah prepro, coba lihat code prepro di http://code.google.com/p/id-tweetmining/ (sms mirip dengan tweet)

      • Selamat siang pak…
        saya saat ini sedang mengerjakan skripsi mengenai text mining twitter…

        1. kalau cara pengambilan data twitter, yang menggunakan API…
        itu di kumpulkan terlebih dahulu ke dalam database, atau langsung pak??
        2. teknik algoritma apa yang bapak gunakan dalam pengerjaan text mining ini?? saya menggunakan svm, tapi dalam pelaksanaan nya masih susah buat di terapkan dalam twitter.

        terimakasih…

      • 1. ke database lebih enak, dulu saya ke file teks, tapi sekarang ke database.
        2. algoritma learning sih harusnya bebas, SVN, naive bayes, DT tidak masalah.

  46. pak..kalo penggunaan algoritma tf-idf dalam text mining, sebenarnya konsep dasarnya bagaimana pak?

  47. ass pak..
    saya mau bkin pkl ttg klasifikasi teks dokumen menggunakan algoritma naive bayes,, saya sudah men-download 200 dokumen berita di kompas.com.. setelah itu apa langkah selanjutnya pak?? bagaimana peng-aplikasian rumus tf-idf itu pak??
    trima kasih sebelumnya..

  48. Assalamualaikum,,
    maaf pak saya ingin menanyakan..
    saya mengambil judul tentang algoritma tf-idf untuk text mining..
    berhubungan pertanyaan saya sebelumnya belum dibalas ada yang ingin saya tanyakan lagi:
    1. apa sebenarnya perbedaan antara algoritma tf-idf untuk text mining dengan algoritma tf-idf untuk sistem temu kembali informasi?

    2. saya mencari buku refernsi tentang algoritma tf-idf maupun text mining tidak dapat,,klo bapak ada info tentang buku tersebut tolong pak,krn sebenarnya sy udah ajukan judl ini,tapi untuk lanjut ke penelitian dan pembuatan program mengalami kesulitan..

    3. Studi kasus apa yang cocok untuk judul sy ini pak,jika studi kasusnya diterapkan pada lingkungan kampus saja,,atau jika ada masukan tentang studi kasus yang cocok,bisa jadi bahan pertimbangan buat saya pak,,terima kasih..

    4. Bagaimana perbandingan waktu atau dalam bentuk hal apapun jika serching menggunakan algoritma tf-idf untuk text mining dibanfingkan dengan search engine yang biasa digunakan secara online..

    5. jika ada email bapak/ym/sejenisnya yang bisa buat saya berdiskusi dengan bapak,,bisa di beritahu pak..

  49. pak,,mau tanya..untuk download papernya dimana ya pak?makasih

  50. assalammualaikum
    pak, mohon petunjuk, saya mau penelitian clustering dokumen bahasa indonesia dengan menggunakan tools rapidminer, kira-kira bisa ndak rapidminer untuk proses preprocessing, ( tokenizing, stopword dan stemming) karena di rapidminer standar dokumennya pake bahasa inggris.
    sekali lagi mohon petunjuk, terima kasih
    wassalammualaikum

    • Saya belum pernah menggunakan rapidminer. Untuk tokenizing tidak ada bedanya. Pada beberapa paper, stemming tidak mempengaruhi kinerja model, jadi tidak menggunakan stemming juga tidak masalah. Kalau stoword, kalaupun tidak bisa digant daftar katanya di rapidmineri, buat program sendiri untuk membuang stopwords sangat mudah.

  51. pak mau minta inspirasi, saya mahasiswa semester akhir yang pusing mau menyususun TA, tpi sebenarnya saya mau mengajukan tentang Text Mining….bisa kasih masukan mengenai judul yang pas untuk text mining, dan apakah Text Mining masih Update untuk penelitian TA saat ini??

    ~~terima kasih sebelumnya

  52. assalamuallaikm… pak saya sedang stag di T.A skripsi adakah usulan judul TA yang sesuai dengan bidang saya T.I . trima kasih sebelumnya…

  53. assalammualaikum
    pak minta tolong mau tanya tentang pemrosesan text
    apa sih yang di maksud dengan pemrosesan text
    dan cara kerjanya seperti apa bila di terapkan ke dalam aplikasi
    misannya saya membuat kamus translate makasi pak
    mohon bimbingannya …

  54. permisi pak yudi apakah bapak ada pdf ebook yang menjelaskan apakah itu Text processing karena saya sendang melakukan TA tentang tokenisasi dan stemming bahasa indonesia

  55. pak mau tanya untuk klasifikasi apakah preprocessing dokumen training dengan dokumen uji dilakukan bersamaan atau sendiri2 …. thanks😀

  56. assalamualaikum..
    kalo buat materi CF IDF sama TF IDF ada gak pa?

  57. Salam met kenal, mau tanya soal subjek analisis pada naive bayes, jadi misalkan saya ingin menganalisis sentimen terhadap Jokowi, nah jokowi ini subjek analisis yg harus dihilangkan krn ada pada setiap tweet & ada pada setiap kategori yg sudah saya tentukan krn akan menganggu perhitungan. Nah yg menjadi pertanyaan saya ada dasarnya ga pak klo secara teori yg valid. mohon bantuannya pak, terima kasih

    • teorinya di perhitungan tf-idf, semakin banyak kata itu muncul di dokumen yg berbeda maka skornya semakin kecil karena tidak punya nilai pembeda. Mirip dengan kata stopwords seperti “dan”, “yang”.

  58. Terima kasih pak atas jawaban sebelumnya. Mau tanya jg pak setelah menghitung klasifikasi & didapat total kategorinya saya ingin menghitung akurasinya,Itu kan menggunakan cross validation, bisa bantu langkah2nya perhitungan menggunakan cross validationnya pak. Untuk penghitungan cross validation & matriks confusion nya itu manual ya pak atau dibuat dlm program tersendiri?

    • Mudah kok, misal ada 100 data. data ke 1-10 jadi test, 11-100 jadi training set. Hitung akurasinya. Lalu 11-20 jadi test, 1-10 ditambah 21-100 jadi training set. Hitung akurasinya. Demikian seterusnya. Jadi ada 10 kali (10 cross validation) sampai semua kebagian jadi test+training, Terakhir tinggal rata-ratakan akurasinya.

  59. Mau tanya pak saya baca materi mengenai Text Mining Kategorisasi Teks Naïve Bayes. pada contoh jika kategori dibuat jadi tiga kelas yaitu Physics, Literature & Computer Science. Dengan dokumen pelatihan.

    Dokumen Word(times occured) Label
    D1 Force(2), gravity(4), speed(2), acceleration(5), time(2) Physics
    D2 Beautiful(3), metaphoric(5), time(2), rose(3), complexity(1) Literature
    D3 Memory(2), algorithm(4), data(2), speed(1), Java(3) Computer science

    Test data:
    Dokumen D4 yang mengandung kata: “java”(2). “time”(3), “complexity”(2), “algorithm”(4), “data”(1)

    yang mau ditanyakan kalau jumlah word pada dokumen pelatihan berbeda misalkan pada D1 word Force tidak ada sehingga hanya gravity(4), speed(2), acceleration(5), time(2) apakah P(Vj) masih sama 1/3 masing-masing kemungkinan kelasnya? Krn peluang untuk D1 yaitu kelas physics jadi berkurang

    • tentang masalah kata yang tidak ada, coba googling tentang “smoothing in naive bayes”.

  60. Assalamualaikum…
    Pak saya mahasiswa tingkat akhir lagi menyusun skripsi tentang “Klasifikasi Analisa dan Antisipasi Gizi Buruk Menggunakan Algoritma K-NN”
    saya masih bingung bagaimana mengimplementasikan metode KNN ke dalam program
    saya cuman mengklasifikasikan Gizi anak tersebut yang diklasifikasinya berdasarkan berat badan dan tinggi anak

    Ada ngga pak yang mudah untuk saya mengerti tentang metode KNN?

    Terima Kasih

    • kalau cuma dua atribut (berat dan tinggi) nggak perlu repot pake algoritma macem2. Lagipula setahu saya sudah ada kok standard beratbadan dan tinggi untuk anak. Saran saya kalau mengerjakan skripsi jangan mulai dari teknik, tapi mulai dari masalah. Sepertinya untuk kasus anda, masalahnya kurang kuat karena atributnya sedikit (kemungkinan juga jumlah recordsnya sedikit), dan gizi buruk sudah terdefinisi.

  61. Selamat siang pak, saya lagi mengerjakan tugas akhir saya, dimana tugas akhir saya mengenai ektraksi kata kunci terhadap documen dengan metode Genitor-plus Extractor, saya masih bingung tahapan (prose kerja) dari algoritma extraction (milik turney).. mungkin setelah bapak baca coment saya bapak bisa bantu kebingungan saya..

    • bingung bagian mananya? kalau bingung semua ya mungkin lebih baik ganti topik saja.

      • bingungnya dibagian algoritma genitor, genitor menghitung nilai fitness, dan fitness terbaik akan menggantikan yg rendah, genitor ini mempengaruhi 10parameter dari paramaternya Extractor, nilai fitness ini nntinya nilai dri tiap parameter atau bagaimana pak?

      • Coba baca-baca tentang genetik algorithm dulu, banyak kok resourcesnya di internet. Nanti bakal lebih jelas. Kalau yg ekstraktornya sih udah jelas kan.

  62. Permisi pak, mohon bantuannya.
    Saya skrg sedang mencoba analisis sentimen dr artikel2 di web. Saya menggunakan svm dan pakai pos tag. Saya masi bingung pak yg masalah pos tagging, apakah stelah saya mentag kata2 tsb, bisa langsung menggunakan tf idf, atau hrs dihitung terlebih dahulu, misalnya dg metode maxent, atau mungkin ada metode lain yg lebih mudah?
    Terima kasih pak.

    • kalau tf-idf tidak perlu pake pos tagger, karena basisnya frekuensi kemunculan kata.

  63. Pak yudi, mau tanya,
    kalau dalam klasifikasi teks itu, evaluasi dilakukan untuk setiap data uji yang diklasifikasi/berhasil diproses atau setelah seluruh data uji diproses kemudian dicari nilai recall dan precisionnya?
    Mohon penjelasannya. Thanks!

    • Maksudnya apa ya? Untuk evaluasi model coba googling ttg k-fold cross-validation

  64. permisi pak, saya mahasiswa sedang menyusun TA, topik saya tentang Document Clustering berbahasa Indonesia, saya masih bingung untuk dataset nya, apakah sudah ada yang menyediakan standarnya, atau harus buat dataset sendiri?
    terima kasih.

    • Untuk bhs Indonesia belum ada standardnya.

  65. assalamualikum pa, saya mau bertanya untuk pembagian data training dengan data uji yang efektif itu harus berapa persen per berapa persen?

    • Kalau menggunakan 10-fold, berarti 10% test, 90% training.

  66. Selamat siang Pak, saya mau tanya apabila saya mau membuat algoritma SVM apakah lebih baik dgn framework khusus ex : weka lalu di transform ke PHP atau membuat sendiri ?

    • SVM susah dibuat, lebih baik gunakan saja yang sudah ada.

  67. Selamat malam pak. Saya mau nanya untuk algoritma KNN penetuan K nya itu bagaimana ya? Terimakasih pak.

  68. siang pak,,saya mau tanya berhubung saat ini menyusun TA TENTANG KLASIFIKASI DOKUMEN BERITA ONLINE BAHASA INDINESIA,hanya saja metode yng tepat belum tau apa,, mohon bantuannya pak.terimahkasih

    • Tergantung , mau buat sendiri atau menggunakan tools yg sudah ada? kalau buat sendiri, paling mudah Naive Bayes. Kalau menggunakan tools, yang paling tinggi akurasinya SVM (support vector machine) atau bisa juga neural net (deep learning)

      • bisa minta source code untuk naive bayes pak,, soalnya kalau cari di google yang ada hanya naive bayes sederhana saja,, paling klasifikasi kelas unggul dll, kalau untuk menentukan probabilitas dokumen itu susah,, terimah kasih

  69. Selamat pagi pak, saya sedang menyusun TA yang berjudul “PERINGKASAN TEKS BERBAHASA INDONESIA MENGGUNAKAN METODE HIDDEN MARKOV MODEL” dan banyak mengalami kesulitan untuk menyelesaikannya. Pas nyari di google, saya menemukan artikel bapak tentang “Penggunaan Hidden Markov Model Untuk Kompresi Kalimat”. Yang ingin saya tanyakan, apakah POS tagger perlu digunakan untuk bagian “Teknik yang tidak bergantung pada bahasa tertentu” ?
    Terimakasih


Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s

Blog at WordPress.com.
Entries and comments feeds.

%d bloggers like this: