Deteksi Kesamaan (plagiarisme) Dokumen MS-Word dengan Python

Saya ditugasi prodi untuk mengecek kemiripan borang akreditasi prodi ilmu komputer dibandingkan dengan borang prodi pendidikan ilmu komputer yang sudah disubmit sebelumnya. Prodi ilmu komputer dan pendidikan ilmu komputer memang berbagi dosen, ruangan dan resource lainnya, jadi wajar kalau borangnya mirip. Tapi tentu jika dikti menggunakan software deteksi plagiarisme bisa saja nanti borang ditolak bahkan prodi kena penalti.

Saya sudah pernah membuat program yang mirip dengan Java, tetapi dengan library python, harusnya bisa dibuat lebih cepat, dan memang bisa dibuat hanya dalam beberapa jam saja 🙂

Bagian yang terlama adalah mencari dan mencoba-coba library,  tetapi akhirnya saya menggunakan dua: python-docx dan strsim.     Python-docx untuk membaca file MS Word dan strmsim untuk kemiripan string-nya. Setelah dicoba, ternyata pemrosesan teks di dalam tabel harus ditangani terpisah. Teks yang di dalam texbox juga tidak bisa dibaca oleh python-docx. Untuk kasus ini, terpaksa semua teks yang berada di dalam textbox dikeluarkan secara manual.

Kodenya adalah sebagai berikut:

from docx import Document
from similarity.ngram import NGram

jum_huruf_min = 20 #kalimat terlalu pendek diabaikan

#load file dan pindahkan ke memory

def doc_to_text(nama_file):
    doc = Document(nama_file)
    fullText = []
    for para in doc.paragraphs:
        par = para.text.lower().strip()
        if par != "" and len(par) > jum_huruf_min:
            fullText.append(par)

    #proses isi tabel
    print("=======================")
    tables = doc.tables
    for table in tables:
        for row in table.rows:
            for cell in row.cells:
                for paragraph in cell.paragraphs:
                    par = paragraph.text.lower().strip()
                    if par != "" and len(par) > jum_huruf_min:
                        fullText.append(par)

    fullTextNoDup = list(set(fullText)) #buang duplikasi
    fullTextNoDup.sort()  # sort supaya lebih mudah dicek
    return fullTextNoDup 

jum_gram = 4
batas = 0.4 #threshold
gram = NGram(jum_gram)

dir = "C:\\yudiwbs\\dataset\\deteksi_plagiat\\"
file1 = 'borang_nondik_standard_4.docx'
file2 = 'borang_dik_standard_4.docx'
file_out = "kesamaan_standard4.txt"

list_par_doc1 = doc_to_text(dir+file1)
list_par_doc2 = doc_to_text(dir+file2)

file = open(dir+file_out, "w")

for par1 in list_par_doc1:
     for par2 in list_par_doc2:
         jarak = gram.distance(par1, par2)
         if ( jarak <=batas):
             print(par1)
             file.write(par1+"\n")
             print(par2)
             file.write(par2+"\n")
             print(jarak)
             file.write(str(jarak)+"\n")
             print("--")
             file.write("--\n")
             file.flush()

file.close()
print("Selesai===") 

Contoh hasilnya (semakin kecil nilainya maka semakin mirip):

--
sedangkan strategi pencapaian yang akan dilakukan oleh program studi ilmu komputer adalah:
strategi pencapaian yang dilakukan oleh program studi pendidikan ilmu komputer adalah:
0.30833333333333335
--
verifikasi dan validasi draft rumusan visi, misi, tujuan dan sasaran dengan cara melakukan rapat yang diikuti oleh tim penyusun internal, para perwakilan dosen dan pihak eksternal (alumni atau pengguna lulusan). dari hasil rapat tersebut terdapat beberapa saran dan masukan diantaranya:
validasi draft rumusan visi, misi, tujuan dan sasaran dengan cara melakukan rapat yang diikuti oleh tim internal, para dosen dan pihak eksternal. dari hasil rapat tersebut terdapat beberapa saran dan masukan diantaranya
0.24388111888111888
--

 

One thought on “Deteksi Kesamaan (plagiarisme) Dokumen MS-Word dengan Python”

Tinggalkan Balasan

Isikan data di bawah atau klik salah satu ikon untuk log in:

Logo WordPress.com

You are commenting using your WordPress.com account. Logout /  Ubah )

Foto Google

You are commenting using your Google account. Logout /  Ubah )

Gambar Twitter

You are commenting using your Twitter account. Logout /  Ubah )

Foto Facebook

You are commenting using your Facebook account. Logout /  Ubah )

Connecting to %s