Pengantar Pemrosesan Teks dengan Keras (Bagian 2: Representasi Teks, Klasifikasi dengan Feedforward NN )

Ini adalah lanjutan dari bagian 1.  Sebaiknya baca bagian1 tersebut jika belum  mengenal tentang konsep tensor, dimensi, shape pada Keras.

Representasi Teks

Teks perlu dikonversi menjadi angka sebelum menjadi input neural network. Keras menyediakan class Tokenizer. Tokenizer ini berfungsi untuk mengkonversi teks menjadi urutan integer indeks kata atau vektor binary, word count atau tf-idf.

Contoh penggunaannya adalah sebagai berikut:

from keras.preprocessing.text import Tokenizer
tokenizer = Tokenizer()
texts = ["Budi makan nasi","Rudi makan nasi, nasi goreng."]
tokenizer.fit_on_texts(texts)

seq = tokenizer.texts_to_sequences(texts)
#kalimat baru
seq1 = tokenizer.texts_to_sequences(["nasi panas sekali"])
print("Index: "+str(tokenizer.word_index))
print("Seq. corpus:"+str(seq))
print("Seq. untuk 'nasi panas sekali':"+str(seq1))

Hasilnya akan seperti ini:

Indeks: {'rudi': 4, 'budi': 3, 'nasi': 1, 'makan': 2, 'goreng': 5}
Seq. corpus':[[3, 2, 1], [4, 2, 1, 1, 5]]
Seq. untuk 'nasi panas sekali':[[1]]
Catatan: "panas" dan "sekali" tidak ada di kosakata jadi tidak ada indeksnya

Dapat dilihat kosakata corpus diubah menjadi indeks (indeks pertama “nasi”, kedua “makan” dan seterusnya). Kalimat kemudian diubah menjadi list urutan dari indeks. List sequence ini kemudian dapat dikonversi menjadi  vektor matriks numpy dengan sequences_to_matrix. Terdapat empat pilihan: tf-idf, binary, count, freq.

Lanjutkan kode sebelumnya untuk mengubah representasi teks berupa urutan indeks menjadi matriks tf-idf sampai frekuensi:

encoded_tfidf = tokenizer.sequences_to_matrix(seq,mode="tfidf")
print("tfidf:")
print(encoded_tfidf)
encoded_binary = tokenizer.sequences_to_matrix(seq,mode="binary")
print("binary:")
print(encoded_binary)
encoded_count = tokenizer.sequences_to_matrix(seq,mode="count")
print("count:")
print(encoded_count)
encoded_freq = tokenizer.sequences_to_matrix(seq,mode="freq")
print("freq:")
print(encoded_freq)

Hasilnya:

tfidf:
[[0.         0.51082562 0.51082562 0.69314718 0.         0.        ]
 [0.         0.86490296 0.51082562 0.         0.69314718 0.69314718]]
binary:
[[0. 1. 1. 1. 0. 0.]
 [0. 1. 1. 0. 1. 1.]]
count:
[[0. 1. 1. 1. 0. 0.]
 [0. 2. 1. 0. 1. 1.]]
freq:
[[0.         0.33333333 0.33333333 0.33333333 0.         0.        ]
 [0.         0.4        0.2        0.         0.2        0.2

Hasil sudah berbentuk numpy array. Dapat dilihat padding dilakukan otomatis untuk menyamakan dimensi dengan shape (2,6). Data ini dapat langsung digunakan dalam proses pembuatan model. Alternatif lain adalah menggunakan embedded layer yang akan dibahas dalam posting berikutnya.

Jika proses padding ingin dilakukan secara manual, Keras menyediakan pad_sequences. Contoh penggunaan pad_sequences :

from keras.preprocessing.sequence import pad_sequences
print("Sebelum padding:")
print(seq)
X = pad_sequences(seq)
print("Sesudah padding:")
print(X)
print(X.shape)

Hasilnya:


Sebelum padding:
[[3, 2, 1], [4, 2, 1, 1, 5]]
Sesudah padding:
[[0 0 3 2 1]
[4 2 1 1 5]]
Shape: (2, 5)

Klasifikasi Teks

Dalam bagian ini, akan dilakukan klasifikasi teks menggunakan data SMS spam berbahasa Indonesia dengan arsitektur yang paling sederhana yaitu feed forward NN.

Data dapat didownload di:http://bit.ly/yw_sms_spam_indonesia

Jumlah sample 1143 dan ada tiga kelas dalam dataset ini:

0: sms normal (569 instance)
1: fraud atau penipuan (335 instance)
2: promo (239 instance)

Langkah pertama adalah meload data dari file csv, dapat digunakan library csv. Tambahkan cell berikut.

import csv
nama_file = "C:\\yudiwbs\\data\\sms\\dataset_sms_spam_v1.csv"
data  = []
label = []
with open(nama_file, 'r', encoding='utf-8') as csvfile:
   reader = csv.reader(csvfile, delimiter=',', quotechar='"')
   next(reader) #skip header
   for row in reader:
       data.append(row[0])
       label.append(row[1])
#test lihat dua data pertama
print(data[:2])
print(label[:2])
#Catatan: parameter encoding dapat dibuang jika muncul error

Alternatif lain adalah menggunakan pandas untuk membaca csv:

import pandas as pd
df = pd.read_csv(nama_file).values
data = df[:, 0]
label = df[:, 1]

Selanjutnya konversi label dari “1”, “2”, “3” menjadi representasi tensor:

from keras.utils import to_categorical
label = to_categorical(label)
print(label.shape)
print(label)

Hasilnya adalah Tensor 2D dengan shape (1143, 3) untuk label, karena ada 1143 instance dengan 3 nilai label yang mungkin (normal, fraud, promo)

Split data menjadi train dan test menggunakan scikit learn, 80% menjadi data train, 20% menjadi data test.

#split jadi train-test
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(data, label,
                                                   test_size=0.2,
                                                   random_state=123)

Konversi data teks menjadi tf-idf dan tensor. Pastikan Fit hanya dilakukan pada data train untuk mencegah informasi di data test “bocor”.

#konversi teks ke tfidf
from keras.preprocessing.text import Tokenizer
tokenizer = Tokenizer()
#fit hanya berdasarkan data train
tokenizer.fit_on_texts(X_train)
#konversi train
seq_x_train = tokenizer.texts_to_sequences(X_train)
X_enc_train = tokenizer.sequences_to_matrix(seq_x_train,mode="tfidf")
#konversi test
seq_x_test  = tokenizer.texts_to_sequences(X_test)
X_enc_test  = tokenizer.sequences_to_matrix(seq_x_test,mode="tfidf")

print(X_enc_train.shape)
print(X_enc_test.shape)
print(X_enc_train)

Hasilnya adalah tensor 2D dengan shape (914, 4384) untuk data train dan tensor 2D (229, 4384) untuk data test.

Selanjutnya siapkan model dengan menambahkan layer

from keras import models
from keras import layers

_,jum_fitur = X_enc_train.shape
model = models.Sequential()
model.add(layers.Dense(32,activation='relu',input_shape=(jum_fitur,)))
model.add(layers.Dense(4,activation='relu'))
model.add(layers.Dense(3,activation='softmax'))  #karena kelasnya ada 3
model.compile(optimizer="adam",
             loss='categorical_crossentropy',
             metrics=['accuracy'])

Ada empat layer: layer pertama adalah layer input hasil encode tf-idf sebelumnya: 4384 fitur. Mengapa input_shape tidak menggunakan sample dimension atau sample axis seperti (914, 4384)? karena jumlah samples tidak penting didefinisikan dalam layer input. Dengan teknik mini-batch, sample dapat diproses sedikit demi sedikit, jadi jumlahnya bisa berbeda-beda.

Activation softmax digunakan karena jumlah label ada 3 (normal, fraud dan promo). Jika jumlah label dua (binary classification) maka dapat digunakan activation sigmoid. Setelah layer didefinisikan, maka layer dapat dicompile. Loss categorical_crossentropy dipilih karena terdapat tiga kelas, sedangkan jika untuk binary class dapat digunakan binary_crossentropy.

Kode untuk melakukan training adalah sebagai berikut:

history = model.fit(X_enc_train,y_train,
                   epochs=3, batch_size=2,
                   validation_split=0.2)

results = model.evaluate(X_enc_test, y_test)
print("Hasil  [loss,acc] untuk data test:")
print(results)

Satu epoch adalah satu iterasi yang diperlukan untuk memproses seluruh training data. Jika jumlah data training 1000, dan batch_size 20, maka untuk memproses setiap epoch akan diperlukan 1000/20 = 50 steps update bobot. Pada setiap step bobot network akan di-update.

Semakin kecil batch size, semakin kecil memori yang diperlukan dan proses akan konvergen lebih cepat. Kelemahannya, akan memerlukan semakin banyak steps dalam setiap epoch (waktu training semakin lama). Parameter validation_split menentukan persentase data yang akan digunakan untuk data validasi.

Data validasi diambil dari data train dan digunakan untuk meminimalkan nilai loss pada saat training, val_acc dan val_loss adalah metrik untuk data validasi ini. Setelah proses selesai baru kinerja diukur pada data test.

Setelah training selesai, hasilnya adalah sebagai berikut, untuk data test didapat loss 0.33 dan akurasi 0.926 (komputer yang berbeda dapat menghasilkan hasil berbeda):

Proses training dapat memerlukan waktu lama, untuk menyimpan model dan hasil tokenizer ke dalam file gunakan kode berikut:

import pickle
model.save('model_spam_v1.h5')
with open('tokenizer.pickle', 'wb') as handle:
    pickle.dump(tokenizer, handle, protocol=pickle.HIGHEST_PROTOCOL)

Berikut adalah kode untuk me-load model, tokenizer dan memprediksi label untuk data baru:

from keras.models import load_model
import pickle
model = load_model('model_spam_v1.h5')
with open('tokenizer.pickle', 'rb') as handle:
    tokenizer = pickle.load(handle)

s  = ["Anda mendapat hadiah 100 juta","Beli paket Flash mulai 1GB", "Nanti ketemuan dimana?"]
seq_str = tokenizer.texts_to_sequences(s)
enc_str = tokenizer.sequences_to_matrix(seq_str,mode="tfidf")
enc_str.shape
pred = model.predict_classes(enc_str)
print("Prediksi kelas string ' {} ' adalah {}".format(s,pred))

Hasilnya:
Prediksi kelas string ‘ [‘Anda mendapat hadiah 100 juta, ‘Beli paket Flash mulai 1GB’, ‘Nanti ketemuan dimana?’] ‘ adalah [1 2 0]

Bersambung..  (word embedding, RNN)

Iklan

Pengantar Pemrosesan Teks dengan Keras (Bagian 1: Tensor, Batch, Layer dan Learning)

Deep learning saat ini sudah umum digunakan dalam berbagai task NLP.  Materi posting ini saya ambil dari buku Chollet “Deep Learning with Python” dan berbagai sumber lain.  Perlu dibagi menjadi beberapa bagian karena berdasarkan pengalaman saya jika langsung loncat ke source code tanpa paham dasar-dasarnya  nanti malah jadi  bingung sendiri. Posting ini masih membahas Keras secara umum.

Keras adalah library yang ditujukan untuk memudahkan pembuatan model NN (Neural Network). Keras menyediakan fasilitas untuk membuat berbagai arsitektur NN seperti  convolutional, recurrent, multi input-multi output, layer sharing dan model sharing.  Keras menggunakan backend Tensorflow atau CNTK (Microsoft Cognitive Toolkit). Lisensi keras adalah MIT yang longgar sehingga mudah digunakan untuk kepentingan komersial.

Instalasi Keras sangat mudah: pip install tensorflow lalu pip install keras

Urutan umum pembuatan NN di Keras adalah:

  1. Mendefinisikan data training  berupa input tensor dan target tensor.
  2. Mendefinisikan layer yang akan memetakan antara input ke target.
  3. Konfigurasi proses learning dengan memilih loss function, optimizer dan metric yang harus dimonitor.
  4. Lakukan training dengan memanggil method fit()

Konsep dasar yang penting dalam Keras adalah Tensor.  Tensor adalah struktur data berupa matrix atau multidimensional array yang menjadi dasar penyusun NN. Tensorflow dan library deep NN lainnya adalah library yang dapat memproses secara efisien komputasi pada tensor.

Ukuran dimensi yang umum pada tensor adalah 0D sampai 5D, contoh:

  1. Tensor 0D yang berisi satu nilai;
  2. Tensor 1D, satu dimensi atau vektor. Misalnya  x = np.array([10,12,13,14]).  Variabel x ini karena memiliki empat nilai disebut 4-dimensional vector tetapi tetap tensor 1 dimensi karena hanya memiliki satu axis. Jadi perlu dibedakan antara 4D vector dan 4D tensor.
  3. Tensor 2D, matrix.  Contoh:  x = np.array( [[10,12,13,14], [11,21,32,41]] ).  Variabel x ini dapat dilihat sebagai dua instance yang memiliki 4 fitur. Tensor ini cocok digunakan untuk merepresentasikan data berbentuk tabel: axisnya adalah (instance, features).
  4. Tensor 3D. Misalnya untuk merepresentasikan time series. Axisnya: (instance, timesteps, fitur).
  5. Tensor 4D. Cocok untuk merepresentasikan image, axisnya: (instance, tinggi, lebar, warna).
  6. Tensor 5D. Video sering direpresentasikan dengan tensor ini dengan axis: (samples, frames, tinggi, lebar, warna)

Dokumen teks dapat direpresentasikan dengan frekuensi kemunculan kata atau tf-idf. Dengan asumsi jumlah kosakata 20000, maka tiap dokumen dapat direpresentasikan dengan vektor 20000 elemen. Jika terdapat 500 dokumen, data dapat direpresentasikan dengan tensor 2D dengan axis (instance, vektor tf-idf) atau shape  (500, 20000). Mengenai shape akan dijelaskan nanti.

Contoh lain adalah tweet, asumsikan tweet akan direpresentasikan di level karakter. Panjang setiap tweet maksimal adalah 280 karakter dengan jumlah karakter yang mungkin adalah 128 (a-z, A-Z, 0-9 dst). Setiap karakter dapat di-encode sebagai binary vector berukuran 128, contohnya karakter “a” menjadi [1,0,0,0 ….0], karakter “b” [0,1,0,0… 0] dan seterusnya. Jadi setiap tweet dapat di-encode menjadi tensor 2D (280, 128) dengan isi 0 dan 1. Jika terdapat 1 juta tweet, maka akan disimpan dalam tensor 3D denga axis (instance, jumlah_karakter, encode_karakter)  atau shape (1000000, 280, 128).

Tensor didefinisikan oleh tiga atribut,  jumlah axis, shape dan tipe datanya.

  1. Axis sudah dibahas sebelumnya, tensor 3D akan memiliki jumlah axis (rank) =3, tensor 2D rank-nya = 2 dst.
  2. Tipe data (dtype) yang digunakan tensor: float32, uint9, float64 dan char.
  3. Shape memperlihatkan dimensi yang dimiliki untuk setiap axis. Contoh untuk  tensor 3D berikut ini, shapenya adalah (2,3,4). Axis nol terdiri atas 2 dimensi, axis ke-1 tiga dimensi dan axis ke-3  4 dimensi:

x = np.array(
[[[10,12,13,11],
[11,21,32,15],
[30,21,31,22]],
[[10,12,13,4],
[11,31,52,5],
[21,51,12,9]]]
)
print(x.shape) # hasilnya (2,3,4)

Contoh lain untuk tensor 2D berikut,  shape adalah (2,4)
x = np.array([[10,12,13,14],[11,21,32,41]])

Vector dengan elemen tunggal ini akan memiliki shape (4,)
x = np.array([10,12,13,14])

Scalar akan memiliki shape ()

Batch: Axis & Dimension

Umumnya axis yang pertama (axis ke-0) disebut sample axis atau sample dimension. Sebagai contoh untuk pengenalan karakter dari gambar yang terdiri atas 1000 gambar dengan 30×30 pixel grayscale, akan menggunakan tensor 3D dengan shape (1000, 30, 30) yang berisi nilai 0..255 (grayscale). Axis ke-0 (1000) adalah jumlah instances atau samples. Pada tensor 2D dengan shape (10000, 20) artinya ada 10000 samples dengan 20 fitur. Dapat dianggap  shape adalah (samples, feature).

Model DL umumnya tidak memproses data secara sekaligus tetapi dibagi-bagi menjadi batch yang lebih kecil. Itu sebabnya axis 0 sering juga disebut batch axis atau batch dimension.

Layer

Layer adalah bagian yang menerima input satu atau lebih tensor dan mengeluarkan output satu atau lebih tensor. Ada layer yang stateless, tetapi umumnya layer memiliki state yaitu bobotnya.

Terdapat berbagai jenis layer untuk berbagai jenis pemrosesan data. Keras menyediakan layer standar yang umum digunakan dalam deep learning. Misalnya dense connected layer (kelas Dense di Keras), recurrent layer (kelas LSTM) dan convolutional layer (kelas Conv2D). Membangun deep NN di Keras adalah menyusun berbagai layer seperti membangun mainan LEGO.

Setiap layer menerima input tensor dan mengeluarkan output tensor dalam ukuran (shape) yang sudah ditentukan. Ini disebut layer compatibility.

Sebagai contoh, code berikut membuat model dengan dua layer berukuran 32 neuron dan menerima 500 fitur pada layer input. Layer kedua adalah layer output.

from keras import models
from keras import layers

#definisikan model sebagai urutan layer
model = models.Sequential()
#model menerima input dengan jumlah fitur 500 dan output 32
#jumlah instance tidak perlu dituliskan dalam input_shape
model.add(layers.Dense(32, input_shape=(500,)))
#input layer ini otomatis 32 (output layer sebelumnya)
model.add(layers.Dense(32))

Sebagai contoh, code berikut membuat model dengan dua layer berukuran 32 neuron dan menerima 500 fitur pada layer input. Layer kedua adalah layer output.

Learning

Pada Keras, tahapan learning dikonfigurasi di bagian kompilasi. Konfigurasi yang perlu didefinisikan adalah optimizer dan loss function yang akan digunakan model dan metric yang akan dipantau  saat training. Loss merupakan jarak antara nilai target dan prediksi untuk setiap sample, sedangkan metric mengukur kinerja keseluruhan model.

Loss function mengukur kinerja NN terhadap data training yang  digunakan untuk mengarahkan atau memperbaiki network ke arah yang tepat. Keras menyediakan beberapa loss function standar yang dapat dipilih sesuai task, misalnya untuk klasifikasi biner, dapat digunakan binary cross entropy; untuk klasifikasi multi kelas dapat digunakan categorical cross entropy; mean-squared error untuk regresi dan connectionist temporal classification (CTC) untuk sequence labeling.

Optimizer adalah mekanisme yang digunakan  untuk mengupdate bobot jaringan berdasarkan loss function. Berbagai jenis class optimizer di Keras yang dapat digunakan adalah RMSprop, Adagrad, Adadelta, Adam, Adamax, Nadam.

Contoh proses compile dan training dapat dilihat pada kode berikut

from keras import optimizers
model.compile(optimizer=optimizers.RMSprop(lr=0.001),loss='mse',metrics=['accuracy'])

Setelah itu, input dan target diberikan pada method fit() seperti pada Scikit-Learn

model.fit(input_tensor, target_tensor, batch_size=128, epochs=10)

Contoh lebih rinci dapat dilihat pada posting berikutnya, klasifikasi teks [bersambung].

Posting lanjutan: bagian 2, representasi teks dan klasifikasi teks dengan feed neural network.

Pos Tagger dan Dependency Parser dengan StanfordNLP Python

Sebelumnya saya sudah buat tulisan tentang pos tagger & dependency parser Bahasa Indonesia dengan lib CRFTagger, UUParser dan Syntaxnet.  Hanya Syntaxnet yang menyediakan pretrained model. Saat ini ada satu lagi library yang menyediakan pretrained model untuk Bahasa Indonesia: StanfordNLP (https://github.com/stanfordnlp/stanfordnlp).

StanfordNLP sudah ada cukup lama, tapi awalnya menggunakan Java dan lisensinya GPL (kita perlu bayar lisensi terpisah jika buat sistem yang tidak open source).  Sejalan dengan dominasi Python dan lisensi yang lebih longgar seperti MIT dan Apache, maka dikembangkan lib baru, dan StanfordNLP yang lama diubah namanya menjadi CoreNLP.

StanfordNLP  ini sudah native python (bisa diinstall dengan pip install stanfordnlp),  menggunakan deep learning (pytorch) dan sudah menyediakan pretrained model untuk bahasa Indonesia.

Saat saya coba, ternyata lib ini memerlukan Python 3.6 dan 3.7.   Saya install saja versi yang terakhir, yaitu versi  3.7.2, sayangnya untuk versi ini Python harus dicompile manual. Langkah-langkahnya saya tiru dari: https://tecadmin.net/install-python-3-7-on-ubuntu-linuxmint/  tapi dengan modifikasi sedikit karena di artikel itu kurang dua library yaitu libffi dan liblzma (saya menggunakan Ubuntu 16).

sudo apt-get install build-essential checkinstall
sudo apt-get install libreadline-gplv2-dev libncursesw5-dev libssl-dev \
    libsqlite3-dev tk-dev libgdbm-dev libc6-dev libbz2-dev libffi-dev liblzma-dev
cd /usr/src
sudo wget https://www.python.org/ftp/python/3.7.2/Python-3.7.2.tgz
sudo tar xzf Python-3.7.2.tgz
cd Python-3.7.2
sudo ./configure --enable-optimizations
sudo make altinstall

Catatan: interpreter hasil compile  disimpan di /usr/local/bin/python3.7

Setelah pip install stanfordnlp, kode berikut adalah contoh penggunaannya. HATI-HATI, perlu satu jam untuk menjalankan kode ini, entah karena harus menggunakan GPU atau ada optimasi yang belum saya lakukan. Update: running berikutnya hanya perlu 1-2 menit, tetap lebih lama dibandingkan lib lain.

import stanfordnlp
stanfordnlp.download('id')   # download 1.4GB model
nlp = stanfordnlp.Pipeline(lang="id",use_gpu=False)
doc = nlp("Budi makan nasi enak sekali.")
print("token:")
doc.sentences[0].print_tokens()
print("dependency parse:")
doc.sentences[0].print_dependencies()

Hasilnya adalah sebagai berikut:


token:
Token index=1;words=[Word index=1;text=budi;lemma=budi;upos=NOUN;xpos=NSD;feats=Number=Sing;governor=2;dependency_relation=nsubj]
Token index=2;words=[Word index=2;text=makan;lemma=makan;upos=VERB;xpos=VSA;feats=Number=Sing|Voice=Act;governor=0;dependency_relation=root]
Token index=3;words=[Word index=3;text=nasi;lemma=nasi;upos=NOUN;xpos=NSD;feats=Number=Sing;governor=2;dependency_relation=obj]
Token index=4;words=[Word index=4;text=enak;lemma=enak;upos=ADJ;xpos=ASP;feats=Degree=Pos|Number=Sing;governor=3;dependency_relation=amod]
Token index=5;words=[Word index=5;text=sekali;lemma=sekali;upos=ADV;xpos=D--;feats=_;governor=2;dependency_relation=punct]

dependency parse:
('Budi', '2', 'nsubj')
('makan', '0', 'root')
('nasi', '2', 'obj')
('enak', '3', 'amod')
('sekali', '4','advmod')
('.', '2', 'punct') 

 

Belajar Investasi Saham

Update Feb 2019:
Tiga bulan saya sudah mulai masuk pasar saham. Saya menggunakan dollar cost averaging, jadi tiap awal bulan ada jumlah fix yang bisa digunakan untuk membeli saham. Tapi saya belanjakannya tidak dipaksakan satu hari tertentu, bisa 1-2 minggu menunggu saat yang tepat. Sangat bagus mulai dari jumlah kecil untuk belajar,  karena ternyata lumayan tegang saat harga saham naik turun. Padahal idealnya kinerja itu diukur 1-2 tahun setelah saham dibeli, tidak perlu cek harga tiap hari.  Lalu saat salah analisis (karena belum tahu) dan keburu beli, ada keinginan kuat untuk menjual. Jumlah investasi kecil membantu untuk lebih menenangkan hati. Nanti saat sudah terbiasa, jumlahnya bisa dinaikkan.

Saya bergabung dengan beberapa group telegram untuk mengetahui dinamika para pemain pasar saham.  Rekomendasi saham dari group justru saya jauhi. Logikanya kalau saya jadi admin group itu, urutan aksi saya adalah: saya beli saat murah,   umumkan di group berbayar baru terakhir umumkan di group gratis. Ini akan berakibat saham naik.  Lalu admin akan jual untuk ambil keuntungan.   Jadi sudah terlambat kalau kita ikuti rekomendasi group. Lagipula umumnya  fundamental saham yang direkomendasi memang tidak terlalu bagus. Sama dengan rekomendasi para “analis” di media , banyak rekomendasi ajaib, sudah jelek fundamentalnya, mahal pula.

Saham yang saya hindari (masalah personal saja, tiap orang punya selera dan prinsip berbeda):

  1. BUMN. Walaupun sering mendapat perlakuan khusus dari pemerintah sehingga bisa menguasai pasar, tapi akibatnya sering tidak efisien, beresiko korupsi, dan tidak berhati-hati (misal urusan hutang). Masalah lain: pemerintah juga dapat ikut campur urusan internal perusahaan dan eksekutif sulit ambil resiko bisnis karena takut dipidana.
  2. Finansial, selain riba, saya juga tidak paham proses bisnisnya. Jadi walaupun bank syariah tetap saya hindari.
  3. Rumah sakit, rokok dan minuman keras.

END update

—-

Update Jan 2019:
Perlu berhati-hati, terlepas sentimen negatif dan prediksi kuat terjadinya resesi 2019-2020, pasar saham Indonesia sepertinya tidak terpengaruh. Investor (retail) kita sepertinya masih bersemangat sekali. Ini justru yang buat saya khawatir.  Sekarang sulit cari saham yang  bagus (bagi saya) tapi dengan harga yang murah. Lebih baik jangan dipaksakan beli.
–end update–

———

Posting yang agak berbeda dengan biasa 🙂  tapi sebenarnya nanti berhubungan juga dengan NLP dan  machine learning.  Posting ini akan diupdate sejalan dengan perjalanan saya belajar tentang investasi di pasar saham, jadi mungkin posting ini nantinya akan sangat panjang.  Posting ini adalah sudut pandang saya yang awam.

Saya sudah lama tertarik untuk berinvestasi di pasar saham, tapi baru bisa mulai sekarang. Masalahnya, investasi saham walaupun dapat menghasilkan return tinggi, tetapi resikonya juga tinggi. Dalam kasus terburuk uang bisa berkurang atau bahkan hilang.  Itu sebabnya uang untuk investasi saham menunggu  antrian yang urutannya sebagai berikut: tabungan, dana pendidikan anak, deposito syariah, dana pensiun (diluar taspen PNS), investasi yang relatif aman baru terakhir saham. Ini yang saya lihat sering dilupakan orang, saya pernah baca pertanyaan  “Saya punya banyak hutang, saya tertarik bermain saham, bagaimana caranya?”, gawat kalau seperti itu.

Tadinya saya berminat untuk memulai dari reksadana dulu, tetapi melihat fee yang lumayan lalu banyak analis  yang rekomendasinya aneh, sepertinya lebih baik saya pilih sendiri saham yang mau saya koleksi. Rugi atau untung semua tanggung jawab saya 🙂

Banyak yang bingung mulai dari mana? untuk langkah pertama menurut saya adalah membaca sebanyak mungkin informasi. Hati-hati banyak informasi di internet, khususnya video Youtube yang hanya menyampaikan bahwa   investasi saham itu bisa untung besar tapi tidak  membahas kemungkinan rugi (yang bisa besar juga) dan tidak membahas bahwa tingkat kesulitannya cukup tinggi.  Banyak yang terlalu menyederhanakan seperti “Beli saham bluechip saja!”.

Mendapatkan keuntungan dari saham itu  bisa dengan dua cara: harga sahamnya naik (contoh beli 100/share lalu sebulan kemudian menjadi 300/share) dan melalui dividen (bagi hasil keuntungan perusahaan). Masalah utamanya adalah memilih saham yang mana dan kapan.

Saya lihat ada dua pendekatan: pendekatan pertama adalah berdagang saham jangka pendek.   Saat melihat potensi harga  naik, maka saham akan dibeli dan pada saat titik yang dianggap menguntungkan maka saham tersebut dijual, untung dapat diperoleh dari selisihnya. Ini bisa berlangsung dalam hitungan jam atau hari. Pendekatan ini mirip berselancar (mengikuti harga yang naik). Masalahnya sama dengan berselancar, salah pemilihan waktu sedikit saja, maka akan kehilangan ombak. Informasi yang digunakan umumnya hanya sejarah harga saham dan volume penjualan. Teknik yang perlu dipelajari untuk pendekatan ini disebut analisis teknikal.

Pendekatan kedua adalah jangka panjang (6 bulan sampai tahunan).  Pada pendekatan ini perlu dicari perusahaan yang bagus tapi sahamnya relatif dihargai murah. Saham milik perusahaan yang fundamentalnya bagus, walaupun saat ini dihargai murah,  nantinya akan naik juga dan kenaikannya bisa besar (berkali-kali lipat) sejalan dengan semakin besarnya perusahaan. Keuntungan juga bisa didapat dari dividen.  Masalahnya bagaimana menentukan perusahaan ini bagus? jangan-jangan murah karena memang mau bangkrut.  Informasi yang digunakan mulai dari laporan keuangan (tahunan, triwulan), analisis kemampuan manajemen, analisis sektor yang terkait dan sebagainya.  Pendekatan ini disebut value investing dan teknik yang perlu dipelajari adalah analisis fundamental.

Di Indonesia, yang saya lihat mayoritas yang digunakan adalah pendekatan pertama (trading).  Menurut saya karena alasan berikut:  1) lebih sederhana karena variabel yang digunakan lebih sedikit dan kuantitatif.  2) Perusahaan sekuritas mendapat fee jika ada transaksi, jadi mereka mendorong pelanggan melakukan transaksi sebanyak-banyaknya 3) lebih seru, seperti menonton film aksi atau balapan, ada keasyikan sendiri menyaksikan harga naik (atau turun) menit demi menit sebelum memutuskan beli atau jual. Walaupun saat ini sudah ada  mekanisme otomatis beli dan jual berdasarkan kriteria tertentu, tetapi tetap saja seru.

Saya pribadi lebih suka pendekatan kedua (value investing), karena tujuannya memang untuk jangka panjang (20 tahunan). Saya suka membaca, mencari dan menganalisis data dan  informasi. Wajar karena berkecimpung di bidang machine learning dan datamining 🙂 Membaca laporan tahunan adalah kegiatan menarik bagi saya. Saya juga tidak terlalu suka lagi nonton pertandingan dan bermain game (mungkin faktor umur?) jadi memonitor pergerakan harga saham jam demi jam (apalagi menit demi menit) bukan lagi hal yang terlalu menyenangkan. Lebih baik waktunya digunakan untuk hal yang lain. Sebagai bonus, biaya transaksi untuk sekuritas juga akan lebih murah.

Menurut saya memilih pendekatan trading atau value investing (atau gabungan) tergantung dengan minat, bakat dan tujuan tiap individunya. Yang penting bekali diri dengan ilmu sebelum masuk.  Tanpa ilmu,  sama saja dengan judi.  Banyak yang malas belajar dan ingin jalan pintas: “Udah, pokoknya apa saham yang harus saya beli besok?”, “Saham X bagus nggak gan?”.  Kadang bergidik,   mau beli barang 500 ribu saja kita  harus pikir-pikir dan banding-bandingkan dulu,  ini  jutaan rupiah dipertaruhkan  seperti dengan lempar dadu saja.

Karena saya memilih value investing, tentu saya lebih mendalami materi-materi yang terkait analisis fundamental. Video tutorial yang bagus adalah: https://www.youtube.com/watch?v=KfDB9e_cO4k&list=PLECECA66C0CE68B1E

Untuk buku:

  1. “Stock Market Investing for Beginner”, Tycho Press.
  2.  Peter Lynch (ada tiga buku, dengan urutan baca “One Up On Wall Street”, “Learn to Earn”,  “Beating the Street”).  Kalau tidak sempat cukup baca yang “One Up On Wall Street” saja, dua yang lain hanya pelengkap. Peter Lynch ini menarik karena dia termasuk fund manager yang fokus pada pemilihan saham dan sukses (rata-rata return 29.2% per tahun selama 13 tahun). Tapi perlu hati-hati untuk mengikuti petunjuk dia. Gaya investasinya  lebih agresif dan dia kerja gila-gilaan (mulai dari jam 6 pagi sampai malam termasuk sabtu). Aktivitasnya termasuk mendatangi secara langsung atau menelepon calon emiten yang dia incar, jadi salah satu kunci keberhasilannya adalah punya informasi yang mendalam. Mungkin aktivitas seperti ini yang bisa diganti dengan datamining? Saya paling hanya googling saja untuk informasi, tapi untuk sampai menelepon apalagi mendatangi perusahaan ya berat.
  3. “The Intelligent Investor”, Graham. Ini yang paling berat, sebaiknya dibaca terakhir.
  4. Update Jan 2019. Karena tertarik dengan video Youtubenya, saya beli buku Phil Town (Rule #1). Buku ini lebih pragmatis dengan aturan yang lebih jelas. Tapi perlu hati-hati karena  Phill Town sendiri tidak memperlihatkan kinerja portofolionya. Saya lebih cocok dengan Lynch yang lebih fleksibel, tapi ada beberapa hal yang bermanfaat juga. Intinya aturan dari buku ini: hanya beli saham dengan kondisi: 1) ROIC >10% (kenapa bukan ROE ya?)  2) Equity growth >10%  3) EPS growth >10%   4) Sales growth >10%   5) Free cashflow >10%.  Setelah itu hitung nilai intrinsik saham dengan cara hitung nilai 10 tahun ke depan berdasarkan PER, EPS growth, mundurkan ke harga saat ini berdasarkan target pertumbuhan 15% (Indonesia mungkin  harus lebih tinggi),  ini yang jadi harga intrinsik.  Lalu hanya beli yang harganya 50% dari harga intrinsik (margin of safety).

Perlu juga baca yang terkait pasar Indonesia, sayang judulnya agak  berlebihan:

  1. “Value Investing beat the market in 5 minutes”, Teguh Hidayat.  Lebih untuk pengantar, menggunakan bahasa non formal, cocok untuk orang muda.
  2. “Investasi Saham ala Fundamentalis Dunia”, Ryan Filbert, William Prasetya. Sisi dasar-dasar akuntasi, untuk membaca laporan keuangan.

Lumayan capek ya 🙂  Tapi saat investasi kita bisa hilang jadi nol rupiah menurut saya wajar perlu persiapan ekstra, itupun tetap tidak menjamin, tapi setidaknya jauh mengurangi resiko.

Selanjutnya bisa dimulai melihat-lihat laporan keuangan perusahaan incaran. Semua laporan emiten bisa dilihat di: https://www.idx.co.id/perusahaan-tercatat/laporan-keuangan-dan-tahunan/   Bisa juga mencari saham yang sesuai kritera yang diinginkan melalui stock screener: https://www.indopremier.com/ipotgo/marketanalysis.php?page=stockscreener

Untuk informasi tentang saham, berikut dua situs bagus dan ada app Android-nya juga:

  1. www.indopremier.com/ipotgo   Tapi hati-hati, tidak memperhitungkan stock split (contoh EPS ULTJ yang terlihat jadi drop drastis dari 16-17).
  2. rti.co.id (klik free trial)

Setelah punya gambaran saham yang mau dibeli, pilihan ini dapat diujicoba (disimulasikan) secara virtual pada situs stockbit.com sekalian belajar mekanisme beli-jual. Selanjutnya kita sudah siap untuk terjun membeli saham sesungguhnya.

Memilih dan Mendaftar pada Perusahaan Sekuritas

Transaksi saham harus dilakukan melalui perusahaan sekuritas sebagai perantara.  Mereka mendapat fee setiap transaksi  (untuk BNI sekuritas, fee-nya adalah 0.15% untuk beli dan 0.25% untuk jual). Ada banyak perusahaan sekuritas, tapi karena saya sudah punya rekening BNI dan ingin perusahaan sekuritas yang masih ada sampai 20 tahun lagi maka saya memilih BNI Sekuritas. Saya tanya-tanya via Twitter cepat dijawab (marketing), tapi untuk yang teknis, harus tanya via WA, dan responnya lambat (bisa 1jam) plus kurang ramah. Tapi yang penting dijawab sih bagi saya.

Saya buka rekening syariah, proses pendaftarannya: kita ke situs BNI sekuritas, isi berbagai formulir,  download formulir, print, beri paraf, beri materai, tandatangan lalu kirimkan via pos. Tunggu sampai 5 hari kerja. Total waktu yang diperlukan kira-kira 2 minggu. Nanti otomatis akan dibuatkan dua  RDI (Rekening Dana Investasi),  satu untuk syariah, satunya untuk yang biasa. Rekening ini yang digunakan untuk menampung dana untuk membeli, menjual atau dividen saham. Tidak ada info rekening syariah yang mana, tapi saran saya isi saja dua rekening itu masing-masing dengan 1 jt (nilai minimum). Walaupun punya dana banyak, sebaiknya mulai dari kecil dulu.

Ternyata yang disebut rekening syariah itu hanya sekedar membatasi saham apa yang bisa dibeli (misal saham bank, saham minuman keras tidak boleh dibeli). Jadi rekening yang non syariah saya gunakan juga,  yang penting jangan beli saham non syariah.  Bisa saja satu rekening untuk investasi jangka pendek satunya untuk jangka panjang. Setelah digunakan tidak perlu ada uang mengendap pada  rekening itu (semuanya bisa dibelikan saham). Saat membeli, nanti akan ada isian rekening mana yang akan digunakan, yang syariah ujungnya ada “S”.  Nanti akan dapat email dari sekuritas dan kita bisa tahu rekening syariah yang mana.

Kita juga akan diberikan user dan password untuk masuk ke aplikasi trading milik BNI (esmart) dan pin untuk bertransaksi. Saya tidak terlalu peduli dengan fitur-fitur trading, biasanya saya hanya buka sebentar dan langsung beli dengan harga yang ada.  Setelah transaksi, tidak otomatis uang di rekening didebet, ini dilakukan dua hari kemudian. Santai saja, BNI sekuritas akan mengirimkan email tentang transaksi, dividen dsb.

Selanjutnya tinggal memonitor fundamental emiten yang sahamnya kita miliki atau calon yang menarik untuk dikoleksi. Selama fundamentalnya bagus, saham jangan dijual. Perlu pembahasan terpisah untuk itu, dan saya masih belajar 🙂

Mengenai penerapan machine learning khususnya NLP pada pasar saham: saya belum mendalami, tapi umumnya ditujukan untuk fast trading (misalnya saat ada berita negatif tentang sektor X, maka semua saham terkait X dijual dalam waktu sekian milidetik). Istilah yang digunakan adalah algorithmic trading dan orang yang membuat algo-nya disebut  quant.  Salah satu tutorial  tentang algo trading ini dapat dilihat di https://www.youtube.com/watch?v=GlV_QO5B2eU  Sayangnya untuk pasar saham Indonesia sepertinya belum ada platform untuk backtest.

Pemanfaatan NLP untuk analisis fundamental sudah ada, tapi sepertinya tidak terlalu banyak.  Saya pernah baca paper yang memproses  laporan tahunan untuk memprediksi kinerja emiten. Menarik, karena memang setelah saya baca laporan tahunan,  dapat dilihat dirut yang isi tulisannya hanya normatif biasa-biasa saja, tapi ada juga yang kelihatan menguasai bidangnya dan bersemangat.  Bagusnya semua laporan tahunan ada versi bahasa Inggris-nya, jadi kita bisa menggunakan resources bahasa Inggris.  Mungkin ini yang paling dekat yang akan saya coba.

Memberikan Pelatihan Machine Learning & NLP

Dalam 4 bulan terakhir ini kami (saya dan istri) memberikan pelatihan machine learning untuk calon data analisis PT Pos dan NLP+Deep learning untuk sebuah perusahaan software.  Saya suka karena hal ini menjadi kesempatan untuk berdiskusi dengan pihak industri tentang apa yang mereka perlukan dari lulusan, dan bisa digunakan untuk memperbaiki proses pendidikan di kampus.

Di kampus saya mengajar kuliah pilihan datamining dan NLP sedangkan Lia mengajar machine learning, jadi dari sisi materi sebenarnya tidak terlalu masalah. Masalah utama adalah bagaimana memadatkan materi yang belasan SKS menjadi hanya beberapa hari saja.

Selection_181

Berdasarkan evaluasi saat pelatihan, menurut saya bentuk pelatihan ideal untuk machine learning  adalah:

  • Perlu profil rinci peserta pelatihan. Latar belakang peserta akan sangat berpengaruh, misalnya banyak calon data analis latar belakangnya adalah dari prodi Matematika atau Statistika.
  • Secara rinci perlu dibuat dan disepakati kompetensi yang ingin didapat, seperti “Peserta memahami X”, “Peserta dapat melakukan Y” dst.  Perlu disesuakan dengan jumlah jam pelatihan. Jangan terlalu memaksakan terlalu banyak materi jika waktunya terbatas.
  • Proporsi teori dan praktek sekitar 40:60 atau 50:50.  Mengapa teori mendapat porsi yang cukup besar? karena  saat ini sudah banyak tutorial dan lib untuk machine learning tetapi tanpa pembahasan konsep yang cukup, misalnya seputar rancangan eksperimen, evaluasi model.
  • Pretest – Posttest. Mengukur sejauh mana peningkatkan pengetahuan peserta.
  • Tugas berbentuk kasus yang dikerjakan berkelompok. Idealnya minimal ada dua sesi pelatihan dengan waktu yang terpisah sekitar 1-2 minggu. Di akhir sesi  ada   PR berbentuk analisis kasus yang setelah diolah harus dipresentasikan pada sesi berikutnya.
  • Evaluasi berbentuk ujian teori dan praktek dalam bentuk kasus.

Memang tahapan seperti test dan presentasi akan memerlukan waktu lama,  padahal seringkali  pelatihan  dirancang memberikan materi sebanyak-banyaknya dalam  waktu sesingkat-singkatnya. Tapi menurut saya kalau mau hasil optimal memang perlu  waktu yang cukup.

Deteksi Kesamaan (plagiarisme) Dokumen MS-Word dengan Python

Saya ditugasi prodi untuk mengecek kemiripan borang akreditasi prodi ilmu komputer dibandingkan dengan borang prodi pendidikan ilmu komputer yang sudah disubmit sebelumnya. Prodi ilmu komputer dan pendidikan ilmu komputer memang berbagi dosen, ruangan dan resource lainnya, jadi wajar kalau borangnya mirip. Tapi tentu jika dikti menggunakan software deteksi plagiarisme bisa saja nanti borang ditolak bahkan prodi kena penalti.

Saya sudah pernah membuat program yang mirip dengan Java, tetapi dengan library python, harusnya bisa dibuat lebih cepat, dan memang bisa dibuat hanya dalam beberapa jam saja 🙂

Bagian yang terlama adalah mencari dan mencoba-coba library,  tetapi akhirnya saya menggunakan dua: python-docx dan strsim.     Python-docx untuk membaca file MS Word dan strmsim untuk kemiripan string-nya. Setelah dicoba, ternyata pemrosesan teks di dalam tabel harus ditangani terpisah. Teks yang di dalam texbox juga tidak bisa dibaca oleh python-docx. Untuk kasus ini, terpaksa semua teks yang berada di dalam textbox dikeluarkan secara manual.

Kodenya adalah sebagai berikut:

from docx import Document
from similarity.ngram import NGram

jum_huruf_min = 20 #kalimat terlalu pendek diabaikan

#load file dan pindahkan ke memory

def doc_to_text(nama_file):
    doc = Document(nama_file)
    fullText = []
    for para in doc.paragraphs:
        par = para.text.lower().strip()
        if par != "" and len(par) > jum_huruf_min:
            fullText.append(par)

    #proses isi tabel
    print("=======================")
    tables = doc.tables
    for table in tables:
        for row in table.rows:
            for cell in row.cells:
                for paragraph in cell.paragraphs:
                    par = paragraph.text.lower().strip()
                    if par != "" and len(par) > jum_huruf_min:
                        fullText.append(par)

    fullTextNoDup = list(set(fullText)) #buang duplikasi
    fullTextNoDup.sort()  # sort supaya lebih mudah dicek
    return fullTextNoDup 

jum_gram = 4
batas = 0.4 #threshold
gram = NGram(jum_gram)

dir = "C:\\yudiwbs\\dataset\\deteksi_plagiat\\"
file1 = 'borang_nondik_standard_4.docx'
file2 = 'borang_dik_standard_4.docx'
file_out = "kesamaan_standard4.txt"

list_par_doc1 = doc_to_text(dir+file1)
list_par_doc2 = doc_to_text(dir+file2)

file = open(dir+file_out, "w")

for par1 in list_par_doc1:
     for par2 in list_par_doc2:
         jarak = gram.distance(par1, par2)
         if ( jarak <=batas):
             print(par1)
             file.write(par1+"\n")
             print(par2)
             file.write(par2+"\n")
             print(jarak)
             file.write(str(jarak)+"\n")
             print("--")
             file.write("--\n")
             file.flush()

file.close()
print("Selesai===") 

Contoh hasilnya (semakin kecil nilainya maka semakin mirip):

--
sedangkan strategi pencapaian yang akan dilakukan oleh program studi ilmu komputer adalah:
strategi pencapaian yang dilakukan oleh program studi pendidikan ilmu komputer adalah:
0.30833333333333335
--
verifikasi dan validasi draft rumusan visi, misi, tujuan dan sasaran dengan cara melakukan rapat yang diikuti oleh tim penyusun internal, para perwakilan dosen dan pihak eksternal (alumni atau pengguna lulusan). dari hasil rapat tersebut terdapat beberapa saran dan masukan diantaranya:
validasi draft rumusan visi, misi, tujuan dan sasaran dengan cara melakukan rapat yang diikuti oleh tim internal, para dosen dan pihak eksternal. dari hasil rapat tersebut terdapat beberapa saran dan masukan diantaranya
0.24388111888111888
--

 

Dataset Klasifikasi Bahasa Indonesia (SMS Spam) & Klasifikasi Teks dengan Scikit-Learn

Setelah saya cari-cari, sepertinya  belum ada dataset klasifikasi Bahasa Indonesia yang bisa didownload dengan gampang dan berlisensi bebas (mirip seperti 20NewsGroup untuk Bahasa Inggris). Aneh juga kan kalau untuk kuliah atau pelatihan NLP Bahasa Indonesia malah menggunakan dataset Bahasa Inggris. Oleh karena itu berdasarkan dataset yang dibuat mahasiswa saya (dan dengan ijin dia), saya publish dataset untuk domain SMS spam dengan lisensi creative commons. Ada tiga kelas: SMS  normal, SMS penipuan, SMS promosi. Dua yang terakhir ini dapat dianggap spam. Jumlah instances ada 1143. Download di: nlp.yuliadi.pro/dataset 

Sekalian saya buat tutorial singkat untuk membuat classifier berdasarkan dataset tersebut dengan lib scikit-learn. Caranya: Install lib scikit-learn, download dataset, sesuaikan namaFile dengan lokasi data. (Catatan: ada spasi di nama file, nanti saya perbaiki). Akurasinya 0.90 dengan MultinomialNB seperti code di bawah dan 0.92 jika menggunakan linear SVM.


#%%
#load data
from collections import Counter
import csv
namaFile = "/home/yudiwbs/dataset_sms_spam _v1.zip"
data = []
label = []
with open(namaFile, 'r', encoding='utf-8') as csvfile:
    reader = csv.reader(csvfile, delimiter=',', quotechar='"')
    next(reader) #skip header
    for row in reader:
        data.append(row[0])
        label.append(row[1])

print("jumlah data:{}".format(len(data)))
print(Counter(label))

#%%
#random urutan dan split ke data training dan test
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split( data, label, test_size=0.2, random_state=123)

print("Data training:")
print(len(X_train))
print(Counter(y_train))

print("Data testing:")
print(len(X_test))
print(Counter(y_test))

#%%
#transform ke tfidf dan train dengan naive bayes
from sklearn.pipeline import Pipeline
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.feature_extraction.text import TfidfTransformer
from sklearn.naive_bayes import MultinomialNB
text_clf = Pipeline([('vect', CountVectorizer()),
                     ('tfidf', TfidfTransformer()),
                      ('clf', MultinomialNB())])
text_clf.fit(X_train, y_train)
#%%
# coba prediksi data baru
sms_baru = ['Anda mendapatkan hadiah mobil','nanti ketemu dimana?']
pred = text_clf.predict(sms_baru)
print("Hasil prediksi {}".format(pred))
#%%
#hitung akurasi data test
import numpy as np
pred = text_clf.predict(X_test)
akurasi = np.mean(pred==y_test)
print("Akurasi: {}".format(akurasi))