selamat datang

PERSADA STEMMER :
Software Translator ini menggunakan Algoritma “Persada stremmer” Stemmer? Stemmer apaan sih? Stemmer dalam kontek teknologi bahasa adalah suatu algoritma dalam mencari akar kata dari suatu kata yang telah tercampur dengan awalan dan akhiran (prefix-suffix) Tetapi saya telat taunya, pas programnya versi 4-nya udah jadi, eh saya baru tau setelah baca artikel mengenai mahasiswa yang disuruh dosennya dibidang informasi retrival (IR) untuk bikin software translator bahasa daerah, yaitu tepatnya -/+ tiga bulan yang lalu. O.. jadi kalau selama ini yang saya kerjain itu yaitu stemmer! Cape deh!, btw maklum gan saya lulusan pariwisata travel, jadi ngak konek sama istilah bidang TI yaitu diantaranya IR (Information Retrival), NLP (Natural Language Processing), Text Summarizing, Lematization, Question Answering System, Porter stemmer, Paice Husk, Vector Space, serta macam-macam stemmer. dll. Pas dicocok-cocokin SC-nya, ya jelas banget bedanya. Karena saya ngarang sendiri dari awal ngak pake contoh. Mau tau ga gan bedanya algoritma stemmer saya sama stemmer yang lain? Kalau stemmer lain berbasis rule-set murni atau hybrid dengan kamus, nah kalau saya dominan berbasis kamus 90%, 10% simple rule diantaranya kebanyakan pakai “switch case” dan “modifikasi variasi indexof“, udah jelas kan tujuannya bikin software translator bahasa. Nah saya sudah baca 1-3 bulan yang lalu SC Algoritma porter stemmer versi javascriptnya ataupun flowchartnya yaitu memotong suatu kata dengan menghilangkan sedikit-demi-sedikit mulai dari akhiran sampai awalan, tadinya awalnya saya juga mau bikin mirip kaya gitu, tetapi kalau pakai metode ini dijamin pasti salah motong dan keakuratannya rendah, jadi saya ngak jadi bikin yang model gituan. Kalau cara saya dari awal tidak memotong suatu kata, melainkan bongkar pasang awalan/ akhiran dan dipakaikan pada sebuah kata pada database kamus dan proses pengirisan berdasarkan hanya pengandaian saja. Saya mau ngebuktiin bahwa kalau mau membuat sebuah “Stemmer yang sempurna dan efisien” yaitu harus : 1. Harus memakai database kamus, Ibarat kitab suci yaitu sebagai pedoman biar ngak salah sunat kata he..3x. dan btw ternyata udah lama ada yang bikin pakai cara metode ini. Saya yang keberapa ya? 2. Dan Proses pencocokkan string, suatu kata asli baiknya jangan dipotong-potong berkali-kali melainkan hanya pengandaian saja. 3. Pakai algortima shortcut dictionary Contoh : menyapukannyalah -> parsing terlebih dahulu prefix/suffix : “meny”, dan “kannyalah” Kemudian menentukan posisi irisan yaitu di posisi karakter ke 3 (mulai dari angka 0) untuk menentukan inisial kata pada kamus. Looping 1: Kamus mencari kata “apu” Karena kata “apu” tidak ada didalam database kamus maka statement pencocokan dibawah ini di skip yaitu : > Meny + apu + kannyalah Langkah selanjutnya menentukan posisi irisan yaitu diposisi karakter ke 2 kemudian ‘y’ disubsitusikan dengan huruf ‘s’. Looping 2: Kamus mencari kata “sapu” Karena kata “sapu” ada didalam database kamus, kemudian kata sapu diiris karakter depannya saja yaitu “s” sehingga menjadi kata “apu” lalu statement pencocokan dibawah ini dijalankan {jika cocok maka proses stop} > meny+apu+ kannyalah (cocok) BedakanAlgortimanya buatan saya yang diatas dibanding algoritma stemmer2 lain di bawah ini: > menyapukannyalah -> menyapukannya -> menyapukan -> menyapu -> yapu -> sapu Mau tau ga gan? Apa bedanya kesulitan algortima stemmer bahasa inggris sama bahasa indonesia? Bedanya kalau bahasa inggris sulit bikin stemmingnya yaitu di akhiran kata Kalauindonesiakebalikannya yaitu di awalan kata. Kalau Bahasa arab? Saya udah bikin sebagian, cek aja di software transliteratornya, itu juga baru coba-coba. Kalau stemming bahasa arab bikin saya bingung gan soalnya stemmingnya kompleks yaitu diawalan, diakhiran, juga ditengah-tengah kata, dan saya juga bingung yaitu format databasenya kaya apa ya? Ntar aja mungkin nanti disempurnain bikinnya. Kelebihan software ini yaitu pada algoritma stemmer/lemmatizernya gan, kalau stemmernya ngak sempurna minimal 98-99% akurasinya, otomatis software ini bakalan jadi junk/sampah gan! , untuk mendapatkan stemmer indonesia 100% keakuratannya minimal harus di loop sebanyak 5 kali baru sempurna, di software ini sengaja dibikin hanya 4 loop saja, Mengapa?, alasannya tanggung bikin Source Code(SC)-nya, karena hanya varian awalan me yaitu “me-meng-meng(k)-menge” yang untuk prosesnya sempurnanya menggunakan lima loop. Di versi selanjutnya pakai 5 loop atau lebih juga bisa karena saya pakai engine baru yang lebih cepat, efisien dan rapi SC-nya) Btw bagi para gretongers, jangan ngutak ngutak-kutik melulu cari gratisan internet, saya bawa kabar gembira nih, saya sedekahin nih software Translator & Transliterator buatan saya sendiri. Awalnya sih iseng buat pembelajaran mandiri eh udah gitu keterusan sampe versi 4. Btw kok udah versi 4! Jawabannye versi 1,2 saya ngak release, maklum banyak bolong-bolongnye, bikin kodenya ancur-ancuran, dan sudah puluhan kali ganti core engine translatornya. Kenapa udah puluhan kali ganti engine? Karena saya ngak demen ama Source Code (SC) sampe ribuan baris, ngak efisien/kagak cepet, berantakan, super ribet, kalau di tinggal sebulan aja itu SC kadang2 bikin saya bingung, sampai-sampai dalam hati berkata : “busyet ini SC apaan ya, kok saya ngak bisa ngurai-in padahal SC ini kan saya yang buat”. Btw software ini bikinan saya yang paling sinting yang pernah saya buat, untung aje otak saya ngak sampe sinting. Btw software ini bersifat freeware, jadi jangan ragu2 dan buruan copy2-in sebanyak-banyaknye sebelum jadi shareware di versi smartphone, dan mudah-mudahan saya bisa dapet penghargaan platinum award. Mengapa program ini freewere? Uang bukan segala-segalanya, tetapi segala-galanya butuh uang, Dan surga hanya bisa dibeli dengan pahala. Jadi semoga software ini menjadi ladang amal, bagi orang tua saya khususnya saya juga. Bagi yang merasa software ini bermanfaat cukup berterima kasih dan sumpahin yang ngebuat software ini supaya masuk surga. Btw sebenernya bulan lalu sudah ada prototipe v5-nya, proses kecepatannya meningkat bisa 7x lebih cepat dari versi yang ini gan! Bocorannya Algoritmanya : Databasenya tidak lagi pakai database array! Tetapi pakai string! Gimana tuh gan? Logikanya : jika saya punya database ukuran besar, misalnya 1 GB iterasi datanya dengan algoritma ini secara teorinya bisa nemuin data hanya dalam puluhan milisecond saja dalam menemukan sebuah kata ataupun sebuah kalimat yang sangat panjang, dengan syarat yaitu setelah database kamus dan grammar dibaca dan dicache kedalam RAM komputer. Tujuan saya jelas yaitu mewujudkan sebuah translator dengan kecepatan “real-time” Ilmunya : dinamakan “Shortcut-Dictionary/Grammar” Variabel databasenya adalah string Dan variable string tersebut itu masing2 unik karena menggunakan kata kamus/grammar itu sendiri dan proses pencariannya menggunakan try..cacth ditengah2nya proses eval di versi ini sudah diterapkan secara parsial (percobaan) yaitu di grammar Indonesia-inggris. Untuk versi selanjutnya 100% rencananya akan menggunakan algoritma ini dan algoritma ini pas 100% cocok untuk hal tersebut diatas. Kapan jadinya yang versi 5? Belum tau gan masalahnya saya udahcapenihmikirnya, karena saya harus rubah lagi semua engine2nya dan modifikasi databasenya kamusnya mungkin aja 1 s/d 5 tahun ke depan baru jadi. Busyet lama amat nunggunya!. Jangan lupa gan software Translator ini, bisa dijadiin “spelling checker” inggris dan indonesia, tanda-tandanya kalau dokumen agan di “underline” ada kemungkinan dokumen agan salah ketik. Satu lagi yaitu software Transliteratornya terutama tranlsliterator arab, agan bisa ngajarin anak-anak agan huruf-huruf alquran lewat ketikan keyboard, kalau buat agan yaitu menulis tulisan arab dengan cepet, kalau mau nampilin tulisan arab di Ms word, tulisan arab di software ini di copy-paste ke excel dulu kemudian di copy paste lagi ke Ms word” biar tulisannya ngak kebalik. untuk font2 arab tambahan silahkan dicari sendiri dulu di google. karena sebagian ada licensenya. jadi tidak dishare di sini. dan font “arial unicode MS” untuk menampilkan font jepang (katakana/hiragana), rusia, yunani, hebrew. biasanya font ini ada dibundel di microsoft office. Huh! Sibuk banget nih punya ide ngantrinya-panjang banget, btw kapan kelarnya ya? Contohnya saat ini saya juga dah buat prototype awal Question-Answering System yaitu pencari jawaban dalam sebuah artikel, kalau mau nanya, nanyanya pakai bahasa alami (NLP). Dan kalau sudah jadi enginenya, mau bikin software “chat-bot“ sekalian. Selain itu rencananya saya juga mau membuat transliterator tulisan korea, membuat stemmer bahasa jepang, stemmer bahasa arab, kalau bisa semua bahasa-bahasa asing saya bikinin stemmernya. Kalau sendirian ngerjain cape juga gan mendingan dijadiin pekerjaan atau proyek daripada sekedar iseng. Kira-kira ada ngak gan? Bagi yang udah ngak sabar ini link softwarenya :

http://www.4shared.com/file/KiB06-XI/PTT_SEPTEMBER_2011.html

selamat datang

bintang

Sabtu, 01 September 2012