Abstrak— Natural Language Processing (NLP) adalah bidang dalam ilmu computer yang mencoba menjembatani mesin dan manusia melalui analisis bahasa manusia, misalnya dalam bentuk teks. Data berupa teks sebelum digunakan dalam pelatihan mesin perlu dirubah terlebih dahulu menjadi vektor (trasnformasi) bermakna sehingga dapat dihitung secara matematis. Pemilihan teknik transformasi atau dikenal juga dengan Vector Space Model (VSM) menjadi penting karena dapat berpengaruh terhadap proses pelatihan mesin. Telah dilakukan uji transformasi teks ke vektor menggunakan model Word2Vec pada dataset Rencana Pelaksanaan Pembelajaran (RPP) dan didapatkan bahwa variasi Bag of Centroids Based Word2Vec adalah pilihan Teknik terbaik untuk melakukan transformasi teks dataset RPP berdasarkan analisis matriks hasil perhitungan cosine similarity.
{"title":"Studi Ekstraksi Fitur Data Teks Rencana Pelaksanaan Pembelajaran Memanfaatkan Model Word2Vec","authors":"Daniel Eliazar Latumaerissa","doi":"10.26418/jlk.v4i2.54","DOIUrl":"https://doi.org/10.26418/jlk.v4i2.54","url":null,"abstract":"Abstrak— Natural Language Processing (NLP) adalah bidang dalam ilmu computer yang mencoba menjembatani mesin dan manusia melalui analisis bahasa manusia, misalnya dalam bentuk teks. Data berupa teks sebelum digunakan dalam pelatihan mesin perlu dirubah terlebih dahulu menjadi vektor (trasnformasi) bermakna sehingga dapat dihitung secara matematis. Pemilihan teknik transformasi atau dikenal juga dengan Vector Space Model (VSM) menjadi penting karena dapat berpengaruh terhadap proses pelatihan mesin. Telah dilakukan uji transformasi teks ke vektor menggunakan model Word2Vec pada dataset Rencana Pelaksanaan Pembelajaran (RPP) dan didapatkan bahwa variasi Bag of Centroids Based Word2Vec adalah pilihan Teknik terbaik untuk melakukan transformasi teks dataset RPP berdasarkan analisis matriks hasil perhitungan cosine similarity.","PeriodicalId":418646,"journal":{"name":"Jurnal Linguistik Komputasional (JLK)","volume":"23 1","pages":"0"},"PeriodicalIF":0.0,"publicationDate":"2021-11-30","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"121679768","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
Fawwaz Zaini Ahmad, Muhammad Fauzi Satria Arifandy, Muhammad Rasyad Caesarardhi, Nur Aini Rakhmawati
Saat Pandemi Covid-19 memasuki tahun ke-2, ada beberapa pertanyaan yang mengganjal di antara kita, apakah kita harus terus belajar online, atau berkompromi dengan Pandemi dan membuka kembali sekolah kita. Saat vaksinasi dimulai di seluruh dunia, pertanyaan 'apakah kita harus segera membuka kembali sekolah kita?' menjadi semakin keras. Tujuan dari penelitian ini adalah menganalisis sentiment sebagian masyarakat Indonesia, dalam hal ini pengguna Youtube, dalam hal pembelajaran tatap muka. Data yang digunakan dalam penelitian ini adalah komentar dari sembilan video youtube yang berkaitan dengan pembelajaran tatap muka. Persiapan data meliputi upsampling, casefolding, cleansing, labelling, dan tokenizing. Algoritma yang digunakan adalah pemodelan data LSTM dengan pengoptimasi ADAM Setelah pemodelan, setiap model dievaluasi dan berhasil memperoleh akurasi tertinggi sebesar 78%. Setelah dilakukan permodelan, model dengan akurasi tertinggi digunakan untuk memberi label secara otomatis pada komentar yang belum memiliki label. Langkah terakhir dari penelitian ini adalah melakukan permodelan topik terhadap setiap sentiment, guna mencari tau setiap sentiment berkaitan dengan topik apa.
{"title":"Bagaimana Masyarakat Menyikapi Pembelajaran Tatap Muka: Analisis Komentar Masyarakat pada Media Sosial Youtube Menggunakan Algoritma Deep Learning Sekuensial dan LDA","authors":"Fawwaz Zaini Ahmad, Muhammad Fauzi Satria Arifandy, Muhammad Rasyad Caesarardhi, Nur Aini Rakhmawati","doi":"10.26418/jlk.v4i2.57","DOIUrl":"https://doi.org/10.26418/jlk.v4i2.57","url":null,"abstract":"Saat Pandemi Covid-19 memasuki tahun ke-2, ada beberapa pertanyaan yang mengganjal di antara kita, apakah kita harus terus belajar online, atau berkompromi dengan Pandemi dan membuka kembali sekolah kita. Saat vaksinasi dimulai di seluruh dunia, pertanyaan 'apakah kita harus segera membuka kembali sekolah kita?' menjadi semakin keras. Tujuan dari penelitian ini adalah menganalisis sentiment sebagian masyarakat Indonesia, dalam hal ini pengguna Youtube, dalam hal pembelajaran tatap muka. Data yang digunakan dalam penelitian ini adalah komentar dari sembilan video youtube yang berkaitan dengan pembelajaran tatap muka. Persiapan data meliputi upsampling, casefolding, cleansing, labelling, dan tokenizing. Algoritma yang digunakan adalah pemodelan data LSTM dengan pengoptimasi ADAM Setelah pemodelan, setiap model dievaluasi dan berhasil memperoleh akurasi tertinggi sebesar 78%. Setelah dilakukan permodelan, model dengan akurasi tertinggi digunakan untuk memberi label secara otomatis pada komentar yang belum memiliki label. Langkah terakhir dari penelitian ini adalah melakukan permodelan topik terhadap setiap sentiment, guna mencari tau setiap sentiment berkaitan dengan topik apa.","PeriodicalId":418646,"journal":{"name":"Jurnal Linguistik Komputasional (JLK)","volume":"39 1","pages":"0"},"PeriodicalIF":0.0,"publicationDate":"2021-11-30","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"122084955","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
Prediction of stock movements is important in the business world for knowing the movement of stock both for buying and selling goods. Stock is a financial product characterized by high risk, high return and flexible trading, which is favored by many investors. Investors can get abundant returns by accurately estimating stock price trend. Historical price is often used to predict the stockprice, it can only estimate the periodical trends of the stockprice. However, there could be a particular event that may affect the price. So it cannot capture sudden unexpected events. Social media texts like tweets can have huge impacts on the stock market. By analysing the sentiments of social media information, unexpected behaviour of the price trend could be detected. In this study, we propose to use Gated Recurrent Unit (GRU) for predicting the sentiment of tweets related to stockprice. We implement word vector, in particular word2vec, as features for GRU. Our experiments show that the proposed method is better than other deep learning based sentiment analysis such as BERT (Bidirectional Encoder Representations from Transformers) and BiLSTM (Bidirectional Long Short Term Memory).
{"title":"Sentiment Analysis of Stocktwits Data With Word Vector and Gated Recurrent Unit","authors":"Oscar ., H. Pardede","doi":"10.26418/jlk.v4i2.53","DOIUrl":"https://doi.org/10.26418/jlk.v4i2.53","url":null,"abstract":"Prediction of stock movements is important in the business world for knowing the movement of stock both for buying and selling goods. Stock is a financial product characterized by high risk, high return and flexible trading, which is favored by many investors. Investors can get abundant returns by accurately estimating stock price trend. Historical price is often used to predict the stockprice, it can only estimate the periodical trends of the stockprice. However, there could be a particular event that may affect the price. So it cannot capture sudden unexpected events. Social media texts like tweets can have huge impacts on the stock market. By analysing the sentiments of social media information, unexpected behaviour of the price trend could be detected. In this study, we propose to use Gated Recurrent Unit (GRU) for predicting the sentiment of tweets related to stockprice. We implement word vector, in particular word2vec, as features for GRU. Our experiments show that the proposed method is better than other deep learning based sentiment analysis such as BERT (Bidirectional Encoder Representations from Transformers) and BiLSTM (Bidirectional Long Short Term Memory).","PeriodicalId":418646,"journal":{"name":"Jurnal Linguistik Komputasional (JLK)","volume":"110 1","pages":"0"},"PeriodicalIF":0.0,"publicationDate":"2021-11-30","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"132352622","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
Question answering (QA) system is developed to find the right answers from natural language questions. QA systems can be used for building chatbots or even search engines. In this study, we’ve built an Indonesian QA system that uses Anindya Knowledge Graph as its data source. The idea behind this QA system is translating questions into SPARQL queries. The proposed solution consists of four modules, namely question classification, information extraction, token mapping, and query construction. The question classification and the information extraction modules were experimented using SVM, LSTM, and fine-tuning IndoBERT. The text representations were also tested to find the best result among tf-idf, FastText, and IndoBERT. In our experiment, we found that the fine-tuning IndoBERT model had obtained the best performance on both question classification and information extraction modules.
{"title":"Indonesian Question Answering System for Factoid Questions using Face Beauty Products Knowledge Graph","authors":"Mahanti Indah Rahajeng, A. Purwarianti","doi":"10.26418/jlk.v4i2.62","DOIUrl":"https://doi.org/10.26418/jlk.v4i2.62","url":null,"abstract":"Question answering (QA) system is developed to find the right answers from natural language questions. QA systems can be used for building chatbots or even search engines. In this study, we’ve built an Indonesian QA system that uses Anindya Knowledge Graph as its data source. The idea behind this QA system is translating questions into SPARQL queries. The proposed solution consists of four modules, namely question classification, information extraction, token mapping, and query construction. The question classification and the information extraction modules were experimented using SVM, LSTM, and fine-tuning IndoBERT. The text representations were also tested to find the best result among tf-idf, FastText, and IndoBERT. In our experiment, we found that the fine-tuning IndoBERT model had obtained the best performance on both question classification and information extraction modules.","PeriodicalId":418646,"journal":{"name":"Jurnal Linguistik Komputasional (JLK)","volume":"66 1","pages":"0"},"PeriodicalIF":0.0,"publicationDate":"2021-09-27","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"124888628","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
Sarkasme dapat mengubah polaritas kalimat dari positif atau negatif menjadi sebaliknya. Sementara senti-men analisis pada sosial media sudah banyak dimanfaatkan, tetapi masih jarang sekali ditemukan sentimen analisis yang mempertimbangkan pendeteksian sarkasme didalamnya. Hal ini tentu akan mempengaruhi kualitas dari hasil analisis. Percobaan mengenai sentimen analisis dengan pendeteksian sarkasme lebih sering ditemukan pada penggunaan bahasa Inggris. Oleh karena itu, dengan mengacu pada penelitian yang dilakukan pada tweet berbahasa Inggris, pada penelitian ini kami menganalisa sentimen analisis bernada sarkasme pada Tweet berbahasa Indonesia dengan menggunakan fitur interjeksi dan unigram sebagai fitur utama oendeteksi kalimat sarkasme serta membandingkan 2 metode klasifikasi yaitu Naive Bayes dan Support Vector Machine dengan kernel polinomial. Fitur interjeksi menyatakan fitur yang memuat kata-kata yang mengungkapkan perasaan dan maksud seseorang, sedangkan fitur unigram merupakan kumpulan kata tunggal yang diperoleh dari korpus secara otomatis. Hasil eksperimen menunjukkan penggunaan fitur interjeksi dan unigram sebagai pendeteksian sarkasme pada tweet berbahasa Indonesia mampu meningkatkan akurasi dengan rata-rata kenaikan akurasi lebih dari 8% untuk classifier Naive Bayes dan lebih dari 13% untuk classifier Support Vector Machine dibandingkan hanya menggunakan fitur unigram saja. Hasil lainnya adalah akurasi terbaik adalah metode Naive Bayes dengan akurasi terbaik yang diperoleh mencapai lebih dari 91.
{"title":"Sentiment Analysis Terhadap Tweet Bernada Sarkasme Berbahasa Indonesia","authors":"Lanny Septiani","doi":"10.26418/jlk.v2i2.23","DOIUrl":"https://doi.org/10.26418/jlk.v2i2.23","url":null,"abstract":"Sarkasme dapat mengubah polaritas kalimat dari positif atau negatif menjadi sebaliknya. Sementara senti-men analisis pada sosial media sudah banyak dimanfaatkan, tetapi masih jarang sekali ditemukan sentimen analisis yang mempertimbangkan pendeteksian sarkasme didalamnya. Hal ini tentu akan mempengaruhi kualitas dari hasil analisis. Percobaan mengenai sentimen analisis dengan pendeteksian sarkasme lebih sering ditemukan pada penggunaan bahasa Inggris. Oleh karena itu, dengan mengacu pada penelitian yang dilakukan pada tweet berbahasa Inggris, pada penelitian ini kami menganalisa sentimen analisis bernada sarkasme pada Tweet berbahasa Indonesia dengan menggunakan fitur interjeksi dan unigram sebagai fitur utama oendeteksi kalimat sarkasme serta membandingkan 2 metode klasifikasi yaitu Naive Bayes dan Support Vector Machine dengan kernel polinomial. Fitur interjeksi menyatakan fitur yang memuat kata-kata yang mengungkapkan perasaan dan maksud seseorang, sedangkan fitur unigram merupakan kumpulan kata tunggal yang diperoleh dari korpus secara otomatis. Hasil eksperimen menunjukkan penggunaan fitur interjeksi dan unigram sebagai pendeteksian sarkasme pada tweet berbahasa Indonesia mampu meningkatkan akurasi dengan rata-rata kenaikan akurasi lebih dari 8% untuk classifier Naive Bayes dan lebih dari 13% untuk classifier Support Vector Machine dibandingkan hanya menggunakan fitur unigram saja. Hasil lainnya adalah akurasi terbaik adalah metode Naive Bayes dengan akurasi terbaik yang diperoleh mencapai lebih dari 91.","PeriodicalId":418646,"journal":{"name":"Jurnal Linguistik Komputasional (JLK)","volume":"75 1","pages":"0"},"PeriodicalIF":0.0,"publicationDate":"2020-11-23","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"127288038","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
Naufal Rasyad, M. A. Bijaksana, Kemas Muslim Lhaksmana
Al-Qur’an merupakan kitab suci utama bagi umat Islam yang ditulis menggunakan bahasa Arab. Seiring dengan perkembangan teknologi, telah dikembangkan sistem pencarian ayat Al-Qur'an berdasarkan kemiripan fonetis salah satunya adalah Lafzi. Namun untuk menangani perbedaan bunyi pada tanda berhenti di pertengahan ayat, sistem Lafzi belum bisa menanganinya dengan baik. Maka dari itu, dibutuhkan sistem yang dapat membantu pengguna dalam melakukan pencarian ayat Al-Qur’an, terutama untuk perbedaan bunyi pada tanda berhenti sehingga pencarian bisa menemukan kata yang berbeda pengucapan pada tanda berhenti. Berdasarkan permasalahan tersebut, dari sistem Lafzi, dilakukan pengembangan supaya dapat melakukan pencarian yang bisa menangani perbedaan bunyi pada tanda berhenti. Digunakan pengindeksan trigram untuk memperkirakan kecocokan string antara query dengan transliterasi ayat Al-Qur'an serta dibuat aturan pada input dengan huruf akhir 'T' menjadi 'H'. Sistem yang sudah ada mendapatkan nilai recall sebesar 81% dan nilai MAP sebesar 65%. Sedangkan hasil dari penelitian ini diperoleh nilai recall sebesar 100% dan nilai MAP sebesar 84%.
{"title":"Pencarian Potongan Ayat Al-Qur'an dengan Perbedaan Bunyi pada Tanda Berhenti Berdasarkan Kemiripan Fonetis","authors":"Naufal Rasyad, M. A. Bijaksana, Kemas Muslim Lhaksmana","doi":"10.26418/jlk.v2i2.25","DOIUrl":"https://doi.org/10.26418/jlk.v2i2.25","url":null,"abstract":"Al-Qur’an merupakan kitab suci utama bagi umat Islam yang ditulis menggunakan bahasa Arab. Seiring dengan perkembangan teknologi, telah dikembangkan sistem pencarian ayat Al-Qur'an berdasarkan kemiripan fonetis salah satunya adalah Lafzi. Namun untuk menangani perbedaan bunyi pada tanda berhenti di pertengahan ayat, sistem Lafzi belum bisa menanganinya dengan baik. Maka dari itu, dibutuhkan sistem yang dapat membantu pengguna dalam melakukan pencarian ayat Al-Qur’an, terutama untuk perbedaan bunyi pada tanda berhenti sehingga pencarian bisa menemukan kata yang berbeda pengucapan pada tanda berhenti. Berdasarkan permasalahan tersebut, dari sistem Lafzi, dilakukan pengembangan supaya dapat melakukan pencarian yang bisa menangani perbedaan bunyi pada tanda berhenti. Digunakan pengindeksan trigram untuk memperkirakan kecocokan string antara query dengan transliterasi ayat Al-Qur'an serta dibuat aturan pada input dengan huruf akhir 'T' menjadi 'H'. Sistem yang sudah ada mendapatkan nilai recall sebesar 81% dan nilai MAP sebesar 65%. Sedangkan hasil dari penelitian ini diperoleh nilai recall sebesar 100% dan nilai MAP sebesar 84%.","PeriodicalId":418646,"journal":{"name":"Jurnal Linguistik Komputasional (JLK)","volume":"1 1","pages":"0"},"PeriodicalIF":0.0,"publicationDate":"2019-09-28","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"130698075","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
Penelitian ini menitikberatkan pada studi kasus sederhana yang melibatkan dua orang pengujar, native dan non-native dalam mengucapkan kata-kata yang mengandung diftong. Bidang linguistik yang terkait adalah fonetik dan fonologi, dengan bantuan sebuah aplikasi PRAAT untuk menghitung frekuensi dan intensitas ujaran. Subjek pembahasan dalam penelitian ini adalah vokal rangkap/diftong (diphthong) yang terdapat dalam beberapa kata berbahasa Inggris. Yang difokuskan hanyalah unsur pitch dan intensity dari dua orang pengujar dalam mengujarkan kata-kata bervokal rangkap tersebut. Metode penelitian yang digunakan dalam mendapatkan perbandingan pitch dan intensity dari dua pengujar ini adalah deskriptif-analisis dengan penyuguhan data berupa tabel angka serta grafik. Penelitian ini melibatkan satu pengujar native dan satu pengujar non-native untuk mendapatkan hasil yang bisa diperbandingkan. Metode pengambilan data menggunakan PRAAT dengan file audio sebagai sumber data utama. Hasil dari penelitian ini menunjukkan bahwa pengujaran diftong dengan nilai pitch tertinggi baik dari pengujar native maupun non-native terlihat pada saat pengujaran kata dengan diftong /ɔɪ/; frekuensinya adalah 216.8 Hz untuk native dan 301.1 Hz untuk pengujar non-native. Sedangkan untuk intensity, diftong /ɪə/ memiliki angka intensitas terbesar yaitu 78.36 untuk pengujar native dan 80.52 untuk pengujar non-native. Berdasarkan pengambilan sampel data suara dari dua orang pengujar, maka dapat disimpulkan bahwa diftong /ɔɪ/ memiliki frekuensi yang tertinggi dibandingkan lainnya. Dan, diftongp /ɪə/ memiliki angka intensitas tertinggi dibandingkan dengan diftong lainnya. Penelitian menggunakan PRAAT dengan memperbandingkan pengujar native dan non-native secara fonetis memberikan ruang penelitian baru di ranah Bahasa dan teknologi.
{"title":"Pengukuran Pitch dan Intensity Diftong Tertinggi Menggunakan Program PRAAT","authors":"Heri Heryono","doi":"10.26418/jlk.v2i2.22","DOIUrl":"https://doi.org/10.26418/jlk.v2i2.22","url":null,"abstract":"Penelitian ini menitikberatkan pada studi kasus sederhana yang melibatkan dua orang pengujar, native dan non-native dalam mengucapkan kata-kata yang mengandung diftong. Bidang linguistik yang terkait adalah fonetik dan fonologi, dengan bantuan sebuah aplikasi PRAAT untuk menghitung frekuensi dan intensitas ujaran. Subjek pembahasan dalam penelitian ini adalah vokal rangkap/diftong (diphthong) yang terdapat dalam beberapa kata berbahasa Inggris. Yang difokuskan hanyalah unsur pitch dan intensity dari dua orang pengujar dalam mengujarkan kata-kata bervokal rangkap tersebut. Metode penelitian yang digunakan dalam mendapatkan perbandingan pitch dan intensity dari dua pengujar ini adalah deskriptif-analisis dengan penyuguhan data berupa tabel angka serta grafik. Penelitian ini melibatkan satu pengujar native dan satu pengujar non-native untuk mendapatkan hasil yang bisa diperbandingkan. Metode pengambilan data menggunakan PRAAT dengan file audio sebagai sumber data utama. Hasil dari penelitian ini menunjukkan bahwa pengujaran diftong dengan nilai pitch tertinggi baik dari pengujar native maupun non-native terlihat pada saat pengujaran kata dengan diftong /ɔɪ/; frekuensinya adalah 216.8 Hz untuk native dan 301.1 Hz untuk pengujar non-native. Sedangkan untuk intensity, diftong /ɪə/ memiliki angka intensitas terbesar yaitu 78.36 untuk pengujar native dan 80.52 untuk pengujar non-native. Berdasarkan pengambilan sampel data suara dari dua orang pengujar, maka dapat disimpulkan bahwa diftong /ɔɪ/ memiliki frekuensi yang tertinggi dibandingkan lainnya. Dan, diftongp /ɪə/ memiliki angka intensitas tertinggi dibandingkan dengan diftong lainnya. Penelitian menggunakan PRAAT dengan memperbandingkan pengujar native dan non-native secara fonetis memberikan ruang penelitian baru di ranah Bahasa dan teknologi.","PeriodicalId":418646,"journal":{"name":"Jurnal Linguistik Komputasional (JLK)","volume":"1 1","pages":"0"},"PeriodicalIF":0.0,"publicationDate":"2019-09-24","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"129319337","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
Tujuan dari artikel ini adalah membuat kajian literatur terhadap metode pelabelan part-of-speech (POS tagger) untuk Bahasa Indonesia yang telah dilakukan selama 11 tahun terakhir (sejak tahun 2008). Artikel ini dapat menjadi roadmap POS tagger Bahasa Indonesia dan juga dasar pertimbangan untuk pengembangan selanjutnya agar menggunakan dataset dan tagset yang standar sebagai benchmark metode. Terdapat 15 publikasi yang dibahas, pembahasan meliputi dataset, tagset dan metode yang digunakan untuk POS tag Bahasa Indonesia. Dataset yang paling banyak digunakan dan paling mungkin menjadi corpus standar adalah IDN Tagged Corpus terdiri dari lebih dari 250.000 token. Tagset Bahasa Indonesia hingga saat ini belum terstandarisasi dengan jumlah label bervariasi dari 16 tag hingga 37 tag. Metode yang paling banyak dikembangkan dan berpotensi menjadi state-of-the-art adalah neural network, dengan varian metode biLSTM dan CRF dan sejauh ini memberikan skor F1 dan akurasi tertinggi (>96%).
{"title":"Perkembangan Part-of-Speech Tagger Bahasa Indonesia","authors":"Mia Kamayani","doi":"10.26418/jlk.v2i2.20","DOIUrl":"https://doi.org/10.26418/jlk.v2i2.20","url":null,"abstract":"Tujuan dari artikel ini adalah membuat kajian literatur terhadap metode pelabelan part-of-speech (POS tagger) untuk Bahasa Indonesia yang telah dilakukan selama 11 tahun terakhir (sejak tahun 2008). Artikel ini dapat menjadi roadmap POS tagger Bahasa Indonesia dan juga dasar pertimbangan untuk pengembangan selanjutnya agar menggunakan dataset dan tagset yang standar sebagai benchmark metode. Terdapat 15 publikasi yang dibahas, pembahasan meliputi dataset, tagset dan metode yang digunakan untuk POS tag Bahasa Indonesia. Dataset yang paling banyak digunakan dan paling mungkin menjadi corpus standar adalah IDN Tagged Corpus terdiri dari lebih dari 250.000 token. Tagset Bahasa Indonesia hingga saat ini belum terstandarisasi dengan jumlah label bervariasi dari 16 tag hingga 37 tag. Metode yang paling banyak dikembangkan dan berpotensi menjadi state-of-the-art adalah neural network, dengan varian metode biLSTM dan CRF dan sejauh ini memberikan skor F1 dan akurasi tertinggi (>96%).","PeriodicalId":418646,"journal":{"name":"Jurnal Linguistik Komputasional (JLK)","volume":"12 1","pages":"0"},"PeriodicalIF":0.0,"publicationDate":"2019-09-24","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"122450559","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
We proposed the usage of dependency tree information to increase the accuracy of Indonesian factoid question answering. We employed MSTParser and Universal Dependency corpus to build the Indonesian dependency parser. The dependency tree information as the result of the Indonesian dependency parse is used in the answer finder component of Indonesian factoid question answering system. Here, we used dependency tree information in two ways: 1) as one of the features in machine learning based answer finder (classifying each term in the retrieved passage as part of a correct answer or not); 2) as an additional heuristic rule after conducting the machine learning technique. For the machine learning technique, we combined word based calculation, phrase based calculation and similarity dependency relation based calculation as the complete features. Using 203 data, we were able to enhance the accuracy for the Indonesian factoid QA system compared to related work by only using the phrase information. The best accuracy was 84.34% for the correct answer classification and the best MRR was 0.954.
{"title":"Employing Dependency Tree in Machine Learning Based Indonesian Factoid Question Answering","authors":"Irfan Afif, A. Purwarianti","doi":"10.26418/JLK.V2I1.9","DOIUrl":"https://doi.org/10.26418/JLK.V2I1.9","url":null,"abstract":"We proposed the usage of dependency tree information to increase the accuracy of Indonesian factoid question answering. We employed MSTParser and Universal Dependency corpus to build the Indonesian dependency parser. The dependency tree information as the result of the Indonesian dependency parse is used in the answer finder component of Indonesian factoid question answering system. Here, we used dependency tree information in two ways: 1) as one of the features in machine learning based answer finder (classifying each term in the retrieved passage as part of a correct answer or not); 2) as an additional heuristic rule after conducting the machine learning technique. For the machine learning technique, we combined word based calculation, phrase based calculation and similarity dependency relation based calculation as the complete features. Using 203 data, we were able to enhance the accuracy for the Indonesian factoid QA system compared to related work by only using the phrase information. The best accuracy was 84.34% for the correct answer classification and the best MRR was 0.954.","PeriodicalId":418646,"journal":{"name":"Jurnal Linguistik Komputasional (JLK)","volume":"108 1","pages":"0"},"PeriodicalIF":0.0,"publicationDate":"2019-03-31","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"123594384","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
Muhammad Zidny Naf’an, Auliya Burhanuddin, Ade Riyani
Plagiarism is the act of taking part or all of one's ideas in the form of documents or texts without including sources of information retrieval. This study aims to detect the similarity of text documents using the cosine similarity algorithm and weighting TF-IDF so that it can be used to determine the value of plagiarism. The document used for comparison of this text is an abstract of Indonesian. The results of the study, namely when stemming the similarity value is higher on average 10% than the stemming process is not done. This study produces a similarity value above 50% for documents with a high degree of similarity. Whereas documents with low similarity levels or no plagiarism produce similarity values below 40%. With the method used in the preprocessing consisting of folding cases, tokenizing, removeal stopwords, and stemming. After the preprocessing process, the next step is to calculate the weighting of TF-IDF and the similarity value using cosine similarity so that it gets a percentage similarity value. Based on the experimental results of the cosine similarity algorithm and weighting TF-IDF, it can produce similarity values from each comparative document
{"title":"Penerapan Cosine Similarity dan Pembobotan TF-IDF untuk Mendeteksi Kemiripan Dokumen","authors":"Muhammad Zidny Naf’an, Auliya Burhanuddin, Ade Riyani","doi":"10.26418/jlk.v2i1.17","DOIUrl":"https://doi.org/10.26418/jlk.v2i1.17","url":null,"abstract":"Plagiarism is the act of taking part or all of one's ideas in the form of documents or texts without including sources of information retrieval. This study aims to detect the similarity of text documents using the cosine similarity algorithm and weighting TF-IDF so that it can be used to determine the value of plagiarism. The document used for comparison of this text is an abstract of Indonesian. The results of the study, namely when stemming the similarity value is higher on average 10% than the stemming process is not done. This study produces a similarity value above 50% for documents with a high degree of similarity. Whereas documents with low similarity levels or no plagiarism produce similarity values below 40%. With the method used in the preprocessing consisting of folding cases, tokenizing, removeal stopwords, and stemming. After the preprocessing process, the next step is to calculate the weighting of TF-IDF and the similarity value using cosine similarity so that it gets a percentage similarity value. Based on the experimental results of the cosine similarity algorithm and weighting TF-IDF, it can produce similarity values from each comparative document","PeriodicalId":418646,"journal":{"name":"Jurnal Linguistik Komputasional (JLK)","volume":"6 4 1","pages":"0"},"PeriodicalIF":0.0,"publicationDate":"2019-03-26","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"125607683","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}