首页 > 最新文献

Jurnal Linguistik Komputasional (JLK)最新文献

英文 中文
Studi Ekstraksi Fitur Data Teks Rencana Pelaksanaan Pembelajaran Memanfaatkan Model Word2Vec 使用Word2Vec模式提取文本数据特性研究计划学习执行模式
Pub Date : 2021-11-30 DOI: 10.26418/jlk.v4i2.54
Daniel Eliazar Latumaerissa
Abstrak— Natural Language Processing (NLP) adalah bidang dalam ilmu computer yang mencoba menjembatani mesin dan manusia melalui analisis bahasa manusia, misalnya dalam bentuk teks. Data berupa teks sebelum digunakan dalam pelatihan mesin perlu dirubah terlebih dahulu menjadi vektor (trasnformasi) bermakna sehingga dapat dihitung secara matematis. Pemilihan teknik transformasi atau dikenal juga dengan Vector Space Model (VSM) menjadi penting karena dapat berpengaruh terhadap proses pelatihan mesin. Telah dilakukan uji transformasi teks ke vektor menggunakan model Word2Vec pada dataset Rencana Pelaksanaan Pembelajaran (RPP) dan didapatkan bahwa variasi Bag of Centroids Based Word2Vec adalah pilihan Teknik terbaik untuk melakukan transformasi teks dataset RPP berdasarkan analisis matriks hasil perhitungan cosine similarity.
抽象——自然语言处理是计算机科学的一个领域,试图通过对人类语言的分析来连接机器和人类,比如文本。在引擎训练中使用文本之前的数据需要首先将其转换为有意义的向量(trasnformation),以便可以数学计算。选择一种或称Vector Space模型(VSM)的转化技术变得至关重要,因为它可能会影响机器的训练过程。在研究执行计划的数据集(RPP)中,用Word2Vec模型对文本进行了转换测试,发现在分析矩阵中,以RPP为基础的质体袋的变化是将RPP数据集变异的最佳技术选择,该技术基于cosine相似的分析结果的矩阵分析。
{"title":"Studi Ekstraksi Fitur Data Teks Rencana Pelaksanaan Pembelajaran Memanfaatkan Model Word2Vec","authors":"Daniel Eliazar Latumaerissa","doi":"10.26418/jlk.v4i2.54","DOIUrl":"https://doi.org/10.26418/jlk.v4i2.54","url":null,"abstract":"Abstrak— Natural Language Processing (NLP) adalah bidang dalam ilmu computer yang mencoba menjembatani mesin dan manusia melalui analisis bahasa manusia, misalnya dalam bentuk teks. Data berupa teks sebelum digunakan dalam pelatihan mesin perlu dirubah terlebih dahulu menjadi vektor (trasnformasi) bermakna sehingga dapat dihitung secara matematis. Pemilihan teknik transformasi atau dikenal juga dengan Vector Space Model (VSM) menjadi penting karena dapat berpengaruh terhadap proses pelatihan mesin. Telah dilakukan uji transformasi teks ke vektor menggunakan model Word2Vec pada dataset Rencana Pelaksanaan Pembelajaran (RPP) dan didapatkan bahwa variasi Bag of Centroids Based Word2Vec adalah pilihan Teknik terbaik untuk melakukan transformasi teks dataset RPP berdasarkan analisis matriks hasil perhitungan cosine similarity.","PeriodicalId":418646,"journal":{"name":"Jurnal Linguistik Komputasional (JLK)","volume":"23 1","pages":"0"},"PeriodicalIF":0.0,"publicationDate":"2021-11-30","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"121679768","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
引用次数: 1
Bagaimana Masyarakat Menyikapi Pembelajaran Tatap Muka: Analisis Komentar Masyarakat pada Media Sosial Youtube Menggunakan Algoritma Deep Learning Sekuensial dan LDA 社区如何看待面对面的学习:使用深度学习算法和LDA的研究分析Youtube社交媒体上的评论
Pub Date : 2021-11-30 DOI: 10.26418/jlk.v4i2.57
Fawwaz Zaini Ahmad, Muhammad Fauzi Satria Arifandy, Muhammad Rasyad Caesarardhi, Nur Aini Rakhmawati
Saat Pandemi Covid-19 memasuki tahun ke-2, ada beberapa pertanyaan yang mengganjal di antara kita, apakah kita harus terus belajar online, atau berkompromi dengan Pandemi dan membuka kembali sekolah kita. Saat vaksinasi dimulai di seluruh dunia, pertanyaan 'apakah kita harus segera membuka kembali sekolah kita?' menjadi semakin keras. Tujuan dari penelitian ini adalah menganalisis sentiment sebagian masyarakat Indonesia, dalam hal ini pengguna Youtube, dalam hal pembelajaran tatap muka. Data yang digunakan dalam penelitian ini adalah komentar dari sembilan video youtube yang berkaitan dengan pembelajaran tatap muka. Persiapan data meliputi upsampling, casefolding, cleansing, labelling, dan tokenizing. Algoritma yang digunakan adalah pemodelan data LSTM dengan pengoptimasi ADAM Setelah pemodelan, setiap model dievaluasi dan berhasil memperoleh akurasi tertinggi sebesar 78%. Setelah dilakukan permodelan, model dengan akurasi tertinggi digunakan untuk memberi label secara otomatis pada komentar yang belum memiliki label. Langkah terakhir dari penelitian ini adalah melakukan permodelan topik terhadap setiap sentiment, guna mencari tau setiap sentiment berkaitan dengan topik apa.
当Covid-19大流行进入第二年时,我们之间提出了一些问题,我们是应该继续在网上学习,还是与大流行妥协,重新开放我们的学校。当疫苗接种在世界各地开始时,“我们是否应该立即重新开放我们的学校?”声音越来越大。本研究的目的是分析印尼社会的情绪,在这种情况下是Youtube用户,在面对面学习方面。本研究使用的数据是youtube上九个与面对面学习相关的视频的评论。数据准备包括upsampling、casefolding、净化、标签和tokenizing。使用的算法是LSTM数据建模,在建模后对亚当进行优化,对每个模型进行评估,并成功地获得了78%的最高准确性。做了模型后,最精确的模型被用来自动标记没有标签的评论。研究的最后一步是对每一种情感进行建模,试图找出每一种情感与什么有关。
{"title":"Bagaimana Masyarakat Menyikapi Pembelajaran Tatap Muka: Analisis Komentar Masyarakat pada Media Sosial Youtube Menggunakan Algoritma Deep Learning Sekuensial dan LDA","authors":"Fawwaz Zaini Ahmad, Muhammad Fauzi Satria Arifandy, Muhammad Rasyad Caesarardhi, Nur Aini Rakhmawati","doi":"10.26418/jlk.v4i2.57","DOIUrl":"https://doi.org/10.26418/jlk.v4i2.57","url":null,"abstract":"Saat Pandemi Covid-19 memasuki tahun ke-2, ada beberapa pertanyaan yang mengganjal di antara kita, apakah kita harus terus belajar online, atau berkompromi dengan Pandemi dan membuka kembali sekolah kita. Saat vaksinasi dimulai di seluruh dunia, pertanyaan 'apakah kita harus segera membuka kembali sekolah kita?' menjadi semakin keras. Tujuan dari penelitian ini adalah menganalisis sentiment sebagian masyarakat Indonesia, dalam hal ini pengguna Youtube, dalam hal pembelajaran tatap muka. Data yang digunakan dalam penelitian ini adalah komentar dari sembilan video youtube yang berkaitan dengan pembelajaran tatap muka. Persiapan data meliputi upsampling, casefolding, cleansing, labelling, dan tokenizing. Algoritma yang digunakan adalah pemodelan data LSTM dengan pengoptimasi ADAM Setelah pemodelan, setiap model dievaluasi dan berhasil memperoleh akurasi tertinggi sebesar 78%. Setelah dilakukan permodelan, model dengan akurasi tertinggi digunakan untuk memberi label secara otomatis pada komentar yang belum memiliki label. Langkah terakhir dari penelitian ini adalah melakukan permodelan topik terhadap setiap sentiment, guna mencari tau setiap sentiment berkaitan dengan topik apa.","PeriodicalId":418646,"journal":{"name":"Jurnal Linguistik Komputasional (JLK)","volume":"39 1","pages":"0"},"PeriodicalIF":0.0,"publicationDate":"2021-11-30","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"122084955","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
引用次数: 1
Sentiment Analysis of Stocktwits Data With Word Vector and Gated Recurrent Unit 基于词向量和门控循环单元的股票交易数据情感分析
Pub Date : 2021-11-30 DOI: 10.26418/jlk.v4i2.53
Oscar ., H. Pardede
Prediction of stock movements is important in the business world for knowing the movement of stock both for buying and selling goods. Stock is a financial product characterized by high risk, high return and flexible trading, which is favored by many investors. Investors can get abundant returns by accurately estimating stock price trend. Historical price is often used to predict the stockprice, it can only estimate the periodical trends of the stockprice. However, there could be a particular event that may affect the price. So it cannot capture sudden unexpected events. Social media texts like tweets can have huge impacts on the stock market. By analysing the sentiments of social media information, unexpected behaviour of the price trend could be detected. In this study, we propose to use Gated Recurrent Unit (GRU) for predicting the sentiment of tweets related to stockprice. We implement word vector, in particular word2vec, as features for GRU. Our experiments show that the proposed method is better than other deep learning based sentiment analysis such as BERT (Bidirectional Encoder Representations from Transformers)  and BiLSTM (Bidirectional Long Short Term Memory).
在商业世界中,预测股票走势对于了解买卖商品的股票走势非常重要。股票是一种高风险、高收益、交易灵活的金融产品,受到众多投资者的青睐。通过对股价走势的准确预测,投资者可以获得丰厚的回报。历史价格常被用来预测股票价格,它只能估计股票价格的周期性趋势。然而,可能会有一个特殊的事件可能会影响价格。所以它不能捕捉突然的意外事件。像推特这样的社交媒体文本会对股市产生巨大影响。通过分析社交媒体信息的情绪,可以发现价格趋势的意外行为。在本研究中,我们建议使用门控循环单元(GRU)来预测与股价相关的推文情绪。我们实现了词向量,特别是word2vec,作为GRU的特征。我们的实验表明,该方法优于其他基于深度学习的情感分析,如BERT(双向编码器表示从变形金刚)和BiLSTM(双向长短期记忆)。
{"title":"Sentiment Analysis of Stocktwits Data With Word Vector and Gated Recurrent Unit","authors":"Oscar ., H. Pardede","doi":"10.26418/jlk.v4i2.53","DOIUrl":"https://doi.org/10.26418/jlk.v4i2.53","url":null,"abstract":"Prediction of stock movements is important in the business world for knowing the movement of stock both for buying and selling goods. Stock is a financial product characterized by high risk, high return and flexible trading, which is favored by many investors. Investors can get abundant returns by accurately estimating stock price trend. Historical price is often used to predict the stockprice, it can only estimate the periodical trends of the stockprice. However, there could be a particular event that may affect the price. So it cannot capture sudden unexpected events. Social media texts like tweets can have huge impacts on the stock market. By analysing the sentiments of social media information, unexpected behaviour of the price trend could be detected. In this study, we propose to use Gated Recurrent Unit (GRU) for predicting the sentiment of tweets related to stockprice. We implement word vector, in particular word2vec, as features for GRU. Our experiments show that the proposed method is better than other deep learning based sentiment analysis such as BERT (Bidirectional Encoder Representations from Transformers)  and BiLSTM (Bidirectional Long Short Term Memory).","PeriodicalId":418646,"journal":{"name":"Jurnal Linguistik Komputasional (JLK)","volume":"110 1","pages":"0"},"PeriodicalIF":0.0,"publicationDate":"2021-11-30","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"132352622","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
引用次数: 0
Indonesian Question Answering System for Factoid Questions using Face Beauty Products Knowledge Graph 基于面部美容产品知识图谱的印尼问答系统
Pub Date : 2021-09-27 DOI: 10.26418/jlk.v4i2.62
Mahanti Indah Rahajeng, A. Purwarianti
Question answering (QA) system is developed to find the right answers from natural language questions. QA systems can be used for building chatbots or even search engines. In this study, we’ve built an Indonesian QA system that uses Anindya Knowledge Graph as its data source. The idea behind this QA system is translating questions into SPARQL queries. The proposed solution consists of four modules, namely question classification, information extraction, token mapping, and query construction. The question classification and the information extraction modules were experimented using SVM, LSTM, and fine-tuning IndoBERT. The text representations were also tested to find the best result among tf-idf, FastText, and IndoBERT. In our experiment, we found that the fine-tuning IndoBERT model had obtained the best performance on both question classification and information extraction modules.
问答系统是为了从自然语言问题中寻找正确答案而开发的。QA系统可用于构建聊天机器人甚至搜索引擎。在本研究中,我们使用Anindya Knowledge Graph作为数据源,构建了一个印尼语的QA系统。这个QA系统背后的思想是将问题转换为SPARQL查询。该方案由问题分类、信息提取、标记映射和查询构造四个模块组成。使用支持向量机、LSTM和微调IndoBERT对问题分类和信息提取模块进行了实验。还对文本表示进行了测试,以在tf-idf、FastText和IndoBERT中找到最佳结果。在我们的实验中,我们发现微调IndoBERT模型在问题分类和信息提取两个模块上都获得了最好的性能。
{"title":"Indonesian Question Answering System for Factoid Questions using Face Beauty Products Knowledge Graph","authors":"Mahanti Indah Rahajeng, A. Purwarianti","doi":"10.26418/jlk.v4i2.62","DOIUrl":"https://doi.org/10.26418/jlk.v4i2.62","url":null,"abstract":"Question answering (QA) system is developed to find the right answers from natural language questions. QA systems can be used for building chatbots or even search engines. In this study, we’ve built an Indonesian QA system that uses Anindya Knowledge Graph as its data source. The idea behind this QA system is translating questions into SPARQL queries. The proposed solution consists of four modules, namely question classification, information extraction, token mapping, and query construction. The question classification and the information extraction modules were experimented using SVM, LSTM, and fine-tuning IndoBERT. The text representations were also tested to find the best result among tf-idf, FastText, and IndoBERT. In our experiment, we found that the fine-tuning IndoBERT model had obtained the best performance on both question classification and information extraction modules.","PeriodicalId":418646,"journal":{"name":"Jurnal Linguistik Komputasional (JLK)","volume":"66 1","pages":"0"},"PeriodicalIF":0.0,"publicationDate":"2021-09-27","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"124888628","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
引用次数: 2
Sentiment Analysis Terhadap Tweet Bernada Sarkasme Berbahasa Indonesia
Pub Date : 2020-11-23 DOI: 10.26418/jlk.v2i2.23
Lanny Septiani
Sarkasme dapat mengubah polaritas kalimat dari positif atau negatif menjadi sebaliknya. Sementara senti-men analisis pada sosial media sudah banyak dimanfaatkan, tetapi masih jarang sekali ditemukan sentimen analisis yang mempertimbangkan pendeteksian sarkasme didalamnya. Hal ini tentu akan mempengaruhi kualitas dari hasil analisis. Percobaan mengenai sentimen analisis dengan pendeteksian sarkasme lebih sering ditemukan pada penggunaan bahasa Inggris. Oleh karena itu, dengan mengacu pada penelitian yang dilakukan pada tweet berbahasa Inggris, pada penelitian ini kami menganalisa sentimen analisis bernada sarkasme pada Tweet berbahasa Indonesia dengan menggunakan fitur interjeksi dan unigram sebagai fitur utama oendeteksi kalimat sarkasme serta membandingkan 2 metode klasifikasi yaitu Naive Bayes dan Support Vector Machine dengan kernel polinomial. Fitur interjeksi menyatakan fitur yang memuat kata-kata yang mengungkapkan perasaan dan maksud seseorang, sedangkan fitur unigram merupakan kumpulan kata tunggal yang diperoleh dari korpus secara otomatis. Hasil eksperimen menunjukkan penggunaan fitur interjeksi dan unigram sebagai pendeteksian sarkasme pada tweet berbahasa Indonesia mampu meningkatkan akurasi dengan rata-rata kenaikan akurasi lebih dari 8% untuk classifier Naive Bayes dan lebih dari 13% untuk classifier Support Vector Machine dibandingkan hanya menggunakan fitur unigram saja. Hasil lainnya adalah akurasi terbaik adalah metode Naive Bayes dengan akurasi terbaik yang diperoleh mencapai lebih dari 91.
讽刺可以把句子的极性从积极或消极转化为相反的。虽然社交媒体上的分析已经得到了充分的利用,但很少有一种考虑到讽刺检测的分析情绪。这肯定会影响分析结果的质量。讽刺检测情感分析的实验更常见的是对英语的使用。因此,通过英语指的是研究在推特进行分析,在这个研究,我们分析是一种情感的语气在微博讽刺说印度尼西亚语用感叹词和unigram作为讽刺oendeteksi句子的主要功能以及比较2即天真贝叶斯分类方法和支持向量机内核多项式。感叹词表示表达情感和意图的词汇,而unigram特征是自动从语录中获得的单一单词集。实验结果表明,使用interject和unigram作为讽刺标记,可以增加准确率,而经典的Naive Bayes的平均震中增加了8%以上的准确率,偏向向量支持机的13%以上。另一个结果是最准确的方法是天真的贝斯方法,最准确的方法是91年以上。
{"title":"Sentiment Analysis Terhadap Tweet Bernada Sarkasme Berbahasa Indonesia","authors":"Lanny Septiani","doi":"10.26418/jlk.v2i2.23","DOIUrl":"https://doi.org/10.26418/jlk.v2i2.23","url":null,"abstract":"Sarkasme dapat mengubah polaritas kalimat dari positif atau negatif menjadi sebaliknya. Sementara senti-men analisis pada sosial media sudah banyak dimanfaatkan, tetapi masih jarang sekali ditemukan sentimen analisis yang mempertimbangkan pendeteksian sarkasme didalamnya. Hal ini tentu akan mempengaruhi kualitas dari hasil analisis. Percobaan mengenai sentimen analisis dengan pendeteksian sarkasme lebih sering ditemukan pada penggunaan bahasa Inggris. Oleh karena itu, dengan mengacu pada penelitian yang dilakukan pada tweet berbahasa Inggris, pada penelitian ini kami menganalisa sentimen analisis bernada sarkasme pada Tweet berbahasa Indonesia dengan menggunakan fitur interjeksi dan unigram sebagai fitur utama oendeteksi kalimat sarkasme serta membandingkan 2 metode klasifikasi yaitu Naive Bayes dan Support Vector Machine dengan kernel polinomial. Fitur interjeksi menyatakan fitur yang memuat kata-kata yang mengungkapkan perasaan dan maksud seseorang, sedangkan fitur unigram merupakan kumpulan kata tunggal yang diperoleh dari korpus secara otomatis. Hasil eksperimen menunjukkan penggunaan fitur interjeksi dan unigram sebagai pendeteksian sarkasme pada tweet berbahasa Indonesia mampu meningkatkan akurasi dengan rata-rata kenaikan akurasi lebih dari 8% untuk classifier Naive Bayes dan lebih dari 13% untuk classifier Support Vector Machine dibandingkan hanya menggunakan fitur unigram saja. Hasil lainnya adalah akurasi terbaik adalah metode Naive Bayes dengan akurasi terbaik yang diperoleh mencapai lebih dari 91.","PeriodicalId":418646,"journal":{"name":"Jurnal Linguistik Komputasional (JLK)","volume":"75 1","pages":"0"},"PeriodicalIF":0.0,"publicationDate":"2020-11-23","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"127288038","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
引用次数: 8
Pencarian Potongan Ayat Al-Qur'an dengan Perbedaan Bunyi pada Tanda Berhenti Berdasarkan Kemiripan Fonetis 根据语音学的相似性,寻找古兰经中不同的诗句
Pub Date : 2019-09-28 DOI: 10.26418/jlk.v2i2.25
Naufal Rasyad, M. A. Bijaksana, Kemas Muslim Lhaksmana
Al-Qur’an merupakan kitab suci utama bagi umat Islam yang ditulis menggunakan bahasa Arab. Seiring dengan perkembangan teknologi, telah dikembangkan sistem pencarian ayat Al-Qur'an berdasarkan kemiripan fonetis salah satunya adalah Lafzi. Namun untuk menangani perbedaan bunyi pada tanda berhenti di pertengahan ayat, sistem Lafzi belum bisa menanganinya dengan baik. Maka dari itu, dibutuhkan sistem yang dapat membantu pengguna dalam melakukan pencarian ayat Al-Qur’an, terutama untuk perbedaan bunyi pada tanda berhenti sehingga pencarian bisa menemukan kata yang berbeda pengucapan pada tanda berhenti. Berdasarkan permasalahan tersebut, dari sistem Lafzi, dilakukan pengembangan supaya dapat melakukan pencarian yang bisa menangani perbedaan bunyi pada tanda berhenti. Digunakan pengindeksan trigram untuk memperkirakan kecocokan string antara query dengan transliterasi ayat Al-Qur'an serta dibuat aturan pada input dengan huruf akhir 'T' menjadi 'H'. Sistem yang sudah ada mendapatkan nilai recall sebesar 81% dan nilai MAP sebesar 65%. Sedangkan hasil dari penelitian ini diperoleh nilai recall sebesar 100% dan nilai MAP sebesar 84%.
古兰经是伊斯兰教使用阿拉伯语书写的主要圣书。随着技术的发展,基于语音相似性的古兰经文本系统已经发展起来,其中之一就是Lafzi。但是为了处理中间的停车标志上的不同声音,Lafzi系统还没有很好地处理它。因此需要一个系统,这个系统可以帮助用户从搜索中伊斯兰教经文'an,尤其是不同声音的停车标志,这样搜索就能找到不同的单词发音的停车标志。根据这一问题,在Lafzi系统中进行了开发,以进行处理停车标志上不同声音的搜索。八卦阵索引用来估计之间的弦查询匹配音译伊斯兰教经文'an和制造规则输入的字母“T”变成了“H”的结局。现有系统的召回值为81%,地图值为65%。而这种研究的结果是100%召回共计价值和获得价值高达84%的文件夹。
{"title":"Pencarian Potongan Ayat Al-Qur'an dengan Perbedaan Bunyi pada Tanda Berhenti Berdasarkan Kemiripan Fonetis","authors":"Naufal Rasyad, M. A. Bijaksana, Kemas Muslim Lhaksmana","doi":"10.26418/jlk.v2i2.25","DOIUrl":"https://doi.org/10.26418/jlk.v2i2.25","url":null,"abstract":"Al-Qur’an merupakan kitab suci utama bagi umat Islam yang ditulis menggunakan bahasa Arab. Seiring dengan perkembangan teknologi, telah dikembangkan sistem pencarian ayat Al-Qur'an berdasarkan kemiripan fonetis salah satunya adalah Lafzi. Namun untuk menangani perbedaan bunyi pada tanda berhenti di pertengahan ayat, sistem Lafzi belum bisa menanganinya dengan baik. Maka dari itu, dibutuhkan sistem yang dapat membantu pengguna dalam melakukan pencarian ayat Al-Qur’an, terutama untuk perbedaan bunyi pada tanda berhenti sehingga pencarian bisa menemukan kata yang berbeda pengucapan pada tanda berhenti. Berdasarkan permasalahan tersebut, dari sistem Lafzi, dilakukan pengembangan supaya dapat melakukan pencarian yang bisa menangani perbedaan bunyi pada tanda berhenti. Digunakan pengindeksan trigram untuk memperkirakan kecocokan string antara query dengan transliterasi ayat Al-Qur'an serta dibuat aturan pada input dengan huruf akhir 'T' menjadi 'H'. Sistem yang sudah ada mendapatkan nilai recall sebesar 81% dan nilai MAP sebesar 65%. Sedangkan hasil dari penelitian ini diperoleh nilai recall sebesar 100% dan nilai MAP sebesar 84%.","PeriodicalId":418646,"journal":{"name":"Jurnal Linguistik Komputasional (JLK)","volume":"1 1","pages":"0"},"PeriodicalIF":0.0,"publicationDate":"2019-09-28","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"130698075","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
引用次数: 1
Pengukuran Pitch dan Intensity Diftong Tertinggi Menggunakan Program PRAAT
Pub Date : 2019-09-24 DOI: 10.26418/jlk.v2i2.22
Heri Heryono
Penelitian ini menitikberatkan pada studi kasus sederhana yang melibatkan dua orang pengujar, native dan non-native dalam mengucapkan kata-kata yang mengandung diftong. Bidang linguistik yang terkait adalah fonetik dan fonologi, dengan bantuan sebuah aplikasi PRAAT untuk menghitung frekuensi dan intensitas ujaran. Subjek pembahasan dalam penelitian ini adalah vokal rangkap/diftong (diphthong) yang terdapat dalam beberapa kata berbahasa Inggris. Yang difokuskan hanyalah unsur pitch dan intensity dari dua orang pengujar dalam mengujarkan kata-kata bervokal rangkap tersebut. Metode penelitian yang digunakan dalam mendapatkan perbandingan pitch dan intensity dari dua pengujar ini adalah deskriptif-analisis dengan penyuguhan data berupa tabel angka serta grafik. Penelitian ini melibatkan satu pengujar native dan satu pengujar non-native untuk mendapatkan hasil yang bisa diperbandingkan. Metode pengambilan data menggunakan PRAAT dengan file audio sebagai sumber data utama. Hasil dari penelitian ini menunjukkan bahwa pengujaran diftong dengan nilai pitch tertinggi baik dari pengujar native maupun non-native terlihat pada saat pengujaran kata dengan diftong /ɔɪ/; frekuensinya adalah 216.8 Hz untuk native dan 301.1 Hz untuk pengujar non-native. Sedangkan untuk intensity, diftong /ɪə/ memiliki angka intensitas terbesar yaitu 78.36 untuk pengujar native dan 80.52 untuk pengujar non-native. Berdasarkan pengambilan sampel data suara dari dua orang pengujar, maka dapat disimpulkan bahwa diftong /ɔɪ/ memiliki frekuensi yang tertinggi dibandingkan lainnya. Dan, diftongp /ɪə/ memiliki angka intensitas tertinggi dibandingkan dengan diftong lainnya. Penelitian menggunakan PRAAT dengan memperbandingkan pengujar native dan non-native secara fonetis memberikan ruang penelitian baru di ranah Bahasa dan teknologi.
这项研究强调的是一项简单的案例研究,该研究涉及两种研究对象,两种研究对象,两种研究对象,一种是两种研究对象,一种是两种研究对象,一种是两种研究对象。相关的语言学领域是语音和音韵学,在PRAAT应用程序的帮助下计算语音的频率和强度。本研究的研究对象是几个英语单词中的双元音/二元音(diphthong)。唯一关注的是两名主音单词的音高和强度。在获得这两种排列的音高和强度比较中使用的研究方法是对数字表和图表的数据提交的描述分析。该研究包括一次本土试验和一次非本土试验,以获得可比较的结果。数据检索方法使用带有音频文件的PRAAT作为主要数据来源。这项研究的结果表明,pengujaran推销价值最高的双元音无论是从本地pengujar non-native看起来和双元音/ɔpengujaran词时ɪ/;频率为216.8 Hz,野外试验为302.1 Hz。至于强度,双元音/ɪə/有强度最大的数字就是78。36为pengujar pengujar native和80。52 non-native。根据抽样数据pengujar两个人的声音,就可以免费得到推断双元音/ɔɪ/有比其他频率是最高的。, diftongp /ɪə/有强度率最高的双元音相比,有过之无不及。使用PRAAT的研究通过语音测试和非母语测试为语言和技术领域提供新的研究空间。
{"title":"Pengukuran Pitch dan Intensity Diftong Tertinggi Menggunakan Program PRAAT","authors":"Heri Heryono","doi":"10.26418/jlk.v2i2.22","DOIUrl":"https://doi.org/10.26418/jlk.v2i2.22","url":null,"abstract":"Penelitian ini menitikberatkan pada studi kasus sederhana yang melibatkan dua orang pengujar, native dan non-native dalam mengucapkan kata-kata yang mengandung diftong. Bidang linguistik yang terkait adalah fonetik dan fonologi, dengan bantuan sebuah aplikasi PRAAT untuk menghitung frekuensi dan intensitas ujaran. Subjek pembahasan dalam penelitian ini adalah vokal rangkap/diftong (diphthong) yang terdapat dalam beberapa kata berbahasa Inggris. Yang difokuskan hanyalah unsur pitch dan intensity dari dua orang pengujar dalam mengujarkan kata-kata bervokal rangkap tersebut. Metode penelitian yang digunakan dalam mendapatkan perbandingan pitch dan intensity dari dua pengujar ini adalah deskriptif-analisis dengan penyuguhan data berupa tabel angka serta grafik. Penelitian ini melibatkan satu pengujar native dan satu pengujar non-native untuk mendapatkan hasil yang bisa diperbandingkan. Metode pengambilan data menggunakan PRAAT dengan file audio sebagai sumber data utama. Hasil dari penelitian ini menunjukkan bahwa pengujaran diftong dengan nilai pitch tertinggi baik dari pengujar native maupun non-native terlihat pada saat pengujaran kata dengan diftong /ɔɪ/; frekuensinya adalah 216.8 Hz untuk native dan 301.1 Hz untuk pengujar non-native. Sedangkan untuk intensity, diftong /ɪə/ memiliki angka intensitas terbesar yaitu 78.36 untuk pengujar native dan 80.52 untuk pengujar non-native. Berdasarkan pengambilan sampel data suara dari dua orang pengujar, maka dapat disimpulkan bahwa diftong /ɔɪ/ memiliki frekuensi yang tertinggi dibandingkan lainnya. Dan, diftongp /ɪə/ memiliki angka intensitas tertinggi dibandingkan dengan diftong lainnya. Penelitian menggunakan PRAAT dengan memperbandingkan pengujar native dan non-native secara fonetis memberikan ruang penelitian baru di ranah Bahasa dan teknologi.","PeriodicalId":418646,"journal":{"name":"Jurnal Linguistik Komputasional (JLK)","volume":"1 1","pages":"0"},"PeriodicalIF":0.0,"publicationDate":"2019-09-24","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"129319337","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
引用次数: 5
Perkembangan Part-of-Speech Tagger Bahasa Indonesia
Pub Date : 2019-09-24 DOI: 10.26418/jlk.v2i2.20
Mia Kamayani
Tujuan dari artikel ini adalah membuat kajian literatur terhadap metode pelabelan part-of-speech (POS tagger) untuk Bahasa Indonesia yang telah dilakukan selama 11 tahun terakhir (sejak tahun 2008). Artikel ini dapat menjadi roadmap POS tagger Bahasa Indonesia dan juga dasar pertimbangan untuk pengembangan selanjutnya agar menggunakan dataset dan tagset yang standar sebagai benchmark metode. Terdapat 15 publikasi yang dibahas, pembahasan meliputi dataset, tagset dan metode yang digunakan untuk POS tag Bahasa Indonesia. Dataset yang paling banyak digunakan dan paling mungkin menjadi corpus standar adalah IDN Tagged Corpus terdiri dari lebih dari 250.000 token. Tagset Bahasa Indonesia hingga saat ini belum terstandarisasi dengan jumlah label bervariasi dari 16 tag hingga 37 tag. Metode yang paling banyak dikembangkan dan berpotensi menjadi state-of-the-art adalah neural network, dengan varian metode biLSTM dan CRF dan sejauh ini memberikan skor F1 dan akurasi tertinggi (>96%).
这篇文章的目的是对过去11年(自2008年以来)所做的印尼语贴标签方法进行文献研究。这篇文章可以成为使用标准数据集和标签作为方法的基础,它可以成为使用标准数据集和标签的基础。讨论的出版物有15种,包括数据集、标签和使用的印尼语张贴标签的方法。最广泛使用和最有可能成为标准语料库的数据是拥有25万多个令牌的语料库。目前还没有标准化的标签数量从16个标签到37个标签。最先进和最有潜力成为最先进的方法是神经网络,其比斯特姆和CRF的变体是,迄今为止提供了F1分数和最高准确性(>96%)。
{"title":"Perkembangan Part-of-Speech Tagger Bahasa Indonesia","authors":"Mia Kamayani","doi":"10.26418/jlk.v2i2.20","DOIUrl":"https://doi.org/10.26418/jlk.v2i2.20","url":null,"abstract":"Tujuan dari artikel ini adalah membuat kajian literatur terhadap metode pelabelan part-of-speech (POS tagger) untuk Bahasa Indonesia yang telah dilakukan selama 11 tahun terakhir (sejak tahun 2008). Artikel ini dapat menjadi roadmap POS tagger Bahasa Indonesia dan juga dasar pertimbangan untuk pengembangan selanjutnya agar menggunakan dataset dan tagset yang standar sebagai benchmark metode. Terdapat 15 publikasi yang dibahas, pembahasan meliputi dataset, tagset dan metode yang digunakan untuk POS tag Bahasa Indonesia. Dataset yang paling banyak digunakan dan paling mungkin menjadi corpus standar adalah IDN Tagged Corpus terdiri dari lebih dari 250.000 token. Tagset Bahasa Indonesia hingga saat ini belum terstandarisasi dengan jumlah label bervariasi dari 16 tag hingga 37 tag. Metode yang paling banyak dikembangkan dan berpotensi menjadi state-of-the-art adalah neural network, dengan varian metode biLSTM dan CRF dan sejauh ini memberikan skor F1 dan akurasi tertinggi (>96%).","PeriodicalId":418646,"journal":{"name":"Jurnal Linguistik Komputasional (JLK)","volume":"12 1","pages":"0"},"PeriodicalIF":0.0,"publicationDate":"2019-09-24","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"122450559","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
引用次数: 4
Employing Dependency Tree in Machine Learning Based Indonesian Factoid Question Answering 依赖树在机器学习印尼语Factoid问答中的应用
Pub Date : 2019-03-31 DOI: 10.26418/JLK.V2I1.9
Irfan Afif, A. Purwarianti
We proposed the usage of dependency tree information to increase the accuracy of Indonesian factoid question answering. We employed MSTParser and Universal Dependency corpus to build the Indonesian dependency parser. The dependency tree information as the result of the Indonesian dependency parse is used in the answer finder component of Indonesian factoid question answering system. Here, we used dependency tree information in two ways: 1) as one of the features in machine learning based answer finder (classifying each term in the retrieved passage as part of a correct answer or not); 2) as an additional heuristic rule after conducting the machine learning technique. For the machine learning technique, we combined word based calculation, phrase based calculation and similarity dependency relation based calculation as the complete features. Using 203 data, we were able to enhance the accuracy for the Indonesian factoid QA system compared to related work by only using the phrase information. The best accuracy was 84.34% for the correct answer classification and the best MRR was 0.954.
我们提出使用依赖树信息来提高印尼语题答的准确性。我们使用MSTParser和通用依赖语料库来构建印尼语依赖解析器。作为印尼语依赖项解析结果的依赖树信息用于印尼语factoid问答系统的答案查找器组件。在这里,我们以两种方式使用依赖树信息:1)作为基于机器学习的答案查找器的特征之一(将检索到的段落中的每个术语分类为正确答案的一部分);2)作为进行机器学习技术后的附加启发式规则。对于机器学习技术,我们将基于词的计算、基于短语的计算和基于相似依赖关系的计算结合起来作为完整的特征。使用203个数据,与仅使用短语信息的相关工作相比,我们能够提高印度尼西亚factoid QA系统的准确性。正确答案分类的最佳准确率为84.34%,最佳MRR为0.954。
{"title":"Employing Dependency Tree in Machine Learning Based Indonesian Factoid Question Answering","authors":"Irfan Afif, A. Purwarianti","doi":"10.26418/JLK.V2I1.9","DOIUrl":"https://doi.org/10.26418/JLK.V2I1.9","url":null,"abstract":"We proposed the usage of dependency tree information to increase the accuracy of Indonesian factoid question answering. We employed MSTParser and Universal Dependency corpus to build the Indonesian dependency parser. The dependency tree information as the result of the Indonesian dependency parse is used in the answer finder component of Indonesian factoid question answering system. Here, we used dependency tree information in two ways: 1) as one of the features in machine learning based answer finder (classifying each term in the retrieved passage as part of a correct answer or not); 2) as an additional heuristic rule after conducting the machine learning technique. For the machine learning technique, we combined word based calculation, phrase based calculation and similarity dependency relation based calculation as the complete features. Using 203 data, we were able to enhance the accuracy for the Indonesian factoid QA system compared to related work by only using the phrase information. The best accuracy was 84.34% for the correct answer classification and the best MRR was 0.954.","PeriodicalId":418646,"journal":{"name":"Jurnal Linguistik Komputasional (JLK)","volume":"108 1","pages":"0"},"PeriodicalIF":0.0,"publicationDate":"2019-03-31","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"123594384","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
引用次数: 2
Penerapan Cosine Similarity dan Pembobotan TF-IDF untuk Mendeteksi Kemiripan Dokumen 检测文件匹配的cosin类似于溜离和溜离
Pub Date : 2019-03-26 DOI: 10.26418/jlk.v2i1.17
Muhammad Zidny Naf’an, Auliya Burhanuddin, Ade Riyani
Plagiarism is the act of taking part or all of one's ideas in the form of documents or texts without including sources of information retrieval. This study aims to detect the similarity of text documents using the cosine similarity algorithm and weighting TF-IDF so that it can be used to determine the value of plagiarism. The document used for comparison of this text is an abstract of Indonesian. The results of the study, namely when stemming the similarity value is higher on average 10% than the stemming process is not done. This study produces a similarity value above 50% for documents with a high degree of similarity. Whereas documents with low similarity levels or no plagiarism produce similarity values ​​below 40%. With the method used in the preprocessing consisting of folding cases, tokenizing, removeal stopwords, and stemming. After the preprocessing process, the next step is to calculate the weighting of TF-IDF and the similarity value using cosine similarity so that it gets a percentage similarity value. Based on the experimental results of the cosine similarity algorithm and weighting TF-IDF, it can produce similarity values ​​from each comparative document
抄袭是指以文件或文本的形式采用部分或全部思想,而不包括信息检索来源的行为。本研究旨在使用余弦相似度算法和TF-IDF加权来检测文本文档的相似度,从而可以用来确定剽窃的价值。本文比较使用的文件是印尼语摘要。研究结果表明,当词干的相似度值平均比词干的相似度值高10%时,没有进行词干处理。对于高度相似的文档,本研究得出了50%以上的相似值。而相似度低或没有抄袭的文档的相似度值低于40%。在预处理中使用的方法包括折叠案例,标记化,删除停止词和词干。预处理过程结束后,下一步是使用余弦相似度计算TF-IDF和相似度值的权重,从而得到百分比相似度值。基于余弦相似度算法的实验结果,对TF-IDF进行加权,得到各比较文档的相似度值
{"title":"Penerapan Cosine Similarity dan Pembobotan TF-IDF untuk Mendeteksi Kemiripan Dokumen","authors":"Muhammad Zidny Naf’an, Auliya Burhanuddin, Ade Riyani","doi":"10.26418/jlk.v2i1.17","DOIUrl":"https://doi.org/10.26418/jlk.v2i1.17","url":null,"abstract":"Plagiarism is the act of taking part or all of one's ideas in the form of documents or texts without including sources of information retrieval. This study aims to detect the similarity of text documents using the cosine similarity algorithm and weighting TF-IDF so that it can be used to determine the value of plagiarism. The document used for comparison of this text is an abstract of Indonesian. The results of the study, namely when stemming the similarity value is higher on average 10% than the stemming process is not done. This study produces a similarity value above 50% for documents with a high degree of similarity. Whereas documents with low similarity levels or no plagiarism produce similarity values ​​below 40%. With the method used in the preprocessing consisting of folding cases, tokenizing, removeal stopwords, and stemming. After the preprocessing process, the next step is to calculate the weighting of TF-IDF and the similarity value using cosine similarity so that it gets a percentage similarity value. Based on the experimental results of the cosine similarity algorithm and weighting TF-IDF, it can produce similarity values ​​from each comparative document","PeriodicalId":418646,"journal":{"name":"Jurnal Linguistik Komputasional (JLK)","volume":"6 4 1","pages":"0"},"PeriodicalIF":0.0,"publicationDate":"2019-03-26","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"125607683","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
引用次数: 21
期刊
Jurnal Linguistik Komputasional (JLK)
全部 Acc. Chem. Res. ACS Applied Bio Materials ACS Appl. Electron. Mater. ACS Appl. Energy Mater. ACS Appl. Mater. Interfaces ACS Appl. Nano Mater. ACS Appl. Polym. Mater. ACS BIOMATER-SCI ENG ACS Catal. ACS Cent. Sci. ACS Chem. Biol. ACS Chemical Health & Safety ACS Chem. Neurosci. ACS Comb. Sci. ACS Earth Space Chem. ACS Energy Lett. ACS Infect. Dis. ACS Macro Lett. ACS Mater. Lett. ACS Med. Chem. Lett. ACS Nano ACS Omega ACS Photonics ACS Sens. ACS Sustainable Chem. Eng. ACS Synth. Biol. Anal. Chem. BIOCHEMISTRY-US Bioconjugate Chem. BIOMACROMOLECULES Chem. Res. Toxicol. Chem. Rev. Chem. Mater. CRYST GROWTH DES ENERG FUEL Environ. Sci. Technol. Environ. Sci. Technol. Lett. Eur. J. Inorg. Chem. IND ENG CHEM RES Inorg. Chem. J. Agric. Food. Chem. J. Chem. Eng. Data J. Chem. Educ. J. Chem. Inf. Model. J. Chem. Theory Comput. J. Med. Chem. J. Nat. Prod. J PROTEOME RES J. Am. Chem. Soc. LANGMUIR MACROMOLECULES Mol. Pharmaceutics Nano Lett. Org. Lett. ORG PROCESS RES DEV ORGANOMETALLICS J. Org. Chem. J. Phys. Chem. J. Phys. Chem. A J. Phys. Chem. B J. Phys. Chem. C J. Phys. Chem. Lett. Analyst Anal. Methods Biomater. Sci. Catal. Sci. Technol. Chem. Commun. Chem. Soc. Rev. CHEM EDUC RES PRACT CRYSTENGCOMM Dalton Trans. Energy Environ. Sci. ENVIRON SCI-NANO ENVIRON SCI-PROC IMP ENVIRON SCI-WAT RES Faraday Discuss. Food Funct. Green Chem. Inorg. Chem. Front. Integr. Biol. J. Anal. At. Spectrom. J. Mater. Chem. A J. Mater. Chem. B J. Mater. Chem. C Lab Chip Mater. Chem. Front. Mater. Horiz. MEDCHEMCOMM Metallomics Mol. Biosyst. Mol. Syst. Des. Eng. Nanoscale Nanoscale Horiz. Nat. Prod. Rep. New J. Chem. Org. Biomol. Chem. Org. Chem. Front. PHOTOCH PHOTOBIO SCI PCCP Polym. Chem.
×
引用
GB/T 7714-2015
复制
MLA
复制
APA
复制
导出至
BibTeX EndNote RefMan NoteFirst NoteExpress
×
0
微信
客服QQ
Book学术公众号 扫码关注我们
反馈
×
意见反馈
请填写您的意见或建议
请填写您的手机或邮箱
×
提示
您的信息不完整,为了账户安全,请先补充。
现在去补充
×
提示
您因"违规操作"
具体请查看互助需知
我知道了
×
提示
现在去查看 取消
×
提示
确定
Book学术官方微信
Book学术文献互助
Book学术文献互助群
群 号:481959085
Book学术
文献互助 智能选刊 最新文献 互助须知 联系我们:info@booksci.cn
Book学术提供免费学术资源搜索服务,方便国内外学者检索中英文文献。致力于提供最便捷和优质的服务体验。
Copyright © 2023 Book学术 All rights reserved.
ghs 京公网安备 11010802042870号 京ICP备2023020795号-1