首页 > 最新文献

Linguamatica最新文献

英文 中文
Corpus de falacias por apelación a las emociones: una aproximación a la identificación automática de falacias 情感诉求谬论语料库:谬论自动识别的一种方法
IF 0.6 Q2 Arts and Humanities Pub Date : 2023-01-07 DOI: 10.21814/lm.14.2.376
Kenia Nieto-Benitez, Noé Alejandro Castro-Sánchez, H. Jiménez-Salazar, Gemma Bel-Enguix
Los discursos políticos en campañas electorales están orientados a movilizar y atraer con mensajes persuasivos al electorado y principalmente se argumenta apelando a las emociones incurriendo en falacias. Este artículo presenta un corpus de falacias en discursos políticos elaborados por candidatos a la presidencia de México, con el objetivo de obtener un recurso lingüístico en español que permita desarrollar sistemas computacionales para su minería. Hasta ahora no se conoce un corpus de falacias para el idioma español y los corpus de argumentos elaborados en el área de Minería de Argumentos se limitan a un etiquetado de la estructura argumentativa y no están elaborados a partir de discursos políticos. El corpus se elaboró con argumentos extraídos de los discursos y se realizó una anotación manual de premisas y conclusiones. Se obtuvo un acuerdo entre anotadores de 0.692utilizando el índice kappa de Cohen. Posteriormente, se identificaron los argumentos válidos y las falacias, y como resultado se obtuvo un acuerdo de 0.442 con el mismo índice. Como contribución adicional, se presenta una línea base para la identificación de falacias utilizando los métodos de similitud coseno, support vector machine, logistic regression y decision trees, y la extracción de términos afectivos en los argumentos. En esta línea base se obtuvo un F1-score de 0.62 y es un resultado de comparación para futuras investigaciones.
竞选活动中的政治演讲旨在用有说服力的信息动员和吸引选民,主要是通过诉诸情绪来进行论证,从而产生谬论。本文提出了墨西哥总统候选人在政治演讲中的谬论语料库,目的是获得西班牙语的语言资源,以便开发计算机系统来挖掘它们。到目前为止,西班牙语还没有一个谬论语料库,而在论点挖掘领域开发的论点语料库仅限于论证结构的标记,而不是从政治话语中开发的。本研究的目的是分析在墨西哥国立自治大学(unam)和墨西哥国立自治大学(unam)进行的一项研究的结果。利用科恩kappa指数,得分者之间的一致性为0.692。随后,确定了有效的论点和谬误,结果在相同的指数下得到了0.442的一致。此外,本文还提出了利用余弦相似度、支持向量机、逻辑回归和决策树等方法识别谬误的基线,并从论点中提取情感术语。在此基础上,我们获得了0.62的f1评分,这是未来研究的比较结果。
{"title":"Corpus de falacias por apelación a las emociones: una aproximación a la identificación automática de falacias","authors":"Kenia Nieto-Benitez, Noé Alejandro Castro-Sánchez, H. Jiménez-Salazar, Gemma Bel-Enguix","doi":"10.21814/lm.14.2.376","DOIUrl":"https://doi.org/10.21814/lm.14.2.376","url":null,"abstract":"Los discursos políticos en campañas electorales están orientados a movilizar y atraer con mensajes persuasivos al electorado y principalmente se argumenta apelando a las emociones incurriendo en falacias. Este artículo presenta un corpus de falacias en discursos políticos elaborados por candidatos a la presidencia de México, con el objetivo de obtener un recurso lingüístico en español que permita desarrollar sistemas computacionales para su minería. Hasta ahora no se conoce un corpus de falacias para el idioma español y los corpus de argumentos elaborados en el área de Minería de Argumentos se limitan a un etiquetado de la estructura argumentativa y no están elaborados a partir de discursos políticos. El corpus se elaboró con argumentos extraídos de los discursos y se realizó una anotación manual de premisas y conclusiones. Se obtuvo un acuerdo entre anotadores de 0.692utilizando el índice kappa de Cohen. Posteriormente, se identificaron los argumentos válidos y las falacias, y como resultado se obtuvo un acuerdo de 0.442 con el mismo índice. Como contribución adicional, se presenta una línea base para la identificación de falacias utilizando los métodos de similitud coseno, support vector machine, logistic regression y decision trees, y la extracción de términos afectivos en los argumentos. En esta línea base se obtuvo un F1-score de 0.62 y es un resultado de comparación para futuras investigaciones.","PeriodicalId":41819,"journal":{"name":"Linguamatica","volume":null,"pages":null},"PeriodicalIF":0.6,"publicationDate":"2023-01-07","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"47418316","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
引用次数: 0
PROPOE (prose to poetry) geração computacional de poemas metrificados a partir da prosa literária em língua portuguesa 提出(散文到诗歌)计算生成的诗歌度量从文学散文葡萄牙语
IF 0.6 Q2 Arts and Humanities Pub Date : 2023-01-07 DOI: 10.21814/lm.14.2.369
Ana Cleyge de Azevedo, João Queiroz, Angelo Loula
A geração computacional do que pode ser concebido e reconhecido como "poesia verbal" é explorada, há muitas décadas, em muitas línguas naturais. Mas apenas projetos recentemente desenvolvidos possuem aplicação intensiva da computação, considerando muitos níveis de organização, linguísticos e paralinguísticos, fonológicos, rítmicos, sintáticos, semânticos, e até pragmáticos. O que apresentamos aqui é um sistema de geração computacional de poemas, o PROPOE (Prose to Poem). Ele trabalha em conjunto com uma ferramenta de "mineração" de estruturas de versificação na prosa de língua portuguesa, o MIVES (Mining Verse Structure). O PROPOE gera poemas em língua portuguesa a partir de sentenças versificadas (estruturas heterométricas de versificação) identificadas e classificadas pelo MIVES, e extraídas da prosa literária. O PROPOE combina sentenças, gerando poemas baseados na otimização de critérios rítmicos e fonológicos. É aplicado um "algoritmo guloso" (greedy algorithm) cujo propósito é identificar a melhor combinação das sentenças, considerando normas rítmicas estabelecidas para o português. Em uma etapa final, realiza-se uma avaliação automatizada do resultado, atribuindo uma pontuação de acordo com a identificação de algum padrão considerado ótimo em poemas com métricas regulares, tendo como base esquema rítmico e adequação a estruturas rímicas.
几十年来,许多自然语言都在探索可以被设计和识别为“语言诗歌”的计算生成。但只有最近开发的项目才有密集的计算应用,考虑到许多层次的组织,语言和副语言,语音,节奏,句法,语义,甚至语用。我们在这里展示的是一个诗歌的计算生成系统,PROPOE(散文到诗歌)。它与葡萄牙散文中诗体结构的“挖掘”工具MIVES(挖掘诗体结构)合作。摘要本文从文学散文中提取的经MIVES鉴定和分类的诗化句子(异速诗化结构)中生成葡萄牙语诗歌。建议结合句子,生成基于节奏和音位标准优化的诗歌。它应用了一种“贪婪算法”,其目的是确定句子的最佳组合,考虑到为葡萄牙语建立的节奏规则。在最后一步,对结果进行自动评估,根据确定一些被认为在有规则韵律的诗歌中最优的模式,根据节奏方案和节奏结构的充分性分配一个分数。
{"title":"PROPOE (prose to poetry) geração computacional de poemas metrificados a partir da prosa literária em língua portuguesa","authors":"Ana Cleyge de Azevedo, João Queiroz, Angelo Loula","doi":"10.21814/lm.14.2.369","DOIUrl":"https://doi.org/10.21814/lm.14.2.369","url":null,"abstract":"A geração computacional do que pode ser concebido e reconhecido como \"poesia verbal\" é explorada, há muitas décadas, em muitas línguas naturais. Mas apenas projetos recentemente desenvolvidos possuem aplicação intensiva da computação, considerando muitos níveis de organização, linguísticos e paralinguísticos, fonológicos, rítmicos, sintáticos, semânticos, e até pragmáticos. O que apresentamos aqui é um sistema de geração computacional de poemas, o PROPOE (Prose to Poem). Ele trabalha em conjunto com uma ferramenta de \"mineração\" de estruturas de versificação na prosa de língua portuguesa, o MIVES (Mining Verse Structure). O PROPOE gera poemas em língua portuguesa a partir de sentenças versificadas (estruturas heterométricas de versificação) identificadas e classificadas pelo MIVES, e extraídas da prosa literária. O PROPOE combina sentenças, gerando poemas baseados na otimização de critérios rítmicos e fonológicos. É aplicado um \"algoritmo guloso\" (greedy algorithm) cujo propósito é identificar a melhor combinação das sentenças, considerando normas rítmicas estabelecidas para o português. Em uma etapa final, realiza-se uma avaliação automatizada do resultado, atribuindo uma pontuação de acordo com a identificação de algum padrão considerado ótimo em poemas com métricas regulares, tendo como base esquema rítmico e adequação a estruturas rímicas.","PeriodicalId":41819,"journal":{"name":"Linguamatica","volume":null,"pages":null},"PeriodicalIF":0.6,"publicationDate":"2023-01-07","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"45951153","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
引用次数: 0
ARAPP: Análisis y Resumen Automático de Políticas de Privacidad 自动分析和总结隐私政策
IF 0.6 Q2 Arts and Humanities Pub Date : 2023-01-07 DOI: 10.21814/lm.14.2.375
R. Alfaro, René Venegas, A. Bronfman, M. Valenzuela, Stephanie Riff, Enrique Sologuren
Un derecho fundamental de los usuarios de aplicaciones informáticas es que puedan conocer las políticas de privacidad (PP) que tales aplicaciones establecen, en particular es relevante que conozcan acerca del tratamiento que aceptan sobre el uso de sus datos. No obstante, estas PP son muy extensas y escritas en un lenguaje administrativo-jurídico y comercial, lo que dificulta su lectura y comprensión. El objetivo de este artículo es resumir automatizadamente las PP de cinco aplicaciones de redes sociales (Facebook, Twitter, TikTok, Snapchat e Instagram) en español, a través de técnicas extractivas y abstractivas. Para ello se utilizan tres aproximaciones de representación desde el Procesamiento de Lenguaje Natural, estas son: Teoría de Grafos, TF-IDF y Gensim. A partir de ellas, se generan automáticamente 15 resúmenes, los que son evaluados por un experto en derecho, para medir la legibilidad y relevancia en base a 20 preguntas confeccionadas por un estudio de la Universidad de Austin, Texas. Por último, a partir de una clasificación de cada política de privacidad, según distintos factores de riesgos, se comprueba que el método Gensim es el más adecuado para la representación y resumen. Además se identifica a Snapchat como la aplicación que mejor cumple dichosfactores.
计算机应用程序用户的一项基本权利是能够了解这些应用程序建立的隐私政策(PP),特别是了解他们接受的对其数据使用的处理是相关的。然而,这些PP非常广泛,并且是用行政、法律和商业语言编写的,这使得它们难以阅读和理解。本文的目的是通过提取和抽象技术,用西班牙语自动总结五种社交网络应用程序(Facebook, Twitter, TikTok, Snapchat和Instagram)的PP。为此,我们使用了三种来自自然语言处理的表示方法:图论、TF-IDF和Gensim。根据德克萨斯州奥斯汀大学(university of Austin)的一项研究,自动生成15个摘要,由法律专家评估,以衡量可读性和相关性。最后,根据不同的风险因素对每个隐私策略进行分类,验证Gensim方法是最适合表示和总结的方法。此外,Snapchat被认为是最符合这些因素的应用程序。
{"title":"ARAPP: Análisis y Resumen Automático de Políticas de Privacidad","authors":"R. Alfaro, René Venegas, A. Bronfman, M. Valenzuela, Stephanie Riff, Enrique Sologuren","doi":"10.21814/lm.14.2.375","DOIUrl":"https://doi.org/10.21814/lm.14.2.375","url":null,"abstract":"Un derecho fundamental de los usuarios de aplicaciones informáticas es que puedan conocer las políticas de privacidad (PP) que tales aplicaciones establecen, en particular es relevante que conozcan acerca del tratamiento que aceptan sobre el uso de sus datos. No obstante, estas PP son muy extensas y escritas en un lenguaje administrativo-jurídico y comercial, lo que dificulta su lectura y comprensión. El objetivo de este artículo es resumir automatizadamente las PP de cinco aplicaciones de redes sociales (Facebook, Twitter, TikTok, Snapchat e Instagram) en español, a través de técnicas extractivas y abstractivas. Para ello se utilizan tres aproximaciones de representación desde el Procesamiento de Lenguaje Natural, estas son: Teoría de Grafos, TF-IDF y Gensim. A partir de ellas, se generan automáticamente 15 resúmenes, los que son evaluados por un experto en derecho, para medir la legibilidad y relevancia en base a 20 preguntas confeccionadas por un estudio de la Universidad de Austin, Texas. Por último, a partir de una clasificación de cada política de privacidad, según distintos factores de riesgos, se comprueba que el método Gensim es el más adecuado para la representación y resumen. Además se identifica a Snapchat como la aplicación que mejor cumple dichosfactores.","PeriodicalId":41819,"journal":{"name":"Linguamatica","volume":null,"pages":null},"PeriodicalIF":0.6,"publicationDate":"2023-01-07","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"44944342","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
引用次数: 0
XPTA: um parser AMR para o Português baseado em uma abordagem entre línguas XPTA:基于跨语言方法的葡萄牙语AMR解析器
IF 0.6 Q2 Arts and Humanities Pub Date : 2022-07-02 DOI: 10.21814/lm.14.1.359
E. Seno, Helena de Medeiros Caseli, M. Inácio, Rafael Torres Anchiêta, Renata Ramisch
O crescente interesse pelo processamento semântico automático, especialmente por parte dos pesquisadores de Compreensão e de Geração de Língua Natural, tem levado a muitas pesquisas relacionadas ao desenvolvimento de parsers semânticos. E, nesse contexto, a AMR (Abstract Meaning Representation) é um dos formalismos de representação semântica que tem recebido mais atenção recentemente, devido à sua maneira relativamente simples de capturar o significado de uma sentença. A construção de parsers AMR é em grande parte baseada em córpus de referência anotados por humanos. Contudo, esse recurso é ainda bastante escasso para muitas línguas como o português. Por esse motivo, várias pesquisas têm explorado o uso de abordagens entre línguas (cross-lingual), que partem de córpus e parser existentes em uma língua fonte, para o desenvolvimento de recursos semânticos para outras línguas alvo. Dado esse contexto, este artigo descreve o XPTA, um parser AMR para o português (PT) que se baseia na abordagem entre línguas (cross-lingual, X). O XPTA parte de parser AMR existente para o inglês e de vários recursos linguísticos-computacionais bilíngues inglês--português e mapeia o conhecimento semântico disponível no inglês para a representação do significado equivalente em português. Uma avaliação automática do XPTA mostrou que a abordagem adotada é promissora e os valores obtidos para Smatch (66%, no melhor caso) apontaram que o modelo tem potencial para competir com os resultados apresentados na literatura para outros idiomas. Além da análise automática, uma análise qualitativa dos grafos gerados possibilitou identificar e categorizar os principais erros do modelo e suas possíveis causas.
对自动语义处理的兴趣日益浓厚,特别是自然语言理解和生成研究者的兴趣,导致了许多与语义解析器开发相关的研究。在这种背景下,抽象意义表示(AMR)是语义表示的一种形式形式,由于其捕捉句子意义的相对简单的方法,近年来受到了更多的关注。AMR解析器的构建主要基于人类注释的参考语料库。然而,对于像葡萄牙语这样的许多语言来说,这一功能仍然非常稀缺。因此,一些研究探索了跨语言方法的使用,即从源语言中现有的语料库和解析器开始,为其他目标语言开发语义资源。的背景下,这篇文章描述了一个解析器XPTA, AMR的葡萄牙语(PT)基于语言方法(十字-lingual解析器,X) XPTA AMR现有英语语言资源和各种-computacionais双语英语图书馆与语义地图的知识在英语葡萄牙语表示的意义是相同的。对XPTA的自动评估表明,采用的方法是有前途的,Smatch的值(最好是66%)表明,该模型有潜力与文献中其他语言的结果竞争。除了自动分析外,对生成的图进行定性分析,还可以识别和分类模型的主要错误及其可能的原因。
{"title":"XPTA: um parser AMR para o Português baseado em uma abordagem entre línguas","authors":"E. Seno, Helena de Medeiros Caseli, M. Inácio, Rafael Torres Anchiêta, Renata Ramisch","doi":"10.21814/lm.14.1.359","DOIUrl":"https://doi.org/10.21814/lm.14.1.359","url":null,"abstract":"O crescente interesse pelo processamento semântico automático, especialmente por parte dos pesquisadores de Compreensão e de Geração de Língua Natural, tem levado a muitas pesquisas relacionadas ao desenvolvimento de parsers semânticos. E, nesse contexto, a AMR (Abstract Meaning Representation) é um dos formalismos de representação semântica que tem recebido mais atenção recentemente, devido à sua maneira relativamente simples de capturar o significado de uma sentença. A construção de parsers AMR é em grande parte baseada em córpus de referência anotados por humanos. Contudo, esse recurso é ainda bastante escasso para muitas línguas como o português. Por esse motivo, várias pesquisas têm explorado o uso de abordagens entre línguas (cross-lingual), que partem de córpus e parser existentes em uma língua fonte, para o desenvolvimento de recursos semânticos para outras línguas alvo. Dado esse contexto, este artigo descreve o XPTA, um parser AMR para o português (PT) que se baseia na abordagem entre línguas (cross-lingual, X). O XPTA parte de parser AMR existente para o inglês e de vários recursos linguísticos-computacionais bilíngues inglês--português e mapeia o conhecimento semântico disponível no inglês para a representação do significado equivalente em português. Uma avaliação automática do XPTA mostrou que a abordagem adotada é promissora e os valores obtidos para Smatch (66%, no melhor caso) apontaram que o modelo tem potencial para competir com os resultados apresentados na literatura para outros idiomas. Além da análise automática, uma análise qualitativa dos grafos gerados possibilitou identificar e categorizar os principais erros do modelo e suas possíveis causas.","PeriodicalId":41819,"journal":{"name":"Linguamatica","volume":null,"pages":null},"PeriodicalIF":0.6,"publicationDate":"2022-07-02","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"43760302","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
引用次数: 0
La #felicidad en Twitter: ¿qué representa realmente? 推特上的幸福:它真正代表什么?
IF 0.6 Q2 Arts and Humanities Pub Date : 2022-07-02 DOI: 10.21814/lm.14.1.342
Gemma Bel Enguix, Helena Gómez-Adorno, K. Mendoza, Grigori Sidorov, J. Vásquez
Existe un gran número de trabajos que tienen por objeto la clasificación de diversos tipos de documentos, desde textos literarios hasta interacciones informales en redes sociales como Twitter, de acuerdo a los sentimientos que pretenden evocar. Se pueden realizar clasificaciones muy variadas con base en los sentimientos que el autor considere. El objetivo de este artículo es clasificar una recopilación de tuits en diferentes contextos en los que la palabra "feliz" o "felicidad" se pueden emplear; por ejemplo publicidad, felicitaciones o como un simple sarcasmo. Para esto se hará uso de sistemas de aprendizaje supervisado y se emplearán varios métodos de procesamiento de lenguaje natural como tokenización, identificación de palabras funcionales y n-gramas.
根据他们想要唤起的感觉,有大量的作品旨在对各种类型的文件进行分类,从文学文本到推特等社交媒体上的非正式互动。根据作者认为的感受,可以进行非常不同的分类。这篇文章的目的是将一组推文分为不同的上下文,在这些上下文中可以使用“快乐”或“幸福”一词;例如广告、祝贺或简单的讽刺。为此,将使用监督学习系统,并使用各种自然语言处理方法,如标记化、功能词识别和N-gram。
{"title":"La #felicidad en Twitter: ¿qué representa realmente?","authors":"Gemma Bel Enguix, Helena Gómez-Adorno, K. Mendoza, Grigori Sidorov, J. Vásquez","doi":"10.21814/lm.14.1.342","DOIUrl":"https://doi.org/10.21814/lm.14.1.342","url":null,"abstract":"Existe un gran número de trabajos que tienen por objeto la clasificación de diversos tipos de documentos, desde textos literarios hasta interacciones informales en redes sociales como Twitter, de acuerdo a los sentimientos que pretenden evocar. Se pueden realizar clasificaciones muy variadas con base en los sentimientos que el autor considere. El objetivo de este artículo es clasificar una recopilación de tuits en diferentes contextos en los que la palabra \"feliz\" o \"felicidad\" se pueden emplear; por ejemplo publicidad, felicitaciones o como un simple sarcasmo. Para esto se hará uso de sistemas de aprendizaje supervisado y se emplearán varios métodos de procesamiento de lenguaje natural como tokenización, identificación de palabras funcionales y n-gramas.","PeriodicalId":41819,"journal":{"name":"Linguamatica","volume":null,"pages":null},"PeriodicalIF":0.6,"publicationDate":"2022-07-02","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"45992634","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
引用次数: 0
Detecção de quebras em diálogos humano-computador 人机对话中断检测
IF 0.6 Q2 Arts and Humanities Pub Date : 2022-07-02 DOI: 10.21814/lm.14.1.354
Leonardo de Andrade, Ivandré Paraboni
Com o crescimento constante no uso de tecnologias de relacionamento com o consumidor na Internet, os sistemas de chatbot se tornaram onipresentes no processamento de linguagem natural (PLN) e áreas relacionadas. Apesar dos avanços significativos nos últimos anos, no entanto, sistemas desse tipo nem sempre fornecem resultados plausíveis e consistentes, em muitos casos levando a uma quebra no diálogo. Assim, há grande interesse em investigar as circunstâncias nas quais erros deste tipo são produzidos e, quando possível, aprimorar o projeto destes sistemas de modo a minimizar tais erros. Com base nestas observações, neste trabalho abordamos a questão da detecção automática de quebras em diálogos humano-computador apresentando três modelos que levam em consideração o histórico de diálogo para decidir quando ele possui maior probabilidade de culminar em uma quebra. Os modelos propostos exploram uma variedade de métodos de PLN recentes, e são avaliados tanto com base em um conjunto de dados de diálogos reais em português entre usuários humanos e sistemas de chatbot desenvolvido especificamente para este fim, como também utilizando benchmarks publicamente disponíveis para o idioma inglês.
随着互联网上消费者关系技术使用的稳步增长,聊天机器人系统在自然语言处理(nlp)和相关领域变得无处不在。然而,尽管近年来取得了重大进展,但这类系统并不总是提供可信和一致的结果,在许多情况下导致对话中断。因此,研究这种类型的错误产生的情况,并在可能的情况下改进这些系统的设计,以尽量减少这种错误,是非常有趣的。基于这些观察,在这项工作中,我们解决了人机对话中断的自动检测问题,提出了三种模型,考虑对话的历史,以决定何时更有可能导致中断。PLN模型提出了利用多种方法之一,和评估都基于一个真实的数据集对话英语人类用户和系统之间的chatbot专为此,作为英语语言也使用公开可用的基准。
{"title":"Detecção de quebras em diálogos humano-computador","authors":"Leonardo de Andrade, Ivandré Paraboni","doi":"10.21814/lm.14.1.354","DOIUrl":"https://doi.org/10.21814/lm.14.1.354","url":null,"abstract":"Com o crescimento constante no uso de tecnologias de relacionamento com o consumidor na Internet, os sistemas de chatbot se tornaram onipresentes no processamento de linguagem natural (PLN) e áreas relacionadas. Apesar dos avanços significativos nos últimos anos, no entanto, sistemas desse tipo nem sempre fornecem resultados plausíveis e consistentes, em muitos casos levando a uma quebra no diálogo. Assim, há grande interesse em investigar as circunstâncias nas quais erros deste tipo são produzidos e, quando possível, aprimorar o projeto destes sistemas de modo a minimizar tais erros. Com base nestas observações, neste trabalho abordamos a questão da detecção automática de quebras em diálogos humano-computador apresentando três modelos que levam em consideração o histórico de diálogo para decidir quando ele possui maior probabilidade de culminar em uma quebra. Os modelos propostos exploram uma variedade de métodos de PLN recentes, e são avaliados tanto com base em um conjunto de dados de diálogos reais em português entre usuários humanos e sistemas de chatbot desenvolvido especificamente para este fim, como também utilizando benchmarks publicamente disponíveis para o idioma inglês.","PeriodicalId":41819,"journal":{"name":"Linguamatica","volume":null,"pages":null},"PeriodicalIF":0.6,"publicationDate":"2022-07-02","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"47343439","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
引用次数: 0
Análise Semântica com base em AMR para o Português 基于AMR的葡萄牙语语义分析
IF 0.6 Q2 Arts and Humanities Pub Date : 2022-01-01 DOI: 10.21814/lm.14.1.358
Rafael Torres Anchiêta, T. Pardo
{"title":"Análise Semântica com base em AMR para o Português","authors":"Rafael Torres Anchiêta, T. Pardo","doi":"10.21814/lm.14.1.358","DOIUrl":"https://doi.org/10.21814/lm.14.1.358","url":null,"abstract":"","PeriodicalId":41819,"journal":{"name":"Linguamatica","volume":null,"pages":null},"PeriodicalIF":0.6,"publicationDate":"2022-01-01","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"68367845","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
引用次数: 0
AIA-BDE: um Corpo de Perguntas, Variações e outras Anotações AIA-BDE:一组问题、变体和其他注释
IF 0.6 Q2 Arts and Humanities Pub Date : 2021-12-30 DOI: 10.21814/lm.13.2.350
Hugo Gonçalo Oliveira, A. Alves
 Apresentamos neste artigo o corpo AIA-BDE, que tem como principal objetivo a avaliação de sistemas que procuram associar necessidades de informação expressas em linguagem natural a perguntas com resposta conhecida (i.e., FAQ). Este corpo inclui várias perguntas no domínio da Administração Pública em Portugal e respetivas respostas. A 855 dessas perguntas foram adicionadas, manual e automaticamente, formas alternativas de as fazer, a que chamamos variações, e que podem ser utilizadas para simular interações de humanos. Essas perguntas encontram-se classificadas de acordo com a sua origem, com quatro valores possíveis, e têm ainda associado um tipo, atribuído com base na opinião de cinco anotadores. Para além de apresentar o AIA-BDE, ilustramos como pode ser utilizado através de três experiências, com resultados que podem ser vistos como base para melhorias futuras: associação de variações às respetivas perguntas; identificação automática da origem das variações; e classificação automática das perguntas quanto ao seu tipo.
本文介绍了AIA-BDE主体,其主要目标是评估系统,试图将自然语言表达的信息需求与已知答案的问题(即FAQ)联系起来。本机构包括葡萄牙公共行政领域的几个问题及其答案。在855个问题中,我们手动和自动地添加了提出问题的替代方法,我们称之为变体,可以用来模拟人类互动。这些问题根据它们的来源进行分类,有四个可能的值,并有一个关联的类型,根据五个注释者的意见分配。除了介绍eia -BDE,我们还通过三个实验说明了如何使用它,其结果可以被视为未来改进的基础:关联各自问题的变化;自动识别变化的来源;以及自动分类问题的类型。
{"title":"AIA-BDE: um Corpo de Perguntas, Variações e outras Anotações","authors":"Hugo Gonçalo Oliveira, A. Alves","doi":"10.21814/lm.13.2.350","DOIUrl":"https://doi.org/10.21814/lm.13.2.350","url":null,"abstract":" Apresentamos neste artigo o corpo AIA-BDE, que tem como principal objetivo a avaliação de sistemas que procuram associar necessidades de informação expressas em linguagem natural a perguntas com resposta conhecida (i.e., FAQ). Este corpo inclui várias perguntas no domínio da Administração Pública em Portugal e respetivas respostas. A 855 dessas perguntas foram adicionadas, manual e automaticamente, formas alternativas de as fazer, a que chamamos variações, e que podem ser utilizadas para simular interações de humanos. Essas perguntas encontram-se classificadas de acordo com a sua origem, com quatro valores possíveis, e têm ainda associado um tipo, atribuído com base na opinião de cinco anotadores. Para além de apresentar o AIA-BDE, ilustramos como pode ser utilizado através de três experiências, com resultados que podem ser vistos como base para melhorias futuras: associação de variações às respetivas perguntas; identificação automática da origem das variações; e classificação automática das perguntas quanto ao seu tipo.","PeriodicalId":41819,"journal":{"name":"Linguamatica","volume":null,"pages":null},"PeriodicalIF":0.6,"publicationDate":"2021-12-30","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"43334066","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
引用次数: 1
Uso de tecnologias linguı'sticas para estudar a evolução dos sufixos -ÇOM e -VEL no galego-português medieval a partir de corpora históricos 使用技术linguı"信息研究进化的后缀-çom加利西亚语和排除在中世纪图书馆从历史全集
IF 0.6 Q2 Arts and Humanities Pub Date : 2021-12-30 DOI: 10.21814/lm.13.2.347
Pablo Gamallo, José Ramom Pichel, José Martinho Montero Santalha, Marco Neves
O trabalho apresentado neste artigo tem dois objectivos. Por um lado, descreve a adaptação de duas ferramentas de processamento da língua natural ao galego-português medieval, nomeadamente um analisador morfossintático e um reconhededor de variedades medievais, e por outro, visa testar hipóteses linguísticas sobre a evolução de sufixos medievais mediante o uso dessas ferramentas em corpora históricos. Apesar de o desempenho das ferramentas ser inferior do que quando utilizadas para variedades modernas mais estandardizadas e com menos variabilidade formal, mostramos que é possível usá-las com grande fiabilidade para estudos quantitativos baseados em corpus. O estudo linguístico baseado em corpus permite-nos conferir que, pela sua distribuição de frequências, a presença dos sufixos -CION e -BLE nos textos medievais da Galiza foi provavelmente influenciada pelo castelhano baixo medieval.
本文提出的工作有两个目标。一方面描述了适应两个在中世纪加利西亚语/葡萄牙的自然语言处理工具,包括一个reconhededor morfossintático分析器和中世纪的品种,另一方面,签证的语言测试假设关于进化论的后缀的中世纪历史语料的可用来使用这些工具。尽管这些工具的性能不如用于更标准化的现代品种和更少的形式变异性时,但我们表明,它们可以用于基于语料库的定量研究,具有很高的可靠性。基于语料库的语言学研究表明,由于其频率分布,中世纪加利西亚文本中后缀-CION和-BLE的存在可能受到中世纪晚期卡斯提尔语的影响。
{"title":"Uso de tecnologias linguı'sticas para estudar a evolução dos sufixos -ÇOM e -VEL no galego-português medieval a partir de corpora históricos","authors":"Pablo Gamallo, José Ramom Pichel, José Martinho Montero Santalha, Marco Neves","doi":"10.21814/lm.13.2.347","DOIUrl":"https://doi.org/10.21814/lm.13.2.347","url":null,"abstract":"O trabalho apresentado neste artigo tem dois objectivos. Por um lado, descreve a adaptação de duas ferramentas de processamento da língua natural ao galego-português medieval, nomeadamente um analisador morfossintático e um reconhededor de variedades medievais, e por outro, visa testar hipóteses linguísticas sobre a evolução de sufixos medievais mediante o uso dessas ferramentas em corpora históricos. Apesar de o desempenho das ferramentas ser inferior do que quando utilizadas para variedades modernas mais estandardizadas e com menos variabilidade formal, mostramos que é possível usá-las com grande fiabilidade para estudos quantitativos baseados em corpus. O estudo linguístico baseado em corpus permite-nos conferir que, pela sua distribuição de frequências, a presença dos sufixos -CION e -BLE nos textos medievais da Galiza foi provavelmente influenciada pelo castelhano baixo medieval.","PeriodicalId":41819,"journal":{"name":"Linguamatica","volume":null,"pages":null},"PeriodicalIF":0.6,"publicationDate":"2021-12-30","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"47882976","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
引用次数: 1
Corpus Paralelo de Español, Inglés y Chino y Análisis contrastivo del tiempo pasado del español a partir de corpus 西班牙语、英语和汉语的平行语料库和西班牙语过去时的对比分析
IF 0.6 Q2 Arts and Humanities Pub Date : 2021-07-10 DOI: 10.21814/lm.13.1.340
H. Lu, A. Cheng, Meng-Hsin Yeh, Chao Lu, Ruth Alegre Di Lascio
El presente estudio se dedica al desarrollo de un corpus paralelo trilingüe denominado CPEIC (Corpus Paralelo de Español, Inglés y Chino) cuyo fin es el de aportar conocimientos a las investigaciones sobre la traducción, el análisis contrastivo, el aprendizaje y la enseñanza de una lengua extranjera. Dicho CPEIC abarca las tres lenguas más habladas del mundo (español, inglés y chino) y contiene aproximadamente 4 millones de palabras. Basándose en el corpus paralelo desarrollado, se realizó un análisis contrastivo del tiempo pasado, el cual se expresa de manera diferente en las tres lenguas mencionadas. Los resultados obtenidos (a) avalan estudios previos sobre la relación entre el pretérito del español con el marcador aspectual chino "le", así como también la relación entre el imperfecto del español con "would" y "was/were+Ving" del inglés, (b) contradicen las presunciones con respecto a la conexión entre el imperfecto del español y el marcador aspectual chino "zhe", y (c) proporcionan una nueva perspectiva sobre la relación entre el pretérito del español y la voz pasiva en los tres idiomas.
本研究旨在开发一个名为CPEIC(西班牙语、英语和汉语平行语料库)的三语平行语料库,其目的是为外语翻译、对比分析、学习和教学的研究提供知识。CPEIC涵盖了世界上使用最广泛的三种语言(西班牙语、英语和汉语),包含约400万个单词。在平行语料库的基础上,对过去时进行了对比分析,过去时在上述三种语言中表达不同。(成果)之间关系的学力的传记,西班牙与中国aspectual标记“他”,以及缺陷之间的关系是会”和“was /西班牙+ Ving”英语,(b)与假设与不完美的方面之间的联系来西班牙和中国aspectual标记“zhe”,(c)之间的关系提供了一个新的视角的传记,西班牙和被动语态在三种语言。
{"title":"Corpus Paralelo de Español, Inglés y Chino y Análisis contrastivo del tiempo pasado del español a partir de corpus","authors":"H. Lu, A. Cheng, Meng-Hsin Yeh, Chao Lu, Ruth Alegre Di Lascio","doi":"10.21814/lm.13.1.340","DOIUrl":"https://doi.org/10.21814/lm.13.1.340","url":null,"abstract":"El presente estudio se dedica al desarrollo de un corpus paralelo trilingüe denominado CPEIC (Corpus Paralelo de Español, Inglés y Chino) cuyo fin es el de aportar conocimientos a las investigaciones sobre la traducción, el análisis contrastivo, el aprendizaje y la enseñanza de una lengua extranjera. Dicho CPEIC abarca las tres lenguas más habladas del mundo (español, inglés y chino) y contiene aproximadamente 4 millones de palabras. Basándose en el corpus paralelo desarrollado, se realizó un análisis contrastivo del tiempo pasado, el cual se expresa de manera diferente en las tres lenguas mencionadas. Los resultados obtenidos (a) avalan estudios previos sobre la relación entre el pretérito del español con el marcador aspectual chino \"le\", así como también la relación entre el imperfecto del español con \"would\" y \"was/were+Ving\" del inglés, (b) contradicen las presunciones con respecto a la conexión entre el imperfecto del español y el marcador aspectual chino \"zhe\", y (c) proporcionan una nueva perspectiva sobre la relación entre el pretérito del español y la voz pasiva en los tres idiomas.","PeriodicalId":41819,"journal":{"name":"Linguamatica","volume":null,"pages":null},"PeriodicalIF":0.6,"publicationDate":"2021-07-10","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"44875232","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
引用次数: 0
期刊
Linguamatica
全部 Acc. Chem. Res. ACS Applied Bio Materials ACS Appl. Electron. Mater. ACS Appl. Energy Mater. ACS Appl. Mater. Interfaces ACS Appl. Nano Mater. ACS Appl. Polym. Mater. ACS BIOMATER-SCI ENG ACS Catal. ACS Cent. Sci. ACS Chem. Biol. ACS Chemical Health & Safety ACS Chem. Neurosci. ACS Comb. Sci. ACS Earth Space Chem. ACS Energy Lett. ACS Infect. Dis. ACS Macro Lett. ACS Mater. Lett. ACS Med. Chem. Lett. ACS Nano ACS Omega ACS Photonics ACS Sens. ACS Sustainable Chem. Eng. ACS Synth. Biol. Anal. Chem. BIOCHEMISTRY-US Bioconjugate Chem. BIOMACROMOLECULES Chem. Res. Toxicol. Chem. Rev. Chem. Mater. CRYST GROWTH DES ENERG FUEL Environ. Sci. Technol. Environ. Sci. Technol. Lett. Eur. J. Inorg. Chem. IND ENG CHEM RES Inorg. Chem. J. Agric. Food. Chem. J. Chem. Eng. Data J. Chem. Educ. J. Chem. Inf. Model. J. Chem. Theory Comput. J. Med. Chem. J. Nat. Prod. J PROTEOME RES J. Am. Chem. Soc. LANGMUIR MACROMOLECULES Mol. Pharmaceutics Nano Lett. Org. Lett. ORG PROCESS RES DEV ORGANOMETALLICS J. Org. Chem. J. Phys. Chem. J. Phys. Chem. A J. Phys. Chem. B J. Phys. Chem. C J. Phys. Chem. Lett. Analyst Anal. Methods Biomater. Sci. Catal. Sci. Technol. Chem. Commun. Chem. Soc. Rev. CHEM EDUC RES PRACT CRYSTENGCOMM Dalton Trans. Energy Environ. Sci. ENVIRON SCI-NANO ENVIRON SCI-PROC IMP ENVIRON SCI-WAT RES Faraday Discuss. Food Funct. Green Chem. Inorg. Chem. Front. Integr. Biol. J. Anal. At. Spectrom. J. Mater. Chem. A J. Mater. Chem. B J. Mater. Chem. C Lab Chip Mater. Chem. Front. Mater. Horiz. MEDCHEMCOMM Metallomics Mol. Biosyst. Mol. Syst. Des. Eng. Nanoscale Nanoscale Horiz. Nat. Prod. Rep. New J. Chem. Org. Biomol. Chem. Org. Chem. Front. PHOTOCH PHOTOBIO SCI PCCP Polym. Chem.
×
引用
GB/T 7714-2015
复制
MLA
复制
APA
复制
导出至
BibTeX EndNote RefMan NoteFirst NoteExpress
×
0
微信
客服QQ
Book学术公众号 扫码关注我们
反馈
×
意见反馈
请填写您的意见或建议
请填写您的手机或邮箱
×
提示
您的信息不完整,为了账户安全,请先补充。
现在去补充
×
提示
您因"违规操作"
具体请查看互助需知
我知道了
×
提示
现在去查看 取消
×
提示
确定
Book学术官方微信
Book学术文献互助
Book学术文献互助群
群 号:481959085
Book学术
文献互助 智能选刊 最新文献 互助须知 联系我们:info@booksci.cn
Book学术提供免费学术资源搜索服务,方便国内外学者检索中英文文献。致力于提供最便捷和优质的服务体验。
Copyright © 2023 Book学术 All rights reserved.
ghs 京公网安备 11010802042870号 京ICP备2023020795号-1