首页 > 最新文献

Linguamatica最新文献

英文 中文
A compilação e a análise de métricas textuais de um corpus de redações 散文语料库语篇计量的编纂与分析
IF 0.6 Q4 LINGUISTICS Pub Date : 2023-07-08 DOI: 10.21814/lm.15.1.393
Átila Augusto Soares Vital
 A prova de redação do Exame Nacional do Ensino Médio (Enem) é decisiva para a garantia da vaga em instituições de ensino superior no Brasil. De 2010 a 2020, foi observado que a quantidade de redações avaliadas em nota máxima (mil pontos) caiu de maneira drástica e abrupta: de 3.694 redações nota máxima em 2011 para apenas 28 em 2020. O objetivo deste trabalho é apresentar um corpus de redações nota máxima avaliadas pela banca do Enem, descrevê-las e tecer breves considerações a partir da análise de métricas textuais na série histórica de 2010 a 2020. A compilação foi feita de forma manual, pela internet. Para as descrições, foram utilizados o programa Orange: Data Mining e o analisador de complexidade textual NILC-Metrix. Os resultados sugerem que houve aumento expressivo no número de palavras e diminuição da razão type/token ao longo dos anos. Além disso, foram feitas medidas sintáticas que constataram o aumento da complexidade dos textos.
国家高中考试(Enem)的写作测试对保证巴西高等教育机构的空缺具有决定性作用。从2010年到2020年,人们观察到,最高分数(1000分)的论文数量急剧下降:从2011年的3694篇最高分数论文下降到2020年的28篇。这项工作的目的是提供一个由Enem董事会评估的最高分数论文集,对它们进行描述,并在分析2010-2020年历史系列中的文本指标时进行简要考虑。汇编是通过互联网手动完成的。对于描述,使用了Orange:数据挖掘程序和NILC Metrix文本复杂性分析器。结果表明,这些年来,单词数量显著增加,类型/表征比例下降。此外,还进行了句法测量,发现文本的复杂性增加了。
{"title":"A compilação e a análise de métricas textuais de um corpus de redações","authors":"Átila Augusto Soares Vital","doi":"10.21814/lm.15.1.393","DOIUrl":"https://doi.org/10.21814/lm.15.1.393","url":null,"abstract":" A prova de redação do Exame Nacional do Ensino Médio (Enem) é decisiva para a garantia da vaga em instituições de ensino superior no Brasil. De 2010 a 2020, foi observado que a quantidade de redações avaliadas em nota máxima (mil pontos) caiu de maneira drástica e abrupta: de 3.694 redações nota máxima em 2011 para apenas 28 em 2020. O objetivo deste trabalho é apresentar um corpus de redações nota máxima avaliadas pela banca do Enem, descrevê-las e tecer breves considerações a partir da análise de métricas textuais na série histórica de 2010 a 2020. A compilação foi feita de forma manual, pela internet. Para as descrições, foram utilizados o programa Orange: Data Mining e o analisador de complexidade textual NILC-Metrix. Os resultados sugerem que houve aumento expressivo no número de palavras e diminuição da razão type/token ao longo dos anos. Além disso, foram feitas medidas sintáticas que constataram o aumento da complexidade dos textos.","PeriodicalId":41819,"journal":{"name":"Linguamatica","volume":" 1","pages":""},"PeriodicalIF":0.6,"publicationDate":"2023-07-08","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"41253754","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
引用次数: 0
Classificação da qualidade da argumentação em tweets no domínio da política brasileira 巴西政治领域推文辩论质量排名
IF 0.6 Q4 LINGUISTICS Pub Date : 2023-07-07 DOI: 10.21814/lm.15.1.387
Cássio Faria da Silva, Vânia Paula de Almeida Neris, Helena de Medeiros Caseli
A argumentação é uma habilidade inerente à comunicação humana, tanto em situações orais quanto escritas. Argumentos bem fundamentados são importantes para amparar a tomada de decisões e aprendizado, assim como para a obtenção de conclusões amplamente aceitas. Como área de pesquisa, a argumentação é um campo multidisciplinar que estuda os processos de debate e raciocínio. Em linguística computacional, investigações têm sido realizadas para (i) identificar argumentos e suas unidades e (ii) gerar ou (iii) avaliar a qualidade dos argumentos. No entanto, a maioria dos trabalhos atuais se concentra na mineração de argumentos em textos formais em inglês. Neste artigo, foi avaliada a qualidade da argumentação em tweets de domínio político, escritos em português do Brasil, usando algoritmos tradicionais de aprendizado de máquina -- como Regressão Logística, K-Nearest Neighbors, Árvores de Decisão, Máquinas de Vetores Suporte (SVM), Floresta Aleatória e Naive Bayes -- e também um ajuste fino de dois modelos neurais (BERTimbau e RobertaTwitterBR). Além de trazer resultados práticos para a avaliação da qualidade da argumentação em um gênero textual desafiador, como o Twitter, e em um domínio controverso, como a política brasileira, este artigo também visa suprir a carência de trabalhos que avaliem automaticamente a qualidade dos argumentos em português. Dentre os algoritmos de classificação avaliados, o modelo obtido a partir do ajuste fino do BERTimbau apresentou os melhores resultados com uma precisão de 69,65% quando foram consideradas todas as classes e de 100,00% para as mensagens de alta qualidade de argumentação.
辩论是人类口头和书面交流中固有的一种技能。有充分根据的论点对于支持决策和学习以及获得广泛接受的结论是很重要的。作为一个研究领域,论证是一个研究辩论和推理过程的多学科领域。在计算语言学中,已经进行了研究(i)识别论点及其单位,(ii)生成或(iii)评估论点的质量。然而,目前的大多数工作都集中在正式英语文本的论证挖掘上。本文的论证,评价质量在微博的政治领域,用巴西葡萄牙语,用传统的机器学习算法- K -逻辑回归,-Nearest邻居,决策树、支持向量机(SVM)、贝叶斯随机森林和天真——一个微调也两种神经(BERTimbau RobertaTwitterBR)模型。除了为评估具有挑战性的文本体裁(如Twitter)和有争议的领域(如巴西政治)的论证质量带来实际结果外,本文还旨在弥补自动评估葡萄牙语论证质量的研究的不足。在评估的分类算法中,由BERTimbau微调得到的模型在考虑所有类别时表现出最好的结果,准确率为69.65%,对于高质量的论证信息,准确率为1000%。
{"title":"Classificação da qualidade da argumentação em tweets no domínio da política brasileira","authors":"Cássio Faria da Silva, Vânia Paula de Almeida Neris, Helena de Medeiros Caseli","doi":"10.21814/lm.15.1.387","DOIUrl":"https://doi.org/10.21814/lm.15.1.387","url":null,"abstract":"A argumentação é uma habilidade inerente à comunicação humana, tanto em situações orais quanto escritas. Argumentos bem fundamentados são importantes para amparar a tomada de decisões e aprendizado, assim como para a obtenção de conclusões amplamente aceitas. Como área de pesquisa, a argumentação é um campo multidisciplinar que estuda os processos de debate e raciocínio. Em linguística computacional, investigações têm sido realizadas para (i) identificar argumentos e suas unidades e (ii) gerar ou (iii) avaliar a qualidade dos argumentos. No entanto, a maioria dos trabalhos atuais se concentra na mineração de argumentos em textos formais em inglês. Neste artigo, foi avaliada a qualidade da argumentação em tweets de domínio político, escritos em português do Brasil, usando algoritmos tradicionais de aprendizado de máquina -- como Regressão Logística, K-Nearest Neighbors, Árvores de Decisão, Máquinas de Vetores Suporte (SVM), Floresta Aleatória e Naive Bayes -- e também um ajuste fino de dois modelos neurais (BERTimbau e RobertaTwitterBR). Além de trazer resultados práticos para a avaliação da qualidade da argumentação em um gênero textual desafiador, como o Twitter, e em um domínio controverso, como a política brasileira, este artigo também visa suprir a carência de trabalhos que avaliem automaticamente a qualidade dos argumentos em português. Dentre os algoritmos de classificação avaliados, o modelo obtido a partir do ajuste fino do BERTimbau apresentou os melhores resultados com uma precisão de 69,65% quando foram consideradas todas as classes e de 100,00% para as mensagens de alta qualidade de argumentação.","PeriodicalId":41819,"journal":{"name":"Linguamatica","volume":" ","pages":""},"PeriodicalIF":0.6,"publicationDate":"2023-07-07","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"43733839","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
引用次数: 0
Extracção de Relações de Apoio e Oposição em Títulos de Notícias de Política em Português 从葡萄牙语政治新闻标题中提取支持和反对关系
IF 0.6 Q4 LINGUISTICS Pub Date : 2023-07-05 DOI: 10.21814/lm.15.1.386
David Soares Batista
Títulos de notícias de política relatam com frequência relações de apoio ou oposição entre personalidades, por exemplo: ``Marques Mendes critica estratégia de Rui Rio' ou ``Costa reafirma confiança em Centeno.'' Neste trabalho analisámos milhares de títulos arquivados, identificando os que expressam relações de apoio ou oposição e associando as personalidades políticas com o seu identificador na Wikidata, resultando assim num grafo semântico. O grafo permite responder a interrogações envolvendo personalidades políticas e partidos. Descrevemos o processo de geração do grafo e tornamo-lo disponível, assim como uma colecção de dados anotada manualmente, que permitiu treinar classificadores de aprendizagem supervisionada para identificar as relações expressas nos títulos e ligar as personalidades com a Wikidata.
政治新闻标题经常报道人物之间的支持或反对关系,例如:“Marques Mendes批评Rui Rio的战略”或“Costa重申对Centeno的信心”在这项工作中,我们分析了数千个存档的标题,确定了那些表达支持或反对关系的标题,并将政治人物与他们在维基数据上的标识符联系起来,形成了一个语义图。该图允许回答涉及政治人物和政党的问题。我们描述了图形生成过程并提供了它,以及手动注释的数据收集,这使我们能够训练监督学习分类器来识别标题中表达的关系,并将个性与Wikidata联系起来。
{"title":"Extracção de Relações de Apoio e Oposição em Títulos de Notícias de Política em Português","authors":"David Soares Batista","doi":"10.21814/lm.15.1.386","DOIUrl":"https://doi.org/10.21814/lm.15.1.386","url":null,"abstract":"Títulos de notícias de política relatam com frequência relações de apoio ou oposição entre personalidades, por exemplo: ``Marques Mendes critica estratégia de Rui Rio' ou ``Costa reafirma confiança em Centeno.'' Neste trabalho analisámos milhares de títulos arquivados, identificando os que expressam relações de apoio ou oposição e associando as personalidades políticas com o seu identificador na Wikidata, resultando assim num grafo semântico. O grafo permite responder a interrogações envolvendo personalidades políticas e partidos. Descrevemos o processo de geração do grafo e tornamo-lo disponível, assim como uma colecção de dados anotada manualmente, que permitiu treinar classificadores de aprendizagem supervisionada para identificar as relações expressas nos títulos e ligar as personalidades com a Wikidata.","PeriodicalId":41819,"journal":{"name":"Linguamatica","volume":" ","pages":""},"PeriodicalIF":0.6,"publicationDate":"2023-07-05","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"46492822","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
引用次数: 0
DIP - Desafio de Identificação de Personagens: objectivo, organização, recursos e resultados DIP-角色识别挑战:目标、组织、资源和结果
IF 0.6 Q4 LINGUISTICS Pub Date : 2023-07-04 DOI: 10.21814/lm.15.1.399
Diana Santos, C. Mota, E. Pires, M. Langfeldt, Rebeca Schumacher Fuão, Roberto Willrich
Este artigo apresenta o Desafio de Identificação de Personagens (DIP) em profundidade. Documenta a sua motivação, as escolhas feitas, o desenrolar do processo de organização, a avaliação conjunta, e os resultados que podemos mostrar, assim como os recursos compilados e que são públicos. Relatamos o que aprendemos com a organização do DIP e o que aprendemos sobre a literatura em português. Por exemplo, nas obras do DIP, (1) o número de personagens femininas é muito inferior ao das personagens masculinas, (2) existem sempre algumas personagens referidas com nomes diferentes na mesma obra, (3) a profissão mais mencionada é a de padre, (4) há mais referência a pais do que a mães, e (5) os diminutivos são bastante frequentes.
本文深入介绍了字符识别挑战(DIP)。它记录了你的动机、所做的选择、组织过程的进展、联合评估、我们可以展示的结果,以及汇编和公开的资源。我们用葡萄牙语报告我们从DIP组织学到的东西以及我们对文学的了解。例如,在DIP的作品中,(1)女性角色的数量远低于男性角色,(2)在同一部作品中总是有一些角色被称为不同的名字,(3)最常被提及的职业是牧师,(4)对父亲的提及多于对母亲的提及,(5)小字母很常见。
{"title":"DIP - Desafio de Identificação de Personagens: objectivo, organização, recursos e resultados","authors":"Diana Santos, C. Mota, E. Pires, M. Langfeldt, Rebeca Schumacher Fuão, Roberto Willrich","doi":"10.21814/lm.15.1.399","DOIUrl":"https://doi.org/10.21814/lm.15.1.399","url":null,"abstract":"Este artigo apresenta o Desafio de Identificação de Personagens (DIP) em profundidade. Documenta a sua motivação, as escolhas feitas, o desenrolar do processo de organização, a avaliação conjunta, e os resultados que podemos mostrar, assim como os recursos compilados e que são públicos. Relatamos o que aprendemos com a organização do DIP e o que aprendemos sobre a literatura em português. Por exemplo, nas obras do DIP, (1) o número de personagens femininas é muito inferior ao das personagens masculinas, (2) existem sempre algumas personagens referidas com nomes diferentes na mesma obra, (3) a profissão mais mencionada é a de padre, (4) há mais referência a pais do que a mães, e (5) os diminutivos são bastante frequentes.","PeriodicalId":41819,"journal":{"name":"Linguamatica","volume":" ","pages":""},"PeriodicalIF":0.6,"publicationDate":"2023-07-04","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"47634963","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
引用次数: 1
Pais, filhos e outras relações familiares no DIP DIP中的父母、子女和其他家庭关系
IF 0.6 Q4 LINGUISTICS Pub Date : 2023-07-04 DOI: 10.21814/lm.15.1.402
Diana Santos, C. Mota
Neste artigo é descrita em pormenor a tarefa de identificação de relações familiares no Desafio de Identificação de Personagens (DIP), uma avaliação conjunta para identificar personagens em textos literários em português. Explicamos a motivação para esta subtarefa, e quais as dificuldades em criar uma coleção dourada com os valores corretos. Depois de referir em abstrato como se processa a avaliação desta sub-tarefa, relatamos os resultados do sistema participante, o PALAVRAS-DIP, e comentamos alguns problemas na sua avaliação. Além disso, descrevemos aquilo que aprendemos sobre a literatura lusófona com esta tarefa, assim como sugerimos outras pesquisas possíveis com este material.
本文详细描述了在字符识别挑战(DIP)中识别家庭关系的任务,这是一项联合评估,旨在识别葡萄牙语文学文本中的字符。我们解释了这个子任务的动机,以及创建具有正确价值观的黄金收藏的困难。在抽象地提到该子任务的评估是如何进行的之后,我们报告了参与者系统WORDS-DIP的结果,并对其评估中的一些问题进行了评论。此外,我们描述了我们在这项任务中对葡语文学的了解,并提出了其他可能的研究建议。
{"title":"Pais, filhos e outras relações familiares no DIP","authors":"Diana Santos, C. Mota","doi":"10.21814/lm.15.1.402","DOIUrl":"https://doi.org/10.21814/lm.15.1.402","url":null,"abstract":"Neste artigo é descrita em pormenor a tarefa de identificação de relações familiares no Desafio de Identificação de Personagens (DIP), uma avaliação conjunta para identificar personagens em textos literários em português. Explicamos a motivação para esta subtarefa, e quais as dificuldades em criar uma coleção dourada com os valores corretos. Depois de referir em abstrato como se processa a avaliação desta sub-tarefa, relatamos os resultados do sistema participante, o PALAVRAS-DIP, e comentamos alguns problemas na sua avaliação. Além disso, descrevemos aquilo que aprendemos sobre a literatura lusófona com esta tarefa, assim como sugerimos outras pesquisas possíveis com este material.","PeriodicalId":41819,"journal":{"name":"Linguamatica","volume":" ","pages":""},"PeriodicalIF":0.6,"publicationDate":"2023-07-04","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"44749376","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
引用次数: 1
Avaliação no Desafio de Identificação de Personagens 性格识别挑战中的评估
IF 0.6 Q4 LINGUISTICS Pub Date : 2023-07-04 DOI: 10.21814/lm.15.1.398
Roberto Willrich, D. Santos
A primeira edição do Desafio de Identificação de Personagens (DIP) foi uma avaliação conjunta de soluções computacionais para a identificação de personagens em textos literários, bem como a extração de características destas personagens e seus relacionamentos. Para esta avaliação, foi necessária a definição de uma metodologia de avaliação, incluindo a seleção de métricas adequadas ao problema da identificação de personagens em textos literários. Este artigo apresenta uma panorâmica de avaliação na área de identificação de personagens em textos literários, assim como as escolhas concretas que foram realizadas pela comissão organizadora do DIP. Estas escolhas resultaram na definição da metodologia de avaliação do DIP. O uso da metodologia de avaliação proposta é ilustrado pela avaliação da solução candidata submetida ao DIP. Ao final, são apresentadas críticas e sugestões de melhorias à metodologia de avaliação proposta.
第一版的字符识别挑战(DIP)是对文学文本中字符识别的计算解决方案的联合评估,以及对这些字符的特征及其关系的提取。对于这种评估,有必要定义一种评估方法,包括选择适当的指标来识别文学文本中的人物。本文概述了文学文本特征识别领域的评价,以及DIP组委会做出的具体选择。这些选择导致了DIP评估方法的定义。对提交给DIP的候选解决方案的评估说明了拟议评估方法的使用。最后,对所提出的评价方法提出了批评和改进建议。
{"title":"Avaliação no Desafio de Identificação de Personagens","authors":"Roberto Willrich, D. Santos","doi":"10.21814/lm.15.1.398","DOIUrl":"https://doi.org/10.21814/lm.15.1.398","url":null,"abstract":"A primeira edição do Desafio de Identificação de Personagens (DIP) foi uma avaliação conjunta de soluções computacionais para a identificação de personagens em textos literários, bem como a extração de características destas personagens e seus relacionamentos. Para esta avaliação, foi necessária a definição de uma metodologia de avaliação, incluindo a seleção de métricas adequadas ao problema da identificação de personagens em textos literários. Este artigo apresenta uma panorâmica de avaliação na área de identificação de personagens em textos literários, assim como as escolhas concretas que foram realizadas pela comissão organizadora do DIP. Estas escolhas resultaram na definição da metodologia de avaliação do DIP. O uso da metodologia de avaliação proposta é ilustrado pela avaliação da solução candidata submetida ao DIP. Ao final, são apresentadas críticas e sugestões de melhorias à metodologia de avaliação proposta.","PeriodicalId":41819,"journal":{"name":"Linguamatica","volume":" ","pages":""},"PeriodicalIF":0.6,"publicationDate":"2023-07-04","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"49149090","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
引用次数: 0
Desafios e vantagens do processo de identificação automática do gênero e das profissões das personagens no DIP 在DIP中自动识别角色性别和职业的挑战和优势
IF 0.6 Q4 LINGUISTICS Pub Date : 2023-07-02 DOI: 10.21814/lm.15.1.401
E. Pires, M. Langfeldt, Rebeca Schumacher Fuão
O desenvolvimento de sistemas para identificação automática de personagens e de algumas de suas características é o objetivo central do projeto Desafio de Identificação de Personagens (DIP) desenvolvido junto à Linguateca. Dentre essas características, trataremos neste artigo da identificação do gênero e das profissões das personagens. Primeiramente, justificaremos a nossa escolha em trabalhar com esses dois dados, apresentando os diferentes caminhos que trilhamos para estabelecer diretrizes para a identificação dos mesmos. A identificação manual do gênero e da profissão é exaustiva e passível de falhas, sendo cada vez mais comum o uso de sistemas computacionais para essa tarefa. A análise das profissões permitiria refletir sobre questões como a definição de profissão, sua frequência em obras brasileiras e portuguesas, e possíveis relações com os gêneros literários. Em seguida, apresentaremos alguns resultados provenientes da leitura distante e da leitura próxima de um grupo de obras. Contrastaremos esses resultados e comentaremos os desafios e as vantagens que encontramos ao longo dessa tarefa e que parecem reforçar a nossa hipótese de preferência por um esforço combinado de sistemas automáticos e interpretação humana na identificação de personagens.
开发字符及其某些特征的自动识别系统是与Linguateca开发的字符识别挑战(DIP)项目的中心目标。在这些特征中,本文对人物的类型和职业进行了识别。首先,我们将证明我们选择使用这两个数据的合理性,介绍我们为确定它们所采取的不同途径。手动识别性别和职业是详尽无遗的,而且很容易失败,使用计算机系统完成这项任务越来越普遍。对职业的分析将使我们能够思考职业的定义、在巴西和葡萄牙作品中的频率以及与文学流派的可能关系等问题。接下来,我们介绍了一组作品的远读和细读的一些结果。我们将对比这些结果,并评论我们在整个任务中发现的挑战和优势,这些挑战和优势似乎强化了我们的假设,即在性格识别中,我们倾向于将自动系统和人类解释相结合。
{"title":"Desafios e vantagens do processo de identificação automática do gênero e das profissões das personagens no DIP","authors":"E. Pires, M. Langfeldt, Rebeca Schumacher Fuão","doi":"10.21814/lm.15.1.401","DOIUrl":"https://doi.org/10.21814/lm.15.1.401","url":null,"abstract":"O desenvolvimento de sistemas para identificação automática de personagens e de algumas de suas características é o objetivo central do projeto Desafio de Identificação de Personagens (DIP) desenvolvido junto à Linguateca. Dentre essas características, trataremos neste artigo da identificação do gênero e das profissões das personagens. Primeiramente, justificaremos a nossa escolha em trabalhar com esses dois dados, apresentando os diferentes caminhos que trilhamos para estabelecer diretrizes para a identificação dos mesmos. A identificação manual do gênero e da profissão é exaustiva e passível de falhas, sendo cada vez mais comum o uso de sistemas computacionais para essa tarefa. A análise das profissões permitiria refletir sobre questões como a definição de profissão, sua frequência em obras brasileiras e portuguesas, e possíveis relações com os gêneros literários. Em seguida, apresentaremos alguns resultados provenientes da leitura distante e da leitura próxima de um grupo de obras. Contrastaremos esses resultados e comentaremos os desafios e as vantagens que encontramos ao longo dessa tarefa e que parecem reforçar a nossa hipótese de preferência por um esforço combinado de sistemas automáticos e interpretação humana na identificação de personagens.","PeriodicalId":41819,"journal":{"name":"Linguamatica","volume":" ","pages":""},"PeriodicalIF":0.6,"publicationDate":"2023-07-02","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"44518620","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
引用次数: 0
Extraction of Literary Character Information in Portuguese 葡萄牙语文学特征信息的提取
IF 0.6 Q4 LINGUISTICS Pub Date : 2023-06-30 DOI: 10.21814/lm.15.1.397
Eckhard Bick
This chapter describes PALAVRAS-DIP, a system for the automatic identification of characters and their social profiles in Portuguese and Brazilian literature. The system has been designed as an add-on module for a morphosyntactic and semantic parser. We tag human named entities (NE) for profession and social position, and use Constraint Grammar (CG relational tags to keep track of co-reference (e.g. pronoun anaphora, zero-subject verbs) and family reations between the characters. The resulting base annotation allows the extraction of character networks. The extraction program recognizes and bundles character name variants and distinguishes between names with a narrative function and simple cultural references. System development was motivated by DIP, a shared-task evaluation on 100 historical novels, where a prototype version achieved reasonable F-scores for character identification (63.4%) and alias resolution (68.1%), but underperformed for family relations (15.5%).
本章介绍了PALAVRAS-DIP,这是一个自动识别葡萄牙和巴西文学中人物及其社会档案的系统。该系统被设计为形态句法和语义解析器的附加模块。我们为职业和社会地位标记人名实体(NE),并使用约束语法(CG关系标记)来跟踪共同指称(如代词回指、零主语动词)和角色之间的家庭创造。生成的基础注释允许提取字符网络。提取程序识别并捆绑字符名称变体,并区分具有叙事功能的名称和简单的文化参考。系统开发的动机是DIP,这是一项对100部历史小说的共享任务评估,原型版本在人物识别(63.4%)和别名解析(68.1%)方面获得了合理的F分,但在家庭关系方面表现不佳(15.5%)。
{"title":"Extraction of Literary Character Information in Portuguese","authors":"Eckhard Bick","doi":"10.21814/lm.15.1.397","DOIUrl":"https://doi.org/10.21814/lm.15.1.397","url":null,"abstract":"This chapter describes PALAVRAS-DIP, a system for the automatic identification of characters and their social profiles in Portuguese and Brazilian literature. The system has been designed as an add-on module for a morphosyntactic and semantic parser. We tag human named entities (NE) for profession and social position, and use Constraint Grammar (CG relational tags to keep track of co-reference (e.g. pronoun anaphora, zero-subject verbs) and family reations between the characters. The resulting base annotation allows the extraction of character networks. The extraction program recognizes and bundles character name variants and distinguishes between names with a narrative function and simple cultural references. System development was motivated by DIP, a shared-task evaluation on 100 historical novels, where a prototype version achieved reasonable F-scores for character identification (63.4%) and alias resolution (68.1%), but underperformed for family relations (15.5%).","PeriodicalId":41819,"journal":{"name":"Linguamatica","volume":" ","pages":""},"PeriodicalIF":0.6,"publicationDate":"2023-06-30","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"41387887","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
引用次数: 2
El corpus paral·lel del Diari Oficial de la Generalitat de Catalunya 加泰罗尼亚总秘书处官方公报的副刊
IF 0.6 Q4 LINGUISTICS Pub Date : 2023-01-07 DOI: 10.21814/lm.14.2.380
Antoni Oliver
En aquest article presentem el procés de compilació de la nova versió del corpus paral·lel català-castellà creat a partir dels textos del Diari Oficial de la Generalitat de Catalunya (DOGC). Es descriuen els processos de descàrrega, conversió a text, segmentació i alineació automàtica. Tots els programes que s'han desenvolupat per dur a terme aquests processos es distribueixen amb una llicència lliure i el corpus compilat es pot descarregar lliurement. A més, es descriu el procés d'entrenament i avaluació de dos motors de traducció automàtica neuronal català-castellà i castellà-català que s'ha dut a terme fent servir aquest corpus paral·el.
在这篇文章中,我们介绍了根据加泰罗尼亚总督官方期刊(DOGC)的文本创建的新版加泰罗尼亚城堡并行语料库的编译过程。它们描述了下载、转换为文本、分割和自动对齐过程。为执行这些过程而开发的所有程序都是以免费许可证分发的,编译后的主体可以免费下载。此外,我们还描述了使用这个平行体完成的两个catalan-castle和catalan-castle自动神经元翻译引擎的训练和评估过程。
{"title":"El corpus paral·lel del Diari Oficial de la Generalitat de Catalunya","authors":"Antoni Oliver","doi":"10.21814/lm.14.2.380","DOIUrl":"https://doi.org/10.21814/lm.14.2.380","url":null,"abstract":"En aquest article presentem el procés de compilació de la nova versió del corpus paral·lel català-castellà creat a partir dels textos del Diari Oficial de la Generalitat de Catalunya (DOGC). Es descriuen els processos de descàrrega, conversió a text, segmentació i alineació automàtica. Tots els programes que s'han desenvolupat per dur a terme aquests processos es distribueixen amb una llicència lliure i el corpus compilat es pot descarregar lliurement. A més, es descriu el procés d'entrenament i avaluació de dos motors de traducció automàtica neuronal català-castellà i castellà-català que s'ha dut a terme fent servir aquest corpus paral·el.","PeriodicalId":41819,"journal":{"name":"Linguamatica","volume":"14 1","pages":"75-81"},"PeriodicalIF":0.6,"publicationDate":"2023-01-07","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"47179876","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
引用次数: 0
Un estudio comparado de la traducción automática de eventos de movimiento de cruce de límites en inglés, español e italiano con Google Translate y DeepL 英语、西班牙语和意大利语越界运动事件机器翻译与Google Translate和Deepl的比较研究
IF 0.6 Q4 LINGUISTICS Pub Date : 2023-01-07 DOI: 10.21814/lm.14.2.368
Nicola Florio
En este artículo se presenta un estudio comparado de las traducciones generadas por dos herramientas de traducción automática en línea (Google Translate y DeepL) para eventos de movimiento que implican un cruce de límites. Partiendo del inglés, una lengua tipológicamente opuesta al español y al italiano, se combinan verbos de movimiento que especifican la Manera en la que se produce el desplazamiento con complementos postverbales que expresan una Trayectoria de cruce de límites. El objetivo es analizar comparativamente las traducciones automáticas obtenidas en español e italiano con Google Translate y DeepL, y presentar los datos recopilados sobre las preferencias observadas en el patrón de lexicalización de los componentes semánticos de Trayectoria y Manera en ambas lenguas en comparación con el inglés.
本文对两种在线机器翻译工具(Google Translate和Deepl)为涉及越界的运动事件生成的翻译进行了比较研究。从英语开始,英语是一种在类型上与西班牙语和意大利语相反的语言,将指定位移发生方式的动作动词与表达越界轨迹的言语后补语相结合。目的是比较分析使用谷歌翻译和Deepl获得的西班牙语和意大利语的机器翻译,并将收集到的关于两种语言中轨迹和方式语义成分词汇化模式中观察到的偏好的数据与英语进行比较。
{"title":"Un estudio comparado de la traducción automática de eventos de movimiento de cruce de límites en inglés, español e italiano con Google Translate y DeepL","authors":"Nicola Florio","doi":"10.21814/lm.14.2.368","DOIUrl":"https://doi.org/10.21814/lm.14.2.368","url":null,"abstract":"En este artículo se presenta un estudio comparado de las traducciones generadas por dos herramientas de traducción automática en línea (Google Translate y DeepL) para eventos de movimiento que implican un cruce de límites. Partiendo del inglés, una lengua tipológicamente opuesta al español y al italiano, se combinan verbos de movimiento que especifican la Manera en la que se produce el desplazamiento con complementos postverbales que expresan una Trayectoria de cruce de límites. El objetivo es analizar comparativamente las traducciones automáticas obtenidas en español e italiano con Google Translate y DeepL, y presentar los datos recopilados sobre las preferencias observadas en el patrón de lexicalización de los componentes semánticos de Trayectoria y Manera en ambas lenguas en comparación con el inglés.","PeriodicalId":41819,"journal":{"name":"Linguamatica","volume":"14 1","pages":"37-57"},"PeriodicalIF":0.6,"publicationDate":"2023-01-07","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"49514706","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
引用次数: 0
期刊
Linguamatica
全部 Acc. Chem. Res. ACS Applied Bio Materials ACS Appl. Electron. Mater. ACS Appl. Energy Mater. ACS Appl. Mater. Interfaces ACS Appl. Nano Mater. ACS Appl. Polym. Mater. ACS BIOMATER-SCI ENG ACS Catal. ACS Cent. Sci. ACS Chem. Biol. ACS Chemical Health & Safety ACS Chem. Neurosci. ACS Comb. Sci. ACS Earth Space Chem. ACS Energy Lett. ACS Infect. Dis. ACS Macro Lett. ACS Mater. Lett. ACS Med. Chem. Lett. ACS Nano ACS Omega ACS Photonics ACS Sens. ACS Sustainable Chem. Eng. ACS Synth. Biol. Anal. Chem. BIOCHEMISTRY-US Bioconjugate Chem. BIOMACROMOLECULES Chem. Res. Toxicol. Chem. Rev. Chem. Mater. CRYST GROWTH DES ENERG FUEL Environ. Sci. Technol. Environ. Sci. Technol. Lett. Eur. J. Inorg. Chem. IND ENG CHEM RES Inorg. Chem. J. Agric. Food. Chem. J. Chem. Eng. Data J. Chem. Educ. J. Chem. Inf. Model. J. Chem. Theory Comput. J. Med. Chem. J. Nat. Prod. J PROTEOME RES J. Am. Chem. Soc. LANGMUIR MACROMOLECULES Mol. Pharmaceutics Nano Lett. Org. Lett. ORG PROCESS RES DEV ORGANOMETALLICS J. Org. Chem. J. Phys. Chem. J. Phys. Chem. A J. Phys. Chem. B J. Phys. Chem. C J. Phys. Chem. Lett. Analyst Anal. Methods Biomater. Sci. Catal. Sci. Technol. Chem. Commun. Chem. Soc. Rev. CHEM EDUC RES PRACT CRYSTENGCOMM Dalton Trans. Energy Environ. Sci. ENVIRON SCI-NANO ENVIRON SCI-PROC IMP ENVIRON SCI-WAT RES Faraday Discuss. Food Funct. Green Chem. Inorg. Chem. Front. Integr. Biol. J. Anal. At. Spectrom. J. Mater. Chem. A J. Mater. Chem. B J. Mater. Chem. C Lab Chip Mater. Chem. Front. Mater. Horiz. MEDCHEMCOMM Metallomics Mol. Biosyst. Mol. Syst. Des. Eng. Nanoscale Nanoscale Horiz. Nat. Prod. Rep. New J. Chem. Org. Biomol. Chem. Org. Chem. Front. PHOTOCH PHOTOBIO SCI PCCP Polym. Chem.
×
引用
GB/T 7714-2015
复制
MLA
复制
APA
复制
导出至
BibTeX EndNote RefMan NoteFirst NoteExpress
×
0
微信
客服QQ
Book学术公众号 扫码关注我们
反馈
×
意见反馈
请填写您的意见或建议
请填写您的手机或邮箱
×
提示
您的信息不完整,为了账户安全,请先补充。
现在去补充
×
提示
您因"违规操作"
具体请查看互助需知
我知道了
×
提示
现在去查看 取消
×
提示
确定
Book学术官方微信
Book学术文献互助
Book学术文献互助群
群 号:481959085
Book学术
文献互助 智能选刊 最新文献 互助须知 联系我们:info@booksci.cn
Book学术提供免费学术资源搜索服务,方便国内外学者检索中英文文献。致力于提供最便捷和优质的服务体验。
Copyright © 2023 Book学术 All rights reserved.
ghs 京公网安备 11010802042870号 京ICP备2023020795号-1