首页 > 最新文献

Dominios de Lingugem最新文献

英文 中文
construção de um banco de dados lexicográfico em XML a partir de dados dialetais 从方言数据构建XML词典数据库
Pub Date : 2022-09-12 DOI: 10.14393/dl52-v16n4a2022-11
Jorge Luiz Nunes dos Santos Junior, Aparecida Negri Isquerdo
Este artigo situa-se na interface entre a Lexicografia (PORTO DAPENA, 2002; HARTMANN, 2016), a Dialetologia (CARDOSO, 2010; CHAMBERS; THUDGILL, 1994) e a Linguística Computacional (HABERT, 2004; PÉREZ HERNÁNDEZ; MORENO ORTIZ, 2009; HAUSSER, 2014; KURDI, 2016). Objetiva-se discutir a proposta de construção de um banco de dados em XML (Extensible Markup Language), explorando os resultados obtidos com o PLN (Processamento Automático de Linguagem Natural).  O arquivo XML também se fundamenta em parâmetros da Lexicografia Dialetal (EZQUERRA, 1997; NAVARRO CARRASCO, 1993) e está sendo alimentado com dados dialetais oriundos do Projeto Atlas Linguístico do Brasil (ALiB) documentados na região Norte do país. Para tanto, utilizou-se como editor de texto o software jEdit e, para gerenciar o banco de dados, o programa BaseX. A extração das informações linguísticas foi realizada, no BaseX, a partir de uma amostra de dados e com o auxílio de expressões X-Query. Assim, foram executadas as seguintes manipulações de dados: i) localização de uma unidade lexical específica; ii) visualização de qualquer dado da microestrutura filtrada pelas variáveis sexo, idade, escolaridade e localidade; iii) seleção de informações a partir de uma das 14 áreas semânticas em que as questões do questionário semântico-lexical do ALiB foram organizadas. Em síntese, entende-se que a construção do banco de dados em XML confere agilidade em relação à extração de informações e compatibilidade dos dados para executar interfaces com outras aplicações como, por exemplo, a elaboração de um produto lexicográfico a ser publicado em suporte on-line.
本文位于词典学(PORTO DAPENA,2002;HARTMANN,2016)、方言学(CARDOSO,2010;CHAMBERS;THUDGILL,1994)和计算语言学(HABERT,2004;PÉREZ HERNÁNDEZ;MORENO ORTIZ,2009;HAUSSER,2014;KURDI,2016)之间的界面。目的是讨论用XML(可扩展标记语言)建立数据库的建议,探索用PLN(自动自然语言处理)获得的结果。XML文件也基于方言词典参数(EZQUERRA,1997;NAVARRO CARRACCO,1993),并提供了巴西北部地区记录的巴西语言地图集项目(ALiB)的方言数据。为此,使用jEdit软件作为文本编辑器,并使用BaseX程序来管理数据库。在BaseX中,从数据样本中提取语言信息,并借助X-Query表达式。因此,进行了以下数据操作:i)特定词汇单元的定位;ii)通过性别、年龄、教育程度和位置变量过滤的任何微观结构数据的可视化;iii)从组织ALiB的语义词汇问卷的问题的14个语义领域中的一个语义领域选择信息。总之,可以理解的是,XML数据库的构建在信息提取和数据兼容性方面提供了灵活性,以执行与其他应用程序的接口,例如在在线支持中发布的词典编纂产品的细化。
{"title":"construção de um banco de dados lexicográfico em XML a partir de dados dialetais","authors":"Jorge Luiz Nunes dos Santos Junior, Aparecida Negri Isquerdo","doi":"10.14393/dl52-v16n4a2022-11","DOIUrl":"https://doi.org/10.14393/dl52-v16n4a2022-11","url":null,"abstract":"Este artigo situa-se na interface entre a Lexicografia (PORTO DAPENA, 2002; HARTMANN, 2016), a Dialetologia (CARDOSO, 2010; CHAMBERS; THUDGILL, 1994) e a Linguística Computacional (HABERT, 2004; PÉREZ HERNÁNDEZ; MORENO ORTIZ, 2009; HAUSSER, 2014; KURDI, 2016). Objetiva-se discutir a proposta de construção de um banco de dados em XML (Extensible Markup Language), explorando os resultados obtidos com o PLN (Processamento Automático de Linguagem Natural).  O arquivo XML também se fundamenta em parâmetros da Lexicografia Dialetal (EZQUERRA, 1997; NAVARRO CARRASCO, 1993) e está sendo alimentado com dados dialetais oriundos do Projeto Atlas Linguístico do Brasil (ALiB) documentados na região Norte do país. Para tanto, utilizou-se como editor de texto o software jEdit e, para gerenciar o banco de dados, o programa BaseX. A extração das informações linguísticas foi realizada, no BaseX, a partir de uma amostra de dados e com o auxílio de expressões X-Query. Assim, foram executadas as seguintes manipulações de dados: i) localização de uma unidade lexical específica; ii) visualização de qualquer dado da microestrutura filtrada pelas variáveis sexo, idade, escolaridade e localidade; iii) seleção de informações a partir de uma das 14 áreas semânticas em que as questões do questionário semântico-lexical do ALiB foram organizadas. Em síntese, entende-se que a construção do banco de dados em XML confere agilidade em relação à extração de informações e compatibilidade dos dados para executar interfaces com outras aplicações como, por exemplo, a elaboração de um produto lexicográfico a ser publicado em suporte on-line.","PeriodicalId":53262,"journal":{"name":"Dominios de Lingugem","volume":" ","pages":""},"PeriodicalIF":0.0,"publicationDate":"2022-09-12","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"44694245","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
引用次数: 0
Bases lexicais verbais do português brasileiro
Pub Date : 2022-09-12 DOI: 10.14393/dl52-v16n4a2022-9
Roana Rodrigues, Marcella Lemos-Couto, Francimeire Leme Coelho, Isaac Souza de Miranda Junior, Oto Vale
Este artigo apresenta o levantamento e a análise de bases lexicais verbais do português brasileiro (PB), que podem ser utilizadas em tarefas de Processamento de Língua Natural (PLN). Para tanto, considerou-se para análise apenas bases de dados com extensão superior a 1.000 lexemas verbais, disponíveis de maneira on-line e gratuita e atualizadas nos últimos 10 anos. Sendo assim, o estudo recaiu sob a análise crítica e comparada de três bases lexicais: VerbNet.Br (SCARTON, 2013), Verbo-Brasil (DURAN; ALUÍSIO, 2015) e VerboWeb (CANÇADO et al., 2018), destacando-se seus pontos comuns e divergentes. Acredita-se que esta pesquisa contribui com a atualização do estado da arte, no que se refere às bases lexicais verbais do PB da última década, além de elencar ações investigativas futuras para criação, revisão e/ou ampliação de recursos descritivos linguísticos do PB.
本文对巴西葡萄牙语(bp)的动词词汇基础进行了调查和分析,这些词汇基础可用于自然语言处理任务(nlp)。因此,我们只考虑了扩展超过1000个动词词汇的数据库,这些数据库可以在网上免费获得,并在过去10年更新。因此,本研究是在三个词汇基础:动词网的批判和比较分析下进行的。Br (SCARTON, 2013),动词巴西(DURAN;aluisio, 2015)和VerboWeb (cancado et al., 2018),强调它们的共同点和分歧。我们相信,本研究有助于更新过去十年bp的词汇基础,并列出未来的研究行动,以创建、修订和/或扩展bp的语言描述资源。
{"title":"Bases lexicais verbais do português brasileiro","authors":"Roana Rodrigues, Marcella Lemos-Couto, Francimeire Leme Coelho, Isaac Souza de Miranda Junior, Oto Vale","doi":"10.14393/dl52-v16n4a2022-9","DOIUrl":"https://doi.org/10.14393/dl52-v16n4a2022-9","url":null,"abstract":"Este artigo apresenta o levantamento e a análise de bases lexicais verbais do português brasileiro (PB), que podem ser utilizadas em tarefas de Processamento de Língua Natural (PLN). Para tanto, considerou-se para análise apenas bases de dados com extensão superior a 1.000 lexemas verbais, disponíveis de maneira on-line e gratuita e atualizadas nos últimos 10 anos. Sendo assim, o estudo recaiu sob a análise crítica e comparada de três bases lexicais: VerbNet.Br (SCARTON, 2013), Verbo-Brasil (DURAN; ALUÍSIO, 2015) e VerboWeb (CANÇADO et al., 2018), destacando-se seus pontos comuns e divergentes. Acredita-se que esta pesquisa contribui com a atualização do estado da arte, no que se refere às bases lexicais verbais do PB da última década, além de elencar ações investigativas futuras para criação, revisão e/ou ampliação de recursos descritivos linguísticos do PB.","PeriodicalId":53262,"journal":{"name":"Dominios de Lingugem","volume":" ","pages":""},"PeriodicalIF":0.0,"publicationDate":"2022-09-12","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"41949385","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
引用次数: 0
Para uma modelagem das formas prosódicas dos Marcadores Discursivos 用于话语标记的韵律形式的建模
Pub Date : 2022-09-12 DOI: 10.14393/dl52-v16n4a2022-8
Tommaso Raso, Albert Rilliard, Saulo Mendes Santos
Este artigo tem um objetivo duplo: (i) avançar uma proposta para a identificação da categoria de Marcador Discursivo (MD), mostrando que as marcas formais do MD são de natureza prosódica e também capazes de distinguir cerca de seis diferentes funções de natureza interacional veiculadas pelos MDs. Se descrevem tanto as características prosódicas responsáveis para a identificação de um MD quanto as formas prosódicas que veiculam cada tipo de função comunicativa dentro da categoria maior de MD; (ii) mostrar detalhes da metodologia que em maior medida será adotada para modelizar essas unidades e permitir uma extração automática a partir de novos dados. Ela é apresentada com uma reflexão estatístico computacional que a justifica.
本文有两个目的:(1)提出一个识别话语标记类别的建议,表明话语标记的形式标记具有韵律性质,并能够区分话语标记所传达的六种不同的互动功能。如果它们描述了负责识别MD的韵律特征,以及在更大的MD类别中传达每种交际功能的韵律形式;(ii)详细说明将在更大程度上采用的方法,以模拟这些单位,并允许从新数据自动提取。它是用计算统计的反映来证明它的合理性。
{"title":"Para uma modelagem das formas prosódicas dos Marcadores Discursivos","authors":"Tommaso Raso, Albert Rilliard, Saulo Mendes Santos","doi":"10.14393/dl52-v16n4a2022-8","DOIUrl":"https://doi.org/10.14393/dl52-v16n4a2022-8","url":null,"abstract":"Este artigo tem um objetivo duplo: (i) avançar uma proposta para a identificação da categoria de Marcador Discursivo (MD), mostrando que as marcas formais do MD são de natureza prosódica e também capazes de distinguir cerca de seis diferentes funções de natureza interacional veiculadas pelos MDs. Se descrevem tanto as características prosódicas responsáveis para a identificação de um MD quanto as formas prosódicas que veiculam cada tipo de função comunicativa dentro da categoria maior de MD; (ii) mostrar detalhes da metodologia que em maior medida será adotada para modelizar essas unidades e permitir uma extração automática a partir de novos dados. Ela é apresentada com uma reflexão estatístico computacional que a justifica.","PeriodicalId":53262,"journal":{"name":"Dominios de Lingugem","volume":" ","pages":""},"PeriodicalIF":0.0,"publicationDate":"2022-09-12","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"41695944","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
引用次数: 0
Cognição e variação linguística de gêneros/registros jornalísticos 体裁/新闻记录的认知与语言变异
Pub Date : 2022-09-12 DOI: 10.14393/dl52-v16n4a2022-3
C. H. Kauffmann
As páginas de um jornal congregam diversos gêneros/registros linguísticos especializados, seja qual for o meio de acesso para a sua leitura. Nem sempre, porém, percebe-se distinção clara entre gêneros/registros jornalísticos, mesmo entre os produtores desses textos, o que leva a especular sobre a conformação e estabilidade linguística de determinados gêneros/registros. O presente estudo investiga essa questão, ao analisar um corpus formado por textos de duas edições da "Folha de S.Paulo", classificados em termos de gêneros/ registros por especialistas. Os resultados foram tabulados por grau de concordância entre classificadores. A maioria das classificações recaiu sobre as categorias reportagem e notícia. Em seguida, escores que refletem o consenso na determinação do gêneros/registro foram mapeados segundo as dimensões de variação do texto jornalístico de Kauffmann (2005), verificando o quão separados linguisticamente estão os gêneros/registros  menos consensuais.
报纸的版面汇集了几种专门的语言流派/记录,无论他们的阅读方式如何。然而,流派/新闻记录之间并不总是有明确的区别,甚至在这些文本的制作者之间也是如此,这导致人们对某些流派/记录的形态和语言稳定性进行了猜测。本研究通过分析一个语料库来调查这个问题,该语料库由专家根据流派/记录分类的两个版本的《圣保罗》的文本组成。结果按分类器之间的一致程度制成表格。报道和新闻类的收视率大多下降。然后,根据考夫曼(Kauffmann,2005)的新闻文本的变化维度,对反映在确定流派/记录方面达成共识的分数进行了映射,验证了不太达成共识的流派/记录在语言上是如何分离的。
{"title":"Cognição e variação linguística de gêneros/registros jornalísticos","authors":"C. H. Kauffmann","doi":"10.14393/dl52-v16n4a2022-3","DOIUrl":"https://doi.org/10.14393/dl52-v16n4a2022-3","url":null,"abstract":"As páginas de um jornal congregam diversos gêneros/registros linguísticos especializados, seja qual for o meio de acesso para a sua leitura. Nem sempre, porém, percebe-se distinção clara entre gêneros/registros jornalísticos, mesmo entre os produtores desses textos, o que leva a especular sobre a conformação e estabilidade linguística de determinados gêneros/registros. O presente estudo investiga essa questão, ao analisar um corpus formado por textos de duas edições da \"Folha de S.Paulo\", classificados em termos de gêneros/ registros por especialistas. Os resultados foram tabulados por grau de concordância entre classificadores. A maioria das classificações recaiu sobre as categorias reportagem e notícia. Em seguida, escores que refletem o consenso na determinação do gêneros/registro foram mapeados segundo as dimensões de variação do texto jornalístico de Kauffmann (2005), verificando o quão separados linguisticamente estão os gêneros/registros  menos consensuais.","PeriodicalId":53262,"journal":{"name":"Dominios de Lingugem","volume":" ","pages":""},"PeriodicalIF":0.0,"publicationDate":"2022-09-12","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"46580208","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
引用次数: 0
fenômeno do desfocamento do agente agent模糊现象
Pub Date : 2022-09-12 DOI: 10.14393/dl52-v16n4a2022-4
Andressa Rodrigues Gomide, T. Simioni, Aden Rodrigues Pereira
Embora em expansão, a pesquisa linguística empírica da língua portuguesa ainda está longe de alcançar todo o seu potencial. Acreditamos que isso possa se dever, em parte, pelo desconhecimento de alguns investigadores de recursos já disponíveis gratuitamente. Neste artigo, apresentamos algumas ferramentas da Linguística de Corpus e um corpus de escrita acadêmica em português (CoPEP), e como eles podem ser utilizados para explorar o fenômeno do desfocamento do agente em artigos acadêmicos publicados no Brasil e em Portugal. Para isso, utilizamos recursos já existentes para anotar e disponibilizar de forma gratuita e online o CoPEP, um corpus de extrema utilidade para investigações linguísticas acerca do português acadêmico.
葡萄牙语实证语言学研究虽然在扩大,但仍远未充分发挥其潜力。我们认为,这可能部分是由于一些研究人员不知道已经免费提供的资源。在本文中,我们介绍了语料库语言学和葡萄牙语学术写作语料库(CoPEP)的一些工具,以及如何利用它们来探索在巴西和葡萄牙发表的学术文章中的代理模糊现象。为此,我们使用现有的资源来注释和免费提供CoPEP,这是一个对学术葡萄牙语的语言研究非常有用的语料库。
{"title":"fenômeno do desfocamento do agente","authors":"Andressa Rodrigues Gomide, T. Simioni, Aden Rodrigues Pereira","doi":"10.14393/dl52-v16n4a2022-4","DOIUrl":"https://doi.org/10.14393/dl52-v16n4a2022-4","url":null,"abstract":"Embora em expansão, a pesquisa linguística empírica da língua portuguesa ainda está longe de alcançar todo o seu potencial. Acreditamos que isso possa se dever, em parte, pelo desconhecimento de alguns investigadores de recursos já disponíveis gratuitamente. Neste artigo, apresentamos algumas ferramentas da Linguística de Corpus e um corpus de escrita acadêmica em português (CoPEP), e como eles podem ser utilizados para explorar o fenômeno do desfocamento do agente em artigos acadêmicos publicados no Brasil e em Portugal. Para isso, utilizamos recursos já existentes para anotar e disponibilizar de forma gratuita e online o CoPEP, um corpus de extrema utilidade para investigações linguísticas acerca do português acadêmico.","PeriodicalId":53262,"journal":{"name":"Dominios de Lingugem","volume":" ","pages":""},"PeriodicalIF":0.0,"publicationDate":"2022-09-12","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"43406850","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
引用次数: 0
PFN-PT PFN-PT
Pub Date : 2022-09-12 DOI: 10.14393/dl52-v16n4a2022-7
Eckhard Bick
This article presents PFN-PT, a robust system for the automatic semantic annotation of Portuguese, consisting of a new, parsing-oriented framenet and a rule-based frame- and role-tagger. The framenet provides almost 13,000 valency frames covering 7,300 verb lemmas with 10,700 senses. Frame and role tagging is achieved by iterated matching of syntactic structures and semantic noun types with slot-filler conditions in the framenet. We discuss design principles and present frame and role statistics. In an evaluation run on news data, the system achieved an overall F-score of 92.2% for frame senses.
本文介绍了PFN-PT,这是一个用于葡萄牙语自动语义注释的强大系统,由一个新的、面向解析的框架网和一个基于规则的框架和角色标记器组成。框架网提供了近13000个配价框架,涵盖7300个动词引理和10700个意义。框架和角色标记是通过句法结构和语义名词类型与框架网中的填充条件的迭代匹配来实现的。我们讨论了设计原则以及目前的框架和角色统计。在对新闻数据进行的评估中,该系统在帧感方面获得了92.2%的总体F分。
{"title":"PFN-PT","authors":"Eckhard Bick","doi":"10.14393/dl52-v16n4a2022-7","DOIUrl":"https://doi.org/10.14393/dl52-v16n4a2022-7","url":null,"abstract":"This article presents PFN-PT, a robust system for the automatic semantic annotation of Portuguese, consisting of a new, parsing-oriented framenet and a rule-based frame- and role-tagger. The framenet provides almost 13,000 valency frames covering 7,300 verb lemmas with 10,700 senses. Frame and role tagging is achieved by iterated matching of syntactic structures and semantic noun types with slot-filler conditions in the framenet. We discuss design principles and present frame and role statistics. In an evaluation run on news data, the system achieved an overall F-score of 92.2% for frame senses.","PeriodicalId":53262,"journal":{"name":"Dominios de Lingugem","volume":" ","pages":""},"PeriodicalIF":0.0,"publicationDate":"2022-09-12","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"42004744","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
引用次数: 0
Tratamento computacional do português brasileiro 巴西葡萄牙语的计算处理
Pub Date : 2022-09-12 DOI: 10.14393/dl52-v16n4a2022-1
Heliana Mello, Fernanda Farinelli
1 O tratamento computacional das línguas naturais O tratamento computacional de dados linguísticos tem estado na agenda de linguistas e cientistas da computação há no mínimo cinco décadas; entretanto, apenas nas últimas duas décadas tal movimento ganhou impulso no cenário brasileiro. Este movimento conta com a adesão de pesquisadores de diversas áreas do conhecimento, que progressivamente, através das novas tecnologias e formações acadêmicas mais sintonizadas com as necessidades do tratamento de línguas naturais via procedimentos computacionais, vão ganhando visibilidade. É relevante que destaquemos aqui o quão importante a formação dos jovens graduandos, sobretudo na área de estudos linguísticos, esteja alinhada às pautas de pesquisa e inovações metodológicas que a área de tratamento computacional de línguas naturais exige. Por isso, somos fortes defensoras do ensino de programação e estatística na formação linguística e da promoção de interação com os conhecimentos oriundos das áreas informáticas e da computação. A linguística de corpus de chegou ao Brasil há cerca de duas décadas, à época, com uma predominância de atuações voltadas para as subáreas do ensino de línguas estrangeiras, sobretudo língua inglesa, e estudos da tradução. Os estudiosos de
1自然语言的计算处理语言数据的计算处理已经在语言学家和计算机科学家的议程上提了至少50年;然而,只有在过去20年里,这种运动才在巴西的情况下获得了势头。这场运动得到了来自各个知识领域的研究人员的支持,他们通过新技术和学术形式,越来越适应通过计算程序处理自然语言的需求,越来越引人注目。重要的是要强调,年轻本科生的培训,特别是在语言研究领域的培训,与自然语言计算处理领域所需的研究指南和方法创新相一致。因此,我们强烈主张在语言培训中教授编程和统计学,并促进与计算机和计算领域知识的互动。语料库语言学大约在20年前进入巴西,当时的行动主要集中在外语教学的子领域,尤其是英语和翻译研究。
{"title":"Tratamento computacional do português brasileiro","authors":"Heliana Mello, Fernanda Farinelli","doi":"10.14393/dl52-v16n4a2022-1","DOIUrl":"https://doi.org/10.14393/dl52-v16n4a2022-1","url":null,"abstract":"1 O tratamento computacional das línguas naturais O tratamento computacional de dados linguísticos tem estado na agenda de linguistas e cientistas da computação há no mínimo cinco décadas; entretanto, apenas nas últimas duas décadas tal movimento ganhou impulso no cenário brasileiro. Este movimento conta com a adesão de pesquisadores de diversas áreas do conhecimento, que progressivamente, através das novas tecnologias e formações acadêmicas mais sintonizadas com as necessidades do tratamento de línguas naturais via procedimentos computacionais, vão ganhando visibilidade. É relevante que destaquemos aqui o quão importante a formação dos jovens graduandos, sobretudo na área de estudos linguísticos, esteja alinhada às pautas de pesquisa e inovações metodológicas que a área de tratamento computacional de línguas naturais exige. Por isso, somos fortes defensoras do ensino de programação e estatística na formação linguística e da promoção de interação com os conhecimentos oriundos das áreas informáticas e da computação. A linguística de corpus de chegou ao Brasil há cerca de duas décadas, à época, com uma predominância de atuações voltadas para as subáreas do ensino de línguas estrangeiras, sobretudo língua inglesa, e estudos da tradução. Os estudiosos de","PeriodicalId":53262,"journal":{"name":"Dominios de Lingugem","volume":"1 1","pages":""},"PeriodicalIF":0.0,"publicationDate":"2022-09-12","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"41404843","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
引用次数: 0
A Gramateca e a Literateca como macroscópios linguísticos 作为语言宏观范畴的语法与文学
Pub Date : 2022-09-12 DOI: 10.14393/dl52-v16n4a2022-2
Diana Maria de Sousa Marques Pinto dos Santos
Neste artigo exploramos várias potencialidades que os ambientes da Gramateca e da Literateca permitem aos usuários interessados na pesquisa em língua portuguesa. Por um lado, apresentamos estes ambientes dando conta de novas funcionalidades acessíveis; por outro, trazemos dez exemplos de perguntas de pesquisa para demonstrar a utilidade da existência destes serviços, que pretendem ser uma espécie de macroscópio para observar a língua, nas vertentes semântica e morfossintática, assim como para a leitura distante de textos literários e a extração de informação em português.
在这篇文章中,我们探讨了Gramateca和文学环境允许用户对葡萄牙语研究感兴趣的几个潜力。一方面,我们为这些环境提供了新的可访问功能;另一方面,我们提出了十个研究问题的例子来证明这些服务的存在的有用性,这些服务旨在成为一种宏观的观察语言的视角,在语义和形态句法方面,以及对文学文本的远距离阅读和葡萄牙语信息的提取。
{"title":"A Gramateca e a Literateca como macroscópios linguísticos","authors":"Diana Maria de Sousa Marques Pinto dos Santos","doi":"10.14393/dl52-v16n4a2022-2","DOIUrl":"https://doi.org/10.14393/dl52-v16n4a2022-2","url":null,"abstract":"Neste artigo exploramos várias potencialidades que os ambientes da Gramateca e da Literateca permitem aos usuários interessados na pesquisa em língua portuguesa. Por um lado, apresentamos estes ambientes dando conta de novas funcionalidades acessíveis; por outro, trazemos dez exemplos de perguntas de pesquisa para demonstrar a utilidade da existência destes serviços, que pretendem ser uma espécie de macroscópio para observar a língua, nas vertentes semântica e morfossintática, assim como para a leitura distante de textos literários e a extração de informação em português.","PeriodicalId":53262,"journal":{"name":"Dominios de Lingugem","volume":" ","pages":""},"PeriodicalIF":0.0,"publicationDate":"2022-09-12","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"41491110","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
引用次数: 0
Evaluating a typology of signals for automatic detection of complementarity 评估用于互补性自动检测的信号类型
Pub Date : 2022-09-12 DOI: 10.14393/dl52-v16n4a2022-10
J. W. C. Souza, Ariani Di Felippo
In a cluster of news texts on the same event, two sentences from different documents might express different multi-document phenomena (redundancy, complementarity, and contradiction). Cross-Document Structure Theory (CST) provides labels to explicitly represent these phenomena. The automatic identification of the multi-document phenomena and their correspondent CST relations is definitely handy for Automatic Multi-Document Summarization since it helps computers understand text meaning. In this paper, we evaluated a typology of (textual) signals for the automatic detection of the CST relations of complementarity (i.e., Historical background, Follow-up and Elaboration) in a multi-document corpus of news texts in Brazilian Portuguese. Using algorithms from different machine-learning paradigms, we obtained classifiers that achieved high general accuracy (higher than 90%), indicating the potential of the signals.
在同一事件的一组新闻文本中,来自不同文档的两个句子可能表达不同的多文档现象(冗余、互补和矛盾)。跨文档结构理论(CST)提供了明确表示这些现象的标签。多文档现象及其对应的CST关系的自动识别对于多文档自动摘要来说是非常方便的,因为它可以帮助计算机理解文本的含义。在本文中,我们评估了一种用于自动检测巴西葡萄牙语新闻文本多文档语料库中互补性CST关系(即历史背景,后续和阐述)的(文本)信号类型。使用来自不同机器学习范式的算法,我们获得了具有较高一般精度(高于90%)的分类器,这表明了信号的潜力。
{"title":"Evaluating a typology of signals for automatic detection of complementarity","authors":"J. W. C. Souza, Ariani Di Felippo","doi":"10.14393/dl52-v16n4a2022-10","DOIUrl":"https://doi.org/10.14393/dl52-v16n4a2022-10","url":null,"abstract":"In a cluster of news texts on the same event, two sentences from different documents might express different multi-document phenomena (redundancy, complementarity, and contradiction). Cross-Document Structure Theory (CST) provides labels to explicitly represent these phenomena. The automatic identification of the multi-document phenomena and their correspondent CST relations is definitely handy for Automatic Multi-Document Summarization since it helps computers understand text meaning. In this paper, we evaluated a typology of (textual) signals for the automatic detection of the CST relations of complementarity (i.e., Historical background, Follow-up and Elaboration) in a multi-document corpus of news texts in Brazilian Portuguese. Using algorithms from different machine-learning paradigms, we obtained classifiers that achieved high general accuracy (higher than 90%), indicating the potential of the signals.","PeriodicalId":53262,"journal":{"name":"Dominios de Lingugem","volume":" ","pages":""},"PeriodicalIF":0.0,"publicationDate":"2022-09-12","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"45344635","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
引用次数: 0
contribuições da Linguística de Corpus e do Processamento de Linguagem Natural na elaboração do protótipo do Dicionário Ideológico de Locuções 语料库语言学和自然语言处理在《语言意识形态词典》原型编纂中的贡献
Pub Date : 2022-09-12 DOI: 10.14393/dl52-v16n4a2022-5
Thyago José Da Cruz
Neste trabalho, buscamos demonstrar como recursos e ferramentas da Linguística de Corpus e do Processamento da Linguagem Natural puderam ser empregados na elaboração do protótipo do Dicionário Ideológico de Locuções, de caráter monolíngue e, ao mesmo tempo, onomasiológico e semasiológico. Esse tipo de repertório fraseográfico compõe-se de três grandes seções no corpo do dicionário: a parte sinóptico-analógica, a analógica (correspondendo ambas à parte onomasiológica da obra) e a alfabética (de característica semasiológica). No desenvolver desse projeto, utilizamos como corpora o Corpus Brasileiro e a Web. Como ferramenta para a elaboração do corpo do dicionário, empregamos o software FieldWorks Language Explore, o FLEx. Ao final, foi possível verificar que esses instrumentos computacionais foram de fundamental relevância para a realização do propósito da pesquisa.
在这项工作中,我们试图证明如何利用语料库语言学和自然语言处理的资源和工具来阐述原型意识形态词典的位置、单语性,以及同时的经济学和语义学。这类短语编排曲目由词典正文中的三个主要部分组成:天气学模拟部分、模拟部分(均对应于作品的经济学部分)和字母表部分(具有语义特征)。在开发这个项目时,我们使用了巴西语料库和Web作为语料库。作为细化词典正文的工具,我们使用了FieldWorks语言探索软件FLEx。最后,可以验证这些计算工具对实现研究目的具有根本相关性。
{"title":"contribuições da Linguística de Corpus e do Processamento de Linguagem Natural na elaboração do protótipo do Dicionário Ideológico de Locuções","authors":"Thyago José Da Cruz","doi":"10.14393/dl52-v16n4a2022-5","DOIUrl":"https://doi.org/10.14393/dl52-v16n4a2022-5","url":null,"abstract":"Neste trabalho, buscamos demonstrar como recursos e ferramentas da Linguística de Corpus e do Processamento da Linguagem Natural puderam ser empregados na elaboração do protótipo do Dicionário Ideológico de Locuções, de caráter monolíngue e, ao mesmo tempo, onomasiológico e semasiológico. Esse tipo de repertório fraseográfico compõe-se de três grandes seções no corpo do dicionário: a parte sinóptico-analógica, a analógica (correspondendo ambas à parte onomasiológica da obra) e a alfabética (de característica semasiológica). No desenvolver desse projeto, utilizamos como corpora o Corpus Brasileiro e a Web. Como ferramenta para a elaboração do corpo do dicionário, empregamos o software FieldWorks Language Explore, o FLEx. Ao final, foi possível verificar que esses instrumentos computacionais foram de fundamental relevância para a realização do propósito da pesquisa.","PeriodicalId":53262,"journal":{"name":"Dominios de Lingugem","volume":" ","pages":""},"PeriodicalIF":0.0,"publicationDate":"2022-09-12","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"49543488","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
引用次数: 0
期刊
Dominios de Lingugem
全部 Acc. Chem. Res. ACS Applied Bio Materials ACS Appl. Electron. Mater. ACS Appl. Energy Mater. ACS Appl. Mater. Interfaces ACS Appl. Nano Mater. ACS Appl. Polym. Mater. ACS BIOMATER-SCI ENG ACS Catal. ACS Cent. Sci. ACS Chem. Biol. ACS Chemical Health & Safety ACS Chem. Neurosci. ACS Comb. Sci. ACS Earth Space Chem. ACS Energy Lett. ACS Infect. Dis. ACS Macro Lett. ACS Mater. Lett. ACS Med. Chem. Lett. ACS Nano ACS Omega ACS Photonics ACS Sens. ACS Sustainable Chem. Eng. ACS Synth. Biol. Anal. Chem. BIOCHEMISTRY-US Bioconjugate Chem. BIOMACROMOLECULES Chem. Res. Toxicol. Chem. Rev. Chem. Mater. CRYST GROWTH DES ENERG FUEL Environ. Sci. Technol. Environ. Sci. Technol. Lett. Eur. J. Inorg. Chem. IND ENG CHEM RES Inorg. Chem. J. Agric. Food. Chem. J. Chem. Eng. Data J. Chem. Educ. J. Chem. Inf. Model. J. Chem. Theory Comput. J. Med. Chem. J. Nat. Prod. J PROTEOME RES J. Am. Chem. Soc. LANGMUIR MACROMOLECULES Mol. Pharmaceutics Nano Lett. Org. Lett. ORG PROCESS RES DEV ORGANOMETALLICS J. Org. Chem. J. Phys. Chem. J. Phys. Chem. A J. Phys. Chem. B J. Phys. Chem. C J. Phys. Chem. Lett. Analyst Anal. Methods Biomater. Sci. Catal. Sci. Technol. Chem. Commun. Chem. Soc. Rev. CHEM EDUC RES PRACT CRYSTENGCOMM Dalton Trans. Energy Environ. Sci. ENVIRON SCI-NANO ENVIRON SCI-PROC IMP ENVIRON SCI-WAT RES Faraday Discuss. Food Funct. Green Chem. Inorg. Chem. Front. Integr. Biol. J. Anal. At. Spectrom. J. Mater. Chem. A J. Mater. Chem. B J. Mater. Chem. C Lab Chip Mater. Chem. Front. Mater. Horiz. MEDCHEMCOMM Metallomics Mol. Biosyst. Mol. Syst. Des. Eng. Nanoscale Nanoscale Horiz. Nat. Prod. Rep. New J. Chem. Org. Biomol. Chem. Org. Chem. Front. PHOTOCH PHOTOBIO SCI PCCP Polym. Chem.
×
引用
GB/T 7714-2015
复制
MLA
复制
APA
复制
导出至
BibTeX EndNote RefMan NoteFirst NoteExpress
×
0
微信
客服QQ
Book学术公众号 扫码关注我们
反馈
×
意见反馈
请填写您的意见或建议
请填写您的手机或邮箱
×
提示
您的信息不完整,为了账户安全,请先补充。
现在去补充
×
提示
您因"违规操作"
具体请查看互助需知
我知道了
×
提示
现在去查看 取消
×
提示
确定
Book学术官方微信
Book学术文献互助
Book学术文献互助群
群 号:481959085
Book学术
文献互助 智能选刊 最新文献 互助须知 联系我们:info@booksci.cn
Book学术提供免费学术资源搜索服务,方便国内外学者检索中英文文献。致力于提供最便捷和优质的服务体验。
Copyright © 2023 Book学术 All rights reserved.
ghs 京公网安备 11010802042870号 京ICP备2023020795号-1