Pub Date : 2022-09-12DOI: 10.14393/dl52-v16n4a2022-11
Jorge Luiz Nunes dos Santos Junior, Aparecida Negri Isquerdo
Este artigo situa-se na interface entre a Lexicografia (PORTO DAPENA, 2002; HARTMANN, 2016), a Dialetologia (CARDOSO, 2010; CHAMBERS; THUDGILL, 1994) e a Linguística Computacional (HABERT, 2004; PÉREZ HERNÁNDEZ; MORENO ORTIZ, 2009; HAUSSER, 2014; KURDI, 2016). Objetiva-se discutir a proposta de construção de um banco de dados em XML (Extensible Markup Language), explorando os resultados obtidos com o PLN (Processamento Automático de Linguagem Natural). O arquivo XML também se fundamenta em parâmetros da Lexicografia Dialetal (EZQUERRA, 1997; NAVARRO CARRASCO, 1993) e está sendo alimentado com dados dialetais oriundos do Projeto Atlas Linguístico do Brasil (ALiB) documentados na região Norte do país. Para tanto, utilizou-se como editor de texto o software jEdit e, para gerenciar o banco de dados, o programa BaseX. A extração das informações linguísticas foi realizada, no BaseX, a partir de uma amostra de dados e com o auxílio de expressões X-Query. Assim, foram executadas as seguintes manipulações de dados: i) localização de uma unidade lexical específica; ii) visualização de qualquer dado da microestrutura filtrada pelas variáveis sexo, idade, escolaridade e localidade; iii) seleção de informações a partir de uma das 14 áreas semânticas em que as questões do questionário semântico-lexical do ALiB foram organizadas. Em síntese, entende-se que a construção do banco de dados em XML confere agilidade em relação à extração de informações e compatibilidade dos dados para executar interfaces com outras aplicações como, por exemplo, a elaboração de um produto lexicográfico a ser publicado em suporte on-line.
{"title":"construção de um banco de dados lexicográfico em XML a partir de dados dialetais","authors":"Jorge Luiz Nunes dos Santos Junior, Aparecida Negri Isquerdo","doi":"10.14393/dl52-v16n4a2022-11","DOIUrl":"https://doi.org/10.14393/dl52-v16n4a2022-11","url":null,"abstract":"Este artigo situa-se na interface entre a Lexicografia (PORTO DAPENA, 2002; HARTMANN, 2016), a Dialetologia (CARDOSO, 2010; CHAMBERS; THUDGILL, 1994) e a Linguística Computacional (HABERT, 2004; PÉREZ HERNÁNDEZ; MORENO ORTIZ, 2009; HAUSSER, 2014; KURDI, 2016). Objetiva-se discutir a proposta de construção de um banco de dados em XML (Extensible Markup Language), explorando os resultados obtidos com o PLN (Processamento Automático de Linguagem Natural). O arquivo XML também se fundamenta em parâmetros da Lexicografia Dialetal (EZQUERRA, 1997; NAVARRO CARRASCO, 1993) e está sendo alimentado com dados dialetais oriundos do Projeto Atlas Linguístico do Brasil (ALiB) documentados na região Norte do país. Para tanto, utilizou-se como editor de texto o software jEdit e, para gerenciar o banco de dados, o programa BaseX. A extração das informações linguísticas foi realizada, no BaseX, a partir de uma amostra de dados e com o auxílio de expressões X-Query. Assim, foram executadas as seguintes manipulações de dados: i) localização de uma unidade lexical específica; ii) visualização de qualquer dado da microestrutura filtrada pelas variáveis sexo, idade, escolaridade e localidade; iii) seleção de informações a partir de uma das 14 áreas semânticas em que as questões do questionário semântico-lexical do ALiB foram organizadas. Em síntese, entende-se que a construção do banco de dados em XML confere agilidade em relação à extração de informações e compatibilidade dos dados para executar interfaces com outras aplicações como, por exemplo, a elaboração de um produto lexicográfico a ser publicado em suporte on-line.","PeriodicalId":53262,"journal":{"name":"Dominios de Lingugem","volume":" ","pages":""},"PeriodicalIF":0.0,"publicationDate":"2022-09-12","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"44694245","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
Pub Date : 2022-09-12DOI: 10.14393/dl52-v16n4a2022-9
Roana Rodrigues, Marcella Lemos-Couto, Francimeire Leme Coelho, Isaac Souza de Miranda Junior, Oto Vale
Este artigo apresenta o levantamento e a análise de bases lexicais verbais do português brasileiro (PB), que podem ser utilizadas em tarefas de Processamento de Língua Natural (PLN). Para tanto, considerou-se para análise apenas bases de dados com extensão superior a 1.000 lexemas verbais, disponíveis de maneira on-line e gratuita e atualizadas nos últimos 10 anos. Sendo assim, o estudo recaiu sob a análise crítica e comparada de três bases lexicais: VerbNet.Br (SCARTON, 2013), Verbo-Brasil (DURAN; ALUÍSIO, 2015) e VerboWeb (CANÇADO et al., 2018), destacando-se seus pontos comuns e divergentes. Acredita-se que esta pesquisa contribui com a atualização do estado da arte, no que se refere às bases lexicais verbais do PB da última década, além de elencar ações investigativas futuras para criação, revisão e/ou ampliação de recursos descritivos linguísticos do PB.
本文对巴西葡萄牙语(bp)的动词词汇基础进行了调查和分析,这些词汇基础可用于自然语言处理任务(nlp)。因此,我们只考虑了扩展超过1000个动词词汇的数据库,这些数据库可以在网上免费获得,并在过去10年更新。因此,本研究是在三个词汇基础:动词网的批判和比较分析下进行的。Br (SCARTON, 2013),动词巴西(DURAN;aluisio, 2015)和VerboWeb (cancado et al., 2018),强调它们的共同点和分歧。我们相信,本研究有助于更新过去十年bp的词汇基础,并列出未来的研究行动,以创建、修订和/或扩展bp的语言描述资源。
{"title":"Bases lexicais verbais do português brasileiro","authors":"Roana Rodrigues, Marcella Lemos-Couto, Francimeire Leme Coelho, Isaac Souza de Miranda Junior, Oto Vale","doi":"10.14393/dl52-v16n4a2022-9","DOIUrl":"https://doi.org/10.14393/dl52-v16n4a2022-9","url":null,"abstract":"Este artigo apresenta o levantamento e a análise de bases lexicais verbais do português brasileiro (PB), que podem ser utilizadas em tarefas de Processamento de Língua Natural (PLN). Para tanto, considerou-se para análise apenas bases de dados com extensão superior a 1.000 lexemas verbais, disponíveis de maneira on-line e gratuita e atualizadas nos últimos 10 anos. Sendo assim, o estudo recaiu sob a análise crítica e comparada de três bases lexicais: VerbNet.Br (SCARTON, 2013), Verbo-Brasil (DURAN; ALUÍSIO, 2015) e VerboWeb (CANÇADO et al., 2018), destacando-se seus pontos comuns e divergentes. Acredita-se que esta pesquisa contribui com a atualização do estado da arte, no que se refere às bases lexicais verbais do PB da última década, além de elencar ações investigativas futuras para criação, revisão e/ou ampliação de recursos descritivos linguísticos do PB.","PeriodicalId":53262,"journal":{"name":"Dominios de Lingugem","volume":" ","pages":""},"PeriodicalIF":0.0,"publicationDate":"2022-09-12","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"41949385","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
Pub Date : 2022-09-12DOI: 10.14393/dl52-v16n4a2022-8
Tommaso Raso, Albert Rilliard, Saulo Mendes Santos
Este artigo tem um objetivo duplo: (i) avançar uma proposta para a identificação da categoria de Marcador Discursivo (MD), mostrando que as marcas formais do MD são de natureza prosódica e também capazes de distinguir cerca de seis diferentes funções de natureza interacional veiculadas pelos MDs. Se descrevem tanto as características prosódicas responsáveis para a identificação de um MD quanto as formas prosódicas que veiculam cada tipo de função comunicativa dentro da categoria maior de MD; (ii) mostrar detalhes da metodologia que em maior medida será adotada para modelizar essas unidades e permitir uma extração automática a partir de novos dados. Ela é apresentada com uma reflexão estatístico computacional que a justifica.
{"title":"Para uma modelagem das formas prosódicas dos Marcadores Discursivos","authors":"Tommaso Raso, Albert Rilliard, Saulo Mendes Santos","doi":"10.14393/dl52-v16n4a2022-8","DOIUrl":"https://doi.org/10.14393/dl52-v16n4a2022-8","url":null,"abstract":"Este artigo tem um objetivo duplo: (i) avançar uma proposta para a identificação da categoria de Marcador Discursivo (MD), mostrando que as marcas formais do MD são de natureza prosódica e também capazes de distinguir cerca de seis diferentes funções de natureza interacional veiculadas pelos MDs. Se descrevem tanto as características prosódicas responsáveis para a identificação de um MD quanto as formas prosódicas que veiculam cada tipo de função comunicativa dentro da categoria maior de MD; (ii) mostrar detalhes da metodologia que em maior medida será adotada para modelizar essas unidades e permitir uma extração automática a partir de novos dados. Ela é apresentada com uma reflexão estatístico computacional que a justifica.","PeriodicalId":53262,"journal":{"name":"Dominios de Lingugem","volume":" ","pages":""},"PeriodicalIF":0.0,"publicationDate":"2022-09-12","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"41695944","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
Pub Date : 2022-09-12DOI: 10.14393/dl52-v16n4a2022-3
C. H. Kauffmann
As páginas de um jornal congregam diversos gêneros/registros linguísticos especializados, seja qual for o meio de acesso para a sua leitura. Nem sempre, porém, percebe-se distinção clara entre gêneros/registros jornalísticos, mesmo entre os produtores desses textos, o que leva a especular sobre a conformação e estabilidade linguística de determinados gêneros/registros. O presente estudo investiga essa questão, ao analisar um corpus formado por textos de duas edições da "Folha de S.Paulo", classificados em termos de gêneros/ registros por especialistas. Os resultados foram tabulados por grau de concordância entre classificadores. A maioria das classificações recaiu sobre as categorias reportagem e notícia. Em seguida, escores que refletem o consenso na determinação do gêneros/registro foram mapeados segundo as dimensões de variação do texto jornalístico de Kauffmann (2005), verificando o quão separados linguisticamente estão os gêneros/registros menos consensuais.
{"title":"Cognição e variação linguística de gêneros/registros jornalísticos","authors":"C. H. Kauffmann","doi":"10.14393/dl52-v16n4a2022-3","DOIUrl":"https://doi.org/10.14393/dl52-v16n4a2022-3","url":null,"abstract":"As páginas de um jornal congregam diversos gêneros/registros linguísticos especializados, seja qual for o meio de acesso para a sua leitura. Nem sempre, porém, percebe-se distinção clara entre gêneros/registros jornalísticos, mesmo entre os produtores desses textos, o que leva a especular sobre a conformação e estabilidade linguística de determinados gêneros/registros. O presente estudo investiga essa questão, ao analisar um corpus formado por textos de duas edições da \"Folha de S.Paulo\", classificados em termos de gêneros/ registros por especialistas. Os resultados foram tabulados por grau de concordância entre classificadores. A maioria das classificações recaiu sobre as categorias reportagem e notícia. Em seguida, escores que refletem o consenso na determinação do gêneros/registro foram mapeados segundo as dimensões de variação do texto jornalístico de Kauffmann (2005), verificando o quão separados linguisticamente estão os gêneros/registros menos consensuais.","PeriodicalId":53262,"journal":{"name":"Dominios de Lingugem","volume":" ","pages":""},"PeriodicalIF":0.0,"publicationDate":"2022-09-12","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"46580208","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
Pub Date : 2022-09-12DOI: 10.14393/dl52-v16n4a2022-4
Andressa Rodrigues Gomide, T. Simioni, Aden Rodrigues Pereira
Embora em expansão, a pesquisa linguística empírica da língua portuguesa ainda está longe de alcançar todo o seu potencial. Acreditamos que isso possa se dever, em parte, pelo desconhecimento de alguns investigadores de recursos já disponíveis gratuitamente. Neste artigo, apresentamos algumas ferramentas da Linguística de Corpus e um corpus de escrita acadêmica em português (CoPEP), e como eles podem ser utilizados para explorar o fenômeno do desfocamento do agente em artigos acadêmicos publicados no Brasil e em Portugal. Para isso, utilizamos recursos já existentes para anotar e disponibilizar de forma gratuita e online o CoPEP, um corpus de extrema utilidade para investigações linguísticas acerca do português acadêmico.
{"title":"fenômeno do desfocamento do agente","authors":"Andressa Rodrigues Gomide, T. Simioni, Aden Rodrigues Pereira","doi":"10.14393/dl52-v16n4a2022-4","DOIUrl":"https://doi.org/10.14393/dl52-v16n4a2022-4","url":null,"abstract":"Embora em expansão, a pesquisa linguística empírica da língua portuguesa ainda está longe de alcançar todo o seu potencial. Acreditamos que isso possa se dever, em parte, pelo desconhecimento de alguns investigadores de recursos já disponíveis gratuitamente. Neste artigo, apresentamos algumas ferramentas da Linguística de Corpus e um corpus de escrita acadêmica em português (CoPEP), e como eles podem ser utilizados para explorar o fenômeno do desfocamento do agente em artigos acadêmicos publicados no Brasil e em Portugal. Para isso, utilizamos recursos já existentes para anotar e disponibilizar de forma gratuita e online o CoPEP, um corpus de extrema utilidade para investigações linguísticas acerca do português acadêmico.","PeriodicalId":53262,"journal":{"name":"Dominios de Lingugem","volume":" ","pages":""},"PeriodicalIF":0.0,"publicationDate":"2022-09-12","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"43406850","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
Pub Date : 2022-09-12DOI: 10.14393/dl52-v16n4a2022-7
Eckhard Bick
This article presents PFN-PT, a robust system for the automatic semantic annotation of Portuguese, consisting of a new, parsing-oriented framenet and a rule-based frame- and role-tagger. The framenet provides almost 13,000 valency frames covering 7,300 verb lemmas with 10,700 senses. Frame and role tagging is achieved by iterated matching of syntactic structures and semantic noun types with slot-filler conditions in the framenet. We discuss design principles and present frame and role statistics. In an evaluation run on news data, the system achieved an overall F-score of 92.2% for frame senses.
{"title":"PFN-PT","authors":"Eckhard Bick","doi":"10.14393/dl52-v16n4a2022-7","DOIUrl":"https://doi.org/10.14393/dl52-v16n4a2022-7","url":null,"abstract":"This article presents PFN-PT, a robust system for the automatic semantic annotation of Portuguese, consisting of a new, parsing-oriented framenet and a rule-based frame- and role-tagger. The framenet provides almost 13,000 valency frames covering 7,300 verb lemmas with 10,700 senses. Frame and role tagging is achieved by iterated matching of syntactic structures and semantic noun types with slot-filler conditions in the framenet. We discuss design principles and present frame and role statistics. In an evaluation run on news data, the system achieved an overall F-score of 92.2% for frame senses.","PeriodicalId":53262,"journal":{"name":"Dominios de Lingugem","volume":" ","pages":""},"PeriodicalIF":0.0,"publicationDate":"2022-09-12","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"42004744","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
Pub Date : 2022-09-12DOI: 10.14393/dl52-v16n4a2022-1
Heliana Mello, Fernanda Farinelli
1 O tratamento computacional das línguas naturais O tratamento computacional de dados linguísticos tem estado na agenda de linguistas e cientistas da computação há no mínimo cinco décadas; entretanto, apenas nas últimas duas décadas tal movimento ganhou impulso no cenário brasileiro. Este movimento conta com a adesão de pesquisadores de diversas áreas do conhecimento, que progressivamente, através das novas tecnologias e formações acadêmicas mais sintonizadas com as necessidades do tratamento de línguas naturais via procedimentos computacionais, vão ganhando visibilidade. É relevante que destaquemos aqui o quão importante a formação dos jovens graduandos, sobretudo na área de estudos linguísticos, esteja alinhada às pautas de pesquisa e inovações metodológicas que a área de tratamento computacional de línguas naturais exige. Por isso, somos fortes defensoras do ensino de programação e estatística na formação linguística e da promoção de interação com os conhecimentos oriundos das áreas informáticas e da computação. A linguística de corpus de chegou ao Brasil há cerca de duas décadas, à época, com uma predominância de atuações voltadas para as subáreas do ensino de línguas estrangeiras, sobretudo língua inglesa, e estudos da tradução. Os estudiosos de
{"title":"Tratamento computacional do português brasileiro","authors":"Heliana Mello, Fernanda Farinelli","doi":"10.14393/dl52-v16n4a2022-1","DOIUrl":"https://doi.org/10.14393/dl52-v16n4a2022-1","url":null,"abstract":"1 O tratamento computacional das línguas naturais O tratamento computacional de dados linguísticos tem estado na agenda de linguistas e cientistas da computação há no mínimo cinco décadas; entretanto, apenas nas últimas duas décadas tal movimento ganhou impulso no cenário brasileiro. Este movimento conta com a adesão de pesquisadores de diversas áreas do conhecimento, que progressivamente, através das novas tecnologias e formações acadêmicas mais sintonizadas com as necessidades do tratamento de línguas naturais via procedimentos computacionais, vão ganhando visibilidade. É relevante que destaquemos aqui o quão importante a formação dos jovens graduandos, sobretudo na área de estudos linguísticos, esteja alinhada às pautas de pesquisa e inovações metodológicas que a área de tratamento computacional de línguas naturais exige. Por isso, somos fortes defensoras do ensino de programação e estatística na formação linguística e da promoção de interação com os conhecimentos oriundos das áreas informáticas e da computação. A linguística de corpus de chegou ao Brasil há cerca de duas décadas, à época, com uma predominância de atuações voltadas para as subáreas do ensino de línguas estrangeiras, sobretudo língua inglesa, e estudos da tradução. Os estudiosos de","PeriodicalId":53262,"journal":{"name":"Dominios de Lingugem","volume":"1 1","pages":""},"PeriodicalIF":0.0,"publicationDate":"2022-09-12","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"41404843","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
Pub Date : 2022-09-12DOI: 10.14393/dl52-v16n4a2022-2
Diana Maria de Sousa Marques Pinto dos Santos
Neste artigo exploramos várias potencialidades que os ambientes da Gramateca e da Literateca permitem aos usuários interessados na pesquisa em língua portuguesa. Por um lado, apresentamos estes ambientes dando conta de novas funcionalidades acessíveis; por outro, trazemos dez exemplos de perguntas de pesquisa para demonstrar a utilidade da existência destes serviços, que pretendem ser uma espécie de macroscópio para observar a língua, nas vertentes semântica e morfossintática, assim como para a leitura distante de textos literários e a extração de informação em português.
{"title":"A Gramateca e a Literateca como macroscópios linguísticos","authors":"Diana Maria de Sousa Marques Pinto dos Santos","doi":"10.14393/dl52-v16n4a2022-2","DOIUrl":"https://doi.org/10.14393/dl52-v16n4a2022-2","url":null,"abstract":"Neste artigo exploramos várias potencialidades que os ambientes da Gramateca e da Literateca permitem aos usuários interessados na pesquisa em língua portuguesa. Por um lado, apresentamos estes ambientes dando conta de novas funcionalidades acessíveis; por outro, trazemos dez exemplos de perguntas de pesquisa para demonstrar a utilidade da existência destes serviços, que pretendem ser uma espécie de macroscópio para observar a língua, nas vertentes semântica e morfossintática, assim como para a leitura distante de textos literários e a extração de informação em português.","PeriodicalId":53262,"journal":{"name":"Dominios de Lingugem","volume":" ","pages":""},"PeriodicalIF":0.0,"publicationDate":"2022-09-12","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"41491110","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
Pub Date : 2022-09-12DOI: 10.14393/dl52-v16n4a2022-10
J. W. C. Souza, Ariani Di Felippo
In a cluster of news texts on the same event, two sentences from different documents might express different multi-document phenomena (redundancy, complementarity, and contradiction). Cross-Document Structure Theory (CST) provides labels to explicitly represent these phenomena. The automatic identification of the multi-document phenomena and their correspondent CST relations is definitely handy for Automatic Multi-Document Summarization since it helps computers understand text meaning. In this paper, we evaluated a typology of (textual) signals for the automatic detection of the CST relations of complementarity (i.e., Historical background, Follow-up and Elaboration) in a multi-document corpus of news texts in Brazilian Portuguese. Using algorithms from different machine-learning paradigms, we obtained classifiers that achieved high general accuracy (higher than 90%), indicating the potential of the signals.
{"title":"Evaluating a typology of signals for automatic detection of complementarity","authors":"J. W. C. Souza, Ariani Di Felippo","doi":"10.14393/dl52-v16n4a2022-10","DOIUrl":"https://doi.org/10.14393/dl52-v16n4a2022-10","url":null,"abstract":"In a cluster of news texts on the same event, two sentences from different documents might express different multi-document phenomena (redundancy, complementarity, and contradiction). Cross-Document Structure Theory (CST) provides labels to explicitly represent these phenomena. The automatic identification of the multi-document phenomena and their correspondent CST relations is definitely handy for Automatic Multi-Document Summarization since it helps computers understand text meaning. In this paper, we evaluated a typology of (textual) signals for the automatic detection of the CST relations of complementarity (i.e., Historical background, Follow-up and Elaboration) in a multi-document corpus of news texts in Brazilian Portuguese. Using algorithms from different machine-learning paradigms, we obtained classifiers that achieved high general accuracy (higher than 90%), indicating the potential of the signals.","PeriodicalId":53262,"journal":{"name":"Dominios de Lingugem","volume":" ","pages":""},"PeriodicalIF":0.0,"publicationDate":"2022-09-12","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"45344635","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
Pub Date : 2022-09-12DOI: 10.14393/dl52-v16n4a2022-5
Thyago José Da Cruz
Neste trabalho, buscamos demonstrar como recursos e ferramentas da Linguística de Corpus e do Processamento da Linguagem Natural puderam ser empregados na elaboração do protótipo do Dicionário Ideológico de Locuções, de caráter monolíngue e, ao mesmo tempo, onomasiológico e semasiológico. Esse tipo de repertório fraseográfico compõe-se de três grandes seções no corpo do dicionário: a parte sinóptico-analógica, a analógica (correspondendo ambas à parte onomasiológica da obra) e a alfabética (de característica semasiológica). No desenvolver desse projeto, utilizamos como corpora o Corpus Brasileiro e a Web. Como ferramenta para a elaboração do corpo do dicionário, empregamos o software FieldWorks Language Explore, o FLEx. Ao final, foi possível verificar que esses instrumentos computacionais foram de fundamental relevância para a realização do propósito da pesquisa.
{"title":"contribuições da Linguística de Corpus e do Processamento de Linguagem Natural na elaboração do protótipo do Dicionário Ideológico de Locuções","authors":"Thyago José Da Cruz","doi":"10.14393/dl52-v16n4a2022-5","DOIUrl":"https://doi.org/10.14393/dl52-v16n4a2022-5","url":null,"abstract":"Neste trabalho, buscamos demonstrar como recursos e ferramentas da Linguística de Corpus e do Processamento da Linguagem Natural puderam ser empregados na elaboração do protótipo do Dicionário Ideológico de Locuções, de caráter monolíngue e, ao mesmo tempo, onomasiológico e semasiológico. Esse tipo de repertório fraseográfico compõe-se de três grandes seções no corpo do dicionário: a parte sinóptico-analógica, a analógica (correspondendo ambas à parte onomasiológica da obra) e a alfabética (de característica semasiológica). No desenvolver desse projeto, utilizamos como corpora o Corpus Brasileiro e a Web. Como ferramenta para a elaboração do corpo do dicionário, empregamos o software FieldWorks Language Explore, o FLEx. Ao final, foi possível verificar que esses instrumentos computacionais foram de fundamental relevância para a realização do propósito da pesquisa.","PeriodicalId":53262,"journal":{"name":"Dominios de Lingugem","volume":" ","pages":""},"PeriodicalIF":0.0,"publicationDate":"2022-09-12","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"49543488","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}