Pub Date : 2021-03-19DOI: 10.17851/2237-2083.29.2.1059-1087
J. W. C. Souza
Resumo: Em subareas do Processamento Automatico de Linguas Naturais (PLN), como a Sumarizacao Automatica Multidocumento (SAM), e necessario compreender o comportamento linguistico de determinados fenomenos, especialmente os de natureza semântica. A Cross-document Structure Theory (CST) e bastante utilizada em estudos do PLN por proporcionar um conjunto de relacoes semânticas que organizam a informacao entre unidades de analise (comumente, pares de sentencas), agrupadas entre conteudo (a saber, redundância, complementaridade e contradicao) e apresentacao (a saber, fonte/autoria e estilo). Ate entao, a caracterizacao das relacoes CST baseava-se em atributos genericos (como a quantidade de palavras em comum entre as sentencas de um par) e especificos (como a presenca de adverbios temporais) para as relacoes de Redundância e Complementaridade. Entretanto, percebe-se que a delimitacao de tais atributos ainda e incipiente, pois nao inclui atributos semânticos e pragmaticos, niveis linguisticos que sao possiveis de recuperar manualmente entre as unidades de analise da CST. Nesse sentido, objetiva-se, neste artigo, reconstruir o percurso metodologico de Souza (2019) ao que se refere ao estudo em corpus das relacoes CST em textos jornalisticos do Portugues, ja que o conjunto de atributos disponiveis, ate o momento, ainda produzia equivocos na identificacao dos subtipos de complementaridade multidocumento, a saber temporal e atemporal. Partindo do corpus CSTNews, organizou-se um subconjunto de estudo com os 10 primeiros clusters , o que contabilizou 204 pares de sentencas. Como resultado, foram obtidas a descricao detalhada da complementaridade CST e a criacao de uma tipologia de sinalizadores das relacoes que traduzem esse fenomeno, alem da proposicao de uma metodologia especifica para o estudo de relacoes CST. Palavras-chave: Complementaridade informacional multidocumento; Processamento Automatico de Linguas Naturais; Corpus de estudo. Abstract: In sub-areas of Natural Language Processing (NLP), such as Automatic Multidocument Summarization (AMS), it is necessary to understand the linguistic behavior of certain phenomena, especially those of a semantic nature. Cross-document Structure Theory (CST) is widely used in NLP studies because it provides a set of semantic relations that organize information between units of analysis (commonly, pairs of sentences) organized between content (namely, redundancy, complementarity and contradiction) and presentation (namely, source/authorship and style). Until then, the characterization of CST relationships was based on generic attributes (such as the number of words in common between sentences of a pair) and specific attributes (such as the presence of temporal adverbs) for the relationships of Redundancy and Complementarity. However, the delimitation of such attributes is still incipient, as they do not include semantic and pragmatic attributes, linguistic levels that are possible to recover between the CST units of
{"title":"O papel do corpus de estudo no aprimoramento descritivo da complementaridade informacional multidocumento / The role of the study corpus in the descriptive improvement of multi-document informational complementarity","authors":"J. W. C. Souza","doi":"10.17851/2237-2083.29.2.1059-1087","DOIUrl":"https://doi.org/10.17851/2237-2083.29.2.1059-1087","url":null,"abstract":"Resumo: Em subareas do Processamento Automatico de Linguas Naturais (PLN), como a Sumarizacao Automatica Multidocumento (SAM), e necessario compreender o comportamento linguistico de determinados fenomenos, especialmente os de natureza semântica. A Cross-document Structure Theory (CST) e bastante utilizada em estudos do PLN por proporcionar um conjunto de relacoes semânticas que organizam a informacao entre unidades de analise (comumente, pares de sentencas), agrupadas entre conteudo (a saber, redundância, complementaridade e contradicao) e apresentacao (a saber, fonte/autoria e estilo). Ate entao, a caracterizacao das relacoes CST baseava-se em atributos genericos (como a quantidade de palavras em comum entre as sentencas de um par) e especificos (como a presenca de adverbios temporais) para as relacoes de Redundância e Complementaridade. Entretanto, percebe-se que a delimitacao de tais atributos ainda e incipiente, pois nao inclui atributos semânticos e pragmaticos, niveis linguisticos que sao possiveis de recuperar manualmente entre as unidades de analise da CST. Nesse sentido, objetiva-se, neste artigo, reconstruir o percurso metodologico de Souza (2019) ao que se refere ao estudo em corpus das relacoes CST em textos jornalisticos do Portugues, ja que o conjunto de atributos disponiveis, ate o momento, ainda produzia equivocos na identificacao dos subtipos de complementaridade multidocumento, a saber temporal e atemporal. Partindo do corpus CSTNews, organizou-se um subconjunto de estudo com os 10 primeiros clusters , o que contabilizou 204 pares de sentencas. Como resultado, foram obtidas a descricao detalhada da complementaridade CST e a criacao de uma tipologia de sinalizadores das relacoes que traduzem esse fenomeno, alem da proposicao de uma metodologia especifica para o estudo de relacoes CST. Palavras-chave: Complementaridade informacional multidocumento; Processamento Automatico de Linguas Naturais; Corpus de estudo. Abstract: In sub-areas of Natural Language Processing (NLP), such as Automatic Multidocument Summarization (AMS), it is necessary to understand the linguistic behavior of certain phenomena, especially those of a semantic nature. Cross-document Structure Theory (CST) is widely used in NLP studies because it provides a set of semantic relations that organize information between units of analysis (commonly, pairs of sentences) organized between content (namely, redundancy, complementarity and contradiction) and presentation (namely, source/authorship and style). Until then, the characterization of CST relationships was based on generic attributes (such as the number of words in common between sentences of a pair) and specific attributes (such as the presence of temporal adverbs) for the relationships of Redundancy and Complementarity. However, the delimitation of such attributes is still incipient, as they do not include semantic and pragmatic attributes, linguistic levels that are possible to recover between the CST units of","PeriodicalId":42188,"journal":{"name":"Revista de Estudos da Linguagem","volume":"29 1","pages":"1059-1087"},"PeriodicalIF":0.2,"publicationDate":"2021-03-19","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"43791397","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
Pub Date : 2021-03-19DOI: 10.17851/2237-2083.29.2.1137-1189
A. Santos, R. Chishman
Resumo: Este artigo vincula-se a uma tese doutoral cujo objetivo foi compreender, por meio da identificacao de diferentes instanciacoes de frames semânticos, as redes de significado que (re)enquadram os direitos humanos e reprodutivos das mulheres no contexto das audiencias publicas que debateram a Sugestao Legislativa (SUG) no 15/2014 – tal proposta visou a regular o aborto nas primeiras doze semanas de gestacao (SANTOS, 2020). Especificamente, o texto trata de alguns desdobramentos analiticos possibilitados pela integracao da ferramenta de analise qualitativa NVivo ao recurso Sketch Engine, tendo em vista a necessidade de segmentacao do corpus em unidades tematicas para posterior processamento dos dados no concordanciador. De modo a abordar tal percurso, o artigo discute a identificacao de frames no discurso dos defensores da proposta da SUG no 15, cujas escolhas lexicais refletem a conceptualizacao do abortamento como questao de saude publica e de justica social. Como resultados, o artigo destaca que o uso integrado de diferentes ferramentas de analise empirica permite uma descricao baseada em corpus que evidencia a dimensao multifacetada do frame semântico – uma estrutura sociocognitiva que se constroi nos entrelacamentos entre lexico, discurso e cognicao. Palavras-chave: Linguistica de Corpus ; Semântica de Frames; Sugestao Legislativa n.o 15/2014; direitos reprodutivos. Abstract: This article relates to a Ph.D. thesis which aimed at comprehending, throughout the identification of different semantic frame instantiations, the meaning networks that (re)frame women’s human and reproductive rights in the context of the public hearings that discussed the SUG no. 15/2014 – such a proposal intended to regulate abortion in the first twelve weeks of pregnancy, in Brazil (SANTOS, 2020). Specifically, the text presents some analytical developments made available by the integration of the qualitative analysis tool NVivo to the Sketch Engine tool, considering the need of a corpus segmentation into thematic units for a later processing of these data in a concordancer. In order to discuss this process, the article describes the identification of frames within the discourse of the ones that advocate for the SUG proposal, whose lexical choices reflect the conceptualization of abortion as a public heath matter, as well as a social justice one. Concerning the results, the article emphasizes that the integrated usage of different tools devoted to empirical analysis allows a corpus-based description that reveals the multifaceted dimension of a semantic frame – a socio-cognitive structure that is built in the interconnections between lexicon, discourse and cognition. Keywords: Corpus Linguistics; Frame Semantics; SUG no. 15/2014; reproductive rights.
{"title":"Linguística de Corpus aplicada à Semântica de Frames: investigando conceptualizações pró-escolha no debate da Sugestão Legislativa n.º 15/2014 / Corpus Linguistics applied to Frame Semantics: investigating pro-choice conceptualizations in SUG no. 15/2014’s debate","authors":"A. Santos, R. Chishman","doi":"10.17851/2237-2083.29.2.1137-1189","DOIUrl":"https://doi.org/10.17851/2237-2083.29.2.1137-1189","url":null,"abstract":"Resumo: Este artigo vincula-se a uma tese doutoral cujo objetivo foi compreender, por meio da identificacao de diferentes instanciacoes de frames semânticos, as redes de significado que (re)enquadram os direitos humanos e reprodutivos das mulheres no contexto das audiencias publicas que debateram a Sugestao Legislativa (SUG) no 15/2014 – tal proposta visou a regular o aborto nas primeiras doze semanas de gestacao (SANTOS, 2020). Especificamente, o texto trata de alguns desdobramentos analiticos possibilitados pela integracao da ferramenta de analise qualitativa NVivo ao recurso Sketch Engine, tendo em vista a necessidade de segmentacao do corpus em unidades tematicas para posterior processamento dos dados no concordanciador. De modo a abordar tal percurso, o artigo discute a identificacao de frames no discurso dos defensores da proposta da SUG no 15, cujas escolhas lexicais refletem a conceptualizacao do abortamento como questao de saude publica e de justica social. Como resultados, o artigo destaca que o uso integrado de diferentes ferramentas de analise empirica permite uma descricao baseada em corpus que evidencia a dimensao multifacetada do frame semântico – uma estrutura sociocognitiva que se constroi nos entrelacamentos entre lexico, discurso e cognicao. Palavras-chave: Linguistica de Corpus ; Semântica de Frames; Sugestao Legislativa n.o 15/2014; direitos reprodutivos. Abstract: This article relates to a Ph.D. thesis which aimed at comprehending, throughout the identification of different semantic frame instantiations, the meaning networks that (re)frame women’s human and reproductive rights in the context of the public hearings that discussed the SUG no. 15/2014 – such a proposal intended to regulate abortion in the first twelve weeks of pregnancy, in Brazil (SANTOS, 2020). Specifically, the text presents some analytical developments made available by the integration of the qualitative analysis tool NVivo to the Sketch Engine tool, considering the need of a corpus segmentation into thematic units for a later processing of these data in a concordancer. In order to discuss this process, the article describes the identification of frames within the discourse of the ones that advocate for the SUG proposal, whose lexical choices reflect the conceptualization of abortion as a public heath matter, as well as a social justice one. Concerning the results, the article emphasizes that the integrated usage of different tools devoted to empirical analysis allows a corpus-based description that reveals the multifaceted dimension of a semantic frame – a socio-cognitive structure that is built in the interconnections between lexicon, discourse and cognition. Keywords: Corpus Linguistics; Frame Semantics; SUG no. 15/2014; reproductive rights.","PeriodicalId":42188,"journal":{"name":"Revista de Estudos da Linguagem","volume":"29 1","pages":"1137-1189"},"PeriodicalIF":0.2,"publicationDate":"2021-03-19","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"41843127","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
Pub Date : 2021-03-19DOI: 10.17851/2237-2083.29.2.739-770
Marina Leivas Waquil
Resumo: Este trabalho apresenta um importante recorte de uma pesquisa que tem como objetivo contribuir com os estudos terminologicos, tradutologicos e sobre corpus ao analisar as unidades que representam e transmitem conhecimento especializado de uma area em crescente evolucao academica no Brasil e que discute demandas sociais urgentes, os Estudos de Genero. Para isso, neste artigo, sera exposta a etapa fundamental de qualquer pesquisa com corpus: a definicao da area a ser analisada e a compilacao de textos com base em criterios confiaveis e que deem conta de representar a area em questao. Assim, o objetivo central deste artigo e mostrar por que, como e para que se propos relacionar a Linguistica de Corpus com os Estudos de Genero a partir de um corpus, apresentando, para tal, um historico da area selecionada que justifica a analise proposta e sua caracterizacao como campo especializado. Alem disso, destaca-se o referencial teorico que sustenta o trabalho e o corpus de estudo, compilado com base em criterios da Linguistica de Corpus e composto pelos dois principais periodicos da area de Estudos de Genero no Brasil, a Revista Estudos Feministas e a Cadernos Pagu . Conclui-se defendendo a importância de produzir pesquisas linguisticas e terminologicas que dialoguem com demandas sociais contemporâneas e urgentes. Palavras-chave: Estudos de Genero; Linguistica de Corpus; Terminologia; Revista Estudos Feministas ; Cadernos Pagu . Abstract: This work presents an important part of a research that aims to contribute to terminological and translational studies as well as corpus studies, upon analyzing the units that represent and transmit specialized knowledge in a field of soaring academic evolution in Brazil and that discusses urgent social demands, Gender Studies. To do so, this article will expose a fundamental stage of any research regarding corpus: the definition of the field to be analyzed and the clipping of texts based on reliable criteria that are able to represent such targeted field of study. Accordingly, the main intent of this article is to convey why, how and for what purpose it was proposed to relate Corpus Linguistics with Gender Studies from the compilation of a corpus, introducing therefore a history of the selected field that justifies the analysis proposed and its characterization as a specialized field. In addition, the theoretical references supporting the work and the analyzed corpus stands out, compiled based on the criteria of Corpus Linguistics and composed by the two main journals in the field of Gender Studies in Brazil, the Revista Estudos Feministas and Cadernos Pagu . In conclusion, it defends the importance of producing linguistic and terminological researches that converse with contemporary and urgent social demands. Keywords: Gender Studies; Corpus Linguistics; Terminology; Revista Estudos Feministas ; Cadernos Pagu .
{"title":"Um corpus de Estudos de Gênero: por quê, como e para quê? / A Gender Studies corpus: why, how and for what?","authors":"Marina Leivas Waquil","doi":"10.17851/2237-2083.29.2.739-770","DOIUrl":"https://doi.org/10.17851/2237-2083.29.2.739-770","url":null,"abstract":"Resumo: Este trabalho apresenta um importante recorte de uma pesquisa que tem como objetivo contribuir com os estudos terminologicos, tradutologicos e sobre corpus ao analisar as unidades que representam e transmitem conhecimento especializado de uma area em crescente evolucao academica no Brasil e que discute demandas sociais urgentes, os Estudos de Genero. Para isso, neste artigo, sera exposta a etapa fundamental de qualquer pesquisa com corpus: a definicao da area a ser analisada e a compilacao de textos com base em criterios confiaveis e que deem conta de representar a area em questao. Assim, o objetivo central deste artigo e mostrar por que, como e para que se propos relacionar a Linguistica de Corpus com os Estudos de Genero a partir de um corpus, apresentando, para tal, um historico da area selecionada que justifica a analise proposta e sua caracterizacao como campo especializado. Alem disso, destaca-se o referencial teorico que sustenta o trabalho e o corpus de estudo, compilado com base em criterios da Linguistica de Corpus e composto pelos dois principais periodicos da area de Estudos de Genero no Brasil, a Revista Estudos Feministas e a Cadernos Pagu . Conclui-se defendendo a importância de produzir pesquisas linguisticas e terminologicas que dialoguem com demandas sociais contemporâneas e urgentes. Palavras-chave: Estudos de Genero; Linguistica de Corpus; Terminologia; Revista Estudos Feministas ; Cadernos Pagu . Abstract: This work presents an important part of a research that aims to contribute to terminological and translational studies as well as corpus studies, upon analyzing the units that represent and transmit specialized knowledge in a field of soaring academic evolution in Brazil and that discusses urgent social demands, Gender Studies. To do so, this article will expose a fundamental stage of any research regarding corpus: the definition of the field to be analyzed and the clipping of texts based on reliable criteria that are able to represent such targeted field of study. Accordingly, the main intent of this article is to convey why, how and for what purpose it was proposed to relate Corpus Linguistics with Gender Studies from the compilation of a corpus, introducing therefore a history of the selected field that justifies the analysis proposed and its characterization as a specialized field. In addition, the theoretical references supporting the work and the analyzed corpus stands out, compiled based on the criteria of Corpus Linguistics and composed by the two main journals in the field of Gender Studies in Brazil, the Revista Estudos Feministas and Cadernos Pagu . In conclusion, it defends the importance of producing linguistic and terminological researches that converse with contemporary and urgent social demands. Keywords: Gender Studies; Corpus Linguistics; Terminology; Revista Estudos Feministas ; Cadernos Pagu .","PeriodicalId":42188,"journal":{"name":"Revista de Estudos da Linguagem","volume":"29 1","pages":"739"},"PeriodicalIF":0.2,"publicationDate":"2021-03-19","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"46749760","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
Pub Date : 2021-03-19DOI: 10.17851/2237-2083.29.2.859-907
Márcio de Souza Dias, Ariani Di Felippo, A. Rassi, P. Cardoso, F. Nóbrega, T. Pardo
Abstract: Automatic summaries commonly present diverse linguistic problems that affect textual quality and thus their understanding by users. Few studies have tried to characterize such problems and their relation with the performance of the summarization systems. In this paper, we investigated the problems in multi-document extracts (i.e., summaries produced by concatenating several sentences taken exactly as they appear in the source texts) generated by systems for Brazilian Portuguese that have different approaches (i.e., superficial and deep) and performances (i.e., baseline and state-of-the art methods). For that, we first reviewed the main characterization studies, resulting in a typology of linguistic problems more suitable for multi-document summarization. Then, we manually annotated a corpus of automatic multi-document extracts in Portuguese based on the typology, which showed that some of linguistic problems are significantly more recurrent than others. Thus, this corpus annotation may support research on linguistic problems detection and correction for summary improvement, allowing the production of automatic summaries that are not only informative (i.e., they convey the content of the source material), but also linguistically well structured. Keywords: automatic summarization; multi-document summary; linguistic problem; corpus annotation. Resumo: Sumarios automaticos geralmente apresentam varios problemas linguisticos que afetam a sua qualidade textual e, consequentemente, sua compreensao pelos usuarios. Alguns trabalhos caracterizam tais problemas e os relacionam ao desempenho dos sistemas de sumarizacao. Neste artigo, investigaram-se os problemas em extratos (isto e, sumarios produzidos pela concatenacao de sentencas extraidas na integra dos textos-fonte) multidocumento em Portugues do Brasil gerados por sistemas que apresentam diferentes abordagens (isto e, superficial e profunda) e desempenho (isto e, metodos baseline e do estado-da-arte). Para tanto, as principais caracterizacoes dos problemas linguisticos em sumarios automaticos foram investigadas, resultando em uma tipologia mais adequada a sumarizacao multidocumento. Em seguida, anotou-se manualmente um corpus de extratos com base na tipologia, evidenciando que alguns tipos de problemas sao significativamente mais recorrentes que outros. Assim, essa anotacao gera subsidios para as tarefas automaticas de deteccao e correcao de problemas linguisticos com vistas a producao de sumarios automaticos nao so mais informativos (isto e, que cobrem o conteudo do material de origem), como tambem linguisticamente bem-estruturados. Palavras-chave: sumarizacao automatica; sumario multidocumento; problema linguistico; anotacao de corpus .
{"title":"An investigation of linguistic problems in automatic multi-document summaries / Uma investigação de problemas linguísticos em sumários automáticos multidocumento","authors":"Márcio de Souza Dias, Ariani Di Felippo, A. Rassi, P. Cardoso, F. Nóbrega, T. Pardo","doi":"10.17851/2237-2083.29.2.859-907","DOIUrl":"https://doi.org/10.17851/2237-2083.29.2.859-907","url":null,"abstract":"Abstract: Automatic summaries commonly present diverse linguistic problems that affect textual quality and thus their understanding by users. Few studies have tried to characterize such problems and their relation with the performance of the summarization systems. In this paper, we investigated the problems in multi-document extracts (i.e., summaries produced by concatenating several sentences taken exactly as they appear in the source texts) generated by systems for Brazilian Portuguese that have different approaches (i.e., superficial and deep) and performances (i.e., baseline and state-of-the art methods). For that, we first reviewed the main characterization studies, resulting in a typology of linguistic problems more suitable for multi-document summarization. Then, we manually annotated a corpus of automatic multi-document extracts in Portuguese based on the typology, which showed that some of linguistic problems are significantly more recurrent than others. Thus, this corpus annotation may support research on linguistic problems detection and correction for summary improvement, allowing the production of automatic summaries that are not only informative (i.e., they convey the content of the source material), but also linguistically well structured. Keywords: automatic summarization; multi-document summary; linguistic problem; corpus annotation. Resumo: Sumarios automaticos geralmente apresentam varios problemas linguisticos que afetam a sua qualidade textual e, consequentemente, sua compreensao pelos usuarios. Alguns trabalhos caracterizam tais problemas e os relacionam ao desempenho dos sistemas de sumarizacao. Neste artigo, investigaram-se os problemas em extratos (isto e, sumarios produzidos pela concatenacao de sentencas extraidas na integra dos textos-fonte) multidocumento em Portugues do Brasil gerados por sistemas que apresentam diferentes abordagens (isto e, superficial e profunda) e desempenho (isto e, metodos baseline e do estado-da-arte). Para tanto, as principais caracterizacoes dos problemas linguisticos em sumarios automaticos foram investigadas, resultando em uma tipologia mais adequada a sumarizacao multidocumento. Em seguida, anotou-se manualmente um corpus de extratos com base na tipologia, evidenciando que alguns tipos de problemas sao significativamente mais recorrentes que outros. Assim, essa anotacao gera subsidios para as tarefas automaticas de deteccao e correcao de problemas linguisticos com vistas a producao de sumarios automaticos nao so mais informativos (isto e, que cobrem o conteudo do material de origem), como tambem linguisticamente bem-estruturados. Palavras-chave: sumarizacao automatica; sumario multidocumento; problema linguistico; anotacao de corpus .","PeriodicalId":42188,"journal":{"name":"Revista de Estudos da Linguagem","volume":"29 1","pages":"859-907"},"PeriodicalIF":0.2,"publicationDate":"2021-03-19","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"45837447","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
Pub Date : 2021-03-19DOI: 10.17851/2237-2083.29.2.959-998
Yuli Souza Carvalho, R. Rebechi
Resumo: O objetivo desta pesquisa e cotejar dados indicativos de inteligibilidade e convencionalidade em textos de divulgacao da area medica em portugues para verificar sua adequacao ao publico brasileiro. Para tanto, apoiamo-nos nos pressupostos da Linguistica de Corpus para a compilacao e o processamento de um corpus paralelo, formado por textos escritos originalmente em ingles e suas traducoes para o portugues, e um corpus comparavel, composto pelos textos traduzidos em portugues e por textos originalmente escritos nesse idioma. A metodologia do estudo combina analises quantitativas – para levantamento de inteligibilidade, chavicidade e colocacao – e qualitativas – para analise das palavras em contexto. Em relacao a inteligibilidade, as ferramentas apontaram que os textos escritos em portugues sao ‘dificeis’ para o leitor medio brasileiro, com grau de instrucao inferior ao Ensino Medio. Ja os textos traduzidos foram considerados ‘razoavelmente dificeis’, de acordo com esse mesmo criterio de avaliacao, que classificou os originais em ingles como ‘razoavelmente faceis’, considerando-se seu publico alvo, ou seja, o leitor medio estadunidense. A analise qualitativa apontou que os textos traduzidos apresentam quebras de convencionalidade, demonstrando preferencia por equivalentes prima facie , nem sempre condizentes com os padroes observados nos textos de mesmo genero escritos originalmente em portugues. Apesar de a ferramenta de acessibilidade textual indicar que tanto os textos escritos originalmente em portugues quanto aqueles traduzidos nao se mostram totalmente adequados para o leitor-alvo brasileiro de textos de divulgacao medica, acreditamos que a quebra da convencionalidade, identificada nos textos traduzidos, pode dificultar ainda mais a compreensao do leitor medio de resultados de pesquisas cientificas da area da saude. Palavras-chave: textos de divulgacao; traducao; convencionalidade; inteligibilidade. Abstract: The aim of this research is to collate data from intelligibility and conventionality in health-related expository texts in Portuguese to investigate their appropriateness to Brazilians. To this end, we rely on Corpus Linguistics for the compilation and processing of a parallel corpus, comprising texts originally written in English and their translations into Portuguese, and a comparable corpus, composed of texts translated into Portuguese and texts originally written in that language. Our methodology combines quantitative analysis – to assess readability, keyness, and collocation – and qualitative analysis – to investigate words in context. Regarding readability, the tools pointed out that texts written in Portuguese are ‘difficult’ for the average Brazilian reader, with a level of education lower than High School. The translated texts were considered ‘fairly difficult’, according to this same evaluation criterion, which classified the originals in English as ‘fairly easy’, considering its target audience, that is, the average Am
{"title":"Inteligibilidade e convencionalidade em textos de divulgação da área médica em português brasileiro / Readability and conventionality in expository texts in Brazilian Portuguese","authors":"Yuli Souza Carvalho, R. Rebechi","doi":"10.17851/2237-2083.29.2.959-998","DOIUrl":"https://doi.org/10.17851/2237-2083.29.2.959-998","url":null,"abstract":"Resumo: O objetivo desta pesquisa e cotejar dados indicativos de inteligibilidade e convencionalidade em textos de divulgacao da area medica em portugues para verificar sua adequacao ao publico brasileiro. Para tanto, apoiamo-nos nos pressupostos da Linguistica de Corpus para a compilacao e o processamento de um corpus paralelo, formado por textos escritos originalmente em ingles e suas traducoes para o portugues, e um corpus comparavel, composto pelos textos traduzidos em portugues e por textos originalmente escritos nesse idioma. A metodologia do estudo combina analises quantitativas – para levantamento de inteligibilidade, chavicidade e colocacao – e qualitativas – para analise das palavras em contexto. Em relacao a inteligibilidade, as ferramentas apontaram que os textos escritos em portugues sao ‘dificeis’ para o leitor medio brasileiro, com grau de instrucao inferior ao Ensino Medio. Ja os textos traduzidos foram considerados ‘razoavelmente dificeis’, de acordo com esse mesmo criterio de avaliacao, que classificou os originais em ingles como ‘razoavelmente faceis’, considerando-se seu publico alvo, ou seja, o leitor medio estadunidense. A analise qualitativa apontou que os textos traduzidos apresentam quebras de convencionalidade, demonstrando preferencia por equivalentes prima facie , nem sempre condizentes com os padroes observados nos textos de mesmo genero escritos originalmente em portugues. Apesar de a ferramenta de acessibilidade textual indicar que tanto os textos escritos originalmente em portugues quanto aqueles traduzidos nao se mostram totalmente adequados para o leitor-alvo brasileiro de textos de divulgacao medica, acreditamos que a quebra da convencionalidade, identificada nos textos traduzidos, pode dificultar ainda mais a compreensao do leitor medio de resultados de pesquisas cientificas da area da saude. Palavras-chave: textos de divulgacao; traducao; convencionalidade; inteligibilidade. Abstract: The aim of this research is to collate data from intelligibility and conventionality in health-related expository texts in Portuguese to investigate their appropriateness to Brazilians. To this end, we rely on Corpus Linguistics for the compilation and processing of a parallel corpus, comprising texts originally written in English and their translations into Portuguese, and a comparable corpus, composed of texts translated into Portuguese and texts originally written in that language. Our methodology combines quantitative analysis – to assess readability, keyness, and collocation – and qualitative analysis – to investigate words in context. Regarding readability, the tools pointed out that texts written in Portuguese are ‘difficult’ for the average Brazilian reader, with a level of education lower than High School. The translated texts were considered ‘fairly difficult’, according to this same evaluation criterion, which classified the originals in English as ‘fairly easy’, considering its target audience, that is, the average Am","PeriodicalId":42188,"journal":{"name":"Revista de Estudos da Linguagem","volume":"29 1","pages":"959"},"PeriodicalIF":0.2,"publicationDate":"2021-03-19","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"48286290","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
Pub Date : 2021-03-19DOI: 10.17851/2237-2083.29.2.1289-1324
Luiz Carlos Schwindt, Pedro Eugênio Gaggiola, I. Petry
Resumo: Neste texto aborda-se a frequencia e a distribuicao de formas de plural irregular do portugues brasileiro, no âmbito da palavra, numa perspectiva descritiva. Os dados provem do Corpus Brasileiro e estao divididos em duas amostras: Amostra L, nomes pluralizados terminados ortograficamente em vogal+is (ex. papeis), vogal+us (ex. chapeus) e is (ex. funis), e Amostra N, os terminados por oes (ex. viloes), aos (ex. irmaos) e aes (ex. paes). O exame das variaveis fonetico-fonologicas e lexico-morfologicas – numero de silabas, acento, contexto fonologico, afiliacao morfologica e frequencia lexical – permitiu contextualizar o comportamento das alternantes minoritarias de cada amostra, em oposicao as alternantes prevalentes, vogal+is e oes, respectivamente. Palavras-chave: plural; alomorfia; morfologia; morfofonologia; Corpus Brasileiro. Abstract: This paper addresses the frequency and distribution of Brazilian Portuguese irregular plurals, within the scope of the word, in a descriptive approach. The data come from the Corpus Brasileiro and are divided into two samples: (i) pluralized nouns ending, in spelling, with vowel+is (eg papeis ‘papers’), vowel+us (eg chapeus ‘hats’), and is (eg funis ‘funnels’), and (ii) those ending with oes (eg viloes ‘villains’), aos (eg irmaos ‘brothers’), and aes (eg caes ‘dogs’). The phonological and lexical-morphological variables analyzed – number of syllables, stress, phonological context, morphological affiliation and lexical frequency – allowed to define the main contexts for the minority alternants of each sample, in opposition to the prevalent ones, vowel+is and oes, respectively. Keywords: plural; allomorphy; morphology; morphophonology; Corpus Brasileiro.
{"title":"Frequência e distribuição de plurais irregulares no Corpus Brasileiro / Frequency and distribution of irregular plurals in the Corpus Brasileiro","authors":"Luiz Carlos Schwindt, Pedro Eugênio Gaggiola, I. Petry","doi":"10.17851/2237-2083.29.2.1289-1324","DOIUrl":"https://doi.org/10.17851/2237-2083.29.2.1289-1324","url":null,"abstract":"Resumo: Neste texto aborda-se a frequencia e a distribuicao de formas de plural irregular do portugues brasileiro, no âmbito da palavra, numa perspectiva descritiva. Os dados provem do Corpus Brasileiro e estao divididos em duas amostras: Amostra L, nomes pluralizados terminados ortograficamente em vogal+is (ex. papeis), vogal+us (ex. chapeus) e is (ex. funis), e Amostra N, os terminados por oes (ex. viloes), aos (ex. irmaos) e aes (ex. paes). O exame das variaveis fonetico-fonologicas e lexico-morfologicas – numero de silabas, acento, contexto fonologico, afiliacao morfologica e frequencia lexical – permitiu contextualizar o comportamento das alternantes minoritarias de cada amostra, em oposicao as alternantes prevalentes, vogal+is e oes, respectivamente. Palavras-chave: plural; alomorfia; morfologia; morfofonologia; Corpus Brasileiro. Abstract: This paper addresses the frequency and distribution of Brazilian Portuguese irregular plurals, within the scope of the word, in a descriptive approach. The data come from the Corpus Brasileiro and are divided into two samples: (i) pluralized nouns ending, in spelling, with vowel+is (eg papeis ‘papers’), vowel+us (eg chapeus ‘hats’), and is (eg funis ‘funnels’), and (ii) those ending with oes (eg viloes ‘villains’), aos (eg irmaos ‘brothers’), and aes (eg caes ‘dogs’). The phonological and lexical-morphological variables analyzed – number of syllables, stress, phonological context, morphological affiliation and lexical frequency – allowed to define the main contexts for the minority alternants of each sample, in opposition to the prevalent ones, vowel+is and oes, respectively. Keywords: plural; allomorphy; morphology; morphophonology; Corpus Brasileiro.","PeriodicalId":42188,"journal":{"name":"Revista de Estudos da Linguagem","volume":"29 1","pages":"1289-1324"},"PeriodicalIF":0.2,"publicationDate":"2021-03-19","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"43638909","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
Pub Date : 2021-03-19DOI: 10.17851/2237-2083.29.2.1033-1058
Cláudia Freitas, Elvis De Souza
Resumo: Neste trabalho, apresentamos estudos descritivos e computacionais relacionados ao sujeito oculto. Em um primeiro momento, realizamos uma descricao de cunho quantitativo, tomando por base tres corpora dos generos jornalistico, literario e enciclopedico. Especificamente, quantificamos o sujeito oculto em cada um dos corpora , e encontramos sujeitos omitidos em 24%, 41% e 46% das oracoes, respectivamente. Em um segundo momento, por meio de uma estrategia baseada em regras, reconstituimos esses sujeitos e os devolvemos aos corpora , com o objetivo de avaliar o quanto a omissao do sujeito e capaz de impactar o aprendizado automatico de dependencias sintaticas. Os resultados indicam que a reconstituicao formal do sujeito pode melhorar a aprendizagem das dependencias sintaticas em ate 2% quando consideramos a metrica CLAS, evidenciando o papel relevante da modelagem linguistica no aprendizado automatico. Palavras-chave: descricao linguistica; sujeito oculto; omissao de sujeito; dependencias sintaticas; linguistica computacional; aprendizado de maquina; linguistica de corpus . Abstract: In this paper, we present descriptive and computational studies related to omitted subjects. Firstly, we develop a quantitative descriptive study based on three corpora , which consist of journalistic, literary and encyclopedic genres. Specifically, we quantify the omitted subjects in sentences for each of these corpora; omitted subjects were found in 24%, 41% and 46% of their sentences, respectively. Secondly, applying rule-based strategies, we reconstitute those subjects and place them back to the corpora , with the goal of evaluating how much the omission of subjects can impact the automatic learning of syntactic dependencies. The results indicate that the formal subject reconstitution can enhance the learning of syntactic dependencies in up to 2% according to the CLAS metric, highlighting the relevant role of linguistic modeling in the automatic learning process. Keywords: linguistic description; omitted subject; syntactic dependencies; computational linguistics; machine learning; corpus linguistics.
{"title":"Sujeito oculto às claras: uma abordagem descritivo-computacional / Omitted subjects revealed: a quantitative-descriptive approach","authors":"Cláudia Freitas, Elvis De Souza","doi":"10.17851/2237-2083.29.2.1033-1058","DOIUrl":"https://doi.org/10.17851/2237-2083.29.2.1033-1058","url":null,"abstract":"Resumo: Neste trabalho, apresentamos estudos descritivos e computacionais relacionados ao sujeito oculto. Em um primeiro momento, realizamos uma descricao de cunho quantitativo, tomando por base tres corpora dos generos jornalistico, literario e enciclopedico. Especificamente, quantificamos o sujeito oculto em cada um dos corpora , e encontramos sujeitos omitidos em 24%, 41% e 46% das oracoes, respectivamente. Em um segundo momento, por meio de uma estrategia baseada em regras, reconstituimos esses sujeitos e os devolvemos aos corpora , com o objetivo de avaliar o quanto a omissao do sujeito e capaz de impactar o aprendizado automatico de dependencias sintaticas. Os resultados indicam que a reconstituicao formal do sujeito pode melhorar a aprendizagem das dependencias sintaticas em ate 2% quando consideramos a metrica CLAS, evidenciando o papel relevante da modelagem linguistica no aprendizado automatico. Palavras-chave: descricao linguistica; sujeito oculto; omissao de sujeito; dependencias sintaticas; linguistica computacional; aprendizado de maquina; linguistica de corpus . Abstract: In this paper, we present descriptive and computational studies related to omitted subjects. Firstly, we develop a quantitative descriptive study based on three corpora , which consist of journalistic, literary and encyclopedic genres. Specifically, we quantify the omitted subjects in sentences for each of these corpora; omitted subjects were found in 24%, 41% and 46% of their sentences, respectively. Secondly, applying rule-based strategies, we reconstitute those subjects and place them back to the corpora , with the goal of evaluating how much the omission of subjects can impact the automatic learning of syntactic dependencies. The results indicate that the formal subject reconstitution can enhance the learning of syntactic dependencies in up to 2% according to the CLAS metric, highlighting the relevant role of linguistic modeling in the automatic learning process. Keywords: linguistic description; omitted subject; syntactic dependencies; computational linguistics; machine learning; corpus linguistics.","PeriodicalId":42188,"journal":{"name":"Revista de Estudos da Linguagem","volume":"29 1","pages":"1033"},"PeriodicalIF":0.2,"publicationDate":"2021-03-19","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"47084584","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
Pub Date : 2021-03-19DOI: 10.17851/2237-2083.29.2.829-858
D. Borsatti, Adriana Blanco Riess
Abstract: This paper presents a proposal for pedagogical use of MT in English for Specific Purpose (ESP) courses, aiming at investigating the efficiency of this technology as a support for reading scientific texts in English as a FL. The theoretical approach is on ESP, reading and comprehension and a proposal to use MT in ESP courses, aiming to understand the processing of MT and how this knowledge can raise benefits on reading comprehension for academic purposes. In addition, we discussed corpus linguistics and its relation to language teaching as well as its role in MT. The analysis shows that, due to the hybrid system that utilizes the rule-based system and the corpus-based system, Google Translate produces relatively understandable and readable texts. Despite its evident limitations, the tool can provide linguistic awareness when pedagogically explored by ESP teachers in academic context. Keywords: Machine Translation; pedagogical tool; reading; English for Specific Purposes. Resumo: Este artigo apresenta uma proposta de uso pedagogico de traducao pela Maquina (MT) em cursos de ingles para fins especificos (ESP), com o objetivo de investigar a eficiencia dessa tecnologia como suporte para a leitura de textos cientificos em ingles como L2/ LE. A abordagem teorica e sobre ESP, leitura e compreensao e uma proposta de uso de MT em cursos de ESP, com o objetivo de entender o processamento da MT e como esse conhecimento pode trazer beneficios na compreensao da leitura para fins academicos. Tambem, discute-se a linguistica de corpus e sua relacao tanto com o ensino de linguas quanto seu papel na MT. Por fim, a partir da analise que se faz, devido ao sistema hibrido que utiliza o sistema baseado em regras com o sistema baseado em corpus, o Google Translate produz textos relativamente compreensiveis e legiveis. Apesar de suas limitacoes evidentes, essa tecnologia pode fornecer consciencia linguistica quando explorada pedagogicamente pelos professores de ESP no contexto academico Palavras-chave: Tradutor Automatico; ferramenta pedagogica; leitura; Ingles para Propositos Especificos.
{"title":"Using machine translator as a pedagogical resource in English for specific purposes courses in the academic context / O uso do tradutor automático como recurso pedagógico na aula de inglês para propósitos específicos no contexto acadêmico","authors":"D. Borsatti, Adriana Blanco Riess","doi":"10.17851/2237-2083.29.2.829-858","DOIUrl":"https://doi.org/10.17851/2237-2083.29.2.829-858","url":null,"abstract":"Abstract: This paper presents a proposal for pedagogical use of MT in English for Specific Purpose (ESP) courses, aiming at investigating the efficiency of this technology as a support for reading scientific texts in English as a FL. The theoretical approach is on ESP, reading and comprehension and a proposal to use MT in ESP courses, aiming to understand the processing of MT and how this knowledge can raise benefits on reading comprehension for academic purposes. In addition, we discussed corpus linguistics and its relation to language teaching as well as its role in MT. The analysis shows that, due to the hybrid system that utilizes the rule-based system and the corpus-based system, Google Translate produces relatively understandable and readable texts. Despite its evident limitations, the tool can provide linguistic awareness when pedagogically explored by ESP teachers in academic context. Keywords: Machine Translation; pedagogical tool; reading; English for Specific Purposes. Resumo: Este artigo apresenta uma proposta de uso pedagogico de traducao pela Maquina (MT) em cursos de ingles para fins especificos (ESP), com o objetivo de investigar a eficiencia dessa tecnologia como suporte para a leitura de textos cientificos em ingles como L2/ LE. A abordagem teorica e sobre ESP, leitura e compreensao e uma proposta de uso de MT em cursos de ESP, com o objetivo de entender o processamento da MT e como esse conhecimento pode trazer beneficios na compreensao da leitura para fins academicos. Tambem, discute-se a linguistica de corpus e sua relacao tanto com o ensino de linguas quanto seu papel na MT. Por fim, a partir da analise que se faz, devido ao sistema hibrido que utiliza o sistema baseado em regras com o sistema baseado em corpus, o Google Translate produz textos relativamente compreensiveis e legiveis. Apesar de suas limitacoes evidentes, essa tecnologia pode fornecer consciencia linguistica quando explorada pedagogicamente pelos professores de ESP no contexto academico Palavras-chave: Tradutor Automatico; ferramenta pedagogica; leitura; Ingles para Propositos Especificos.","PeriodicalId":42188,"journal":{"name":"Revista de Estudos da Linguagem","volume":"29 1","pages":"829-858"},"PeriodicalIF":0.2,"publicationDate":"2021-03-19","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"48561615","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
Pub Date : 2021-03-19DOI: 10.17851/2237-2083.29.2.909-958
F. P. Oliveira
Resumo: O presente trabalho tem como objetivo descrever os procedimentos metodologicos da pesquisa intitulada “ ToGatherUp : um prototipo de ferramenta para a construcao de corpora” que verificou o efeito da incorporacao da ferramenta ToGatherUp no tempo e no esforco necessarios para a construcao manual de um corpus que elaboramos: o Corpus da Computacao da Lingua Inglesa (CoCLI). Para tanto, discorremos sobre como os autores da pesquisa desenvolveram um conjunto de metricas de medicao de esforco – Esforco da Atividade (EA), Esforco Total de Coleta do Texto (ETCT) e Esforco Total do Projeto (ETP) – que serviram de base para a realizacao de um experimento estatistico comparativo entre os projetos de elaboracao manual de duas versoes identicas do CoCLI que se diferenciam por em um deles utilizar o ToGatherUp e o outro nao. O resultado do experimento demonstrou uma reducao media de 7,47% no ETP do projeto em que o ToGatherUp foi incorporado em relacao ao ETP do projeto em que a ferramenta nao foi utilizada, o que corroborou a hipotese de que ela reduz o tempo e o esforco despendidos pelo pesquisador em projetos de elaboracao manual de corpora . Palavras-chave: Linguistica de Corpus ; construcao manual de corpus ; metricas de medicao de esforco; ToGatherUp. Abstract: The present work aims to describe the methodological procedures of the research entitled “ ToGatherUp : a prototype of a tool for corpora construction” that verified the effect of incorporating ToGatherUp in necessary time and effort invested in manual construction of Corpus of Computing in English (CoCLI). To this end, we discuss how the research authors developed a set of metrics for measuring effort – Activity Effort (EA), Total Effort for Text Collection (ETCT) and Total Project Effort (ETP) – which served as the basis for conducting a comparative statistical experiment between the manual elaboration of two identical versions of the CoCLI: which differ from each other by one of them using the ToGatherUp and the other one not using it. The experiment shows an average reduction of 7.47% in the ETP when using ToGatherUp compared to the ETP when not using the tool. This result corroborates the hypothesis that the tool reduces the time and effort spent by the researcher on manual elaboration projects of corpora . Keywords: Corpus Linguistics; manual construction of corpus ; effort measurement metrics; ToGatherUp .
{"title":"Procedimentos para construção do Corpus da Computação da Língua Inglesa (CoCLI) e cálculo do esforço na construção manual de corpora / Procedures for Corpus of Computing in English (CoCLI) construction and effort calculation in manual construction of corpora","authors":"F. P. Oliveira","doi":"10.17851/2237-2083.29.2.909-958","DOIUrl":"https://doi.org/10.17851/2237-2083.29.2.909-958","url":null,"abstract":"Resumo: O presente trabalho tem como objetivo descrever os procedimentos metodologicos da pesquisa intitulada “ ToGatherUp : um prototipo de ferramenta para a construcao de corpora” que verificou o efeito da incorporacao da ferramenta ToGatherUp no tempo e no esforco necessarios para a construcao manual de um corpus que elaboramos: o Corpus da Computacao da Lingua Inglesa (CoCLI). Para tanto, discorremos sobre como os autores da pesquisa desenvolveram um conjunto de metricas de medicao de esforco – Esforco da Atividade (EA), Esforco Total de Coleta do Texto (ETCT) e Esforco Total do Projeto (ETP) – que serviram de base para a realizacao de um experimento estatistico comparativo entre os projetos de elaboracao manual de duas versoes identicas do CoCLI que se diferenciam por em um deles utilizar o ToGatherUp e o outro nao. O resultado do experimento demonstrou uma reducao media de 7,47% no ETP do projeto em que o ToGatherUp foi incorporado em relacao ao ETP do projeto em que a ferramenta nao foi utilizada, o que corroborou a hipotese de que ela reduz o tempo e o esforco despendidos pelo pesquisador em projetos de elaboracao manual de corpora . Palavras-chave: Linguistica de Corpus ; construcao manual de corpus ; metricas de medicao de esforco; ToGatherUp. Abstract: The present work aims to describe the methodological procedures of the research entitled “ ToGatherUp : a prototype of a tool for corpora construction” that verified the effect of incorporating ToGatherUp in necessary time and effort invested in manual construction of Corpus of Computing in English (CoCLI). To this end, we discuss how the research authors developed a set of metrics for measuring effort – Activity Effort (EA), Total Effort for Text Collection (ETCT) and Total Project Effort (ETP) – which served as the basis for conducting a comparative statistical experiment between the manual elaboration of two identical versions of the CoCLI: which differ from each other by one of them using the ToGatherUp and the other one not using it. The experiment shows an average reduction of 7.47% in the ETP when using ToGatherUp compared to the ETP when not using the tool. This result corroborates the hypothesis that the tool reduces the time and effort spent by the researcher on manual elaboration projects of corpora . Keywords: Corpus Linguistics; manual construction of corpus ; effort measurement metrics; ToGatherUp .","PeriodicalId":42188,"journal":{"name":"Revista de Estudos da Linguagem","volume":"29 1","pages":"909-958"},"PeriodicalIF":0.2,"publicationDate":"2021-03-19","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"45628845","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
Pub Date : 2021-03-19DOI: 10.17851/2237-2083.29.2.711-737
Nicolás Arellano
Resumen: Este articulo busca analizar las ventajas de una aproximacion a los datos linguisticos historicos a partir de la confeccion de corpus especificamente disenados. Para ello, en primer lugar, se presentan las principales limitaciones de los corpus generales de referencia, particularmente del corde (rae) y Corpus del Espanol (byu), no solamente en cuanto al acceso de sus motores de busqueda, sino tambien a la disponibilidad de los textos que los componen. En segundo lugar, se hace uso de un caso en especifico, el del origen y desarrollo de las construcciones con clitico femenino, para ilustrar la propuesta. A continuacion, se contrasta esta propuesta de abordaje de datos con otras investigaciones que utilizan corpus generales. Se evidencia, asi, que este modo de acceso a las emisiones linguisticas historicas favorece el estudio de procesos gramaticales novedosos de interfaz que se circunscriben a ambitos informales, populares, orales y diatopicamente marginales. Palabras clave: locuciones idiomaticas; clitico femenino; corpus generales; corpus historicos; espanol rioplatense. Abstract: The aim of this article is to analyze the advantages of an approach to historical linguistic data based on the creation of specifically designed corpora. For this, the main limitations of general reference corpora are presented in the first place; particularly of CORDE (RAE) and Corpus del Espanol (BYU). The limitations are not only presented with regard to the access on their search engines, but also to the availability of texts that are part of said corpora. Secondly, a particular case is utilized, which shows the origin and development of the constructions with the feminine clitic, so as to exemplify the proposal. Next, the mentioned proposal on the approach of data is contrasted to other research that use general corpora. Thus, it is demonstrated that this way of accessing historical linguistic utterances benefits the study of novel grammatical interface processes that deal exclusively with informal, popular, oral, and dialectically peripheral fields. Keywords: idioms; feminine clitic; general corpora; historical corpora; Rio de la Plata Spanish.
摘要:本文旨在分析通过构建专门设计的语料库来近似历史语言学数据的优势。为此,首先介绍了一般参考语料库,特别是CODE和BYU的主要限制,不仅在搜索引擎的访问方面,而且在组成它们的文本的可用性方面。其次,利用一个具体的案例,即带有女性阴蒂的建筑的起源和发展,来说明这一建议。然后,将这一数据处理建议与使用通用语料库的其他研究进行了对比。因此,很明显,这种获取历史语言广播的方式有利于研究新颖的界面语法过程,这些过程仅限于非正式、受欢迎、口头和双重边缘的领域。关键词:惯用语;女性阴蒂;通用语料库;历史语料库;西班牙人。摘要:本文的目的是分析基于创建特定设计公司的历史语言数据方法的优势。为此,首先提出了一般参考公司的主要限制;特别是Corde(RAE)和Corpus del Espanol(BYU)。这些限制不仅在访问其搜索引擎方面提出,而且在提供上述公司的文本方面也提出了。第二,使用了一个特定的案例,展示了与女权主义气候有关的建筑的起源和发展,以举例说明该建议。其次,上述关于数据方法的建议与通用公司使用的其他研究进行了对比。因此,有证据表明,这种获取历史语言utterances的方式有利于研究专门处理非正式、流行、口语和方言周边领域的小说语法界面过程。关键词:成语;女权主义;一般公司;历史公司;西班牙拉普拉塔河。
{"title":"Diseño de corpus específicos para el estudio histórico gramatical: el caso de las construcciones con clítico femenino / The creation of specific corpora for the historical study of grammar: the case of constructions with the feminine clitic","authors":"Nicolás Arellano","doi":"10.17851/2237-2083.29.2.711-737","DOIUrl":"https://doi.org/10.17851/2237-2083.29.2.711-737","url":null,"abstract":"Resumen: Este articulo busca analizar las ventajas de una aproximacion a los datos linguisticos historicos a partir de la confeccion de corpus especificamente disenados. Para ello, en primer lugar, se presentan las principales limitaciones de los corpus generales de referencia, particularmente del corde (rae) y Corpus del Espanol (byu), no solamente en cuanto al acceso de sus motores de busqueda, sino tambien a la disponibilidad de los textos que los componen. En segundo lugar, se hace uso de un caso en especifico, el del origen y desarrollo de las construcciones con clitico femenino, para ilustrar la propuesta. A continuacion, se contrasta esta propuesta de abordaje de datos con otras investigaciones que utilizan corpus generales. Se evidencia, asi, que este modo de acceso a las emisiones linguisticas historicas favorece el estudio de procesos gramaticales novedosos de interfaz que se circunscriben a ambitos informales, populares, orales y diatopicamente marginales. Palabras clave: locuciones idiomaticas; clitico femenino; corpus generales; corpus historicos; espanol rioplatense. Abstract: The aim of this article is to analyze the advantages of an approach to historical linguistic data based on the creation of specifically designed corpora. For this, the main limitations of general reference corpora are presented in the first place; particularly of CORDE (RAE) and Corpus del Espanol (BYU). The limitations are not only presented with regard to the access on their search engines, but also to the availability of texts that are part of said corpora. Secondly, a particular case is utilized, which shows the origin and development of the constructions with the feminine clitic, so as to exemplify the proposal. Next, the mentioned proposal on the approach of data is contrasted to other research that use general corpora. Thus, it is demonstrated that this way of accessing historical linguistic utterances benefits the study of novel grammatical interface processes that deal exclusively with informal, popular, oral, and dialectically peripheral fields. Keywords: idioms; feminine clitic; general corpora; historical corpora; Rio de la Plata Spanish.","PeriodicalId":42188,"journal":{"name":"Revista de Estudos da Linguagem","volume":"29 1","pages":"711-737"},"PeriodicalIF":0.2,"publicationDate":"2021-03-19","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"41715649","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}