首页 > 最新文献

Revista de Estudos da Linguagem最新文献

英文 中文
O papel do corpus de estudo no aprimoramento descritivo da complementaridade informacional multidocumento / The role of the study corpus in the descriptive improvement of multi-document informational complementarity 研究语料库在多文档信息互补性描述性改进中的作用
IF 0.2 Q4 Arts and Humanities Pub Date : 2021-03-19 DOI: 10.17851/2237-2083.29.2.1059-1087
J. W. C. Souza
Resumo: Em subareas do Processamento Automatico de Linguas Naturais (PLN), como a Sumarizacao Automatica Multidocumento (SAM), e necessario compreender o comportamento linguistico de determinados fenomenos, especialmente os de natureza semântica. A Cross-document Structure Theory (CST) e bastante utilizada em estudos do PLN por proporcionar um conjunto de relacoes semânticas que organizam a informacao entre unidades de analise (comumente, pares de sentencas), agrupadas entre conteudo (a saber, redundância, complementaridade e contradicao) e apresentacao (a saber, fonte/autoria e estilo). Ate entao, a caracterizacao das relacoes CST baseava-se em atributos genericos (como a quantidade de palavras em comum entre as sentencas de um par) e especificos (como a presenca de adverbios temporais) para as relacoes de Redundância e Complementaridade. Entretanto, percebe-se que a delimitacao de tais atributos ainda e incipiente, pois nao inclui atributos semânticos e pragmaticos, niveis linguisticos que sao possiveis de recuperar manualmente entre as unidades de analise da CST. Nesse sentido, objetiva-se, neste artigo, reconstruir o percurso metodologico de Souza (2019) ao que se refere ao estudo em corpus das relacoes CST em textos jornalisticos do Portugues, ja que o conjunto de atributos disponiveis, ate o momento, ainda produzia equivocos na identificacao dos subtipos de complementaridade multidocumento, a saber temporal e atemporal. Partindo do corpus CSTNews, organizou-se um subconjunto de estudo com os 10 primeiros clusters , o que contabilizou 204 pares de sentencas. Como resultado, foram obtidas a descricao detalhada da complementaridade CST e a criacao de uma tipologia de sinalizadores das relacoes que traduzem esse fenomeno, alem da proposicao de uma metodologia especifica para o estudo de relacoes CST. Palavras-chave: Complementaridade informacional multidocumento; Processamento Automatico de Linguas Naturais; Corpus de estudo. Abstract: In sub-areas of Natural Language Processing (NLP), such as Automatic Multidocument Summarization (AMS), it is necessary to understand the linguistic behavior of certain phenomena, especially those of a semantic nature. Cross-document Structure Theory (CST) is widely used in NLP studies because it provides a set of semantic relations that organize information between units of analysis (commonly, pairs of sentences) organized between content (namely, redundancy, complementarity and contradiction) and presentation (namely, source/authorship and style). Until then, the characterization of CST relationships was based on generic attributes (such as the number of words in common between sentences of a pair) and specific attributes (such as the presence of temporal adverbs) for the relationships of Redundancy and Complementarity. However, the delimitation of such attributes is still incipient, as they do not include semantic and pragmatic attributes, linguistic levels that are possible to recover between the CST units of
摘要:在自然语言自动处理(NLP)的子领域,如自动多文档摘要(SAM),有必要了解某些现象的语言行为,尤其是语义性质的现象。跨文档结构理论(CST)在PLN研究中被广泛用于提供一组语义关系,这些关系组织分析单元(通常是成对的句子)之间的信息,在内容(即冗余、互补和矛盾)和呈现(即来源/作者和风格)之间分组。在此之前,CST关系的表征是基于冗余和互补关系的一般属性(如一对句子之间的共同单词数量)和特定属性(如时间副词的存在)。然而,值得注意的是,此类属性的界定仍处于起步阶段,因为它不包括语义和语用属性,即可以在CST的分析单元之间手动检索的语言水平。从这个意义上说,本文的目的是重建Souza(2019)关于Portugues新闻文本中CST关系的语料库研究的方法论路径,因为迄今为止可用的一组属性在识别多文档互补的亚型(即时间和时间)时仍然产生了错误。基于CSTNews语料库,研究的一个子集由前10个聚类组成,共有204对句子。因此,除了提出研究CST关系的具体方法外,我们还获得了对CST互补性的详细描述,以及翻译这一现象的关系标记类型的创建。关键词:多文档信息互补性;自然语言的自动处理;学习语料库。在自然语言处理(NLP)的子领域,如自动多文档摘要(AMS),有必要了解某些现象的语言行为,尤其是那些具有语义性质的现象。跨文档结构理论(CST)在NLP研究中得到了广泛的应用,因为它提供了一组语义关系,将信息组织在内容(即冗余、互补和矛盾)和呈现(即来源/作者和风格)之间组织的分析单元(通常是成对的句子)之间。在此之前,CST关系的表征是基于冗余和互补关系的一般属性(如一对句子之间的共同单词数量)和特定属性(如时间对抗的存在)。然而,这类属性的界定仍处于起步阶段,因为它们不包括语义和语用属性,这些属性可能在CST分析单位之间恢复。从这个意义上说,本文的目的是重建Souza(2019)关于葡萄牙新闻文本中CST关系语料库研究的方法论路径,因为在此之前,一组可用的属性在识别多文档互补亚型时仍然产生混合,即时间和时间。基于CSTNews语料库,研究的子集由前10个聚类组成,由204对句子表示。因此,除了提出了研究CST关系的具体方法外,还获得了对CST互补性的详细描述,以及翻译这一现象的信号关系类型的创建。关键词:多文档信息互补性;自然语言处理;研究语料库。
{"title":"O papel do corpus de estudo no aprimoramento descritivo da complementaridade informacional multidocumento / The role of the study corpus in the descriptive improvement of multi-document informational complementarity","authors":"J. W. C. Souza","doi":"10.17851/2237-2083.29.2.1059-1087","DOIUrl":"https://doi.org/10.17851/2237-2083.29.2.1059-1087","url":null,"abstract":"Resumo: Em subareas do Processamento Automatico de Linguas Naturais (PLN), como a Sumarizacao Automatica Multidocumento (SAM), e necessario compreender o comportamento linguistico de determinados fenomenos, especialmente os de natureza semântica. A Cross-document Structure Theory (CST) e bastante utilizada em estudos do PLN por proporcionar um conjunto de relacoes semânticas que organizam a informacao entre unidades de analise (comumente, pares de sentencas), agrupadas entre conteudo (a saber, redundância, complementaridade e contradicao) e apresentacao (a saber, fonte/autoria e estilo). Ate entao, a caracterizacao das relacoes CST baseava-se em atributos genericos (como a quantidade de palavras em comum entre as sentencas de um par) e especificos (como a presenca de adverbios temporais) para as relacoes de Redundância e Complementaridade. Entretanto, percebe-se que a delimitacao de tais atributos ainda e incipiente, pois nao inclui atributos semânticos e pragmaticos, niveis linguisticos que sao possiveis de recuperar manualmente entre as unidades de analise da CST. Nesse sentido, objetiva-se, neste artigo, reconstruir o percurso metodologico de Souza (2019) ao que se refere ao estudo em corpus das relacoes CST em textos jornalisticos do Portugues, ja que o conjunto de atributos disponiveis, ate o momento, ainda produzia equivocos na identificacao dos subtipos de complementaridade multidocumento, a saber temporal e atemporal. Partindo do corpus CSTNews, organizou-se um subconjunto de estudo com os 10 primeiros clusters , o que contabilizou 204 pares de sentencas. Como resultado, foram obtidas a descricao detalhada da complementaridade CST e a criacao de uma tipologia de sinalizadores das relacoes que traduzem esse fenomeno, alem da proposicao de uma metodologia especifica para o estudo de relacoes CST. Palavras-chave: Complementaridade informacional multidocumento; Processamento Automatico de Linguas Naturais; Corpus de estudo. Abstract: In sub-areas of Natural Language Processing (NLP), such as Automatic Multidocument Summarization (AMS), it is necessary to understand the linguistic behavior of certain phenomena, especially those of a semantic nature. Cross-document Structure Theory (CST) is widely used in NLP studies because it provides a set of semantic relations that organize information between units of analysis (commonly, pairs of sentences) organized between content (namely, redundancy, complementarity and contradiction) and presentation (namely, source/authorship and style). Until then, the characterization of CST relationships was based on generic attributes (such as the number of words in common between sentences of a pair) and specific attributes (such as the presence of temporal adverbs) for the relationships of Redundancy and Complementarity. However, the delimitation of such attributes is still incipient, as they do not include semantic and pragmatic attributes, linguistic levels that are possible to recover between the CST units of","PeriodicalId":42188,"journal":{"name":"Revista de Estudos da Linguagem","volume":null,"pages":null},"PeriodicalIF":0.2,"publicationDate":"2021-03-19","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"43791397","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
引用次数: 0
Linguística de Corpus aplicada à Semântica de Frames: investigando conceptualizações pró-escolha no debate da Sugestão Legislativa n.º 15/2014 / Corpus Linguistics applied to Frame Semantics: investigating pro-choice conceptualizations in SUG no. 15/2014’s debate 语料库语言学在框架语义学中的应用:研究立法建议辩论中的支持选择概念化n.º15/2014 /语料库语言学在框架语义学中的应用:研究支持选择概念化15/2014’s辩论
IF 0.2 Q4 Arts and Humanities Pub Date : 2021-03-19 DOI: 10.17851/2237-2083.29.2.1137-1189
A. Santos, R. Chishman
Resumo: Este artigo vincula-se a uma tese doutoral cujo objetivo foi compreender, por meio da identificacao de diferentes instanciacoes de frames semânticos, as redes de significado que (re)enquadram os direitos humanos e reprodutivos das mulheres no contexto das audiencias publicas que debateram a Sugestao Legislativa (SUG) no 15/2014 – tal proposta visou a regular o aborto nas primeiras doze semanas de gestacao (SANTOS, 2020). Especificamente, o texto trata de alguns desdobramentos analiticos possibilitados pela integracao da ferramenta de analise qualitativa NVivo ao recurso Sketch Engine, tendo em vista a necessidade de segmentacao do corpus em unidades tematicas para posterior processamento dos dados no concordanciador. De modo a abordar tal percurso, o artigo discute a identificacao de frames no discurso dos defensores da proposta da SUG no 15, cujas escolhas lexicais refletem a conceptualizacao do abortamento como questao de saude publica e de justica social. Como resultados, o artigo destaca que o uso integrado de diferentes ferramentas de analise empirica permite uma descricao baseada em corpus que evidencia a dimensao multifacetada do frame semântico – uma estrutura sociocognitiva que se constroi nos entrelacamentos entre lexico, discurso e cognicao. Palavras-chave: Linguistica de Corpus ; Semântica de Frames; Sugestao Legislativa n.o 15/2014; direitos reprodutivos. Abstract: This article relates to a Ph.D. thesis which aimed at comprehending, throughout the identification of different semantic frame instantiations, the meaning networks that (re)frame women’s human and reproductive rights in the context of the public hearings that discussed the SUG no. 15/2014 – such a proposal intended to regulate abortion in the first twelve weeks of pregnancy, in Brazil (SANTOS, 2020). Specifically, the text presents some analytical developments made available by the integration of the qualitative analysis tool NVivo to the Sketch Engine tool, considering the need of a corpus segmentation into thematic units for a later processing of these data in a concordancer. In order to discuss this process, the article describes the identification of frames within the discourse of the ones that advocate for the SUG proposal, whose lexical choices reflect the conceptualization of abortion as a public heath matter, as well as a social justice one. Concerning the results, the article emphasizes that the integrated usage of different tools devoted to empirical analysis allows a corpus-based description that reveals the multifaceted dimension of a semantic frame – a socio-cognitive structure that is built in the interconnections between lexicon, discourse and cognition. Keywords: Corpus Linguistics; Frame Semantics; SUG no. 15/2014; reproductive rights.
摘要:这篇文章提交一篇博士论文的目标是理解,通过不同的名字instanciacoes框架语义网络的意义(重新)妇女生育人权和环境下的公共评级部分立法建议(智能)在15/2014—建议旨在规范堕胎在前12周的gestacao(2020)。具体来说,本文讨论了将定性分析工具NVivo与素描引擎资源相结合所带来的一些分析发展,考虑到需要将语料库划分为主题单元,以便在协调器中进一步处理数据。为了解决这一问题,本文讨论了第15号SUG提案支持者话语中的框架识别,他们的词汇选择反映了堕胎作为公共卫生和社会正义问题的概念。因此,本文强调了不同经验分析工具的综合使用,允许基于语料库的描述,突出了语义框架的多方面维度——一种建立在词汇、语篇和认知交织之上的社会认知结构。关键词:语料库语言学;框架语义;第15/2014号立法建议;生育权。摘要:本文涉及一篇博士论文,其目的是通过识别不同的语义框架实例来理解在讨论该问题的公开听证会的背景下(重新)界定妇女的人权和生殖权利的意义网络。15/2014 -巴西关于规范怀孕前12周堕胎的提案(SANTOS, 2020)。具体地说,本文介绍了通过将定性分析工具与速写引擎工具相结合而获得的一些分析发展,考虑到需要将语料库分割成专题单元,以便在一个索引器中进一步处理这些数据。为了讨论这一进程,本文描述了在提出这一建议的人的话语中确定的框架,这些人的词汇选择反映了堕胎作为一种公共健康问题和一种社会正义的概念。关于结果,本文强调,综合使用不同的实证分析工具可以产生一种基于语料库的描述,揭示语义框架的多方面维度——一种建立在词汇、话语和认知之间相互联系中的社会认知结构。关键词:语料库语言学;框架语义;智能制造的。15/2014;reproductive权利。
{"title":"Linguística de Corpus aplicada à Semântica de Frames: investigando conceptualizações pró-escolha no debate da Sugestão Legislativa n.º 15/2014 / Corpus Linguistics applied to Frame Semantics: investigating pro-choice conceptualizations in SUG no. 15/2014’s debate","authors":"A. Santos, R. Chishman","doi":"10.17851/2237-2083.29.2.1137-1189","DOIUrl":"https://doi.org/10.17851/2237-2083.29.2.1137-1189","url":null,"abstract":"Resumo: Este artigo vincula-se a uma tese doutoral cujo objetivo foi compreender, por meio da identificacao de diferentes instanciacoes de frames semânticos, as redes de significado que (re)enquadram os direitos humanos e reprodutivos das mulheres no contexto das audiencias publicas que debateram a Sugestao Legislativa (SUG) no 15/2014 – tal proposta visou a regular o aborto nas primeiras doze semanas de gestacao (SANTOS, 2020). Especificamente, o texto trata de alguns desdobramentos analiticos possibilitados pela integracao da ferramenta de analise qualitativa NVivo ao recurso Sketch Engine, tendo em vista a necessidade de segmentacao do corpus em unidades tematicas para posterior processamento dos dados no concordanciador. De modo a abordar tal percurso, o artigo discute a identificacao de frames no discurso dos defensores da proposta da SUG no 15, cujas escolhas lexicais refletem a conceptualizacao do abortamento como questao de saude publica e de justica social. Como resultados, o artigo destaca que o uso integrado de diferentes ferramentas de analise empirica permite uma descricao baseada em corpus que evidencia a dimensao multifacetada do frame semântico – uma estrutura sociocognitiva que se constroi nos entrelacamentos entre lexico, discurso e cognicao. Palavras-chave: Linguistica de Corpus ; Semântica de Frames; Sugestao Legislativa n.o 15/2014; direitos reprodutivos. Abstract: This article relates to a Ph.D. thesis which aimed at comprehending, throughout the identification of different semantic frame instantiations, the meaning networks that (re)frame women’s human and reproductive rights in the context of the public hearings that discussed the SUG no. 15/2014 – such a proposal intended to regulate abortion in the first twelve weeks of pregnancy, in Brazil (SANTOS, 2020). Specifically, the text presents some analytical developments made available by the integration of the qualitative analysis tool NVivo to the Sketch Engine tool, considering the need of a corpus segmentation into thematic units for a later processing of these data in a concordancer. In order to discuss this process, the article describes the identification of frames within the discourse of the ones that advocate for the SUG proposal, whose lexical choices reflect the conceptualization of abortion as a public heath matter, as well as a social justice one. Concerning the results, the article emphasizes that the integrated usage of different tools devoted to empirical analysis allows a corpus-based description that reveals the multifaceted dimension of a semantic frame – a socio-cognitive structure that is built in the interconnections between lexicon, discourse and cognition. Keywords: Corpus Linguistics; Frame Semantics; SUG no. 15/2014; reproductive rights.","PeriodicalId":42188,"journal":{"name":"Revista de Estudos da Linguagem","volume":null,"pages":null},"PeriodicalIF":0.2,"publicationDate":"2021-03-19","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"41843127","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
引用次数: 0
An investigation of linguistic problems in automatic multi-document summaries / Uma investigação de problemas linguísticos em sumários automáticos multidocumento 自动多文档摘要中的语言问题研究/ Uma investiga<s:1> o de problemas linguísticos em sumários automáticos multidocumento
IF 0.2 Q4 Arts and Humanities Pub Date : 2021-03-19 DOI: 10.17851/2237-2083.29.2.859-907
Márcio de Souza Dias, Ariani Di Felippo, A. Rassi, P. Cardoso, F. Nóbrega, T. Pardo
Abstract: Automatic summaries commonly present diverse linguistic problems that affect textual quality and thus their understanding by users. Few studies have tried to characterize such problems and their relation with the performance of the summarization systems. In this paper, we investigated the problems in multi-document extracts (i.e., summaries produced by concatenating several sentences taken exactly as they appear in the source texts) generated by systems for Brazilian Portuguese that have different approaches (i.e., superficial and deep) and performances (i.e., baseline and state-of-the art methods). For that, we first reviewed the main characterization studies, resulting in a typology of linguistic problems more suitable for multi-document summarization. Then, we manually annotated a corpus of automatic multi-document extracts in Portuguese based on the typology, which showed that some of linguistic problems are significantly more recurrent than others. Thus, this corpus annotation may support research on linguistic problems detection and correction for summary improvement, allowing the production of automatic summaries that are not only informative (i.e., they convey the content of the source material), but also linguistically well structured. Keywords: automatic summarization; multi-document summary; linguistic problem; corpus annotation. Resumo: Sumarios automaticos geralmente apresentam varios problemas linguisticos que afetam a sua qualidade textual e, consequentemente, sua compreensao pelos usuarios. Alguns trabalhos caracterizam tais problemas e os relacionam ao desempenho dos sistemas de sumarizacao. Neste artigo, investigaram-se os problemas em extratos (isto e, sumarios produzidos pela concatenacao de sentencas extraidas na integra dos textos-fonte) multidocumento em Portugues do Brasil gerados por sistemas que apresentam diferentes abordagens (isto e, superficial e profunda) e desempenho (isto e, metodos baseline e do estado-da-arte). Para tanto, as principais caracterizacoes dos problemas linguisticos em sumarios automaticos foram investigadas, resultando em uma tipologia mais adequada a sumarizacao multidocumento. Em seguida, anotou-se manualmente um corpus de extratos com base na tipologia, evidenciando que alguns tipos de problemas sao significativamente mais recorrentes que outros. Assim, essa anotacao gera subsidios para as tarefas automaticas de deteccao e correcao de problemas linguisticos com vistas a producao de sumarios automaticos nao so mais informativos (isto e, que cobrem o conteudo do material de origem), como tambem linguisticamente bem-estruturados. Palavras-chave: sumarizacao automatica; sumario multidocumento; problema linguistico; anotacao de corpus .
摘要:自动摘要通常会出现各种各样的语言问题,这些问题会影响文本质量,从而影响用户的理解。很少有研究试图描述这些问题及其与摘要系统性能的关系。在本文中,我们研究了巴西葡萄牙语系统生成的多文档摘录(即,通过将源文本中出现的几个句子拼接而成的摘要)中的问题,这些系统具有不同的方法(即,肤浅和深入)和性能(即,基线和最先进的方法)。为此,我们首先回顾了主要的表征研究,得出了更适合多文档摘要的语言问题类型学。然后,我们基于类型学手动注释了葡萄牙语的自动多文档提取语料库,这表明一些语言问题比其他问题更容易重复。因此,这种语料库注释可以支持对语言问题检测和纠正的研究,以改进摘要,从而允许生成不仅信息丰富(即,它们传达了源材料的内容),而且在语言上结构良好的自动摘要。关键词:自动摘要;多文档摘要;语言问题;语料库注释。摘要:自动摘要通常会出现各种语言问题,影响其文本质量,从而影响用户对其的理解。一些研究描述了这些问题的特征,并将它们与汇总系统的性能联系起来。在这篇文章中,我们研究了巴西葡萄牙语多文档的摘录(即,通过从源文本中提取的句子拼接而产生的摘要)中的问题,这些摘录是由呈现不同方法(即,肤浅和深入)和性能(即,基线和最先进的方法)的系统生成的。因此,研究了自动摘要中语言问题的主要特征,得出了更适合多文档摘要的类型学。然后,手动记录了基于类型学的摘录语料库,表明某些类型的问题比其他类型的问题更容易复发。因此,这种注释为检测和纠正语言问题的自动任务提供了补贴,以期产生不仅信息丰富(即涵盖源材料的内容),而且语言结构良好的自动摘要。关键词:自动毒瘤;多文档摘要;语言问题;语料库注释。
{"title":"An investigation of linguistic problems in automatic multi-document summaries / Uma investigação de problemas linguísticos em sumários automáticos multidocumento","authors":"Márcio de Souza Dias, Ariani Di Felippo, A. Rassi, P. Cardoso, F. Nóbrega, T. Pardo","doi":"10.17851/2237-2083.29.2.859-907","DOIUrl":"https://doi.org/10.17851/2237-2083.29.2.859-907","url":null,"abstract":"Abstract: Automatic summaries commonly present diverse linguistic problems that affect textual quality and thus their understanding by users. Few studies have tried to characterize such problems and their relation with the performance of the summarization systems. In this paper, we investigated the problems in multi-document extracts (i.e., summaries produced by concatenating several sentences taken exactly as they appear in the source texts) generated by systems for Brazilian Portuguese that have different approaches (i.e., superficial and deep) and performances (i.e., baseline and state-of-the art methods). For that, we first reviewed the main characterization studies, resulting in a typology of linguistic problems more suitable for multi-document summarization. Then, we manually annotated a corpus of automatic multi-document extracts in Portuguese based on the typology, which showed that some of linguistic problems are significantly more recurrent than others. Thus, this corpus annotation may support research on linguistic problems detection and correction for summary improvement, allowing the production of automatic summaries that are not only informative (i.e., they convey the content of the source material), but also linguistically well structured. Keywords: automatic summarization; multi-document summary; linguistic problem; corpus annotation. Resumo: Sumarios automaticos geralmente apresentam varios problemas linguisticos que afetam a sua qualidade textual e, consequentemente, sua compreensao pelos usuarios. Alguns trabalhos caracterizam tais problemas e os relacionam ao desempenho dos sistemas de sumarizacao. Neste artigo, investigaram-se os problemas em extratos (isto e, sumarios produzidos pela concatenacao de sentencas extraidas na integra dos textos-fonte) multidocumento em Portugues do Brasil gerados por sistemas que apresentam diferentes abordagens (isto e, superficial e profunda) e desempenho (isto e, metodos baseline e do estado-da-arte). Para tanto, as principais caracterizacoes dos problemas linguisticos em sumarios automaticos foram investigadas, resultando em uma tipologia mais adequada a sumarizacao multidocumento. Em seguida, anotou-se manualmente um corpus de extratos com base na tipologia, evidenciando que alguns tipos de problemas sao significativamente mais recorrentes que outros. Assim, essa anotacao gera subsidios para as tarefas automaticas de deteccao e correcao de problemas linguisticos com vistas a producao de sumarios automaticos nao so mais informativos (isto e, que cobrem o conteudo do material de origem), como tambem linguisticamente bem-estruturados. Palavras-chave: sumarizacao automatica; sumario multidocumento; problema linguistico; anotacao de corpus .","PeriodicalId":42188,"journal":{"name":"Revista de Estudos da Linguagem","volume":null,"pages":null},"PeriodicalIF":0.2,"publicationDate":"2021-03-19","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"45837447","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
引用次数: 0
Um corpus de Estudos de Gênero: por quê, como e para quê? / A Gender Studies corpus: why, how and for what? 性别研究语料库:为什么,如何和为什么?/性别研究语料库:为什么,爱是什么?
IF 0.2 Q4 Arts and Humanities Pub Date : 2021-03-19 DOI: 10.17851/2237-2083.29.2.739-770
Marina Leivas Waquil
Resumo: Este trabalho apresenta um importante recorte de uma pesquisa que tem como objetivo contribuir com os estudos terminologicos, tradutologicos e sobre corpus ao analisar as unidades que representam e transmitem conhecimento especializado de uma area em crescente evolucao academica no Brasil e que discute demandas sociais urgentes, os Estudos de Genero. Para isso, neste artigo, sera exposta a etapa fundamental de qualquer pesquisa com corpus: a definicao da area a ser analisada e a compilacao de textos com base em criterios confiaveis e que deem conta de representar a area em questao. Assim, o objetivo central deste artigo e mostrar por que, como e para que se propos relacionar a Linguistica de Corpus com os Estudos de Genero a partir de um corpus, apresentando, para tal, um historico da area selecionada que justifica a analise proposta e sua caracterizacao como campo especializado. Alem disso, destaca-se o referencial teorico que sustenta o trabalho e o corpus de estudo, compilado com base em criterios da Linguistica de Corpus e composto pelos dois principais periodicos da area de Estudos de Genero no Brasil, a Revista Estudos Feministas e a Cadernos Pagu . Conclui-se defendendo a importância de produzir pesquisas linguisticas e terminologicas que dialoguem com demandas sociais contemporâneas e urgentes. Palavras-chave: Estudos de Genero; Linguistica de Corpus; Terminologia; Revista Estudos Feministas ; Cadernos Pagu . Abstract: This work presents an important part of a research that aims to contribute to terminological and translational studies as well as corpus studies, upon analyzing the units that represent and transmit specialized knowledge in a field of soaring academic evolution in Brazil and that discusses urgent social demands, Gender Studies. To do so, this article will expose a fundamental stage of any research regarding corpus: the definition of the field to be analyzed and the clipping of texts based on reliable criteria that are able to represent such targeted field of study. Accordingly, the main intent of this article is to convey why, how and for what purpose it was proposed to relate Corpus Linguistics with Gender Studies from the compilation of a corpus, introducing therefore a history of the selected field that justifies the analysis proposed and its characterization as a specialized field. In addition, the theoretical references supporting the work and the analyzed corpus stands out, compiled based on the criteria of Corpus Linguistics and composed by the two main journals in the field of Gender Studies in Brazil, the Revista Estudos Feministas and Cadernos Pagu . In conclusion, it defends the importance of producing linguistic and terminological researches that converse with contemporary and urgent social demands. Keywords: Gender Studies; Corpus Linguistics; Terminology; Revista Estudos Feministas ; Cadernos Pagu .
总结:这工作介绍一个重要的目标的研究贡献terminologicos, tradutologicos进行研究和语料库的分析单位的报道,包括专业知识的一个区域在巴西和了解学术发展日益迫切的社会需求,国家的研究。为此,本文将揭示任何语料库研究的基本步骤:定义要分析的区域,并根据可靠的标准编写文本,考虑到代表问题区域。所以本文的核心目标和给你,为什么喜欢,本联系的语言语料库的小孩子从语料库进行研究,介绍,这一地区的历史选择的分析买家的caracterizacao证明专业。此外,还强调了支持这项工作的理论框架和研究语料库,该语料库是根据语料库语言学标准编制的,由巴西性别研究领域的两家主要期刊——Estudos Feministas杂志和Cadernos Pagu组成。最后,它捍卫了产生语言和术语研究的重要性,以对话当代和紧迫的社会需求。关键词:性别研究;语料库语言学;术语;女权主义研究杂志;笔记本付款。文摘:这个工作提供了一个重要的研究的一部分,目的是向terminological contribute translational研究的语料库的研究,在分析单位,represent和传播专业知识在学术领域高涨的进化在巴西,讨论社会紧急demands,性别研究。为此,本文将阐述关于语料库的任何研究的一个基本阶段:要分析的领域的定义和基于能够代表这样一个目标研究领域的可靠标准的文本剪报。Accordingly,这篇文章的主要意图是convey为什么和什么目的是提出了如何告诉编译的语料库语言学与性别研究为主体,引入因此在历史选择的字段,justifies分析提出及其characterization的专业领域。此外,支持这项工作和分析的语料库的理论参考资料也很突出,它是根据语料库语言学的标准编制的,由巴西性别研究领域的两份主要期刊——Estudos Feministas和Cadernos Pagu编撰而成。最后,他主张进行语言学和术语研究的重要性,以满足当代和紧迫的社会需求。关键词:性别研究;语料库语言学;术语;女权主义研究杂志;笔记本付款。
{"title":"Um corpus de Estudos de Gênero: por quê, como e para quê? / A Gender Studies corpus: why, how and for what?","authors":"Marina Leivas Waquil","doi":"10.17851/2237-2083.29.2.739-770","DOIUrl":"https://doi.org/10.17851/2237-2083.29.2.739-770","url":null,"abstract":"Resumo: Este trabalho apresenta um importante recorte de uma pesquisa que tem como objetivo contribuir com os estudos terminologicos, tradutologicos e sobre corpus ao analisar as unidades que representam e transmitem conhecimento especializado de uma area em crescente evolucao academica no Brasil e que discute demandas sociais urgentes, os Estudos de Genero. Para isso, neste artigo, sera exposta a etapa fundamental de qualquer pesquisa com corpus: a definicao da area a ser analisada e a compilacao de textos com base em criterios confiaveis e que deem conta de representar a area em questao. Assim, o objetivo central deste artigo e mostrar por que, como e para que se propos relacionar a Linguistica de Corpus com os Estudos de Genero a partir de um corpus, apresentando, para tal, um historico da area selecionada que justifica a analise proposta e sua caracterizacao como campo especializado. Alem disso, destaca-se o referencial teorico que sustenta o trabalho e o corpus de estudo, compilado com base em criterios da Linguistica de Corpus e composto pelos dois principais periodicos da area de Estudos de Genero no Brasil, a Revista Estudos Feministas e a Cadernos Pagu . Conclui-se defendendo a importância de produzir pesquisas linguisticas e terminologicas que dialoguem com demandas sociais contemporâneas e urgentes. Palavras-chave: Estudos de Genero; Linguistica de Corpus; Terminologia; Revista Estudos Feministas ; Cadernos Pagu . Abstract: This work presents an important part of a research that aims to contribute to terminological and translational studies as well as corpus studies, upon analyzing the units that represent and transmit specialized knowledge in a field of soaring academic evolution in Brazil and that discusses urgent social demands, Gender Studies. To do so, this article will expose a fundamental stage of any research regarding corpus: the definition of the field to be analyzed and the clipping of texts based on reliable criteria that are able to represent such targeted field of study. Accordingly, the main intent of this article is to convey why, how and for what purpose it was proposed to relate Corpus Linguistics with Gender Studies from the compilation of a corpus, introducing therefore a history of the selected field that justifies the analysis proposed and its characterization as a specialized field. In addition, the theoretical references supporting the work and the analyzed corpus stands out, compiled based on the criteria of Corpus Linguistics and composed by the two main journals in the field of Gender Studies in Brazil, the Revista Estudos Feministas and Cadernos Pagu . In conclusion, it defends the importance of producing linguistic and terminological researches that converse with contemporary and urgent social demands. Keywords: Gender Studies; Corpus Linguistics; Terminology; Revista Estudos Feministas ; Cadernos Pagu .","PeriodicalId":42188,"journal":{"name":"Revista de Estudos da Linguagem","volume":null,"pages":null},"PeriodicalIF":0.2,"publicationDate":"2021-03-19","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"46749760","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
引用次数: 0
Inteligibilidade e convencionalidade em textos de divulgação da área médica em português brasileiro / Readability and conventionality in expository texts in Brazilian Portuguese 巴西葡萄牙语展览文本的可读性和惯例性
IF 0.2 Q4 Arts and Humanities Pub Date : 2021-03-19 DOI: 10.17851/2237-2083.29.2.959-998
Yuli Souza Carvalho, R. Rebechi
Resumo: O objetivo desta pesquisa e cotejar dados indicativos de inteligibilidade e convencionalidade em textos de divulgacao da area medica em portugues para verificar sua adequacao ao publico brasileiro. Para tanto, apoiamo-nos nos pressupostos da Linguistica de Corpus para a compilacao e o processamento de um corpus paralelo, formado por textos escritos originalmente em ingles e suas traducoes para o portugues, e um corpus comparavel, composto pelos textos traduzidos em portugues e por textos originalmente escritos nesse idioma. A metodologia do estudo combina analises quantitativas – para levantamento de inteligibilidade, chavicidade e colocacao – e qualitativas – para analise das palavras em contexto. Em relacao a inteligibilidade, as ferramentas apontaram que os textos escritos em portugues sao ‘dificeis’ para o leitor medio brasileiro, com grau de instrucao inferior ao Ensino Medio. Ja os textos traduzidos foram considerados ‘razoavelmente dificeis’, de acordo com esse mesmo criterio de avaliacao, que classificou os originais em ingles como ‘razoavelmente faceis’, considerando-se seu publico alvo, ou seja, o leitor medio estadunidense. A analise qualitativa apontou que os textos traduzidos apresentam quebras de convencionalidade, demonstrando preferencia por equivalentes prima facie , nem sempre condizentes com os padroes observados nos textos de mesmo genero escritos originalmente em portugues. Apesar de a ferramenta de acessibilidade textual indicar que tanto os textos escritos originalmente em portugues quanto aqueles traduzidos nao se mostram totalmente adequados para o leitor-alvo brasileiro de textos de divulgacao medica, acreditamos que a quebra da convencionalidade, identificada nos textos traduzidos, pode dificultar ainda mais a compreensao do leitor medio de resultados de pesquisas cientificas da area da saude. Palavras-chave: textos de divulgacao; traducao; convencionalidade; inteligibilidade. Abstract: The aim of this research is to collate data from intelligibility and conventionality in health-related expository texts in Portuguese to investigate their appropriateness to Brazilians. To this end, we rely on Corpus Linguistics for the compilation and processing of a parallel corpus, comprising texts originally written in English and their translations into Portuguese, and a comparable corpus, composed of texts translated into Portuguese and texts originally written in that language. Our methodology combines quantitative analysis – to assess readability, keyness, and collocation – and qualitative analysis – to investigate words in context. Regarding readability, the tools pointed out that texts written in Portuguese are ‘difficult’ for the average Brazilian reader, with a level of education lower than High School. The translated texts were considered ‘fairly difficult’, according to this same evaluation criterion, which classified the originals in English as ‘fairly easy’, considering its target audience, that is, the average Am
摘要:本研究的目的是比较葡萄牙语医疗领域传播文本中的可理解性和惯例性数据,以验证其对巴西公众的适用性。因此,我们依赖语料库语言学的假设来编译和处理一个平行语料库,由最初用英语写成的文本及其翻译成葡萄牙语的文本组成,以及一个可比语料库,由翻译成葡萄牙语和最初用该语言写成的文本组成。这项研究的方法结合了定量分析——调查可理解性、偶然性和搭配——以及定性分析——在上下文中分析单词。关于可理解性,工具指出,葡萄牙语文本对巴西媒体读者来说是“困难的”,其教学程度低于中学。根据同样的评估标准,翻译文本已经被认为“相当困难”,考虑到目标受众,即普通美国读者,该标准将英文原文归类为“相当容易”。定性分析表明,翻译文本打破了传统,显示出对表面上对等的偏好,并不总是与最初用葡萄牙语写成的同一类型文本中观察到的模式一致。尽管文本可访问性工具表明,最初用葡萄牙语编写的文本和翻译的文本都不完全适合巴西医学传播文本的目标读者,但我们认为,在翻译文本中发现的传统性的打破,可能进一步阻碍媒介读者对卫生领域科学研究结果的理解。关键词:披露文本;翻译约定俗成;清晰度。摘要:本研究的目的是整理葡萄牙语健康相关展览文本的可理解性和惯例性数据,以调查其对巴西人的适用性。为此,我们依靠语料库语言学来汇编和处理一个平行语料库,包括最初用英语写成的文本及其翻译成葡萄牙语的文本,以及一个可比语料库,包括翻译成葡萄牙语和最初用该语言写成的文本。我们的方法结合了定量分析(评估可读性、关键字和搭配)和定性分析(调查上下文中的单词)。关于可读性,工具指出,葡萄牙语文本对巴西普通读者来说是“困难的”,他们的教育水平低于高中。根据同样的评估标准,翻译文本被认为“相当困难”,考虑到目标受众,即普通美国读者,该标准将英文原文归类为“相当容易”。定性分析指出,翻译文本可能会损害传统性,显示出对表面上对等的偏好,并不总是与巴西-葡萄牙原文中观察到的模式一致。尽管可访问性评估工具表明,最初用葡萄牙语编写的文本和翻译成葡萄牙语的文本都不完全适合医学展览文本的巴西目标读者,但我们认为,通过打破惯例,翻译文本可能会阻碍普通读者对科学研究结果的理解。关键词:暴露性文本;翻译约定俗成;可读性。
{"title":"Inteligibilidade e convencionalidade em textos de divulgação da área médica em português brasileiro / Readability and conventionality in expository texts in Brazilian Portuguese","authors":"Yuli Souza Carvalho, R. Rebechi","doi":"10.17851/2237-2083.29.2.959-998","DOIUrl":"https://doi.org/10.17851/2237-2083.29.2.959-998","url":null,"abstract":"Resumo: O objetivo desta pesquisa e cotejar dados indicativos de inteligibilidade e convencionalidade em textos de divulgacao da area medica em portugues para verificar sua adequacao ao publico brasileiro. Para tanto, apoiamo-nos nos pressupostos da Linguistica de Corpus para a compilacao e o processamento de um corpus paralelo, formado por textos escritos originalmente em ingles e suas traducoes para o portugues, e um corpus comparavel, composto pelos textos traduzidos em portugues e por textos originalmente escritos nesse idioma. A metodologia do estudo combina analises quantitativas – para levantamento de inteligibilidade, chavicidade e colocacao – e qualitativas – para analise das palavras em contexto. Em relacao a inteligibilidade, as ferramentas apontaram que os textos escritos em portugues sao ‘dificeis’ para o leitor medio brasileiro, com grau de instrucao inferior ao Ensino Medio. Ja os textos traduzidos foram considerados ‘razoavelmente dificeis’, de acordo com esse mesmo criterio de avaliacao, que classificou os originais em ingles como ‘razoavelmente faceis’, considerando-se seu publico alvo, ou seja, o leitor medio estadunidense. A analise qualitativa apontou que os textos traduzidos apresentam quebras de convencionalidade, demonstrando preferencia por equivalentes prima facie , nem sempre condizentes com os padroes observados nos textos de mesmo genero escritos originalmente em portugues. Apesar de a ferramenta de acessibilidade textual indicar que tanto os textos escritos originalmente em portugues quanto aqueles traduzidos nao se mostram totalmente adequados para o leitor-alvo brasileiro de textos de divulgacao medica, acreditamos que a quebra da convencionalidade, identificada nos textos traduzidos, pode dificultar ainda mais a compreensao do leitor medio de resultados de pesquisas cientificas da area da saude. Palavras-chave: textos de divulgacao; traducao; convencionalidade; inteligibilidade. Abstract: The aim of this research is to collate data from intelligibility and conventionality in health-related expository texts in Portuguese to investigate their appropriateness to Brazilians. To this end, we rely on Corpus Linguistics for the compilation and processing of a parallel corpus, comprising texts originally written in English and their translations into Portuguese, and a comparable corpus, composed of texts translated into Portuguese and texts originally written in that language. Our methodology combines quantitative analysis – to assess readability, keyness, and collocation – and qualitative analysis – to investigate words in context. Regarding readability, the tools pointed out that texts written in Portuguese are ‘difficult’ for the average Brazilian reader, with a level of education lower than High School. The translated texts were considered ‘fairly difficult’, according to this same evaluation criterion, which classified the originals in English as ‘fairly easy’, considering its target audience, that is, the average Am","PeriodicalId":42188,"journal":{"name":"Revista de Estudos da Linguagem","volume":null,"pages":null},"PeriodicalIF":0.2,"publicationDate":"2021-03-19","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"48286290","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
引用次数: 1
Frequência e distribuição de plurais irregulares no Corpus Brasileiro / Frequency and distribution of irregular plurals in the Corpus Brasileiro Frequência e distribui<e:1> o de plurais irregulares no Corpus Brasileiro /巴西语料库中不规则复数的频率和分布
IF 0.2 Q4 Arts and Humanities Pub Date : 2021-03-19 DOI: 10.17851/2237-2083.29.2.1289-1324
Luiz Carlos Schwindt, Pedro Eugênio Gaggiola, I. Petry
Resumo: Neste texto aborda-se a frequencia e a distribuicao de formas de plural irregular do portugues brasileiro, no âmbito da palavra, numa perspectiva descritiva. Os dados provem do Corpus Brasileiro e estao divididos em duas amostras:  Amostra L,  nomes pluralizados terminados ortograficamente em vogal+is (ex. papeis), vogal+us (ex. chapeus) e is (ex. funis), e Amostra N, os terminados por oes (ex. viloes), aos (ex. irmaos) e aes (ex. paes). O exame das variaveis fonetico-fonologicas e lexico-morfologicas – numero de silabas, acento, contexto fonologico, afiliacao morfologica e frequencia lexical – permitiu contextualizar o comportamento das alternantes minoritarias de cada amostra, em oposicao as alternantes prevalentes, vogal+is e oes, respectivamente. Palavras-chave: plural; alomorfia; morfologia; morfofonologia; Corpus Brasileiro. Abstract: This paper addresses the frequency and distribution of Brazilian Portuguese irregular plurals, within the scope of the word, in a descriptive approach. The data come from the Corpus Brasileiro and are divided into two samples: (i) pluralized nouns ending, in spelling, with vowel+is (eg papeis ‘papers’), vowel+us (eg chapeus ‘hats’), and is (eg funis ‘funnels’), and (ii) those ending with oes (eg viloes ‘villains’), aos (eg irmaos ‘brothers’), and aes (eg caes ‘dogs’). The phonological and lexical-morphological variables analyzed – number of syllables, stress, phonological context, morphological affiliation and lexical frequency – allowed to define the main contexts for the minority alternants of each sample, in opposition to the prevalent ones, vowel+is and oes, respectively. Keywords: plural; allomorphy; morphology; morphophonology; Corpus Brasileiro.
摘要:本文从描述性的角度探讨了巴西葡萄牙语不规则复数形式在单词范围内的频率和分布。数据来自巴西语料库,分为两个样本:样本L,以元音+is(如论文)、元音+us(如小教堂)和is(如funis)正交结尾的复数名称,样本N,以oes(如viloes)、aos(如irmaos)和aes(如paes)结尾的名称。对语音、语音和词典形态变量——音节数量、重音、语音上下文、形态隶属关系和词汇频率——的检查允许将每个样本的少数变体的行为置于上下文中,而不是普遍的变体,元音+is和oes。关键词:复数;异态性;形态学形态音韵学;Corpus Brasileiro。摘要:本文用描述性的方法研究了巴西葡萄牙语不规则复数在单词范围内的频率和分布。这些数据来自巴西语料库,分为两个样本:(i)复数名词,拼写上以元音+is(如papers‘papers’)、元音+us(如chapeus‘hats’)和is(如funis‘funnels’)结尾,以及(ii)以oes(如viloes‘viloles’)、aos(如irmaos‘brothers’)以及aes(如caes‘dogs’)结尾。所分析的语音和词汇形态变量——音节数量、重音、语音上下文、形态隶属关系和词汇频率——允许定义每个样本的少数备选方案的主要上下文,而不是流行的元音+is和oes。关键词:复数;异形;形态学形态音韵学;Corpus Brasileiro。
{"title":"Frequência e distribuição de plurais irregulares no Corpus Brasileiro / Frequency and distribution of irregular plurals in the Corpus Brasileiro","authors":"Luiz Carlos Schwindt, Pedro Eugênio Gaggiola, I. Petry","doi":"10.17851/2237-2083.29.2.1289-1324","DOIUrl":"https://doi.org/10.17851/2237-2083.29.2.1289-1324","url":null,"abstract":"Resumo: Neste texto aborda-se a frequencia e a distribuicao de formas de plural irregular do portugues brasileiro, no âmbito da palavra, numa perspectiva descritiva. Os dados provem do Corpus Brasileiro e estao divididos em duas amostras:  Amostra L,  nomes pluralizados terminados ortograficamente em vogal+is (ex. papeis), vogal+us (ex. chapeus) e is (ex. funis), e Amostra N, os terminados por oes (ex. viloes), aos (ex. irmaos) e aes (ex. paes). O exame das variaveis fonetico-fonologicas e lexico-morfologicas – numero de silabas, acento, contexto fonologico, afiliacao morfologica e frequencia lexical – permitiu contextualizar o comportamento das alternantes minoritarias de cada amostra, em oposicao as alternantes prevalentes, vogal+is e oes, respectivamente. Palavras-chave: plural; alomorfia; morfologia; morfofonologia; Corpus Brasileiro. Abstract: This paper addresses the frequency and distribution of Brazilian Portuguese irregular plurals, within the scope of the word, in a descriptive approach. The data come from the Corpus Brasileiro and are divided into two samples: (i) pluralized nouns ending, in spelling, with vowel+is (eg papeis ‘papers’), vowel+us (eg chapeus ‘hats’), and is (eg funis ‘funnels’), and (ii) those ending with oes (eg viloes ‘villains’), aos (eg irmaos ‘brothers’), and aes (eg caes ‘dogs’). The phonological and lexical-morphological variables analyzed – number of syllables, stress, phonological context, morphological affiliation and lexical frequency – allowed to define the main contexts for the minority alternants of each sample, in opposition to the prevalent ones, vowel+is and oes, respectively. Keywords: plural; allomorphy; morphology; morphophonology; Corpus Brasileiro.","PeriodicalId":42188,"journal":{"name":"Revista de Estudos da Linguagem","volume":null,"pages":null},"PeriodicalIF":0.2,"publicationDate":"2021-03-19","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"43638909","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
引用次数: 2
Procedimentos para construção do Corpus da Computação da Língua Inglesa (CoCLI) e cálculo do esforço na construção manual de corpora / Procedures for Corpus of Computing in English (CoCLI) construction and effort calculation in manual construction of corpora 英语语料库计算(CoCLI)的构建程序和人工语料库构建中的工作量计算/英语语料库计算(CoCLI)的构建程序和人工语料库构建中的工作量计算
IF 0.2 Q4 Arts and Humanities Pub Date : 2021-03-19 DOI: 10.17851/2237-2083.29.2.909-958
F. P. Oliveira
Resumo: O presente trabalho tem como objetivo descrever os procedimentos metodologicos da pesquisa intitulada “ ToGatherUp : um prototipo de ferramenta para a construcao de corpora” que verificou o efeito da incorporacao da ferramenta ToGatherUp no tempo e no esforco necessarios para a construcao manual de um corpus que elaboramos: o Corpus da Computacao da Lingua Inglesa (CoCLI). Para tanto, discorremos sobre como os autores da pesquisa desenvolveram um conjunto de metricas de medicao de esforco – Esforco da Atividade (EA), Esforco Total de Coleta do Texto (ETCT) e Esforco Total do Projeto (ETP) – que serviram de base para a realizacao de um experimento estatistico comparativo entre os projetos de elaboracao manual de duas versoes identicas do CoCLI que se diferenciam por em um deles utilizar o ToGatherUp e o outro nao. O resultado do experimento demonstrou uma reducao media de 7,47% no ETP do projeto em que o ToGatherUp foi incorporado em relacao ao ETP do projeto em que a ferramenta nao foi utilizada, o que corroborou a hipotese de que ela reduz o tempo e o esforco despendidos pelo pesquisador em projetos de elaboracao manual de corpora . Palavras-chave: Linguistica de Corpus ; construcao manual de corpus ; metricas de medicao de esforco; ToGatherUp. Abstract: The present work aims to describe the methodological procedures of the research entitled “ ToGatherUp : a prototype of a tool for corpora construction” that verified the effect of incorporating ToGatherUp in necessary time and effort invested in manual construction of Corpus of Computing in English (CoCLI). To this end, we discuss how the research authors developed a set of metrics for measuring effort – Activity Effort (EA), Total Effort for Text Collection (ETCT) and Total Project Effort (ETP) – which served as the basis for conducting a comparative statistical experiment between the manual elaboration of two identical versions of the CoCLI: which differ from each other by one of them using the ToGatherUp and the other one not using it. The experiment shows an average reduction of 7.47% in the ETP when using ToGatherUp compared to the ETP when not using the tool. This result corroborates the hypothesis that the tool reduces the time and effort spent by the researcher on manual elaboration projects of corpora . Keywords: Corpus Linguistics; manual construction of corpus ; effort measurement metrics; ToGatherUp .
摘要:本工作旨在描述题为“ToGatherUp:语料库构建的原型工具”的研究的方法论过程,该研究验证了在手动构建语料库所需的时间和精力上结合ToGatherUp工具的效果,我们详细阐述了语料库:英语计算语料库(CoCLI)。为此,我们讨论了该研究的作者是如何制定一套运动药物的指标——活动努力(AE)的,以及总文本收集工作量(ETCT)和总项目工作量(ETP)——这是在手动阐述两个相同的CoCLI诗句的项目之间实现比较统计实验的基础,其中一个使用ToGatherUp,另一个不使用。实验结果显示,与未使用该工具的项目的ETP相比,ToGatherUp被纳入的项目的ET P平均减少了7.47%,这证实了这样一种假设,即它减少了研究人员在手动语料库设计项目中花费的时间和精力。关键词:语料库语言学;人工语料库建设;压力药物指标;ToGatherUp。摘要:本工作旨在描述题为“ToGatherUp:语料库构建工具的原型”的研究的方法论过程,该研究验证了在人工构建英语计算语料库(CoCLI)所投入的必要时间和精力中引入ToGatherUp的效果。为此,我们讨论了研究作者如何开发一套衡量努力的指标——活动努力(EA),文本收集的总工作量(ETCT)和总项目工作量(ETP)——这是在手工制作两个相同版本的CoCLI之间进行比较统计实验的基础:其中一个版本使用ToGatherUp,另一个版本不使用ToGather Up,这两个版本之间存在差异。实验显示,与不使用该工具时的ETP相比,使用ToGatherUp时ETP平均降低了7.47%。这一结果证实了这样一种假设,即该工具减少了研究人员在语料库手工精化项目上花费的时间和精力。关键词:语料库语言学;语料库的人工构建;努力测量指标;ToGatherUp。
{"title":"Procedimentos para construção do Corpus da Computação da Língua Inglesa (CoCLI) e cálculo do esforço na construção manual de corpora / Procedures for Corpus of Computing in English (CoCLI) construction and effort calculation in manual construction of corpora","authors":"F. P. Oliveira","doi":"10.17851/2237-2083.29.2.909-958","DOIUrl":"https://doi.org/10.17851/2237-2083.29.2.909-958","url":null,"abstract":"Resumo: O presente trabalho tem como objetivo descrever os procedimentos metodologicos da pesquisa intitulada “ ToGatherUp : um prototipo de ferramenta para a construcao de corpora” que verificou o efeito da incorporacao da ferramenta ToGatherUp no tempo e no esforco necessarios para a construcao manual de um corpus que elaboramos: o Corpus da Computacao da Lingua Inglesa (CoCLI). Para tanto, discorremos sobre como os autores da pesquisa desenvolveram um conjunto de metricas de medicao de esforco – Esforco da Atividade (EA), Esforco Total de Coleta do Texto (ETCT) e Esforco Total do Projeto (ETP) – que serviram de base para a realizacao de um experimento estatistico comparativo entre os projetos de elaboracao manual de duas versoes identicas do CoCLI que se diferenciam por em um deles utilizar o ToGatherUp e o outro nao. O resultado do experimento demonstrou uma reducao media de 7,47% no ETP do projeto em que o ToGatherUp foi incorporado em relacao ao ETP do projeto em que a ferramenta nao foi utilizada, o que corroborou a hipotese de que ela reduz o tempo e o esforco despendidos pelo pesquisador em projetos de elaboracao manual de corpora . Palavras-chave: Linguistica de Corpus ; construcao manual de corpus ; metricas de medicao de esforco; ToGatherUp. Abstract: The present work aims to describe the methodological procedures of the research entitled “ ToGatherUp : a prototype of a tool for corpora construction” that verified the effect of incorporating ToGatherUp in necessary time and effort invested in manual construction of Corpus of Computing in English (CoCLI). To this end, we discuss how the research authors developed a set of metrics for measuring effort – Activity Effort (EA), Total Effort for Text Collection (ETCT) and Total Project Effort (ETP) – which served as the basis for conducting a comparative statistical experiment between the manual elaboration of two identical versions of the CoCLI: which differ from each other by one of them using the ToGatherUp and the other one not using it. The experiment shows an average reduction of 7.47% in the ETP when using ToGatherUp compared to the ETP when not using the tool. This result corroborates the hypothesis that the tool reduces the time and effort spent by the researcher on manual elaboration projects of corpora . Keywords: Corpus Linguistics; manual construction of corpus ; effort measurement metrics; ToGatherUp .","PeriodicalId":42188,"journal":{"name":"Revista de Estudos da Linguagem","volume":null,"pages":null},"PeriodicalIF":0.2,"publicationDate":"2021-03-19","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"45628845","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
引用次数: 0
Sujeito oculto às claras: uma abordagem descritivo-computacional / Omitted subjects revealed: a quantitative-descriptive approach 遗漏主题揭示:一种定量描述方法
IF 0.2 Q4 Arts and Humanities Pub Date : 2021-03-19 DOI: 10.17851/2237-2083.29.2.1033-1058
Cláudia Freitas, Elvis De Souza
Resumo: Neste trabalho, apresentamos estudos descritivos e computacionais relacionados ao sujeito oculto. Em um primeiro momento, realizamos uma descricao de cunho quantitativo, tomando por base tres corpora dos generos jornalistico, literario e enciclopedico. Especificamente, quantificamos o sujeito oculto em cada um dos corpora , e encontramos sujeitos omitidos em 24%, 41% e 46% das oracoes, respectivamente. Em um segundo momento, por meio de uma estrategia baseada em regras, reconstituimos esses sujeitos e os devolvemos aos corpora , com o objetivo de avaliar o quanto a omissao do sujeito e capaz de impactar o aprendizado automatico de dependencias sintaticas. Os resultados indicam que a reconstituicao formal do sujeito pode melhorar a aprendizagem das dependencias sintaticas em ate 2% quando consideramos a metrica CLAS, evidenciando o papel relevante da modelagem linguistica no aprendizado automatico. Palavras-chave: descricao linguistica; sujeito oculto; omissao de sujeito; dependencias sintaticas; linguistica computacional; aprendizado de maquina; linguistica de corpus . Abstract: In this paper, we present descriptive and computational studies related to omitted subjects. Firstly, we develop a quantitative descriptive study based on three corpora , which consist of journalistic, literary and encyclopedic genres. Specifically, we quantify the omitted subjects in sentences for each of these corpora; omitted subjects were found in 24%, 41% and 46% of their sentences, respectively. Secondly, applying rule-based strategies, we reconstitute those subjects and place them back to the corpora , with the goal of evaluating how much the omission of subjects can impact the automatic learning of syntactic dependencies. The results indicate that the formal subject reconstitution can enhance the learning of syntactic dependencies in up to 2% according to the CLAS metric, highlighting the relevant role of linguistic modeling in the automatic learning process. Keywords: linguistic description; omitted subject; syntactic dependencies; computational linguistics; machine learning; corpus linguistics.
摘要:在这项工作中,我们介绍了与隐藏主题相关的描述性和计算性研究。首先,我们基于慷慨的新闻、文学和百科全书三个语料库进行了定量描述。具体来说,我们量化了每个语料库中隐藏的主题,并分别在24%、41%和46%的祈祷中发现了省略的主题。在第二个时刻,通过基于规则的策略,我们重新构建了这些主题,并将它们返回到语料库中,以评估主题的省略在多大程度上能够影响句法依赖性的自动学习。结果表明,在考虑CLAS度量时,主体的形式重构可以将句法依赖性的学习提高2%,证明了语言建模在自动学习中的相关作用。关键词:语言描述;隐性主体;主体遗漏;句法依赖;计算语言学;机器学习;语言学语料库。摘要:在本文中,我们介绍了与省略主题相关的描述性和计算性研究。首先,我们基于三个语料库进行了定量描述性研究,这三个语料库包括新闻、文学和百科全书类型。具体来说,我们量化了每一个语料库的句子中省略的主题;省略主语的出现率分别为24%、41%和46%。其次,应用基于规则的策略,我们重构这些主题,并将它们放回语料库,目的是评估主题的省略对句法依赖的自动学习有多大影响。结果表明,根据CLAS度量,形式主语重构可以将句法依赖性的学习提高2%,突出了语言建模在自动学习过程中的相关作用。关键词:语言描述;省略主题;句法依赖;计算语言;机器学习;语料库语言学。
{"title":"Sujeito oculto às claras: uma abordagem descritivo-computacional / Omitted subjects revealed: a quantitative-descriptive approach","authors":"Cláudia Freitas, Elvis De Souza","doi":"10.17851/2237-2083.29.2.1033-1058","DOIUrl":"https://doi.org/10.17851/2237-2083.29.2.1033-1058","url":null,"abstract":"Resumo: Neste trabalho, apresentamos estudos descritivos e computacionais relacionados ao sujeito oculto. Em um primeiro momento, realizamos uma descricao de cunho quantitativo, tomando por base tres corpora dos generos jornalistico, literario e enciclopedico. Especificamente, quantificamos o sujeito oculto em cada um dos corpora , e encontramos sujeitos omitidos em 24%, 41% e 46% das oracoes, respectivamente. Em um segundo momento, por meio de uma estrategia baseada em regras, reconstituimos esses sujeitos e os devolvemos aos corpora , com o objetivo de avaliar o quanto a omissao do sujeito e capaz de impactar o aprendizado automatico de dependencias sintaticas. Os resultados indicam que a reconstituicao formal do sujeito pode melhorar a aprendizagem das dependencias sintaticas em ate 2% quando consideramos a metrica CLAS, evidenciando o papel relevante da modelagem linguistica no aprendizado automatico. Palavras-chave: descricao linguistica; sujeito oculto; omissao de sujeito; dependencias sintaticas; linguistica computacional; aprendizado de maquina; linguistica de corpus . Abstract: In this paper, we present descriptive and computational studies related to omitted subjects. Firstly, we develop a quantitative descriptive study based on three corpora , which consist of journalistic, literary and encyclopedic genres. Specifically, we quantify the omitted subjects in sentences for each of these corpora; omitted subjects were found in 24%, 41% and 46% of their sentences, respectively. Secondly, applying rule-based strategies, we reconstitute those subjects and place them back to the corpora , with the goal of evaluating how much the omission of subjects can impact the automatic learning of syntactic dependencies. The results indicate that the formal subject reconstitution can enhance the learning of syntactic dependencies in up to 2% according to the CLAS metric, highlighting the relevant role of linguistic modeling in the automatic learning process. Keywords: linguistic description; omitted subject; syntactic dependencies; computational linguistics; machine learning; corpus linguistics.","PeriodicalId":42188,"journal":{"name":"Revista de Estudos da Linguagem","volume":null,"pages":null},"PeriodicalIF":0.2,"publicationDate":"2021-03-19","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"47084584","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
引用次数: 2
Using machine translator as a pedagogical resource in English for specific purposes courses in the academic context / O uso do tradutor automático como recurso pedagógico na aula de inglês para propósitos específicos no contexto acadêmico 在学术背景下使用机器翻译作为特定目的英语课程的教学资源/在学术背景下使用机器翻译作为特定目的英语课程的教学资源
IF 0.2 Q4 Arts and Humanities Pub Date : 2021-03-19 DOI: 10.17851/2237-2083.29.2.829-858
D. Borsatti, Adriana Blanco Riess
Abstract: This paper presents a proposal for pedagogical use of MT in English for Specific Purpose (ESP) courses, aiming at investigating the efficiency of this technology as a support for reading scientific texts in English as a FL. The theoretical approach is on ESP, reading and comprehension and a proposal to use MT in ESP courses, aiming to understand the processing of MT and how this knowledge can raise benefits on reading comprehension for academic purposes. In addition, we discussed corpus linguistics and its relation to language teaching as well as its role in MT. The analysis shows that, due to the hybrid system that utilizes the rule-based system and the corpus-based system, Google Translate produces relatively understandable and readable texts. Despite its evident limitations, the tool can provide linguistic awareness when pedagogically explored by ESP teachers in academic context. Keywords: Machine Translation; pedagogical tool; reading; English for Specific Purposes. Resumo: Este artigo apresenta uma proposta de uso pedagogico de traducao pela Maquina (MT) em cursos de ingles para fins especificos (ESP), com o objetivo de investigar a eficiencia dessa tecnologia como suporte para a leitura de textos cientificos em ingles como L2/ LE. A abordagem teorica e sobre ESP, leitura e compreensao e uma proposta de uso de MT em cursos de ESP, com o objetivo de entender o processamento da MT e como esse conhecimento pode trazer beneficios na compreensao da leitura para fins academicos. Tambem, discute-se a linguistica de corpus e sua relacao tanto com o ensino de linguas quanto seu papel na MT. Por fim, a partir da analise que se faz, devido ao sistema hibrido que utiliza o sistema baseado em regras com o sistema baseado em corpus, o Google Translate produz textos relativamente compreensiveis e legiveis. Apesar de suas limitacoes evidentes, essa tecnologia pode fornecer consciencia linguistica quando explorada pedagogicamente pelos professores de ESP no contexto academico Palavras-chave: Tradutor Automatico; ferramenta pedagogica; leitura; Ingles para Propositos Especificos.
摘要:本文提出了在专门用途英语(ESP)课程中使用机器翻译教学的建议,旨在研究该技术作为辅助英语科学文本阅读的效率。理论方法是关于ESP、阅读和理解,并提出了在专门用途英语课程中使用机器翻译的建议,旨在了解机器翻译的处理过程以及这种知识如何提高学术阅读理解的益处。此外,我们还讨论了语料库语言学及其与语言教学的关系,以及语料库语言学在机器翻译中的作用。分析表明,谷歌翻译由于采用了基于规则的系统和基于语料库的系统的混合系统,产生了相对可理解和可读的文本。尽管存在明显的局限性,但当ESP教师在学术背景下进行教学探索时,该工具可以提供语言意识。关键词:机器翻译;教学工具;阅读;专门用途英语。摘要:本文提出了一种新型的教学方法,旨在研究一种高效的教学技术,以支持一种新型的文本科学技术,并将其应用于L2/ LE语言中。本文提出了一种基于ESP的综合分析方法,并提出了基于ESP的综合分析方法,以及基于ESP的综合分析方法,以及基于ESP的综合分析方法的综合分析方法。本文主要研究了语料库的语体关系、语料库的语料库关系、语料库的语料库关系、语料库的语料库关系、语料库的语料库关系、语料库的语料库关系、语料库的语料库关系、语料库的语料库关系、语料库的语料库关系、语料库的语料库关系、语料库的语料库关系、语料库的语料库关系等。基于有限证据的ESP研究、基于科学的ESP研究、基于科学的ESP研究、基于科学的ESP研究、基于科学的ESP研究、基于科学的ESP研究、基于科学的ESP研究、基于科学的ESP研究、基于科学的ESP研究等。ferramenta pedagogica;leitura;特别的提议。
{"title":"Using machine translator as a pedagogical resource in English for specific purposes courses in the academic context / O uso do tradutor automático como recurso pedagógico na aula de inglês para propósitos específicos no contexto acadêmico","authors":"D. Borsatti, Adriana Blanco Riess","doi":"10.17851/2237-2083.29.2.829-858","DOIUrl":"https://doi.org/10.17851/2237-2083.29.2.829-858","url":null,"abstract":"Abstract: This paper presents a proposal for pedagogical use of MT in English for Specific Purpose (ESP) courses, aiming at investigating the efficiency of this technology as a support for reading scientific texts in English as a FL. The theoretical approach is on ESP, reading and comprehension and a proposal to use MT in ESP courses, aiming to understand the processing of MT and how this knowledge can raise benefits on reading comprehension for academic purposes. In addition, we discussed corpus linguistics and its relation to language teaching as well as its role in MT. The analysis shows that, due to the hybrid system that utilizes the rule-based system and the corpus-based system, Google Translate produces relatively understandable and readable texts. Despite its evident limitations, the tool can provide linguistic awareness when pedagogically explored by ESP teachers in academic context. Keywords: Machine Translation; pedagogical tool; reading; English for Specific Purposes. Resumo: Este artigo apresenta uma proposta de uso pedagogico de traducao pela Maquina (MT) em cursos de ingles para fins especificos (ESP), com o objetivo de investigar a eficiencia dessa tecnologia como suporte para a leitura de textos cientificos em ingles como L2/ LE. A abordagem teorica e sobre ESP, leitura e compreensao e uma proposta de uso de MT em cursos de ESP, com o objetivo de entender o processamento da MT e como esse conhecimento pode trazer beneficios na compreensao da leitura para fins academicos. Tambem, discute-se a linguistica de corpus e sua relacao tanto com o ensino de linguas quanto seu papel na MT. Por fim, a partir da analise que se faz, devido ao sistema hibrido que utiliza o sistema baseado em regras com o sistema baseado em corpus, o Google Translate produz textos relativamente compreensiveis e legiveis. Apesar de suas limitacoes evidentes, essa tecnologia pode fornecer consciencia linguistica quando explorada pedagogicamente pelos professores de ESP no contexto academico Palavras-chave: Tradutor Automatico; ferramenta pedagogica; leitura; Ingles para Propositos Especificos.","PeriodicalId":42188,"journal":{"name":"Revista de Estudos da Linguagem","volume":null,"pages":null},"PeriodicalIF":0.2,"publicationDate":"2021-03-19","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"48561615","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
引用次数: 4
Diseño de corpus específicos para el estudio histórico gramatical: el caso de las construcciones con clítico femenino / The creation of specific corpora for the historical study of grammar: the case of constructions with the feminine clitic 历史语法研究专用语料库的设计:以具有女性高潮的结构为例/语法历史研究专用语料库的创建:以具有女性高潮的结构为例
IF 0.2 Q4 Arts and Humanities Pub Date : 2021-03-19 DOI: 10.17851/2237-2083.29.2.711-737
Nicolás Arellano
Resumen: Este articulo busca analizar las ventajas de una aproximacion a los datos linguisticos historicos a partir de la confeccion de corpus especificamente disenados. Para ello, en primer lugar, se presentan las principales limitaciones de los corpus generales de referencia, particularmente del corde (rae) y Corpus del Espanol (byu), no solamente en cuanto al acceso de sus motores de busqueda, sino tambien a la disponibilidad de los textos que los componen. En segundo lugar, se hace uso de un caso en especifico, el del origen y desarrollo de las construcciones con clitico femenino, para ilustrar la propuesta. A continuacion, se contrasta esta propuesta de abordaje de datos con otras investigaciones que utilizan corpus generales. Se evidencia, asi, que este modo de acceso a las emisiones linguisticas historicas favorece el estudio de procesos gramaticales novedosos de interfaz que se circunscriben a ambitos informales, populares, orales y diatopicamente marginales. Palabras clave: locuciones idiomaticas; clitico femenino; corpus generales; corpus historicos; espanol rioplatense. Abstract: The aim of this article is to analyze the advantages of an approach to historical linguistic data based on the creation of specifically designed corpora. For this, the main limitations of general reference corpora are presented in the first place; particularly of CORDE (RAE) and Corpus del Espanol (BYU). The limitations are not only presented with regard to the access on their search engines, but also to the availability of texts that are part of said corpora. Secondly, a particular case is utilized, which shows the origin and development of the constructions with the feminine clitic, so as to exemplify the proposal. Next, the mentioned proposal on the approach of data is contrasted to other research that use general corpora. Thus, it is demonstrated that this way of accessing historical linguistic utterances benefits the study of novel grammatical interface processes that deal exclusively with informal, popular, oral, and dialectically peripheral fields. Keywords: idioms; feminine clitic; general corpora; historical corpora; Rio de la Plata Spanish.
摘要:本文旨在分析通过构建专门设计的语料库来近似历史语言学数据的优势。为此,首先介绍了一般参考语料库,特别是CODE和BYU的主要限制,不仅在搜索引擎的访问方面,而且在组成它们的文本的可用性方面。其次,利用一个具体的案例,即带有女性阴蒂的建筑的起源和发展,来说明这一建议。然后,将这一数据处理建议与使用通用语料库的其他研究进行了对比。因此,很明显,这种获取历史语言广播的方式有利于研究新颖的界面语法过程,这些过程仅限于非正式、受欢迎、口头和双重边缘的领域。关键词:惯用语;女性阴蒂;通用语料库;历史语料库;西班牙人。摘要:本文的目的是分析基于创建特定设计公司的历史语言数据方法的优势。为此,首先提出了一般参考公司的主要限制;特别是Corde(RAE)和Corpus del Espanol(BYU)。这些限制不仅在访问其搜索引擎方面提出,而且在提供上述公司的文本方面也提出了。第二,使用了一个特定的案例,展示了与女权主义气候有关的建筑的起源和发展,以举例说明该建议。其次,上述关于数据方法的建议与通用公司使用的其他研究进行了对比。因此,有证据表明,这种获取历史语言utterances的方式有利于研究专门处理非正式、流行、口语和方言周边领域的小说语法界面过程。关键词:成语;女权主义;一般公司;历史公司;西班牙拉普拉塔河。
{"title":"Diseño de corpus específicos para el estudio histórico gramatical: el caso de las construcciones con clítico femenino / The creation of specific corpora for the historical study of grammar: the case of constructions with the feminine clitic","authors":"Nicolás Arellano","doi":"10.17851/2237-2083.29.2.711-737","DOIUrl":"https://doi.org/10.17851/2237-2083.29.2.711-737","url":null,"abstract":"Resumen: Este articulo busca analizar las ventajas de una aproximacion a los datos linguisticos historicos a partir de la confeccion de corpus especificamente disenados. Para ello, en primer lugar, se presentan las principales limitaciones de los corpus generales de referencia, particularmente del corde (rae) y Corpus del Espanol (byu), no solamente en cuanto al acceso de sus motores de busqueda, sino tambien a la disponibilidad de los textos que los componen. En segundo lugar, se hace uso de un caso en especifico, el del origen y desarrollo de las construcciones con clitico femenino, para ilustrar la propuesta. A continuacion, se contrasta esta propuesta de abordaje de datos con otras investigaciones que utilizan corpus generales. Se evidencia, asi, que este modo de acceso a las emisiones linguisticas historicas favorece el estudio de procesos gramaticales novedosos de interfaz que se circunscriben a ambitos informales, populares, orales y diatopicamente marginales. Palabras clave: locuciones idiomaticas; clitico femenino; corpus generales; corpus historicos; espanol rioplatense. Abstract: The aim of this article is to analyze the advantages of an approach to historical linguistic data based on the creation of specifically designed corpora. For this, the main limitations of general reference corpora are presented in the first place; particularly of CORDE (RAE) and Corpus del Espanol (BYU). The limitations are not only presented with regard to the access on their search engines, but also to the availability of texts that are part of said corpora. Secondly, a particular case is utilized, which shows the origin and development of the constructions with the feminine clitic, so as to exemplify the proposal. Next, the mentioned proposal on the approach of data is contrasted to other research that use general corpora. Thus, it is demonstrated that this way of accessing historical linguistic utterances benefits the study of novel grammatical interface processes that deal exclusively with informal, popular, oral, and dialectically peripheral fields. Keywords: idioms; feminine clitic; general corpora; historical corpora; Rio de la Plata Spanish.","PeriodicalId":42188,"journal":{"name":"Revista de Estudos da Linguagem","volume":null,"pages":null},"PeriodicalIF":0.2,"publicationDate":"2021-03-19","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"41715649","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
引用次数: 0
期刊
Revista de Estudos da Linguagem
全部 Acc. Chem. Res. ACS Applied Bio Materials ACS Appl. Electron. Mater. ACS Appl. Energy Mater. ACS Appl. Mater. Interfaces ACS Appl. Nano Mater. ACS Appl. Polym. Mater. ACS BIOMATER-SCI ENG ACS Catal. ACS Cent. Sci. ACS Chem. Biol. ACS Chemical Health & Safety ACS Chem. Neurosci. ACS Comb. Sci. ACS Earth Space Chem. ACS Energy Lett. ACS Infect. Dis. ACS Macro Lett. ACS Mater. Lett. ACS Med. Chem. Lett. ACS Nano ACS Omega ACS Photonics ACS Sens. ACS Sustainable Chem. Eng. ACS Synth. Biol. Anal. Chem. BIOCHEMISTRY-US Bioconjugate Chem. BIOMACROMOLECULES Chem. Res. Toxicol. Chem. Rev. Chem. Mater. CRYST GROWTH DES ENERG FUEL Environ. Sci. Technol. Environ. Sci. Technol. Lett. Eur. J. Inorg. Chem. IND ENG CHEM RES Inorg. Chem. J. Agric. Food. Chem. J. Chem. Eng. Data J. Chem. Educ. J. Chem. Inf. Model. J. Chem. Theory Comput. J. Med. Chem. J. Nat. Prod. J PROTEOME RES J. Am. Chem. Soc. LANGMUIR MACROMOLECULES Mol. Pharmaceutics Nano Lett. Org. Lett. ORG PROCESS RES DEV ORGANOMETALLICS J. Org. Chem. J. Phys. Chem. J. Phys. Chem. A J. Phys. Chem. B J. Phys. Chem. C J. Phys. Chem. Lett. Analyst Anal. Methods Biomater. Sci. Catal. Sci. Technol. Chem. Commun. Chem. Soc. Rev. CHEM EDUC RES PRACT CRYSTENGCOMM Dalton Trans. Energy Environ. Sci. ENVIRON SCI-NANO ENVIRON SCI-PROC IMP ENVIRON SCI-WAT RES Faraday Discuss. Food Funct. Green Chem. Inorg. Chem. Front. Integr. Biol. J. Anal. At. Spectrom. J. Mater. Chem. A J. Mater. Chem. B J. Mater. Chem. C Lab Chip Mater. Chem. Front. Mater. Horiz. MEDCHEMCOMM Metallomics Mol. Biosyst. Mol. Syst. Des. Eng. Nanoscale Nanoscale Horiz. Nat. Prod. Rep. New J. Chem. Org. Biomol. Chem. Org. Chem. Front. PHOTOCH PHOTOBIO SCI PCCP Polym. Chem.
×
引用
GB/T 7714-2015
复制
MLA
复制
APA
复制
导出至
BibTeX EndNote RefMan NoteFirst NoteExpress
×
0
微信
客服QQ
Book学术公众号 扫码关注我们
反馈
×
意见反馈
请填写您的意见或建议
请填写您的手机或邮箱
×
提示
您的信息不完整,为了账户安全,请先补充。
现在去补充
×
提示
您因"违规操作"
具体请查看互助需知
我知道了
×
提示
现在去查看 取消
×
提示
确定
Book学术官方微信
Book学术文献互助
Book学术文献互助群
群 号:481959085
Book学术
文献互助 智能选刊 最新文献 互助须知 联系我们:info@booksci.cn
Book学术提供免费学术资源搜索服务,方便国内外学者检索中英文文献。致力于提供最便捷和优质的服务体验。
Copyright © 2023 Book学术 All rights reserved.
ghs 京公网安备 11010802042870号 京ICP备2023020795号-1