José Ramom Pichel Campos, Pablo Gamallo, Marco Neves, Iñaki Alegria
{"title":"Distância diacrónica automática entre variantes diatópicas do português e do espanhol","authors":"José Ramom Pichel Campos, Pablo Gamallo, Marco Neves, Iñaki Alegria","doi":"10.21814/lm.12.1.319","DOIUrl":null,"url":null,"abstract":"EnglishThe objective of this work is to apply a perplexity-based methodology to automatically calculate the cross-lingual distance between different historical periods of diatopic language variants. This methodology applies to an adhoc constructed corpus in original spelling, on a balanced basis of fiction and non-fiction, which measures the historical distance between European and Brazilian Portuguese on the one hand, and European and Argentinian Spanish on the other. The results show very close distances, both in original spelling and automatically transcribed spelling, between the diatopic varieties of Portuguese and Spanish, with slight convergences/divergences from the middle of the 20th century until today. It should be noted that the method is not supervised and can be applied to other diatopic varieties of languages. portuguesO objetivo deste trabalho e aplicar uma metodologia baseada na perplexidade, para calcular automaticamente a distância interlinguistica entre diferentes periodos historicos de variantes diatopicas de idiomas. Esta metodologia aplica-se a um corpus construido adhoc em ortografia original, numa base equilibrada de ficcao e nao-ficcao, que mede a distância historica entre o portugues europeu e do Brasil, por um lado, e o espanhol europeu e o da Argentina, por outro. Os resultados mostram distâncias muito proximas em ortografia original e transcrita automaticamente, entre as variedades diatopicas do portugues e do espanhol, com ligeiras convergencias/divergencias desde meados do seculo XX ate hoje. E de salientar que o metodo nao e supervisionado e pode ser aplicado a outras variedades diatopicas de linguas.","PeriodicalId":41819,"journal":{"name":"Linguamatica","volume":"12 1","pages":"117-126"},"PeriodicalIF":0.3000,"publicationDate":"2020-06-29","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"0","resultStr":null,"platform":"Semanticscholar","paperid":null,"PeriodicalName":"Linguamatica","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.21814/lm.12.1.319","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"Q4","JCRName":"LINGUISTICS","Score":null,"Total":0}
引用次数: 0
Abstract
EnglishThe objective of this work is to apply a perplexity-based methodology to automatically calculate the cross-lingual distance between different historical periods of diatopic language variants. This methodology applies to an adhoc constructed corpus in original spelling, on a balanced basis of fiction and non-fiction, which measures the historical distance between European and Brazilian Portuguese on the one hand, and European and Argentinian Spanish on the other. The results show very close distances, both in original spelling and automatically transcribed spelling, between the diatopic varieties of Portuguese and Spanish, with slight convergences/divergences from the middle of the 20th century until today. It should be noted that the method is not supervised and can be applied to other diatopic varieties of languages. portuguesO objetivo deste trabalho e aplicar uma metodologia baseada na perplexidade, para calcular automaticamente a distância interlinguistica entre diferentes periodos historicos de variantes diatopicas de idiomas. Esta metodologia aplica-se a um corpus construido adhoc em ortografia original, numa base equilibrada de ficcao e nao-ficcao, que mede a distância historica entre o portugues europeu e do Brasil, por um lado, e o espanhol europeu e o da Argentina, por outro. Os resultados mostram distâncias muito proximas em ortografia original e transcrita automaticamente, entre as variedades diatopicas do portugues e do espanhol, com ligeiras convergencias/divergencias desde meados do seculo XX ate hoje. E de salientar que o metodo nao e supervisionado e pode ser aplicado a outras variedades diatopicas de linguas.
本文的目的是应用一种基于困惑度的方法来自动计算不同历史时期自然语言变体之间的跨语距离。这种方法适用于一个特别构建的原始拼写语料库,在小说和非小说的平衡基础上,测量欧洲和巴西葡萄牙语与欧洲和阿根廷西班牙语之间的历史距离。结果显示,葡萄牙语和西班牙语的自然变体之间的距离非常接近,无论是原始拼写还是自动转录拼写,从20世纪中叶到今天都有轻微的趋同/分歧。值得注意的是,这种方法是不受监督的,可以应用于其他自然语言。portuguesO objetivo deste trabalho e aplicar乌玛metodologia baseada na perplexidade, para calcular automaticamente一distancia interlinguistica之间不同periodos historicos de变体diatopicas德语言。从方法论的应用上看,这是一种全新的语料库构建和特别的语料库,一种全新的语料库,一种全新的语料库,一种全新的语料库,一种全新的语料库,一种全新的语料库,一种全新的语料库。结果表明:近缘缘缘缘缘缘缘缘缘缘缘缘缘缘缘缘缘缘缘缘缘缘缘缘缘缘缘缘缘缘缘缘缘缘缘缘缘缘缘缘缘缘缘缘缘缘缘缘缘缘缘缘缘缘缘缘缘缘缘缘缘缘缘缘缘缘缘缘缘缘缘缘缘缘缘缘缘缘缘缘缘缘缘缘缘。这是一种独特的方法,可以在不同的语言类型中应用。