古典和现代西班牙语料库:在语言学和计算语言学之间

IF 0.6 0 LANGUAGE & LINGUISTICS RLA Pub Date : 2019-12-01 DOI:10.4067/s0718-48832019000200041
Miguel Calderón Campos
{"title":"古典和现代西班牙语料库:在语言学和计算语言学之间","authors":"Miguel Calderón Campos","doi":"10.4067/s0718-48832019000200041","DOIUrl":null,"url":null,"abstract":"espanolEn este articulo se analiza la practica habitual de elaboracion de corpus del espanol, tanto europeo como americano, del periodo comprendido entre finales del siglo XV y finales del XIX. Se prestara especial atencion al modelo seguido por seis corpus diacronicos: CHARTA, CODEA 2015, CORDIAM, CorLexIn, Post Scriptum y Cibola, con el objeto de extraer conclusiones metodologicas aplicables a trabajos futuros o iniciales, como el corpus Oralia diacronica del espanol (ODE), actualmente en fase de elaboracion en la Universidad de Granada. El analisis efectuado revela que, si bien no se aprecian grandes diferencias en el rigor y los criterios de transcripcion documental, no parece haber acuerdo en lo referente a la manera de procesar y estructurar la informacion, tanto textual como metatextual. En este trabajo se defiende la conveniencia de adoptar un modelo estandarizado basado en el uso de XML, siguiendo las directrices del consorcio TEI para la codificacion y etiquetado de corpus historicos. Este modelo permitira la integracion de diferentes corpus y, sobre todo, un mas facil acceso a la informacion por parte de los usuarios. EnglishThis article analyses the standard practice when compiling and producing European and American Spanish corpora for the period spanning from the end of the 15th century to the late 19th century. Special attention will be given to the model used for six diachronic corpora: CHARTA, CODEA 2015, CORDIAM, CorLexIn, Post Scriptum and Cibola, in order to reach methodological conclusions applicable to any future or incipient projects - such as the Oralia diacronica del espanol (ODE) corpus, currently being prepared at the University of Granada. The analysis shows that while there are no appreciable differences in the rigor and criteria applied to document transcription, there does not seem to be any agreement as to the way to process and structure the information - textual as well as metatextual. This paper will argue for the usefulness of adopting a standardized model based on the XML markup language, following the TEI consortium guidelines for the codification and labelling of historical corpora. This model will make it possible to integrate the different corpora and, more importantly, to provide easier user access to the information.","PeriodicalId":35168,"journal":{"name":"RLA","volume":"47 1","pages":"41-64"},"PeriodicalIF":0.6000,"publicationDate":"2019-12-01","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"2","resultStr":"{\"title\":\"LOS CORPUS DEL ESPAÑOL CLÁSICO Y MODERNO: ENTRE LA FILOLOGÍA Y LA LINGÜÍSTICA COMPUTACIONAL\",\"authors\":\"Miguel Calderón Campos\",\"doi\":\"10.4067/s0718-48832019000200041\",\"DOIUrl\":null,\"url\":null,\"abstract\":\"espanolEn este articulo se analiza la practica habitual de elaboracion de corpus del espanol, tanto europeo como americano, del periodo comprendido entre finales del siglo XV y finales del XIX. Se prestara especial atencion al modelo seguido por seis corpus diacronicos: CHARTA, CODEA 2015, CORDIAM, CorLexIn, Post Scriptum y Cibola, con el objeto de extraer conclusiones metodologicas aplicables a trabajos futuros o iniciales, como el corpus Oralia diacronica del espanol (ODE), actualmente en fase de elaboracion en la Universidad de Granada. El analisis efectuado revela que, si bien no se aprecian grandes diferencias en el rigor y los criterios de transcripcion documental, no parece haber acuerdo en lo referente a la manera de procesar y estructurar la informacion, tanto textual como metatextual. En este trabajo se defiende la conveniencia de adoptar un modelo estandarizado basado en el uso de XML, siguiendo las directrices del consorcio TEI para la codificacion y etiquetado de corpus historicos. Este modelo permitira la integracion de diferentes corpus y, sobre todo, un mas facil acceso a la informacion por parte de los usuarios. EnglishThis article analyses the standard practice when compiling and producing European and American Spanish corpora for the period spanning from the end of the 15th century to the late 19th century. Special attention will be given to the model used for six diachronic corpora: CHARTA, CODEA 2015, CORDIAM, CorLexIn, Post Scriptum and Cibola, in order to reach methodological conclusions applicable to any future or incipient projects - such as the Oralia diacronica del espanol (ODE) corpus, currently being prepared at the University of Granada. The analysis shows that while there are no appreciable differences in the rigor and criteria applied to document transcription, there does not seem to be any agreement as to the way to process and structure the information - textual as well as metatextual. This paper will argue for the usefulness of adopting a standardized model based on the XML markup language, following the TEI consortium guidelines for the codification and labelling of historical corpora. This model will make it possible to integrate the different corpora and, more importantly, to provide easier user access to the information.\",\"PeriodicalId\":35168,\"journal\":{\"name\":\"RLA\",\"volume\":\"47 1\",\"pages\":\"41-64\"},\"PeriodicalIF\":0.6000,\"publicationDate\":\"2019-12-01\",\"publicationTypes\":\"Journal Article\",\"fieldsOfStudy\":null,\"isOpenAccess\":false,\"openAccessPdf\":\"\",\"citationCount\":\"2\",\"resultStr\":null,\"platform\":\"Semanticscholar\",\"paperid\":null,\"PeriodicalName\":\"RLA\",\"FirstCategoryId\":\"1085\",\"ListUrlMain\":\"https://doi.org/10.4067/s0718-48832019000200041\",\"RegionNum\":0,\"RegionCategory\":null,\"ArticlePicture\":[],\"TitleCN\":null,\"AbstractTextCN\":null,\"PMCID\":null,\"EPubDate\":\"\",\"PubModel\":\"\",\"JCR\":\"0\",\"JCRName\":\"LANGUAGE & LINGUISTICS\",\"Score\":null,\"Total\":0}","platform":"Semanticscholar","paperid":null,"PeriodicalName":"RLA","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.4067/s0718-48832019000200041","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"0","JCRName":"LANGUAGE & LINGUISTICS","Score":null,"Total":0}
引用次数: 2

摘要

这篇文章分析了从15世纪末到19世纪晚期,欧洲和美国西班牙语料库发展的惯例。模型特别注意,其次是六个语料库diacronicos:遗嘱,生活2015年,CORDIAM CorLexIn,邮报Scriptum和Cibola适用的结论,以metodologicas未来或首字母,如劳动保护权Oralia diacronica的西班牙(oed),目前elaboracion之中在格拉纳达大学。本研究的目的是评估文献转录的准确性和标准,并评估文献转录的准确性和标准,以确定信息的处理和结构,无论是文本的还是元文本的。本文提出了一种基于XML的标准化模型,遵循TEI联盟对历史语料库编码和标记的指导方针。这个模型将允许不同语料库的集成,最重要的是,用户更容易访问信息。本文分析了从15世纪末到19世纪末编纂和制作欧美西班牙语语料库的标准做法。特别注意将给予to the model使用for六diachronic的:遗嘱,生活2015年,CORDIAM CorLexIn,邮报Scriptum and Cibola, in order to reach方法适用于任何未来or incipient projects的结论——如Oralia diacronica西班牙(oed)语料库,目前being at the University of编写的手榴弹。分析表明,虽然在文件转录的严谨性和标准方面没有明显的差异,但在处理和构造信息的方式方面,无论是文本的还是元文本的,似乎都没有达成一致。本文将讨论采用一种基于XML标记语言的标准化模式的有用性,该模式遵循TEI联盟关于历史语料库编码和标记的指导方针。这种模式将使不同的语料库得以整合,更重要的是,使用户更容易访问信息。
本文章由计算机程序翻译,如有差异,请以英文原文为准。
查看原文
分享 分享
微信好友 朋友圈 QQ好友 复制链接
本刊更多论文
LOS CORPUS DEL ESPAÑOL CLÁSICO Y MODERNO: ENTRE LA FILOLOGÍA Y LA LINGÜÍSTICA COMPUTACIONAL
espanolEn este articulo se analiza la practica habitual de elaboracion de corpus del espanol, tanto europeo como americano, del periodo comprendido entre finales del siglo XV y finales del XIX. Se prestara especial atencion al modelo seguido por seis corpus diacronicos: CHARTA, CODEA 2015, CORDIAM, CorLexIn, Post Scriptum y Cibola, con el objeto de extraer conclusiones metodologicas aplicables a trabajos futuros o iniciales, como el corpus Oralia diacronica del espanol (ODE), actualmente en fase de elaboracion en la Universidad de Granada. El analisis efectuado revela que, si bien no se aprecian grandes diferencias en el rigor y los criterios de transcripcion documental, no parece haber acuerdo en lo referente a la manera de procesar y estructurar la informacion, tanto textual como metatextual. En este trabajo se defiende la conveniencia de adoptar un modelo estandarizado basado en el uso de XML, siguiendo las directrices del consorcio TEI para la codificacion y etiquetado de corpus historicos. Este modelo permitira la integracion de diferentes corpus y, sobre todo, un mas facil acceso a la informacion por parte de los usuarios. EnglishThis article analyses the standard practice when compiling and producing European and American Spanish corpora for the period spanning from the end of the 15th century to the late 19th century. Special attention will be given to the model used for six diachronic corpora: CHARTA, CODEA 2015, CORDIAM, CorLexIn, Post Scriptum and Cibola, in order to reach methodological conclusions applicable to any future or incipient projects - such as the Oralia diacronica del espanol (ODE) corpus, currently being prepared at the University of Granada. The analysis shows that while there are no appreciable differences in the rigor and criteria applied to document transcription, there does not seem to be any agreement as to the way to process and structure the information - textual as well as metatextual. This paper will argue for the usefulness of adopting a standardized model based on the XML markup language, following the TEI consortium guidelines for the codification and labelling of historical corpora. This model will make it possible to integrate the different corpora and, more importantly, to provide easier user access to the information.
求助全文
通过发布文献求助,成功后即可免费获取论文全文。 去求助
来源期刊
RLA
RLA Arts and Humanities-Language and Linguistics
CiteScore
0.70
自引率
0.00%
发文量
0
期刊最新文献
SOURCE-BASED WRITING IN PROFESSIONAL SPANISH AS A FOREIGN LANGUAGE: SOME PEDAGOGICAL INSIGHTS BASED ON A QUALI-QUANTITATIVE APPROACH IDEOLOGÍAS LINGÜÍSTICAS EN COMUNIDADES EDUCATIVAS ATACAMEÑAS, COLLAS Y DIAGUITAS APUNTES PARA UN ESTUDIO HISTÓRICOLINGÜÍSTICO DEL ESPAÑOL DE CHILE LA PREPOSICIÓN POR COMO FOCALIZADOR: UNA PROPUESTA COGNITIVA CARACTERIZACIÓN DE LA POBLACIÓN MIGRANTE ADULTA NO HISPANOPARLANTE EN CHILE COMO BASE PARA UNA PROPUESTA DE PLANIFICACIÓN DE UNA SEGUNDA LENGUA
×
引用
GB/T 7714-2015
复制
MLA
复制
APA
复制
导出至
BibTeX EndNote RefMan NoteFirst NoteExpress
×
×
提示
您的信息不完整,为了账户安全,请先补充。
现在去补充
×
提示
您因"违规操作"
具体请查看互助需知
我知道了
×
提示
现在去查看 取消
×
提示
确定
0
微信
客服QQ
Book学术公众号 扫码关注我们
反馈
×
意见反馈
请填写您的意见或建议
请填写您的手机或邮箱
已复制链接
已复制链接
快去分享给好友吧!
我知道了
×
扫码分享
扫码分享
Book学术官方微信
Book学术文献互助
Book学术文献互助群
群 号:481959085
Book学术
文献互助 智能选刊 最新文献 互助须知 联系我们:info@booksci.cn
Book学术提供免费学术资源搜索服务,方便国内外学者检索中英文文献。致力于提供最便捷和优质的服务体验。
Copyright © 2023 Book学术 All rights reserved.
ghs 京公网安备 11010802042870号 京ICP备2023020795号-1