Avaliando entidades mencionadas na coleção ELTeC-por

IF 0.3 Q4 LINGUISTICS Linguamatica Pub Date : 2020-01-01 DOI:10.21814/lm.12.2.336
Diana Santos, Eckhard Bick, Marcin Wlodek
{"title":"Avaliando entidades mencionadas na coleção ELTeC-por","authors":"Diana Santos, Eckhard Bick, Marcin Wlodek","doi":"10.21814/lm.12.2.336","DOIUrl":null,"url":null,"abstract":"Este artigo relata a preparação da anotação da coleção ELTeC-por com entidades mencionadas apropriadas ao género textual \"romances e novelas publicadas entre 1840 e 1920\", para possibilitar a leitura distante em português. Em primeiro lugar apresentamos a coleção ELTeC-por, compilada no âmbito da ação COST \"Distant Reading for European Literary History\" para estudar a literatura europeia, e explicamos as diversas restrições e escolhas necessárias, fornecendo uma caracterização inicial segundo vários eixos: a origem e tamanho das obras, o seu (sub)género literário, o género do autor, o local de publicação e a existência ou não de mais edições. Em seguida apresentamos o sistema PALAVRAS-NER, com o qual anotaremos a coleção, explicando detalhadamente o seu funcionamento. Passamos então à descrição da criação de uma subcoleção de oito obras revistas, que servem, por um lado, para avaliar o desempenho do sistema de REM automático, e, por outro, para caracterizar o tipo de população esperada. As obras podem classificar-se segundo dois eixos diferentes: romances históricos vs. romances contemporâneos; e obras com grafia original ou grafia modernizada. Além disso, algumas obras são obviamente canónicas, outras não. Além da descrição quantitativa do resultado de anotação e revisão, apresentamos algumas considerações qualitativas sobre o processo. Também fornecemos uma análise detalhada de algumas categorias, tentando mostrar como os lugares, profissões e gentílicos mais mencionados podem ser indicadores numa leitura distante. Concluímos comparando com o trabalho internacional feito na análise de entidades mencionadas de obras literárias, explicando as diferenças e sugerindo trabalho futuro.","PeriodicalId":41819,"journal":{"name":"Linguamatica","volume":"12 1","pages":"29-49"},"PeriodicalIF":0.3000,"publicationDate":"2020-01-01","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"3","resultStr":null,"platform":"Semanticscholar","paperid":null,"PeriodicalName":"Linguamatica","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.21814/lm.12.2.336","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"Q4","JCRName":"LINGUISTICS","Score":null,"Total":0}
引用次数: 3

Abstract

Este artigo relata a preparação da anotação da coleção ELTeC-por com entidades mencionadas apropriadas ao género textual "romances e novelas publicadas entre 1840 e 1920", para possibilitar a leitura distante em português. Em primeiro lugar apresentamos a coleção ELTeC-por, compilada no âmbito da ação COST "Distant Reading for European Literary History" para estudar a literatura europeia, e explicamos as diversas restrições e escolhas necessárias, fornecendo uma caracterização inicial segundo vários eixos: a origem e tamanho das obras, o seu (sub)género literário, o género do autor, o local de publicação e a existência ou não de mais edições. Em seguida apresentamos o sistema PALAVRAS-NER, com o qual anotaremos a coleção, explicando detalhadamente o seu funcionamento. Passamos então à descrição da criação de uma subcoleção de oito obras revistas, que servem, por um lado, para avaliar o desempenho do sistema de REM automático, e, por outro, para caracterizar o tipo de população esperada. As obras podem classificar-se segundo dois eixos diferentes: romances históricos vs. romances contemporâneos; e obras com grafia original ou grafia modernizada. Além disso, algumas obras são obviamente canónicas, outras não. Além da descrição quantitativa do resultado de anotação e revisão, apresentamos algumas considerações qualitativas sobre o processo. Também fornecemos uma análise detalhada de algumas categorias, tentando mostrar como os lugares, profissões e gentílicos mais mencionados podem ser indicadores numa leitura distante. Concluímos comparando com o trabalho internacional feito na análise de entidades mencionadas de obras literárias, explicando as diferenças e sugerindo trabalho futuro.
查看原文
分享 分享
微信好友 朋友圈 QQ好友 复制链接
本刊更多论文
评估ELTeC-por集合中提到的实体
本文报告了ELTeC-por文集注释的准备工作,其中提到了适合于“1840年至1920年间出版的小说和小说”文本类型的实体,以使葡萄牙语远程阅读成为可能。首先我们收集ELTeC -作用下,编译成本”遥远的欧洲文学阅读欧洲历史研究文献及解释的各种限制和必要的选择,提供了一个描述初始根据各种轴:作品的来源和大小,你的(子)文学类型,作者,出版地点的性别和是否存在问题。接下来,我们将介绍palabras -NER系统,我们将用它来注释集合,详细解释它的操作。然后,我们描述了8个修订作品的子集合的创建,这些作品一方面用于评估自动快速眼动(REM)系统的性能,另一方面用于描述预期人群的类型。这些作品可以分为两个不同的轴:历史小说和当代小说;以及具有原始或现代化拼写的作品。此外,有些作品显然是规范的,有些则不是。除了对注释和修订结果的定量描述外,我们还对这一过程提出了一些定性的考虑。我们还提供了一些类别的详细分析,试图展示更多提到的地方、职业和氏族是如何在远处阅读的指标。最后,我们将上述文学作品实体的分析与国际工作进行了比较,解释了它们的差异,并提出了未来的工作建议。
本文章由计算机程序翻译,如有差异,请以英文原文为准。
求助全文
约1分钟内获得全文 去求助
来源期刊
Linguamatica
Linguamatica LINGUISTICS-
CiteScore
1.40
自引率
0.00%
发文量
4
审稿时长
6 weeks
期刊最新文献
A compilação e a análise de métricas textuais de um corpus de redações Classificação da qualidade da argumentação em tweets no domínio da política brasileira Extracção de Relações de Apoio e Oposição em Títulos de Notícias de Política em Português Pais, filhos e outras relações familiares no DIP DIP - Desafio de Identificação de Personagens: objectivo, organização, recursos e resultados
×
引用
GB/T 7714-2015
复制
MLA
复制
APA
复制
导出至
BibTeX EndNote RefMan NoteFirst NoteExpress
×
×
提示
您的信息不完整,为了账户安全,请先补充。
现在去补充
×
提示
您因"违规操作"
具体请查看互助需知
我知道了
×
提示
现在去查看 取消
×
提示
确定
0
微信
客服QQ
Book学术公众号 扫码关注我们
反馈
×
意见反馈
请填写您的意见或建议
请填写您的手机或邮箱
已复制链接
已复制链接
快去分享给好友吧!
我知道了
×
扫码分享
扫码分享
Book学术官方微信
Book学术文献互助
Book学术文献互助群
群 号:481959085
Book学术
文献互助 智能选刊 最新文献 互助须知 联系我们:info@booksci.cn
Book学术提供免费学术资源搜索服务,方便国内外学者检索中英文文献。致力于提供最便捷和优质的服务体验。
Copyright © 2023 Book学术 All rights reserved.
ghs 京公网安备 11010802042870号 京ICP备2023020795号-1