Корпус русского рассказа начала XX века. Пример лингвостатистического анализа.

Александр Олегович Гребенников, Наталия Михайловна Марусенко
{"title":"Корпус русского рассказа начала XX века. Пример лингвостатистического анализа.","authors":"Александр Олегович Гребенников, Наталия Михайловна Марусенко","doi":"10.17586/2541-9781-2020-4-21-28","DOIUrl":null,"url":null,"abstract":"Исследование строится на базе представительного «Корпуса русских рассказов 1900 – 1930-х гг.». Для выборки из первого периода включенных в Корпус текстов (100 рассказов с 1900 по 1913 гг. отобранных по принципу не более одного рассказа от каждого из включённых в Корпус авторов) был построен частотный словарь. С целью выявления ключевых слов, соответствующих основной тематике рассказов, а также прослеживания влияния крупномасштабных политических изменений на язык художественной прозы первые 100 наиболее частотных знаменательных слов словаря были сопоставлены с данными полученных авторами ранее частотных словарей отдельных русских писателей – признанных мастеров рассказа и материалами частотного словаря русского языка в целом. Также было проведено сравнение с данными для русских рассказов аналогичного периода начала XXI века, полученными из НКРЯ. Для получения объективных результатов сравнения использовался показатель числа употреблений на миллион слов (ipm ). Полученные результаты показывают, что распределение частот знаменательных слов в верхней зоне словаря может служить хорошим индикатором общей тематики произведений не только отдельного писателя, но и отдельной эпохи, а также отражать актуальные внешние аспекты жизни общества.","PeriodicalId":267743,"journal":{"name":"Компьютерная лингвистика и вычислительные онтологии","volume":"44 1","pages":"0"},"PeriodicalIF":0.0000,"publicationDate":"2020-12-17","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"1","resultStr":null,"platform":"Semanticscholar","paperid":null,"PeriodicalName":"Компьютерная лингвистика и вычислительные онтологии","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.17586/2541-9781-2020-4-21-28","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"","JCRName":"","Score":null,"Total":0}
引用次数: 1

Abstract

Исследование строится на базе представительного «Корпуса русских рассказов 1900 – 1930-х гг.». Для выборки из первого периода включенных в Корпус текстов (100 рассказов с 1900 по 1913 гг. отобранных по принципу не более одного рассказа от каждого из включённых в Корпус авторов) был построен частотный словарь. С целью выявления ключевых слов, соответствующих основной тематике рассказов, а также прослеживания влияния крупномасштабных политических изменений на язык художественной прозы первые 100 наиболее частотных знаменательных слов словаря были сопоставлены с данными полученных авторами ранее частотных словарей отдельных русских писателей – признанных мастеров рассказа и материалами частотного словаря русского языка в целом. Также было проведено сравнение с данными для русских рассказов аналогичного периода начала XXI века, полученными из НКРЯ. Для получения объективных результатов сравнения использовался показатель числа употреблений на миллион слов (ipm ). Полученные результаты показывают, что распределение частот знаменательных слов в верхней зоне словаря может служить хорошим индикатором общей тематики произведений не только отдельного писателя, но и отдельной эпохи, а также отражать актуальные внешние аспекты жизни общества.
查看原文
分享 分享
微信好友 朋友圈 QQ好友 复制链接
本刊更多论文
这项研究建立在20世纪30年代和30年代俄罗斯短篇小说军团的基础上。从1900年到1913年的第一个文本周期(100个短篇小说根据每个作者的叙述原则取样),建立了一个频率字典。以确定关键词符合基本政治变革的主题故事,以及跟踪影响大规模语言艺术散文第100个最具有里程碑意义的单词频率频率字典词典经数据比较早承认个别俄罗斯作家短篇小说大师和频率俄语词典一般材料。此外,还比较了俄罗斯21世纪早期类似时期的短篇小说的数据。为了获得客观的比较结果,使用了100万个单词(ipm)的用法。由此产生的结果表明,在字典的最上面部分中大字的频率分布可以很好地反映出一个作家的作品主题,同时也反映了社会生活的重要外部方面。
本文章由计算机程序翻译,如有差异,请以英文原文为准。
求助全文
约1分钟内获得全文 去求助
来源期刊
自引率
0.00%
发文量
0
期刊最新文献
Разработка и реализация методов генерации правил для автоматической проверки правописания О возможности использования корпуса NOW в курсе английского для специальных целей для студентов специальности «Биотехнология» Методы машинного обучения применительно к задаче выделения глагольных и атрибутивных коллокаций Корпус русского рассказа начала XX века. Пример лингвостатистического анализа. Применение деревьев решений для анализа сильных позиций текста в задаче атрибуции произведений Ф. М. Достоевского
×
引用
GB/T 7714-2015
复制
MLA
复制
APA
复制
导出至
BibTeX EndNote RefMan NoteFirst NoteExpress
×
×
提示
您的信息不完整,为了账户安全,请先补充。
现在去补充
×
提示
您因"违规操作"
具体请查看互助需知
我知道了
×
提示
现在去查看 取消
×
提示
确定
0
微信
客服QQ
Book学术公众号 扫码关注我们
反馈
×
意见反馈
请填写您的意见或建议
请填写您的手机或邮箱
已复制链接
已复制链接
快去分享给好友吧!
我知道了
×
扫码分享
扫码分享
Book学术官方微信
Book学术文献互助
Book学术文献互助群
群 号:481959085
Book学术
文献互助 智能选刊 最新文献 互助须知 联系我们:info@booksci.cn
Book学术提供免费学术资源搜索服务,方便国内外学者检索中英文文献。致力于提供最便捷和优质的服务体验。
Copyright © 2023 Book学术 All rights reserved.
ghs 京公网安备 11010802042870号 京ICP备2023020795号-1