Компьютерная лингвистика и вычислительные онтологии最新文献

Методы машинного обучения применительно к задаче выделения глагольных и атрибутивных коллокаций 机器教学方法适用于表示动词和属性对位的任务

Компьютерная лингвистика и вычислительные онтологии

Pub Date : 2020-12-17 DOI: 10.17586/2541-9781-2020-4-54-60

Мария Владимировна Хохлова, Екатерина Владимировна Еникеева

В статье представлены результаты применения алгоритмов машинного обучения к задаче автоматического выявления глагольных и атрибутивных коллокаций . Изучение сочетаемости показало, что дистрибуционные модели могут быть успешно использованы для моделирования отношений внутри словосочетаний. Словосочетание признается значимым, если его векторное представление близко к векторному представлению заглавного слова. Нами были использованы следующие методы оценки коллокаций на основе машинного обучения и векторных представлений текстов: базовый метод, метод аналогии и линейного преобразования. Автоматически выделенные словосочетания сравнивались с данными, приведенными в лексикографических источниках (в толковых словарях и словарях сочетаемости, всего было рассмотрено пять источников), которые образовали так называемый золотой стандарт. Результаты показали, что рассматриваемые методы успешно используются для извлечения словосочетаний, в том числе находят те, которые не отражены в словарях. Данные примеры могут претендовать на лексикографическоое описание, хотя и не приведены в источниках и нуждаются в дополнительной экспертной проверке. Поэтому необходимо дополнительно провести сравнение использованных алгоритмов с другими статистическими метриками и увеличить количество словосочетаний, которые привлечены в качестве золотого стандарта.

本文介绍了机器学习算法在自动识别动词和属性定位问题上的结果。对组合的研究表明，分销模型可以成功地用来模拟组合内部的关系。当它的向量表示接近于主单词的向量表示时，这个词被认为是有意义的。我们使用了下列基于机器学习和文本向量表示的对位评估方法:基本方法、类比方法和线性变换。自动分配的词组与词源中的数据(在解码字典和组合字典中，总共列出了五个源)进行了比较，形成了所谓的黄金标准。结果表明，这些方法被成功地用来提取词汇，包括那些在字典中没有反映的方法。这些例子可能声称有词汇表描述，尽管没有来源，需要额外的专家审查。因此，需要将使用的算法与其他统计指标进行比较，并增加作为金本位制引入的词汇量。

{"title":"Методы машинного обучения применительно к задаче выделения глагольных и атрибутивных коллокаций","authors":"Мария Владимировна Хохлова, Екатерина Владимировна Еникеева","doi":"10.17586/2541-9781-2020-4-54-60","DOIUrl":"https://doi.org/10.17586/2541-9781-2020-4-54-60","url":null,"abstract":"В статье представлены результаты применения алгоритмов машинного обучения к задаче автоматического выявления глагольных и атрибутивных коллокаций . Изучение сочетаемости показало, что дистрибуционные модели могут быть успешно использованы для моделирования отношений внутри словосочетаний. Словосочетание признается значимым, если его векторное представление близко к векторному представлению заглавного слова. Нами были использованы следующие методы оценки коллокаций на основе машинного обучения и векторных представлений текстов: базовый метод, метод аналогии и линейного преобразования. Автоматически выделенные словосочетания сравнивались с данными, приведенными в лексикографических источниках (в толковых словарях и словарях сочетаемости, всего было рассмотрено пять источников), которые образовали так называемый золотой стандарт. Результаты показали, что рассматриваемые методы успешно используются для извлечения словосочетаний, в том числе находят те, которые не отражены в словарях. Данные примеры могут претендовать на лексикографическоое описание, хотя и не приведены в источниках и нуждаются в дополнительной экспертной проверке. Поэтому необходимо дополнительно провести сравнение использованных алгоритмов с другими статистическими метриками и увеличить количество словосочетаний, которые привлечены в качестве золотого стандарта.","PeriodicalId":267743,"journal":{"name":"Компьютерная лингвистика и вычислительные онтологии","volume":"10 1","pages":"0"},"PeriodicalIF":0.0,"publicationDate":"2020-12-17","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"114959562","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}

引用次数: 0

Разработка и реализация методов генерации правил для автоматической проверки правописания 为自动拼写检查开发和实现规则生成方法

Компьютерная лингвистика и вычислительные онтологии

Pub Date : 2020-12-17 DOI: 10.17586/2541-9781-2020-4-83-97

Павел Ярославович Бахвалов

Задача автоматической проверки правописания является актуальной: Количество написанного текста увеличивается с каждым годом, также, как и количество людей, начинающих изучать новые языки, и всем нам, как людям, свойственно делать ошибки. Существует два основных подхода к решению данной задачи: подход, основанный на машинном обучении, и подход, основанный на правилах. Первый имеет более высокое качество и не требует привлечение лингвистов, но с другой стороны второй позволяет объяснить пользователю причину ошибки и требует значительно меньше вычислительных ресурсов. Эти подходы можно комбинировать, объединяя их преимущества, и получать выигрыш в качестве. В настоящей работе представлен способ автоматического получения правил из аннотированного набора данных, которыми могут быть расширены системы автоматической проверки правописания после добавления описания. За основу был взят подход Transformation-Based Learning (TBL), который был доработан для использования на данных с большим количеством признаков. В результате были сгенерированы 1238 правил для 36 категорий ошибок. После этого, существующая система по проверке правописания LanguageTool была расширена полученными правилами и показала улучшение качества работы.

自动拼写检查的任务是相关的:文本的数量每年都在增加，学习新语言的人也在增加，我们所有人都有犯错误的习惯。解决这个问题有两种基本方法:基于机器学习的方法和基于规则的方法。第一个质量更高，不需要语言学家，但另一个允许用户解释错误的原因，需要更少的计算资源。这些方法可以组合在一起，结合它们的优势，并获得回报。本文介绍了一种从注释数据集中自动获取规则的方法，在添加描述后可以扩展拼写自动检查系统。它采用了一种转移-基础训练方法(TBL)，该方法被开发用于具有大量特征的数据。结果产生了36类错误的1238条规则。此后，现有的LanguageTool拼写检查系统被现有的规则所扩大，并显示了改进的性能。

{"title":"Разработка и реализация методов генерации правил для автоматической проверки правописания","authors":"Павел Ярославович Бахвалов","doi":"10.17586/2541-9781-2020-4-83-97","DOIUrl":"https://doi.org/10.17586/2541-9781-2020-4-83-97","url":null,"abstract":"Задача автоматической проверки правописания является актуальной: Количество написанного текста увеличивается с каждым годом, также, как и количество людей, начинающих изучать новые языки, и всем нам, как людям, свойственно делать ошибки. Существует два основных подхода к решению данной задачи: подход, основанный на машинном обучении, и подход, основанный на правилах. Первый имеет более высокое качество и не требует привлечение лингвистов, но с другой стороны второй позволяет объяснить пользователю причину ошибки и требует значительно меньше вычислительных ресурсов. Эти подходы можно комбинировать, объединяя их преимущества, и получать выигрыш в качестве. В настоящей работе представлен способ автоматического получения правил из аннотированного набора данных, которыми могут быть расширены системы автоматической проверки правописания после добавления описания. За основу был взят подход Transformation-Based Learning (TBL), который был доработан для использования на данных с большим количеством признаков. В результате были сгенерированы 1238 правил для 36 категорий ошибок. После этого, существующая система по проверке правописания LanguageTool была расширена полученными правилами и показала улучшение качества работы.","PeriodicalId":267743,"journal":{"name":"Компьютерная лингвистика и вычислительные онтологии","volume":"7 1","pages":"0"},"PeriodicalIF":0.0,"publicationDate":"2020-12-17","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"114223144","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}

引用次数: 0

Три подхода к определению понятий на основе собственных свойств модели 基于模型自身特性定义概念的三种方法

Компьютерная лингвистика и вычислительные онтологии

Pub Date : 2020-12-17 DOI: 10.17586/2541-9781-2020-4-109-117

Станислав Витальевич Микони

Предлагается применение системного подхода к анализу определения понятия. Оно рассматривается как текстовая модель, к которой применимы собственные свойства модели. Эти свойства выводятся из модели языка предикатов первого порядка, каковой является алгебраическая структура. К собственным свойствам модели отнесены функция объекта, реализующая её операция и структура. Каждое свойство представляется элементарной моделью: функциональной (Ф-модель), операционной (О-модель) и структурной (С-модель) моделью. Использование этих моделей для анализа определения понятия названо соответственно функциональным, операционным и структурным подходом. Сущность каждого подхода поясняется на примере определения термина «менеджмент качества», взятого из международного терминологического стандарта. Для иллюстрации подходов применяются наглядные модели графов. Структурный подход позволяет найти избыточные и недостающие поясняющие слова в определения понятия, представленного в форме повествовательного предложения. Функциональный подход позволяет оценить полноту содержания понятия и наличие порочных циклов. Операционный подход уточняет понятия, относящиеся к категории действия, через элементарные действия.

建议采用系统方法分析定义。它被认为是一种文本模型，适用于模型本身的特性。这些属性来自于一阶谓词的模型，即代数结构。模型的特征是对象的函数，实现其操作和结构。每个特性都是一个基本模型:函数模型、操作模型(o模型)和结构模型(c模型)。使用这些模型来分析这个概念的定义是相应的功能、操作和结构方法。每一种方法的本质都是通过从国际术语标准中定义“质量管理”一词来解释的。图的图形模型用于说明方法。结构方法允许在以叙述句的形式提出的概念的定义中找到多余和缺失的词语。功能方法允许评估概念的完整和恶性循环的存在。操作方法通过基本操作来澄清与操作类别相关的概念。

{"title":"Три подхода к определению понятий на основе собственных свойств модели","authors":"Станислав Витальевич Микони","doi":"10.17586/2541-9781-2020-4-109-117","DOIUrl":"https://doi.org/10.17586/2541-9781-2020-4-109-117","url":null,"abstract":"Предлагается применение системного подхода к анализу определения понятия. Оно рассматривается как текстовая модель, к которой применимы собственные свойства модели. Эти свойства выводятся из модели языка предикатов первого порядка, каковой является алгебраическая структура. К собственным свойствам модели отнесены функция объекта, реализующая её операция и структура. Каждое свойство представляется элементарной моделью: функциональной (Ф-модель), операционной (О-модель) и структурной (С-модель) моделью. Использование этих моделей для анализа определения понятия названо соответственно функциональным, операционным и структурным подходом. Сущность каждого подхода поясняется на примере определения термина «менеджмент качества», взятого из международного терминологического стандарта. Для иллюстрации подходов применяются наглядные модели графов. Структурный подход позволяет найти избыточные и недостающие поясняющие слова в определения понятия, представленного в форме повествовательного предложения. Функциональный подход позволяет оценить полноту содержания понятия и наличие порочных циклов. Операционный подход уточняет понятия, относящиеся к категории действия, через элементарные действия.","PeriodicalId":267743,"journal":{"name":"Компьютерная лингвистика и вычислительные онтологии","volume":"74 1","pages":"0"},"PeriodicalIF":0.0,"publicationDate":"2020-12-17","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"127658729","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}

引用次数: 0

Применение деревьев решений для анализа сильных позиций текста в задаче атрибуции произведений Ф. М. Достоевского 使用解决方案树来分析文本在定义陀思妥耶夫斯基作品的任务中的强位置。

Компьютерная лингвистика и вычислительные онтологии

Pub Date : 2020-12-17 DOI: 10.17586/2541-9781-2020-4-118-127

Александр Александрович Рогов, Александр Александрович Лебедев, Р В Абрамов, Николай Дмитриевич Москин, Кирилл Александрович Кулаков

В работе рассматривается совокупность статей Ф.М.Достоевского и других авторов (М.М.Достоевский, Н.Н. Страхов, А.А.Головачев, И.Н.Шилль , А.Григорьев, А.У.Порецкий , Я. П. Полонский), опубликованных в журналах «Время» и «Эпоха» в период 1861-1865 гг. В текстах выделялись фрагменты размером 500, 700 и 1000 слов. При этом для увеличения объема выборки использовался шаг для отсчета начала следующего фрагмента: 100, 200 слов и т.п. На основе частеречного распределения фрагментов текстов были построены деревья решений, в узлах которых находятся условия ветвления, основанные на частоте встречаемости той или иной n-граммы (последовательности из n закодированных частей речи). Анализ сильных позиций данных текстов (т.е. фрагментов, расположенных в начале или в конце текста) с помощью деревьев решений показывает возможность стилистической правки, которую вносил Ф. М. Достоевский в тексты изначальных авторов. Для проведения исследования использовалась информационная система СМАЛТ («Статистические методы анализа литературных текстов»), где была реализована автоматизированная разметка произведений с ручным контролем специалистов-филологов.

这篇论文探讨了陀思妥耶夫斯基和其他作家的文章(m . m . n . h . h . golovasev、e . h . schile、a . gregory、a . p . poersky)的总和。为了增加抽样量，使用步骤来计算下一个片段的开始:100、200个单词等等。通过解决方案树分析文本的强位置(即文本开头或结尾的片段)，显示了f . m .陀思妥耶夫斯基在最初作者的文本中引入的风格修正的可能性。这项研究使用了smalt信息系统(“文学文本的统计分析方法”)，在那里实现了由文献学专家手工控制的作品的自动标识。

{"title":"Применение деревьев решений для анализа сильных позиций текста в задаче атрибуции произведений Ф. М. Достоевского","authors":"Александр Александрович Рогов, Александр Александрович Лебедев, Р В Абрамов, Николай Дмитриевич Москин, Кирилл Александрович Кулаков","doi":"10.17586/2541-9781-2020-4-118-127","DOIUrl":"https://doi.org/10.17586/2541-9781-2020-4-118-127","url":null,"abstract":"В работе рассматривается совокупность статей Ф.М.Достоевского и других авторов (М.М.Достоевский, Н.Н. Страхов, А.А.Головачев, И.Н.Шилль , А.Григорьев, А.У.Порецкий , Я. П. Полонский), опубликованных в журналах «Время» и «Эпоха» в период 1861-1865 гг. В текстах выделялись фрагменты размером 500, 700 и 1000 слов. При этом для увеличения объема выборки использовался шаг для отсчета начала следующего фрагмента: 100, 200 слов и т.п. На основе частеречного распределения фрагментов текстов были построены деревья решений, в узлах которых находятся условия ветвления, основанные на частоте встречаемости той или иной n-граммы (последовательности из n закодированных частей речи). Анализ сильных позиций данных текстов (т.е. фрагментов, расположенных в начале или в конце текста) с помощью деревьев решений показывает возможность стилистической правки, которую вносил Ф. М. Достоевский в тексты изначальных авторов. Для проведения исследования использовалась информационная система СМАЛТ («Статистические методы анализа литературных текстов»), где была реализована автоматизированная разметка произведений с ручным контролем специалистов-филологов.","PeriodicalId":267743,"journal":{"name":"Компьютерная лингвистика и вычислительные онтологии","volume":"6 1","pages":"0"},"PeriodicalIF":0.0,"publicationDate":"2020-12-17","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"122606794","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}

引用次数: 1

К вопросу о формировании набора отношений для корпуса с дискурсивной разметкой текста 关于建立一组具有分散性文本标记的船体关系

Компьютерная лингвистика и вычислительные онтологии

Pub Date : 2020-12-17 DOI: 10.17586/2541-9781-2020-4-44-53

Елена Евгеньевна Соколова, Светлана Юрьевна Толдова

Работа посвящена дискурсивной разметке корпусов. В ней анализируется состав отношений, принятых в корпусе Ru -RSTreebank . Это корпус, размеченный в рамках теории риторических структур В.Манн и С.Томпсон. При разметке корпуса был принят ряд решений относительно модификаций исходного набора отношений. В статье рассматриваются проблемы, вызванные одним из противоречий, с которым сталкиваются разработчики при создании стандартов лингвистической разметки. Это противоречие между стремлением как можно более точно отразить лингвистическую реальность, с одной стороны, и требованием обеспечить устойчивость разметки, с другой. В статье на примере дискурсивной разметки анализируются проблемы, возникающие в случае упрощения разметки для обеспечения необходимой степени согласия аннотаторов .

这项工作是关于船体分散率的。它分析了在Ru -RSTreebank军团中接受的关系的组成。这是w . mann和s . thompson修辞学框架内的船体。在船体标识的情况下，已经做出了一些决定来修改最初的关系组合。这篇文章讨论了开发人员在制定语言标识标准时遇到的一个问题。一方面，努力尽可能准确地反映语言现实，另一方面又要求提供可持续性，这是一种矛盾。本文分析了在简化标记时出现的问题，以确保注释者的一致程度。

{"title":"К вопросу о формировании набора отношений для корпуса с дискурсивной разметкой текста","authors":"Елена Евгеньевна Соколова, Светлана Юрьевна Толдова","doi":"10.17586/2541-9781-2020-4-44-53","DOIUrl":"https://doi.org/10.17586/2541-9781-2020-4-44-53","url":null,"abstract":"Работа посвящена дискурсивной разметке корпусов. В ней анализируется состав отношений, принятых в корпусе Ru -RSTreebank . Это корпус, размеченный в рамках теории риторических структур В.Манн и С.Томпсон. При разметке корпуса был принят ряд решений относительно модификаций исходного набора отношений. В статье рассматриваются проблемы, вызванные одним из противоречий, с которым сталкиваются разработчики при создании стандартов лингвистической разметки. Это противоречие между стремлением как можно более точно отразить лингвистическую реальность, с одной стороны, и требованием обеспечить устойчивость разметки, с другой. В статье на примере дискурсивной разметки анализируются проблемы, возникающие в случае упрощения разметки для обеспечения необходимой степени согласия аннотаторов .","PeriodicalId":267743,"journal":{"name":"Компьютерная лингвистика и вычислительные онтологии","volume":"15 1","pages":"0"},"PeriodicalIF":0.0,"publicationDate":"2020-12-17","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"132072575","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}

引用次数: 0

Корпус русского рассказа начала XX века. Пример лингвостатистического анализа.

Компьютерная лингвистика и вычислительные онтологии

Pub Date : 2020-12-17 DOI: 10.17586/2541-9781-2020-4-21-28

Александр Олегович Гребенников, Наталия Михайловна Марусенко

Исследование строится на базе представительного «Корпуса русских рассказов 1900 – 1930-х гг.». Для выборки из первого периода включенных в Корпус текстов (100 рассказов с 1900 по 1913 гг. отобранных по принципу не более одного рассказа от каждого из включённых в Корпус авторов) был построен частотный словарь. С целью выявления ключевых слов, соответствующих основной тематике рассказов, а также прослеживания влияния крупномасштабных политических изменений на язык художественной прозы первые 100 наиболее частотных знаменательных слов словаря были сопоставлены с данными полученных авторами ранее частотных словарей отдельных русских писателей – признанных мастеров рассказа и материалами частотного словаря русского языка в целом. Также было проведено сравнение с данными для русских рассказов аналогичного периода начала XXI века, полученными из НКРЯ. Для получения объективных результатов сравнения использовался показатель числа употреблений на миллион слов (ipm ). Полученные результаты показывают, что распределение частот знаменательных слов в верхней зоне словаря может служить хорошим индикатором общей тематики произведений не только отдельного писателя, но и отдельной эпохи, а также отражать актуальные внешние аспекты жизни общества.

这项研究建立在20世纪30年代和30年代俄罗斯短篇小说军团的基础上。从1900年到1913年的第一个文本周期(100个短篇小说根据每个作者的叙述原则取样)，建立了一个频率字典。以确定关键词符合基本政治变革的主题故事,以及跟踪影响大规模语言艺术散文第100个最具有里程碑意义的单词频率频率字典词典经数据比较早承认个别俄罗斯作家短篇小说大师和频率俄语词典一般材料。此外，还比较了俄罗斯21世纪早期类似时期的短篇小说的数据。为了获得客观的比较结果，使用了100万个单词(ipm)的用法。由此产生的结果表明，在字典的最上面部分中大字的频率分布可以很好地反映出一个作家的作品主题，同时也反映了社会生活的重要外部方面。

{"title":"Корпус русского рассказа начала XX века. Пример лингвостатистического анализа.","authors":"Александр Олегович Гребенников, Наталия Михайловна Марусенко","doi":"10.17586/2541-9781-2020-4-21-28","DOIUrl":"https://doi.org/10.17586/2541-9781-2020-4-21-28","url":null,"abstract":"Исследование строится на базе представительного «Корпуса русских рассказов 1900 – 1930-х гг.». Для выборки из первого периода включенных в Корпус текстов (100 рассказов с 1900 по 1913 гг. отобранных по принципу не более одного рассказа от каждого из включённых в Корпус авторов) был построен частотный словарь. С целью выявления ключевых слов, соответствующих основной тематике рассказов, а также прослеживания влияния крупномасштабных политических изменений на язык художественной прозы первые 100 наиболее частотных знаменательных слов словаря были сопоставлены с данными полученных авторами ранее частотных словарей отдельных русских писателей – признанных мастеров рассказа и материалами частотного словаря русского языка в целом. Также было проведено сравнение с данными для русских рассказов аналогичного периода начала XXI века, полученными из НКРЯ. Для получения объективных результатов сравнения использовался показатель числа употреблений на миллион слов (ipm ). Полученные результаты показывают, что распределение частот знаменательных слов в верхней зоне словаря может служить хорошим индикатором общей тематики произведений не только отдельного писателя, но и отдельной эпохи, а также отражать актуальные внешние аспекты жизни общества.","PeriodicalId":267743,"journal":{"name":"Компьютерная лингвистика и вычислительные онтологии","volume":"44 1","pages":"0"},"PeriodicalIF":0.0,"publicationDate":"2020-12-17","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"122516999","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}

引用次数: 1

Моделирование тибетский номинализованных глагольных групп в онтологии и формальной грамматике

Компьютерная лингвистика и вычислительные онтологии

Pub Date : 2020-12-17 DOI: 10.17586/2541-9781-2020-4-63-72

Мария Олеговна Смирнова, Алексей Владимирович Добров, Анастасия Евгеньевна Доброва, Николай Леонидович Сомс, Ольга Владимировна Джангольская

В данной статье описываются методы моделирования тибетских номинализованных глагольных групп в формальной грамматике и компьютерной онтологии. В тибетском языке широко используется номинализайия глаголов с помощью добавления к глагольному корню суффиксов-номинализаторов . Помимо основного номинализатораpa , образующего субстантивированные причастия, есть ряд существительных, так называемых квази-номинализаторов , которые могут употребляться и как знаменательные существительные, и как суффиксы-номинализаторы (например, tshul 'способ') . Номинализованный глагол может образовывать глагольную группу любой длины и сложности. Тибетские именные формы глагола и номинализованные глагольные группы могут идиоматизироваться , что требует специального моделирования их значений в компьютерной онтологии. В статье рассматриваются виды тибетских номинализаторов и квази-номинализаторов , особенности образования идиоматизированных глагольных групп с различными назначениями и способы моделирования их в онтологии.

本文描述了在正式语法和计算机本体论中模拟西藏标称动词群的方法。在藏传语言中，动词的标识符广泛使用，在动词的提名根中添加。除了主标识符，还可以使用一些名词，即准标识符，它们既可以用作重要的名词，也可以用作提名符(如tshul ' s)。标称动词可以形成任何长度和复杂性的动词组。西藏动词的名称形式和标称动词组可以成形，这需要在计算机本体论中对它们的值进行特殊建模。这篇文章讨论了西藏提名者和准提名者的种类，以及成语动词组的特点，其不同的用途和本体论的建模方式。

{"title":"Моделирование тибетский номинализованных глагольных групп в онтологии и формальной грамматике","authors":"Мария Олеговна Смирнова, Алексей Владимирович Добров, Анастасия Евгеньевна Доброва, Николай Леонидович Сомс, Ольга Владимировна Джангольская","doi":"10.17586/2541-9781-2020-4-63-72","DOIUrl":"https://doi.org/10.17586/2541-9781-2020-4-63-72","url":null,"abstract":"В данной статье описываются методы моделирования тибетских номинализованных глагольных групп в формальной грамматике и компьютерной онтологии. В тибетском языке широко используется номинализайия глаголов с помощью добавления к глагольному корню суффиксов-номинализаторов . Помимо основного номинализатораpa , образующего субстантивированные причастия, есть ряд существительных, так называемых квази-номинализаторов , которые могут употребляться и как знаменательные существительные, и как суффиксы-номинализаторы (например, tshul 'способ') . Номинализованный глагол может образовывать глагольную группу любой длины и сложности. Тибетские именные формы глагола и номинализованные глагольные группы могут идиоматизироваться , что требует специального моделирования их значений в компьютерной онтологии. В статье рассматриваются виды тибетских номинализаторов и квази-номинализаторов , особенности образования идиоматизированных глагольных групп с различными назначениями и способы моделирования их в онтологии.","PeriodicalId":267743,"journal":{"name":"Компьютерная лингвистика и вычислительные онтологии","volume":"6 1","pages":"0"},"PeriodicalIF":0.0,"publicationDate":"2020-12-17","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"124679951","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}

引用次数: 0

Разрешение стрелочной омонимии в конструкциях с сирконстантами средствами онтологической семантики 本体论语义工具工具结构中的箭头共轭分辨率

Компьютерная лингвистика и вычислительные онтологии

Pub Date : 2020-12-17 DOI: 10.17586/2541-9781-2020-4-73-82

Алина Андреевна Захарова

В статье описывается экспериментальное исследование метода разрешения синтаксической неоднозначности в конструкциях с сирконстантами с помощью онтологической семантики на основе универсального лингвистического процессора AIIRE (Artificial Intelligence Information Retrieval Engine). Выявлены четыре типа неоднозначных конструкций с сирконстантами, и составлены соответствующие поисковые запросы в Национальный корпус русского языка (НКРЯ). В результате получен список из 200 неоднозначных конструкций. Неоднозначность в конструкциях устраняется путем автоматического разбора и последующего ручного выбора его правильных вариантов. Однако на этом этапе возможны следующие проблемы: «разрывы» внутри конструкций, которые обозначают отсутствие нужных семантических связей внутри конструкции, а также большое количество вариантов синтаксического анализа, называемое комбинаторным взрывом. Эти проблемы решаются с помощью таких инструментов AIIRE, как Ontohelper и онтология. Онтология используется для обработки языковых данных и понимается как набор лексических значений или понятий и отношений между ними. Ontohelper – это вспомогательный инструмент с интерфейсом редактирования, где можно моделировать и задавать с помощью онтологическихотношенийвалентностиглаголов. В результате получаются корректные разборы для 66/200 конструкций, и обосновывается,чтоэффективностьданногометодазависитоткачестваиправильностимоделированияпонятийвонтологии.

这篇文章描述了基于通用语言处理器aier (artifical Intelligence Retrieval)的本体论语义解析方法的实验研究。有四种不同类型的结构具有连续性，并向俄罗斯国家语言军团(nra)提出了适当的搜索请求。结果是200个模棱两可的结构的列表。结构中的模棱两可是通过自动筛选和手动选择来消除的。然而，在这一阶段可能出现的问题是:结构内部的“缺口”，这意味着结构内缺乏必要的语义连接，以及大量的句法分析变体，称为组合爆炸。这些问题是通过Ontohelper和本体论等AIIRE工具解决的。本体论被用来处理语言数据，并被理解为一组词汇值或概念以及它们之间的关系。Ontohelper是一种辅助工具，具有编辑界面，可以用本体论价头进行建模和提问。结果是对66200个结构进行了正确的分析，并证明了依赖于织物的有效方法和正确的方法论模型。

{"title":"Разрешение стрелочной омонимии в конструкциях с сирконстантами средствами онтологической семантики","authors":"Алина Андреевна Захарова","doi":"10.17586/2541-9781-2020-4-73-82","DOIUrl":"https://doi.org/10.17586/2541-9781-2020-4-73-82","url":null,"abstract":"В статье описывается экспериментальное исследование метода разрешения синтаксической неоднозначности в конструкциях с сирконстантами с помощью онтологической семантики на основе универсального лингвистического процессора AIIRE (Artificial Intelligence Information Retrieval Engine). Выявлены четыре типа неоднозначных конструкций с сирконстантами, и составлены соответствующие поисковые запросы в Национальный корпус русского языка (НКРЯ). В результате получен список из 200 неоднозначных конструкций. Неоднозначность в конструкциях устраняется путем автоматического разбора и последующего ручного выбора его правильных вариантов. Однако на этом этапе возможны следующие проблемы: «разрывы» внутри конструкций, которые обозначают отсутствие нужных семантических связей внутри конструкции, а также большое количество вариантов синтаксического анализа, называемое комбинаторным взрывом. Эти проблемы решаются с помощью таких инструментов AIIRE, как Ontohelper и онтология. Онтология используется для обработки языковых данных и понимается как набор лексических значений или понятий и отношений между ними. Ontohelper – это вспомогательный инструмент с интерфейсом редактирования, где можно моделировать и задавать с помощью онтологическихотношенийвалентностиглаголов. В результате получаются корректные разборы для 66/200 конструкций, и обосновывается,чтоэффективностьданногометодазависитоткачестваиправильностимоделированияпонятийвонтологии.","PeriodicalId":267743,"journal":{"name":"Компьютерная лингвистика и вычислительные онтологии","volume":"23 1","pages":"0"},"PeriodicalIF":0.0,"publicationDate":"2020-12-17","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"128277468","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}

引用次数: 0

Подготовка набора данных для вопросно-ответного поиска по базе знаний. Первый этап: сопоставление сущностей 准备一组数据，以便在数据库中进行问答搜索。第一阶段:实体比较

Компьютерная лингвистика и вычислительные онтологии

Pub Date : 2020-12-17 DOI: 10.17586/2541-9781-2020-4-98-108

Владислав Олегович Кораблинов

На текущий момент вопросно-ответный поиск по базам знаний является активно развивающейся областью. Новые подходы демонстрируют стабильное повышение качества, однако такое развитие было бы невозможно без разработки наборов данных, позволяющих обучать модели, измерять их качество и ставить все более сложные задачи. К сожалению, все существующие наборы данных содержат вопросы только на английском языке, что ограничивает исследования в этой области для других языков. Мы хотим заполнить этот пробел, разработав набор данных для оценки методов вопросно-ответного поиска по базам знаний на русском языке. В данной работе описывается способ создания такого набора данных с помощью краудсорсинга , одним из ключевых этапов которого является выделение в текстах вопросов и ответов упоминаний сущностей и их сопоставление с сущностями базы знаний. Разработанный нами алгоритм позволяет строить списки таких возможных упоминаний и находить правильную сущность в 95% случаев. При этом алгоритм автоматически связывает фрагменты текста с сущностями базы знаний Wikidata . Полученные списки в дальнейшем будут использованы для получения разметки вопросов и ответов, необходимой для создания нового набора данных.

目前，对知识数据库的问答搜索是一个积极发展的领域。新方法显示了质量的持续提高，但如果没有开发一组数据集，就不可能实现这一发展，使模型能够培训、测量和执行越来越复杂的任务。不幸的是，所有现有的数据集只包含英语问题，这限制了其他语言的研究。我们想要填补这一空白，开发一组数据来评估在俄语数据库中进行问答搜索的方法。本文描述了众包生成这一数据的方法，其中一个关键步骤是在文本中突出提到实体及其与知识基础的问题和响应。我们开发的算法允许我们列出这些可能的引用列表，并在95%的情况下找到正确的实体。该算法将文本片段自动连接到维基数据数据库的核心。收到的列表将进一步用于创建创建新数据集所需的问题和答案标记。

{"title":"Подготовка набора данных для вопросно-ответного поиска по базе знаний. Первый этап: сопоставление сущностей","authors":"Владислав Олегович Кораблинов","doi":"10.17586/2541-9781-2020-4-98-108","DOIUrl":"https://doi.org/10.17586/2541-9781-2020-4-98-108","url":null,"abstract":"На текущий момент вопросно-ответный поиск по базам знаний является активно развивающейся областью. Новые подходы демонстрируют стабильное повышение качества, однако такое развитие было бы невозможно без разработки наборов данных, позволяющих обучать модели, измерять их качество и ставить все более сложные задачи. К сожалению, все существующие наборы данных содержат вопросы только на английском языке, что ограничивает исследования в этой области для других языков. Мы хотим заполнить этот пробел, разработав набор данных для оценки методов вопросно-ответного поиска по базам знаний на русском языке. В данной работе описывается способ создания такого набора данных с помощью краудсорсинга , одним из ключевых этапов которого является выделение в текстах вопросов и ответов упоминаний сущностей и их сопоставление с сущностями базы знаний. Разработанный нами алгоритм позволяет строить списки таких возможных упоминаний и находить правильную сущность в 95% случаев. При этом алгоритм автоматически связывает фрагменты текста с сущностями базы знаний Wikidata . Полученные списки в дальнейшем будут использованы для получения разметки вопросов и ответов, необходимой для создания нового набора данных.","PeriodicalId":267743,"journal":{"name":"Компьютерная лингвистика и вычислительные онтологии","volume":"11 1","pages":"0"},"PeriodicalIF":0.0,"publicationDate":"2020-12-17","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"128517911","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}

引用次数: 0

О возможности использования корпуса NOW в курсе английского для специальных целей для студентов специальности «Биотехнология» 关于使用NOW军团为生物技术专业学生特别使用英语的可能性

Компьютерная лингвистика и вычислительные онтологии

Pub Date : 2020-12-17 DOI: 10.17586/2541-9781-2020-4-29-43

И. В. Кузнецова, Марина Самуиловна Коган

В статье исследуются возможности применения лингвистических корпусов для обучения английскому для специальных целей (АСЦ) студентов – биотехнологов . Доказывается целесообразность поиска релевантного корпуса, находящегося в свободном доступе, по сравнению с созданием собственного специального корпуса для данной предметной области. Обосновывается целесообразность исследования/проверки релевантности корпусов COCA и NOW как дополнительного ресурса в курсе АСЦ для направления подготовки «Биотехнология». В качестве критериев релевантности корпуса были выбраны следующие: 1) наличие в корпусе биотехнологических терминов, 2) их частотность и 3) доступность полных текстов, фрагменты которых представлены в конкордансах с терминами по биотехнологии. В ходе эксперимента подготовленные с помощью корпуса NOW задания были опробованы в группе бакалавров-биотехнологов 3го курса, изучающих АСЦ. Рассматриваются примеры заданий, используемые в эксперименте. Это задания с раздаточными материалами, подготовленными преподавателем на основе материалов корпуса, а также задания на прямое использование корпуса студентами - биотехнологами для решения таких задач как поиск коллокатов , выбор правильного артикля, поиск и анализ нетипичных форм множественного числа биотехнологических терминов и др. Показано, что студенты успешно применяли полученные в ходе работы с корпусом знания для развития продуктивных навыков (говорение, письмо) и своих аналитических способностей. Отзывы студентов об экспериментальном курсе в целом положительные. В заключение рассматриваются возможные направления дальнейших исследований в области применения лингвистических корпусов в курсе AC Ц.

这篇文章探索了语言学家将英语语言学应用于生物技术专业学生的可能性。与为本学科领域建立自己的特殊外壳相比，找到一个可自由使用的相关性被证明是合理的。研究/测试可口可乐机身相关性的可行性被认为是用于指导“生物技术”培训的asc课程中的额外资源。根据船体相关性的标准:1)生物技术术语的存在，2)它们的频率和3)完整文本的可用性，部分用生物技术术语表示。在这次实验中，在NOW军团的帮助下，生物技术学士小组在aic的第三年进行了测试。这是实验中使用的任务例子。讲义这个任务和训练教师基于材料船体外壳,以及任务直接使用生物技术为解决任务如学生寻找коллокат选择正确的介词,寻找和分析生物技术术语的复数形式和其他非典型性显示学生过程中获得的成功应用工作与船体知识生产力发展的技能(演讲还有他的分析能力。学生们对这门实验课程的反应总体上是积极的。最后，正在考虑进一步研究AC - c语言机体应用的可能方向。

{"title":"О возможности использования корпуса NOW в курсе английского для специальных целей для студентов специальности «Биотехнология»","authors":"И. В. Кузнецова, Марина Самуиловна Коган","doi":"10.17586/2541-9781-2020-4-29-43","DOIUrl":"https://doi.org/10.17586/2541-9781-2020-4-29-43","url":null,"abstract":"В статье исследуются возможности применения лингвистических корпусов для обучения английскому для специальных целей (АСЦ) студентов – биотехнологов . Доказывается целесообразность поиска релевантного корпуса, находящегося в свободном доступе, по сравнению с созданием собственного специального корпуса для данной предметной области. Обосновывается целесообразность исследования/проверки релевантности корпусов COCA и NOW как дополнительного ресурса в курсе АСЦ для направления подготовки «Биотехнология». В качестве критериев релевантности корпуса были выбраны следующие: 1) наличие в корпусе биотехнологических терминов, 2) их частотность и 3) доступность полных текстов, фрагменты которых представлены в конкордансах с терминами по биотехнологии. В ходе эксперимента подготовленные с помощью корпуса NOW задания были опробованы в группе бакалавров-биотехнологов 3го курса, изучающих АСЦ. Рассматриваются примеры заданий, используемые в эксперименте. Это задания с раздаточными материалами, подготовленными преподавателем на основе материалов корпуса, а также задания на прямое использование корпуса студентами - биотехнологами для решения таких задач как поиск коллокатов , выбор правильного артикля, поиск и анализ нетипичных форм множественного числа биотехнологических терминов и др. Показано, что студенты успешно применяли полученные в ходе работы с корпусом знания для развития продуктивных навыков (говорение, письмо) и своих аналитических способностей. Отзывы студентов об экспериментальном курсе в целом положительные. В заключение рассматриваются возможные направления дальнейших исследований в области применения лингвистических корпусов в курсе AC Ц.","PeriodicalId":267743,"journal":{"name":"Компьютерная лингвистика и вычислительные онтологии","volume":"43 1","pages":"0"},"PeriodicalIF":0.0,"publicationDate":"2020-12-17","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"114950929","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}

引用次数: 0