Pub Date : 2020-12-17DOI: 10.17586/2541-9781-2020-4-54-60
Мария Владимировна Хохлова, Екатерина Владимировна Еникеева
В статье представлены результаты применения алгоритмов машинного обучения к задаче автоматического выявления глагольных и атрибутивных коллокаций . Изучение сочетаемости показало, что дистрибуционные модели могут быть успешно использованы для моделирования отношений внутри словосочетаний. Словосочетание признается значимым, если его векторное представление близко к векторному представлению заглавного слова. Нами были использованы следующие методы оценки коллокаций на основе машинного обучения и векторных представлений текстов: базовый метод, метод аналогии и линейного преобразования. Автоматически выделенные словосочетания сравнивались с данными, приведенными в лексикографических источниках (в толковых словарях и словарях сочетаемости, всего было рассмотрено пять источников), которые образовали так называемый золотой стандарт. Результаты показали, что рассматриваемые методы успешно используются для извлечения словосочетаний, в том числе находят те, которые не отражены в словарях. Данные примеры могут претендовать на лексикографическоое описание, хотя и не приведены в источниках и нуждаются в дополнительной экспертной проверке. Поэтому необходимо дополнительно провести сравнение использованных алгоритмов с другими статистическими метриками и увеличить количество словосочетаний, которые привлечены в качестве золотого стандарта.
{"title":"Методы машинного обучения применительно к задаче выделения глагольных и атрибутивных коллокаций","authors":"Мария Владимировна Хохлова, Екатерина Владимировна Еникеева","doi":"10.17586/2541-9781-2020-4-54-60","DOIUrl":"https://doi.org/10.17586/2541-9781-2020-4-54-60","url":null,"abstract":"В статье представлены результаты применения алгоритмов машинного обучения к задаче автоматического выявления глагольных и атрибутивных коллокаций . Изучение сочетаемости показало, что дистрибуционные модели могут быть успешно использованы для моделирования отношений внутри словосочетаний. Словосочетание признается значимым, если его векторное представление близко к векторному представлению заглавного слова. Нами были использованы следующие методы оценки коллокаций на основе машинного обучения и векторных представлений текстов: базовый метод, метод аналогии и линейного преобразования. Автоматически выделенные словосочетания сравнивались с данными, приведенными в лексикографических источниках (в толковых словарях и словарях сочетаемости, всего было рассмотрено пять источников), которые образовали так называемый золотой стандарт. Результаты показали, что рассматриваемые методы успешно используются для извлечения словосочетаний, в том числе находят те, которые не отражены в словарях. Данные примеры могут претендовать на лексикографическоое описание, хотя и не приведены в источниках и нуждаются в дополнительной экспертной проверке. Поэтому необходимо дополнительно провести сравнение использованных алгоритмов с другими статистическими метриками и увеличить количество словосочетаний, которые привлечены в качестве золотого стандарта.","PeriodicalId":267743,"journal":{"name":"Компьютерная лингвистика и вычислительные онтологии","volume":"10 1","pages":"0"},"PeriodicalIF":0.0,"publicationDate":"2020-12-17","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"114959562","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
Pub Date : 2020-12-17DOI: 10.17586/2541-9781-2020-4-83-97
Павел Ярославович Бахвалов
Задача автоматической проверки правописания является актуальной: Количество написанного текста увеличивается с каждым годом, также, как и количество людей, начинающих изучать новые языки, и всем нам, как людям, свойственно делать ошибки. Существует два основных подхода к решению данной задачи: подход, основанный на машинном обучении, и подход, основанный на правилах. Первый имеет более высокое качество и не требует привлечение лингвистов, но с другой стороны второй позволяет объяснить пользователю причину ошибки и требует значительно меньше вычислительных ресурсов. Эти подходы можно комбинировать, объединяя их преимущества, и получать выигрыш в качестве. В настоящей работе представлен способ автоматического получения правил из аннотированного набора данных, которыми могут быть расширены системы автоматической проверки правописания после добавления описания. За основу был взят подход Transformation-Based Learning (TBL), который был доработан для использования на данных с большим количеством признаков. В результате были сгенерированы 1238 правил для 36 категорий ошибок. После этого, существующая система по проверке правописания LanguageTool была расширена полученными правилами и показала улучшение качества работы.
{"title":"Разработка и реализация методов генерации правил для автоматической проверки правописания","authors":"Павел Ярославович Бахвалов","doi":"10.17586/2541-9781-2020-4-83-97","DOIUrl":"https://doi.org/10.17586/2541-9781-2020-4-83-97","url":null,"abstract":"Задача автоматической проверки правописания является актуальной: Количество написанного текста увеличивается с каждым годом, также, как и количество людей, начинающих изучать новые языки, и всем нам, как людям, свойственно делать ошибки. Существует два основных подхода к решению данной задачи: подход, основанный на машинном обучении, и подход, основанный на правилах. Первый имеет более высокое качество и не требует привлечение лингвистов, но с другой стороны второй позволяет объяснить пользователю причину ошибки и требует значительно меньше вычислительных ресурсов. Эти подходы можно комбинировать, объединяя их преимущества, и получать выигрыш в качестве. В настоящей работе представлен способ автоматического получения правил из аннотированного набора данных, которыми могут быть расширены системы автоматической проверки правописания после добавления описания. За основу был взят подход Transformation-Based Learning (TBL), который был доработан для использования на данных с большим количеством признаков. В результате были сгенерированы 1238 правил для 36 категорий ошибок. После этого, существующая система по проверке правописания LanguageTool была расширена полученными правилами и показала улучшение качества работы.","PeriodicalId":267743,"journal":{"name":"Компьютерная лингвистика и вычислительные онтологии","volume":"7 1","pages":"0"},"PeriodicalIF":0.0,"publicationDate":"2020-12-17","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"114223144","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
Pub Date : 2020-12-17DOI: 10.17586/2541-9781-2020-4-109-117
Станислав Витальевич Микони
Предлагается применение системного подхода к анализу определения понятия. Оно рассматривается как текстовая модель, к которой применимы собственные свойства модели. Эти свойства выводятся из модели языка предикатов первого порядка, каковой является алгебраическая структура. К собственным свойствам модели отнесены функция объекта, реализующая её операция и структура. Каждое свойство представляется элементарной моделью: функциональной (Ф-модель), операционной (О-модель) и структурной (С-модель) моделью. Использование этих моделей для анализа определения понятия названо соответственно функциональным, операционным и структурным подходом. Сущность каждого подхода поясняется на примере определения термина «менеджмент качества», взятого из международного терминологического стандарта. Для иллюстрации подходов применяются наглядные модели графов. Структурный подход позволяет найти избыточные и недостающие поясняющие слова в определения понятия, представленного в форме повествовательного предложения. Функциональный подход позволяет оценить полноту содержания понятия и наличие порочных циклов. Операционный подход уточняет понятия, относящиеся к категории действия, через элементарные действия.
{"title":"Три подхода к определению понятий на основе собственных свойств модели","authors":"Станислав Витальевич Микони","doi":"10.17586/2541-9781-2020-4-109-117","DOIUrl":"https://doi.org/10.17586/2541-9781-2020-4-109-117","url":null,"abstract":"Предлагается применение системного подхода к анализу определения понятия. Оно рассматривается как текстовая модель, к которой применимы собственные свойства модели. Эти свойства выводятся из модели языка предикатов первого порядка, каковой является алгебраическая структура. К собственным свойствам модели отнесены функция объекта, реализующая её операция и структура. Каждое свойство представляется элементарной моделью: функциональной (Ф-модель), операционной (О-модель) и структурной (С-модель) моделью. Использование этих моделей для анализа определения понятия названо соответственно функциональным, операционным и структурным подходом. Сущность каждого подхода поясняется на примере определения термина «менеджмент качества», взятого из международного терминологического стандарта. Для иллюстрации подходов применяются наглядные модели графов. Структурный подход позволяет найти избыточные и недостающие поясняющие слова в определения понятия, представленного в форме повествовательного предложения. Функциональный подход позволяет оценить полноту содержания понятия и наличие порочных циклов. Операционный подход уточняет понятия, относящиеся к категории действия, через элементарные действия.","PeriodicalId":267743,"journal":{"name":"Компьютерная лингвистика и вычислительные онтологии","volume":"74 1","pages":"0"},"PeriodicalIF":0.0,"publicationDate":"2020-12-17","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"127658729","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
Pub Date : 2020-12-17DOI: 10.17586/2541-9781-2020-4-118-127
Александр Александрович Рогов, Александр Александрович Лебедев, Р В Абрамов, Николай Дмитриевич Москин, Кирилл Александрович Кулаков
В работе рассматривается совокупность статей Ф.М.Достоевского и других авторов (М.М.Достоевский, Н.Н. Страхов, А.А.Головачев, И.Н.Шилль , А.Григорьев, А.У.Порецкий , Я. П. Полонский), опубликованных в журналах «Время» и «Эпоха» в период 1861-1865 гг. В текстах выделялись фрагменты размером 500, 700 и 1000 слов. При этом для увеличения объема выборки использовался шаг для отсчета начала следующего фрагмента: 100, 200 слов и т.п. На основе частеречного распределения фрагментов текстов были построены деревья решений, в узлах которых находятся условия ветвления, основанные на частоте встречаемости той или иной n-граммы (последовательности из n закодированных частей речи). Анализ сильных позиций данных текстов (т.е. фрагментов, расположенных в начале или в конце текста) с помощью деревьев решений показывает возможность стилистической правки, которую вносил Ф. М. Достоевский в тексты изначальных авторов. Для проведения исследования использовалась информационная система СМАЛТ («Статистические методы анализа литературных текстов»), где была реализована автоматизированная разметка произведений с ручным контролем специалистов-филологов.
这篇论文探讨了陀思妥耶夫斯基和其他作家的文章(m . m . n . h . h . golovasev、e . h . schile、a . gregory、a . p . poersky)的总和。为了增加抽样量,使用步骤来计算下一个片段的开始:100、200个单词等等。通过解决方案树分析文本的强位置(即文本开头或结尾的片段),显示了f . m .陀思妥耶夫斯基在最初作者的文本中引入的风格修正的可能性。这项研究使用了smalt信息系统(“文学文本的统计分析方法”),在那里实现了由文献学专家手工控制的作品的自动标识。
{"title":"Применение деревьев решений для анализа сильных позиций текста в задаче атрибуции произведений Ф. М. Достоевского","authors":"Александр Александрович Рогов, Александр Александрович Лебедев, Р В Абрамов, Николай Дмитриевич Москин, Кирилл Александрович Кулаков","doi":"10.17586/2541-9781-2020-4-118-127","DOIUrl":"https://doi.org/10.17586/2541-9781-2020-4-118-127","url":null,"abstract":"В работе рассматривается совокупность статей Ф.М.Достоевского и других авторов (М.М.Достоевский, Н.Н. Страхов, А.А.Головачев, И.Н.Шилль , А.Григорьев, А.У.Порецкий , Я. П. Полонский), опубликованных в журналах «Время» и «Эпоха» в период 1861-1865 гг. В текстах выделялись фрагменты размером 500, 700 и 1000 слов. При этом для увеличения объема выборки использовался шаг для отсчета начала следующего фрагмента: 100, 200 слов и т.п. На основе частеречного распределения фрагментов текстов были построены деревья решений, в узлах которых находятся условия ветвления, основанные на частоте встречаемости той или иной n-граммы (последовательности из n закодированных частей речи). Анализ сильных позиций данных текстов (т.е. фрагментов, расположенных в начале или в конце текста) с помощью деревьев решений показывает возможность стилистической правки, которую вносил Ф. М. Достоевский в тексты изначальных авторов. Для проведения исследования использовалась информационная система СМАЛТ («Статистические методы анализа литературных текстов»), где была реализована автоматизированная разметка произведений с ручным контролем специалистов-филологов.","PeriodicalId":267743,"journal":{"name":"Компьютерная лингвистика и вычислительные онтологии","volume":"6 1","pages":"0"},"PeriodicalIF":0.0,"publicationDate":"2020-12-17","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"122606794","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
Pub Date : 2020-12-17DOI: 10.17586/2541-9781-2020-4-44-53
Елена Евгеньевна Соколова, Светлана Юрьевна Толдова
Работа посвящена дискурсивной разметке корпусов. В ней анализируется состав отношений, принятых в корпусе Ru -RSTreebank . Это корпус, размеченный в рамках теории риторических структур В.Манн и С.Томпсон. При разметке корпуса был принят ряд решений относительно модификаций исходного набора отношений. В статье рассматриваются проблемы, вызванные одним из противоречий, с которым сталкиваются разработчики при создании стандартов лингвистической разметки. Это противоречие между стремлением как можно более точно отразить лингвистическую реальность, с одной стороны, и требованием обеспечить устойчивость разметки, с другой. В статье на примере дискурсивной разметки анализируются проблемы, возникающие в случае упрощения разметки для обеспечения необходимой степени согласия аннотаторов .
{"title":"К вопросу о формировании набора отношений для корпуса с дискурсивной разметкой текста","authors":"Елена Евгеньевна Соколова, Светлана Юрьевна Толдова","doi":"10.17586/2541-9781-2020-4-44-53","DOIUrl":"https://doi.org/10.17586/2541-9781-2020-4-44-53","url":null,"abstract":"Работа посвящена дискурсивной разметке корпусов. В ней анализируется состав отношений, принятых в корпусе Ru -RSTreebank . Это корпус, размеченный в рамках теории риторических структур В.Манн и С.Томпсон. При разметке корпуса был принят ряд решений относительно модификаций исходного набора отношений. В статье рассматриваются проблемы, вызванные одним из противоречий, с которым сталкиваются разработчики при создании стандартов лингвистической разметки. Это противоречие между стремлением как можно более точно отразить лингвистическую реальность, с одной стороны, и требованием обеспечить устойчивость разметки, с другой. В статье на примере дискурсивной разметки анализируются проблемы, возникающие в случае упрощения разметки для обеспечения необходимой степени согласия аннотаторов .","PeriodicalId":267743,"journal":{"name":"Компьютерная лингвистика и вычислительные онтологии","volume":"15 1","pages":"0"},"PeriodicalIF":0.0,"publicationDate":"2020-12-17","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"132072575","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
Pub Date : 2020-12-17DOI: 10.17586/2541-9781-2020-4-21-28
Александр Олегович Гребенников, Наталия Михайловна Марусенко
Исследование строится на базе представительного «Корпуса русских рассказов 1900 – 1930-х гг.». Для выборки из первого периода включенных в Корпус текстов (100 рассказов с 1900 по 1913 гг. отобранных по принципу не более одного рассказа от каждого из включённых в Корпус авторов) был построен частотный словарь. С целью выявления ключевых слов, соответствующих основной тематике рассказов, а также прослеживания влияния крупномасштабных политических изменений на язык художественной прозы первые 100 наиболее частотных знаменательных слов словаря были сопоставлены с данными полученных авторами ранее частотных словарей отдельных русских писателей – признанных мастеров рассказа и материалами частотного словаря русского языка в целом. Также было проведено сравнение с данными для русских рассказов аналогичного периода начала XXI века, полученными из НКРЯ. Для получения объективных результатов сравнения использовался показатель числа употреблений на миллион слов (ipm ). Полученные результаты показывают, что распределение частот знаменательных слов в верхней зоне словаря может служить хорошим индикатором общей тематики произведений не только отдельного писателя, но и отдельной эпохи, а также отражать актуальные внешние аспекты жизни общества.
{"title":"Корпус русского рассказа начала XX века. Пример лингвостатистического анализа.","authors":"Александр Олегович Гребенников, Наталия Михайловна Марусенко","doi":"10.17586/2541-9781-2020-4-21-28","DOIUrl":"https://doi.org/10.17586/2541-9781-2020-4-21-28","url":null,"abstract":"Исследование строится на базе представительного «Корпуса русских рассказов 1900 – 1930-х гг.». Для выборки из первого периода включенных в Корпус текстов (100 рассказов с 1900 по 1913 гг. отобранных по принципу не более одного рассказа от каждого из включённых в Корпус авторов) был построен частотный словарь. С целью выявления ключевых слов, соответствующих основной тематике рассказов, а также прослеживания влияния крупномасштабных политических изменений на язык художественной прозы первые 100 наиболее частотных знаменательных слов словаря были сопоставлены с данными полученных авторами ранее частотных словарей отдельных русских писателей – признанных мастеров рассказа и материалами частотного словаря русского языка в целом. Также было проведено сравнение с данными для русских рассказов аналогичного периода начала XXI века, полученными из НКРЯ. Для получения объективных результатов сравнения использовался показатель числа употреблений на миллион слов (ipm ). Полученные результаты показывают, что распределение частот знаменательных слов в верхней зоне словаря может служить хорошим индикатором общей тематики произведений не только отдельного писателя, но и отдельной эпохи, а также отражать актуальные внешние аспекты жизни общества.","PeriodicalId":267743,"journal":{"name":"Компьютерная лингвистика и вычислительные онтологии","volume":"44 1","pages":"0"},"PeriodicalIF":0.0,"publicationDate":"2020-12-17","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"122516999","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
Pub Date : 2020-12-17DOI: 10.17586/2541-9781-2020-4-63-72
Мария Олеговна Смирнова, Алексей Владимирович Добров, Анастасия Евгеньевна Доброва, Николай Леонидович Сомс, Ольга Владимировна Джангольская
В данной статье описываются методы моделирования тибетских номинализованных глагольных групп в формальной грамматике и компьютерной онтологии. В тибетском языке широко используется номинализайия глаголов с помощью добавления к глагольному корню суффиксов-номинализаторов . Помимо основного номинализатораpa , образующего субстантивированные причастия, есть ряд существительных, так называемых квази-номинализаторов , которые могут употребляться и как знаменательные существительные, и как суффиксы-номинализаторы (например, tshul 'способ') . Номинализованный глагол может образовывать глагольную группу любой длины и сложности. Тибетские именные формы глагола и номинализованные глагольные группы могут идиоматизироваться , что требует специального моделирования их значений в компьютерной онтологии. В статье рассматриваются виды тибетских номинализаторов и квази-номинализаторов , особенности образования идиоматизированных глагольных групп с различными назначениями и способы моделирования их в онтологии.
{"title":"Моделирование тибетский номинализованных глагольных групп в онтологии и формальной грамматике","authors":"Мария Олеговна Смирнова, Алексей Владимирович Добров, Анастасия Евгеньевна Доброва, Николай Леонидович Сомс, Ольга Владимировна Джангольская","doi":"10.17586/2541-9781-2020-4-63-72","DOIUrl":"https://doi.org/10.17586/2541-9781-2020-4-63-72","url":null,"abstract":"В данной статье описываются методы моделирования тибетских номинализованных глагольных групп в формальной грамматике и компьютерной онтологии. В тибетском языке широко используется номинализайия глаголов с помощью добавления к глагольному корню суффиксов-номинализаторов . Помимо основного номинализатораpa , образующего субстантивированные причастия, есть ряд существительных, так называемых квази-номинализаторов , которые могут употребляться и как знаменательные существительные, и как суффиксы-номинализаторы (например, tshul 'способ') . Номинализованный глагол может образовывать глагольную группу любой длины и сложности. Тибетские именные формы глагола и номинализованные глагольные группы могут идиоматизироваться , что требует специального моделирования их значений в компьютерной онтологии. В статье рассматриваются виды тибетских номинализаторов и квази-номинализаторов , особенности образования идиоматизированных глагольных групп с различными назначениями и способы моделирования их в онтологии.","PeriodicalId":267743,"journal":{"name":"Компьютерная лингвистика и вычислительные онтологии","volume":"6 1","pages":"0"},"PeriodicalIF":0.0,"publicationDate":"2020-12-17","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"124679951","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
Pub Date : 2020-12-17DOI: 10.17586/2541-9781-2020-4-73-82
Алина Андреевна Захарова
В статье описывается экспериментальное исследование метода разрешения синтаксической неоднозначности в конструкциях с сирконстантами с помощью онтологической семантики на основе универсального лингвистического процессора AIIRE (Artificial Intelligence Information Retrieval Engine). Выявлены четыре типа неоднозначных конструкций с сирконстантами, и составлены соответствующие поисковые запросы в Национальный корпус русского языка (НКРЯ). В результате получен список из 200 неоднозначных конструкций. Неоднозначность в конструкциях устраняется путем автоматического разбора и последующего ручного выбора его правильных вариантов. Однако на этом этапе возможны следующие проблемы: «разрывы» внутри конструкций, которые обозначают отсутствие нужных семантических связей внутри конструкции, а также большое количество вариантов синтаксического анализа, называемое комбинаторным взрывом. Эти проблемы решаются с помощью таких инструментов AIIRE, как Ontohelper и онтология. Онтология используется для обработки языковых данных и понимается как набор лексических значений или понятий и отношений между ними. Ontohelper – это вспомогательный инструмент с интерфейсом редактирования, где можно моделировать и задавать с помощью онтологическихотношенийвалентностиглаголов. В результате получаются корректные разборы для 66/200 конструкций, и обосновывается,чтоэффективностьданногометодазависитоткачестваиправильностимоделированияпонятийвонтологии.
{"title":"Разрешение стрелочной омонимии в конструкциях с сирконстантами средствами онтологической семантики","authors":"Алина Андреевна Захарова","doi":"10.17586/2541-9781-2020-4-73-82","DOIUrl":"https://doi.org/10.17586/2541-9781-2020-4-73-82","url":null,"abstract":"В статье описывается экспериментальное исследование метода разрешения синтаксической неоднозначности в конструкциях с сирконстантами с помощью онтологической семантики на основе универсального лингвистического процессора AIIRE (Artificial Intelligence Information Retrieval Engine). Выявлены четыре типа неоднозначных конструкций с сирконстантами, и составлены соответствующие поисковые запросы в Национальный корпус русского языка (НКРЯ). В результате получен список из 200 неоднозначных конструкций. Неоднозначность в конструкциях устраняется путем автоматического разбора и последующего ручного выбора его правильных вариантов. Однако на этом этапе возможны следующие проблемы: «разрывы» внутри конструкций, которые обозначают отсутствие нужных семантических связей внутри конструкции, а также большое количество вариантов синтаксического анализа, называемое комбинаторным взрывом. Эти проблемы решаются с помощью таких инструментов AIIRE, как Ontohelper и онтология. Онтология используется для обработки языковых данных и понимается как набор лексических значений или понятий и отношений между ними. Ontohelper – это вспомогательный инструмент с интерфейсом редактирования, где можно моделировать и задавать с помощью онтологическихотношенийвалентностиглаголов. В результате получаются корректные разборы для 66/200 конструкций, и обосновывается,чтоэффективностьданногометодазависитоткачестваиправильностимоделированияпонятийвонтологии.","PeriodicalId":267743,"journal":{"name":"Компьютерная лингвистика и вычислительные онтологии","volume":"23 1","pages":"0"},"PeriodicalIF":0.0,"publicationDate":"2020-12-17","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"128277468","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
Pub Date : 2020-12-17DOI: 10.17586/2541-9781-2020-4-98-108
Владислав Олегович Кораблинов
На текущий момент вопросно-ответный поиск по базам знаний является активно развивающейся областью. Новые подходы демонстрируют стабильное повышение качества, однако такое развитие было бы невозможно без разработки наборов данных, позволяющих обучать модели, измерять их качество и ставить все более сложные задачи. К сожалению, все существующие наборы данных содержат вопросы только на английском языке, что ограничивает исследования в этой области для других языков. Мы хотим заполнить этот пробел, разработав набор данных для оценки методов вопросно-ответного поиска по базам знаний на русском языке. В данной работе описывается способ создания такого набора данных с помощью краудсорсинга , одним из ключевых этапов которого является выделение в текстах вопросов и ответов упоминаний сущностей и их сопоставление с сущностями базы знаний. Разработанный нами алгоритм позволяет строить списки таких возможных упоминаний и находить правильную сущность в 95% случаев. При этом алгоритм автоматически связывает фрагменты текста с сущностями базы знаний Wikidata . Полученные списки в дальнейшем будут использованы для получения разметки вопросов и ответов, необходимой для создания нового набора данных.
{"title":"Подготовка набора данных для вопросно-ответного поиска по базе знаний. Первый этап: сопоставление сущностей","authors":"Владислав Олегович Кораблинов","doi":"10.17586/2541-9781-2020-4-98-108","DOIUrl":"https://doi.org/10.17586/2541-9781-2020-4-98-108","url":null,"abstract":"На текущий момент вопросно-ответный поиск по базам знаний является активно развивающейся областью. Новые подходы демонстрируют стабильное повышение качества, однако такое развитие было бы невозможно без разработки наборов данных, позволяющих обучать модели, измерять их качество и ставить все более сложные задачи. К сожалению, все существующие наборы данных содержат вопросы только на английском языке, что ограничивает исследования в этой области для других языков. Мы хотим заполнить этот пробел, разработав набор данных для оценки методов вопросно-ответного поиска по базам знаний на русском языке. В данной работе описывается способ создания такого набора данных с помощью краудсорсинга , одним из ключевых этапов которого является выделение в текстах вопросов и ответов упоминаний сущностей и их сопоставление с сущностями базы знаний. Разработанный нами алгоритм позволяет строить списки таких возможных упоминаний и находить правильную сущность в 95% случаев. При этом алгоритм автоматически связывает фрагменты текста с сущностями базы знаний Wikidata . Полученные списки в дальнейшем будут использованы для получения разметки вопросов и ответов, необходимой для создания нового набора данных.","PeriodicalId":267743,"journal":{"name":"Компьютерная лингвистика и вычислительные онтологии","volume":"11 1","pages":"0"},"PeriodicalIF":0.0,"publicationDate":"2020-12-17","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"128517911","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}
Pub Date : 2020-12-17DOI: 10.17586/2541-9781-2020-4-29-43
И. В. Кузнецова, Марина Самуиловна Коган
В статье исследуются возможности применения лингвистических корпусов для обучения английскому для специальных целей (АСЦ) студентов – биотехнологов . Доказывается целесообразность поиска релевантного корпуса, находящегося в свободном доступе, по сравнению с созданием собственного специального корпуса для данной предметной области. Обосновывается целесообразность исследования/проверки релевантности корпусов COCA и NOW как дополнительного ресурса в курсе АСЦ для направления подготовки «Биотехнология». В качестве критериев релевантности корпуса были выбраны следующие: 1) наличие в корпусе биотехнологических терминов, 2) их частотность и 3) доступность полных текстов, фрагменты которых представлены в конкордансах с терминами по биотехнологии. В ходе эксперимента подготовленные с помощью корпуса NOW задания были опробованы в группе бакалавров-биотехнологов 3го курса, изучающих АСЦ. Рассматриваются примеры заданий, используемые в эксперименте. Это задания с раздаточными материалами, подготовленными преподавателем на основе материалов корпуса, а также задания на прямое использование корпуса студентами - биотехнологами для решения таких задач как поиск коллокатов , выбор правильного артикля, поиск и анализ нетипичных форм множественного числа биотехнологических терминов и др. Показано, что студенты успешно применяли полученные в ходе работы с корпусом знания для развития продуктивных навыков (говорение, письмо) и своих аналитических способностей. Отзывы студентов об экспериментальном курсе в целом положительные. В заключение рассматриваются возможные направления дальнейших исследований в области применения лингвистических корпусов в курсе AC Ц.
{"title":"О возможности использования корпуса NOW в курсе английского для специальных целей для студентов специальности «Биотехнология»","authors":"И. В. Кузнецова, Марина Самуиловна Коган","doi":"10.17586/2541-9781-2020-4-29-43","DOIUrl":"https://doi.org/10.17586/2541-9781-2020-4-29-43","url":null,"abstract":"В статье исследуются возможности применения лингвистических корпусов для обучения английскому для специальных целей (АСЦ) студентов – биотехнологов . Доказывается целесообразность поиска релевантного корпуса, находящегося в свободном доступе, по сравнению с созданием собственного специального корпуса для данной предметной области. Обосновывается целесообразность исследования/проверки релевантности корпусов COCA и NOW как дополнительного ресурса в курсе АСЦ для направления подготовки «Биотехнология». В качестве критериев релевантности корпуса были выбраны следующие: 1) наличие в корпусе биотехнологических терминов, 2) их частотность и 3) доступность полных текстов, фрагменты которых представлены в конкордансах с терминами по биотехнологии. В ходе эксперимента подготовленные с помощью корпуса NOW задания были опробованы в группе бакалавров-биотехнологов 3го курса, изучающих АСЦ. Рассматриваются примеры заданий, используемые в эксперименте. Это задания с раздаточными материалами, подготовленными преподавателем на основе материалов корпуса, а также задания на прямое использование корпуса студентами - биотехнологами для решения таких задач как поиск коллокатов , выбор правильного артикля, поиск и анализ нетипичных форм множественного числа биотехнологических терминов и др. Показано, что студенты успешно применяли полученные в ходе работы с корпусом знания для развития продуктивных навыков (говорение, письмо) и своих аналитических способностей. Отзывы студентов об экспериментальном курсе в целом положительные. В заключение рассматриваются возможные направления дальнейших исследований в области применения лингвистических корпусов в курсе AC Ц.","PeriodicalId":267743,"journal":{"name":"Компьютерная лингвистика и вычислительные онтологии","volume":"43 1","pages":"0"},"PeriodicalIF":0.0,"publicationDate":"2020-12-17","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":null,"resultStr":null,"platform":"Semanticscholar","paperid":"114950929","PeriodicalName":null,"FirstCategoryId":null,"ListUrlMain":null,"RegionNum":0,"RegionCategory":"","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":"","EPubDate":null,"PubModel":null,"JCR":null,"JCRName":null,"Score":null,"Total":0}