Розпізнавання математичних формул на базі даних CROHME.

Naukovii visnik Uzhgorods''kogo universitetu Seriia Matematika i informatika Pub Date : 2021-05-27 DOI:10.24144/2616-7700.2021.38(1).137-142

Л. М. Дяконюк, А. С. Мудрик, Я. А. Корольчук, М. І. Кондор

{"title":"Розпізнавання математичних формул на базі даних CROHME.","authors":"Л. М. Дяконюк, А. С. Мудрик, Я. А. Корольчук, М. І. Кондор","doi":"10.24144/2616-7700.2021.38(1).137-142","DOIUrl":null,"url":null,"abstract":"У наш час найбільш точні моделі для розпізнавання об’єктів базуються на двоступеневому підході, популяризованому як R-CNN. На відміну від них, одноступеневі моделі, що застосовуються під час регулярного, детального відбору зразків, можуть бути швидшими та простішими, але вони не досягають точності двоступеневих моделей. Проте з новою функцією втрат, дисбаланс класу, який виникає під час тренування на наборі даних, зникає. Саме тому одноступенева модель має переваги в продуктивності та точності на відміну від двоступеневої. У роботі використано цей дисбаланс класів, щоб переформувати стандартні, перехресні ентропійні втрати таким чином, щоб зменшити їх. В архітектурі RetinaNet[1], функція втрат Focal Loss[1] сфокусовує навчання на наборі даних, які зустрічаються рідше, і запобігає перевантаженню моделі під час тренувань. Архітектура RetinaNet була протестована на наборі даних CROHME[4], що був розширений за допомогою алгоритму Data Augmentation[9] для збільшення частоти входження певних елементів формул. Також було порівняно дві бібліотеки машинного навчання: TensorFlow та Torch. Отримані результати показують, що коли модель тренується з фокальною втратою, RetinaNet показує дуже добрі результати та має хорошу швидкість виконання. Окрім того, отриману модель було інтегровано в веб-застосунок на основі мікросервісної архітектури. Основними веб-фреймворками було використано NodeJs для серверної частини та VueJs для рівня подання. Для роботи з базами даних ми використовуємо MongoDB. Розгортання програми відбувається за допомогою хмарної служби AWS на основі Lambda-функцій, що дає змогу виокремити процеси навчання, обробки, візуалізації та контролювати ресурси серверу окремо для кожного процесу.","PeriodicalId":33567,"journal":{"name":"Naukovii visnik Uzhgorods''kogo universitetu Seriia Matematika i informatika","volume":"38 1","pages":"137-142"},"PeriodicalIF":0.0000,"publicationDate":"2021-05-27","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"0","resultStr":null,"platform":"Semanticscholar","paperid":null,"PeriodicalName":"Naukovii visnik Uzhgorods''kogo universitetu Seriia Matematika i informatika","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.24144/2616-7700.2021.38(1).137-142","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"","JCRName":"","Score":null,"Total":0}

引用次数: 0

Abstract

У наш час найбільш точні моделі для розпізнавання об’єктів базуються на двоступеневому підході, популяризованому як R-CNN. На відміну від них, одноступеневі моделі, що застосовуються під час регулярного, детального відбору зразків, можуть бути швидшими та простішими, але вони не досягають точності двоступеневих моделей. Проте з новою функцією втрат, дисбаланс класу, який виникає під час тренування на наборі даних, зникає. Саме тому одноступенева модель має переваги в продуктивності та точності на відміну від двоступеневої. У роботі використано цей дисбаланс класів, щоб переформувати стандартні, перехресні ентропійні втрати таким чином, щоб зменшити їх. В архітектурі RetinaNet[1], функція втрат Focal Loss[1] сфокусовує навчання на наборі даних, які зустрічаються рідше, і запобігає перевантаженню моделі під час тренувань. Архітектура RetinaNet була протестована на наборі даних CROHME[4], що був розширений за допомогою алгоритму Data Augmentation[9] для збільшення частоти входження певних елементів формул. Також було порівняно дві бібліотеки машинного навчання: TensorFlow та Torch. Отримані результати показують, що коли модель тренується з фокальною втратою, RetinaNet показує дуже добрі результати та має хорошу швидкість виконання. Окрім того, отриману модель було інтегровано в веб-застосунок на основі мікросервісної архітектури. Основними веб-фреймворками було використано NodeJs для серверної частини та VueJs для рівня подання. Для роботи з базами даних ми використовуємо MongoDB. Розгортання програми відбувається за допомогою хмарної служби AWS на основі Lambda-функцій, що дає змогу виокремити процеси навчання, обробки, візуалізації та контролювати ресурси серверу окремо для кожного процесу.

查看原文

微信好友朋友圈 QQ好友复制链接

本刊更多论文

基于CROHME的数学公式识别。

如今，最准确的物体识别模型是基于两步方法，即R-CNN。与它们不同的是，适用于常规、详细采样的一步模型可能更快、更简单，但它们没有达到两步模型的精度。但随着新的损失函数的出现，在数据集训练中出现的课堂失衡现象已经消失。这就是为什么一步模型在生产率和准确性方面比两步模型有优势的原因。这种类不平衡用于以减少熵损失的方式转换标准横截面熵损失。在RetinaNet[1]架构中，Focal Loss[1]函数将学习集中在一组更频繁的数据上，并防止在训练期间重新加载模型。RetinaNet架构在CROHME[4]数据集上进行了演示，该数据集使用数据增强[9]算法进行了扩展，以增加某些公式元素的输入频率。还比较了两个机器学习库：TensorFlow和Torch。结果表明，当模型在焦点丢失的情况下训练时，RetinaNet显示出非常好的结果，并且具有良好的运行速度。此外，还将该模型集成到基于微服务体系结构的web应用程序中。主web框架使用NodeJ作为服务器，使用VueJ作为输出级别。我们使用MongoDB来处理数据库。该程序分散使用基于Lambda功能的AWS云服务，允许您为每个流程单独分离学习、处理、可视化和控制服务器资源。

本文章由计算机程序翻译，如有差异，请以英文原文为准。

求助全文

约1分钟内获得全文去求助

来源期刊

Naukovii visnik Uzhgorods''kogo universitetu Seriia Matematika i informatika

自引率

0.00%

发文量

审稿时长

12 weeks