Derin sinir ağlarıyla Osmanlıca optik karakter tanıma

IF 1 4区 工程技术 Q3 ENGINEERING, MULTIDISCIPLINARY Journal of the Faculty of Engineering and Architecture of Gazi University Pub Date : 2023-04-12 DOI:10.17341/gazimmfd.1062596
İshak DÖLEK>, Atakan KURT>
{"title":"Derin sinir ağlarıyla Osmanlıca optik karakter tanıma","authors":"İshak DÖLEK>, Atakan KURT>","doi":"10.17341/gazimmfd.1062596","DOIUrl":null,"url":null,"abstract":"Bu makalede \"Osmanlıcadan Günümüz Türkçesine Uçtan Uca Aktarım Projesi\" kapsamında geliştirilen ve nesih hattıyla basılmış Osmanlıca (Osmanlı Türkçesi) doküman görüntülerini derin sinir ağı modelleriyle metne dönüştüren web tabanlı bir optik karakter tanıma (OCR) sistemi sunulmuştur. Sistemin derin sinir ağı mimarisi görüntü tanımada yaygın kullanılan CNN katmanlarından ve doğal dil işlemede yaygın kullanılan bir RNN türü olan iki yönlü LSTM katmanlarından oluşmaktadır. Eğitim için orijinal, sentetik ve hibrit olmak üzere 3 farklı veri kümesi hazırlanmış ve bunlarla aynı isimde 3 farklı OCR modeli oluşturulmuştur. Orijinal veri seti yaklaşık 1.000 sayfadan, sentetik veri seti ise yaklaşık 23.000 sayfadan oluşmaktadır. Geneline Osmanlica.com OCR adı verilen bu 3 model Tesseract’ın Arapça ve Farsça, Google Docs’ın Arapça, Abby FineReader’ın Arapça ve Miletos firmasının OCR model/araçlarıyla test için hazırladığımız 21 sayfalık orijinal doküman kümesi kullanılarak karşılaştırılmıştır. Kesin referans ve OCR çıktı metinleri kullanıcı ve yazılım kaynaklı hatalar içerdiğinden karşılaştırmadan önce metinler özel bir normalizasyon sürecinden geçirilmiştir. Karşılaştırma ham, normalize ve bitişik olmak üzere 3 farklı metin ve karakter, katar ve kelime tanıma olmak üzere 3 farklı ölçüt ile yapılmıştır. Osmanlica.com Hibrit modeli karakter tanımada %88,86 ham, %96,12 normalize ve %97,37 bitişik doğruluk oranlarıyla; bağlı karakter katarı tanımada %80,48 ham, %91,60 normalize ve %97,37 bitişik doğruluk oranlarıyla; kelime tanımada %44.08 ham ve %66.45 normalize doğruluk oranlarıyla diğer modellerden belirgin şekilde daha iyi sonuçlar üretmiştir. Makalede Osmanlı alfabesinin kendine özgü karakteristiklerinin OCR üstündeki etkilerini gözlemlemek için Osmanlıcanın karakter, katar ve kelime ölçütlerinde sıklık analizi çalışması yapılmıştır. Bu sıklık analizi çalışmasında alfabedeki karakterler bitişebilme, harf gövdesi, noktaların konumu ve sayıları, karakterin türü, kaynak dil vb. ayırt edici özelliklere göre gruplandırılmış grup bazında sıklıklar hesaplanmıştır. Yapılan karşılaştırma deneylerinde karakter tanıma doğruluk oranları grup bazında hesaplanarak ayrıca incelenmiştir. Deneylerde sadece karakter tanıma doğruluk oranlarıyla yetinilmemiş, hatalar detaylı olarak incelenmiş, harf bazındaki OCR hataları ekleme, silme ve yer değiştime işlemleri cinsinden ortaya konulmuştur. Böylece en çok hangi harfin hangi harflerle karıştırıldığı, en çok hangi harflerin gözden kaçırıldığı, hangi durumlarda hangi tür hataların daha çok ortaya çıktığı vb. durumlar sadece kendi OCR modelimizde değil diğer tüm modeller için ortaya konulmuştur. Bu bulguların hem verilerin ön/son işlemesinde hem de modellerin iyileştirmesinde değerli katkılar sağlayacağını düşünüyoruz. Karşılaştırmada kullanılan 21 sayfalık orijinal doküman görüntüleri, kesin referans metinleri, modellerin OCR çıktıları ve normalizasyonu yapıp doğruluk oranlarını hesaplayan Python programını içeren test veri kümesi osmanlica.com/test adresinde paylaşılmıştır.","PeriodicalId":51103,"journal":{"name":"Journal of the Faculty of Engineering and Architecture of Gazi University","volume":"59 1","pages":"0"},"PeriodicalIF":1.0000,"publicationDate":"2023-04-12","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"0","resultStr":null,"platform":"Semanticscholar","paperid":null,"PeriodicalName":"Journal of the Faculty of Engineering and Architecture of Gazi University","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.17341/gazimmfd.1062596","RegionNum":4,"RegionCategory":"工程技术","ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"Q3","JCRName":"ENGINEERING, MULTIDISCIPLINARY","Score":null,"Total":0}
引用次数: 0

Abstract

Bu makalede "Osmanlıcadan Günümüz Türkçesine Uçtan Uca Aktarım Projesi" kapsamında geliştirilen ve nesih hattıyla basılmış Osmanlıca (Osmanlı Türkçesi) doküman görüntülerini derin sinir ağı modelleriyle metne dönüştüren web tabanlı bir optik karakter tanıma (OCR) sistemi sunulmuştur. Sistemin derin sinir ağı mimarisi görüntü tanımada yaygın kullanılan CNN katmanlarından ve doğal dil işlemede yaygın kullanılan bir RNN türü olan iki yönlü LSTM katmanlarından oluşmaktadır. Eğitim için orijinal, sentetik ve hibrit olmak üzere 3 farklı veri kümesi hazırlanmış ve bunlarla aynı isimde 3 farklı OCR modeli oluşturulmuştur. Orijinal veri seti yaklaşık 1.000 sayfadan, sentetik veri seti ise yaklaşık 23.000 sayfadan oluşmaktadır. Geneline Osmanlica.com OCR adı verilen bu 3 model Tesseract’ın Arapça ve Farsça, Google Docs’ın Arapça, Abby FineReader’ın Arapça ve Miletos firmasının OCR model/araçlarıyla test için hazırladığımız 21 sayfalık orijinal doküman kümesi kullanılarak karşılaştırılmıştır. Kesin referans ve OCR çıktı metinleri kullanıcı ve yazılım kaynaklı hatalar içerdiğinden karşılaştırmadan önce metinler özel bir normalizasyon sürecinden geçirilmiştir. Karşılaştırma ham, normalize ve bitişik olmak üzere 3 farklı metin ve karakter, katar ve kelime tanıma olmak üzere 3 farklı ölçüt ile yapılmıştır. Osmanlica.com Hibrit modeli karakter tanımada %88,86 ham, %96,12 normalize ve %97,37 bitişik doğruluk oranlarıyla; bağlı karakter katarı tanımada %80,48 ham, %91,60 normalize ve %97,37 bitişik doğruluk oranlarıyla; kelime tanımada %44.08 ham ve %66.45 normalize doğruluk oranlarıyla diğer modellerden belirgin şekilde daha iyi sonuçlar üretmiştir. Makalede Osmanlı alfabesinin kendine özgü karakteristiklerinin OCR üstündeki etkilerini gözlemlemek için Osmanlıcanın karakter, katar ve kelime ölçütlerinde sıklık analizi çalışması yapılmıştır. Bu sıklık analizi çalışmasında alfabedeki karakterler bitişebilme, harf gövdesi, noktaların konumu ve sayıları, karakterin türü, kaynak dil vb. ayırt edici özelliklere göre gruplandırılmış grup bazında sıklıklar hesaplanmıştır. Yapılan karşılaştırma deneylerinde karakter tanıma doğruluk oranları grup bazında hesaplanarak ayrıca incelenmiştir. Deneylerde sadece karakter tanıma doğruluk oranlarıyla yetinilmemiş, hatalar detaylı olarak incelenmiş, harf bazındaki OCR hataları ekleme, silme ve yer değiştime işlemleri cinsinden ortaya konulmuştur. Böylece en çok hangi harfin hangi harflerle karıştırıldığı, en çok hangi harflerin gözden kaçırıldığı, hangi durumlarda hangi tür hataların daha çok ortaya çıktığı vb. durumlar sadece kendi OCR modelimizde değil diğer tüm modeller için ortaya konulmuştur. Bu bulguların hem verilerin ön/son işlemesinde hem de modellerin iyileştirmesinde değerli katkılar sağlayacağını düşünüyoruz. Karşılaştırmada kullanılan 21 sayfalık orijinal doküman görüntüleri, kesin referans metinleri, modellerin OCR çıktıları ve normalizasyonu yapıp doğruluk oranlarını hesaplayan Python programını içeren test veri kümesi osmanlica.com/test adresinde paylaşılmıştır.
查看原文
分享 分享
微信好友 朋友圈 QQ好友 复制链接
本刊更多论文
利用深度神经网络识别奥特曼光学字符
在本文中,我们介绍了在 "从奥斯曼土耳其语到现代土耳其语的端到端传输项目 "范围内开发的基于网络的光学字符识别(OCR)系统,该系统利用深度神经网络模型将用内西书法印刷的奥斯曼土耳其语文档图像转换为文本。该系统的深度神经网络架构由 CNN 层和双向 LSTM 层组成,前者广泛应用于图像识别,后者则是一种广泛应用于自然语言处理的 RNN。为训练准备了三个不同的数据集,即原始数据集、合成数据集和混合数据集,并创建了三个同名的不同 OCR 模型。原始数据集约有 1,000 页,合成数据集约有 23,000 页。使用我们为测试准备的 21 页原始文档集,将这 3 个模型(一般称为 Osmanlica.com OCR)与 Tesseract 的阿拉伯语和波斯语、Google Docs 的阿拉伯语、Abby FineReader 的阿拉伯语以及 Miletos 的 OCR 模型/工具进行了比较。由于准确的参考文献和 OCR 输出文本包含用户和软件错误,因此在比较之前对文本进行了特殊的规范化处理。比较使用了 3 种不同的文本(原始文本、规范化文本和连续文本)和 3 种不同的标准(字符、字符串和单词识别)。在字符识别方面,Osmanlica.com 混合模型的原始准确率为 88.86%,规范化准确率为 96.12%,连续准确率为 97.37%;在连接字符串识别方面,原始准确率为 80.48%,规范化准确率为 91.60%,连续准确率为 97.37%;在单词识别方面,原始准确率为 44.08%,规范化准确率为 66.45%。在本文中,为了观察奥斯曼字母的独特性对 OCR 的影响,对奥斯曼字母的字符、字符串和单词标准进行了频率分析研究。在这一频率分析研究中,字母表中的字符根据不同的特征(如尾音、字母体、点的位置和数量、字符类型、源语言等)进行了分组,并在分组的基础上计算了频率。在对比实验中,字符识别准确率按组计算,并分别进行分析。在实验中,不仅对字符识别准确率进行了分析,还对错误进行了详细分析,并从插入、删除和替换操作等方面揭示了基于字母的 OCR 错误。因此,哪些字母与哪些字母混淆、哪些字母遗漏最多、哪些类型的错误在哪些情况下发生得更频繁等问题,不仅在我们的 OCR 模型中得到了揭示,而且在所有其他模型中也得到了揭示。我们相信,这些发现将为数据的前后处理和模型的改进做出宝贵贡献。测试数据集包括用于比较的 21 页原始文档图像、准确的参考文本、模型的 OCR 输出以及计算归一化和准确率的 Python 程序,可在 osmanlica.com/test 上共享。
本文章由计算机程序翻译,如有差异,请以英文原文为准。
求助全文
约1分钟内获得全文 去求助
来源期刊
CiteScore
1.90
自引率
45.50%
发文量
51
审稿时长
6-12 weeks
期刊介绍: Gazi University Journal of the Faculty of Engineering and Architecture; Engineering qualifications described below and in the field of architecture research papers and invited articles by scanning is considered to be Turkish.
期刊最新文献
Makine Öğrenmesi Yöntemleri İle Eğitim Başarısının Tahmini Modeli Dynamic analysis of historıcal masonry arch bridges Zemin güçlendirmede maksimum dayanım için optimum bazalt fiber oranının belirlenmesi Merkez alıcılı güneş kulesi-buhar güç tümleşik sisteminin performans parametrelerinin incelenmesi Sismik dirençlilik ve spektral parametrelerin etkisi
×
引用
GB/T 7714-2015
复制
MLA
复制
APA
复制
导出至
BibTeX EndNote RefMan NoteFirst NoteExpress
×
×
提示
您的信息不完整,为了账户安全,请先补充。
现在去补充
×
提示
您因"违规操作"
具体请查看互助需知
我知道了
×
提示
现在去查看 取消
×
提示
确定
0
微信
客服QQ
Book学术公众号 扫码关注我们
反馈
×
意见反馈
请填写您的意见或建议
请填写您的手机或邮箱
已复制链接
已复制链接
快去分享给好友吧!
我知道了
×
扫码分享
扫码分享
Book学术官方微信
Book学术文献互助
Book学术文献互助群
群 号:481959085
Book学术
文献互助 智能选刊 最新文献 互助须知 联系我们:info@booksci.cn
Book学术提供免费学术资源搜索服务,方便国内外学者检索中英文文献。致力于提供最便捷和优质的服务体验。
Copyright © 2023 Book学术 All rights reserved.
ghs 京公网安备 11010802042870号 京ICP备2023020795号-1