Algoritmos para el reconocimiento de estructuras de tablas

IF 0.4 Q4 ENGINEERING, MULTIDISCIPLINARY Ingenius-Revista de Ciencia y Tecnologia Pub Date : 2020-12-31 DOI:10.17163/ings.n25.2021.05
Y. Escalona
{"title":"Algoritmos para el reconocimiento de estructuras de tablas","authors":"Y. Escalona","doi":"10.17163/ings.n25.2021.05","DOIUrl":null,"url":null,"abstract":"Las Tablas son una manera bien común de organizar y publicar datos. Por ejemplo, la Web posee un enorme número de tablas publicadas en HTML integradas en documentos PDF, o que pueden ser simplemente descargadas de páginas Web. Sin embargo, las tablas no siempre son fáciles de interpretar pues poseen una gran variedad de características y son organizadas en diferentes formatos. De hecho, se han desarrollado un gran número de métodos y herramientas para la interpretación de tablas. Este trabajo presenta la implementación de un algoritmo, basado en Campos Aleatorios Condicionales (CRF, Conditional Random Fields), para clasificar las filas de una tabla como fila de encabezado, fila de datos y fila metadatos. La implementación se complementa con dos algoritmos para reconocer tablas en hojas de cálculos, específicamente, basados en reglas y detección de regiones. Finalmente, el trabajo describe los resultados y beneficios obtenidos por la aplicación del algoritmo para tablas HTML, obtenidas desde la Web, y las tablas en forma de hojas de cálculo, descargadas desde el sitio Web de la Agencia Nacional de Petróleo de Brasil.","PeriodicalId":53899,"journal":{"name":"Ingenius-Revista de Ciencia y Tecnologia","volume":"1 1","pages":""},"PeriodicalIF":0.4000,"publicationDate":"2020-12-31","publicationTypes":"Journal Article","fieldsOfStudy":null,"isOpenAccess":false,"openAccessPdf":"","citationCount":"0","resultStr":null,"platform":"Semanticscholar","paperid":null,"PeriodicalName":"Ingenius-Revista de Ciencia y Tecnologia","FirstCategoryId":"1085","ListUrlMain":"https://doi.org/10.17163/ings.n25.2021.05","RegionNum":0,"RegionCategory":null,"ArticlePicture":[],"TitleCN":null,"AbstractTextCN":null,"PMCID":null,"EPubDate":"","PubModel":"","JCR":"Q4","JCRName":"ENGINEERING, MULTIDISCIPLINARY","Score":null,"Total":0}
引用次数: 0

Abstract

Las Tablas son una manera bien común de organizar y publicar datos. Por ejemplo, la Web posee un enorme número de tablas publicadas en HTML integradas en documentos PDF, o que pueden ser simplemente descargadas de páginas Web. Sin embargo, las tablas no siempre son fáciles de interpretar pues poseen una gran variedad de características y son organizadas en diferentes formatos. De hecho, se han desarrollado un gran número de métodos y herramientas para la interpretación de tablas. Este trabajo presenta la implementación de un algoritmo, basado en Campos Aleatorios Condicionales (CRF, Conditional Random Fields), para clasificar las filas de una tabla como fila de encabezado, fila de datos y fila metadatos. La implementación se complementa con dos algoritmos para reconocer tablas en hojas de cálculos, específicamente, basados en reglas y detección de regiones. Finalmente, el trabajo describe los resultados y beneficios obtenidos por la aplicación del algoritmo para tablas HTML, obtenidas desde la Web, y las tablas en forma de hojas de cálculo, descargadas desde el sitio Web de la Agencia Nacional de Petróleo de Brasil.
查看原文
分享 分享
微信好友 朋友圈 QQ好友 复制链接
本刊更多论文
表结构识别算法
表是组织和发布数据的一种常见方式。例如,Web上有大量以HTML形式发布的表格,这些表格集成到PDF文档中,或者可以简单地从Web页面下载。然而,表格并不总是容易解释的,因为它们有各种各样的特征,并以不同的格式组织。事实上,已经开发了大量的方法和工具来解释表格。本文提出了一种基于条件随机字段(CRF)的算法实现,将表中的行分类为标题行、数据行和元数据行。该实现由两种算法补充,用于识别电子表格中的表,特别是基于规则和区域检测。最后,本文描述了将该算法应用于从Web获得的HTML表格和从巴西国家石油机构网站下载的电子表格所获得的结果和好处。
本文章由计算机程序翻译,如有差异,请以英文原文为准。
求助全文
约1分钟内获得全文 去求助
来源期刊
Ingenius-Revista de Ciencia y Tecnologia
Ingenius-Revista de Ciencia y Tecnologia ENGINEERING, MULTIDISCIPLINARY-
CiteScore
0.90
自引率
0.00%
发文量
11
审稿时长
12 weeks
期刊最新文献
Study for localization of fault in the electrical distribution systems Propuesta metodológica para la protección de distancia en líneas de transmisión ante la integración de energías renovables no convencionales Aplicación de raíces cruzadas polinomiales al intercambio de energía radiante entre dos geometrías triangulares Metodología basada en ciencia de datos para el desarrollo de pronóstico de la generación de energía de una planta solar fotovoltaica Propuesta metodológica para el diseño y análisis de un monocasco Formula Student
×
引用
GB/T 7714-2015
复制
MLA
复制
APA
复制
导出至
BibTeX EndNote RefMan NoteFirst NoteExpress
×
×
提示
您的信息不完整,为了账户安全,请先补充。
现在去补充
×
提示
您因"违规操作"
具体请查看互助需知
我知道了
×
提示
现在去查看 取消
×
提示
确定
0
微信
客服QQ
Book学术公众号 扫码关注我们
反馈
×
意见反馈
请填写您的意见或建议
请填写您的手机或邮箱
已复制链接
已复制链接
快去分享给好友吧!
我知道了
×
扫码分享
扫码分享
Book学术官方微信
Book学术文献互助
Book学术文献互助群
群 号:481959085
Book学术
文献互助 智能选刊 最新文献 互助须知 联系我们:info@booksci.cn
Book学术提供免费学术资源搜索服务,方便国内外学者检索中英文文献。致力于提供最便捷和优质的服务体验。
Copyright © 2023 Book学术 All rights reserved.
ghs 京公网安备 11010802042870号 京ICP备2023020795号-1