📊 表格结构识别

PyPI SemVer2.0 GitHub

简介

该仓库是用来对文档中表格做结构化识别的推理库,包括来自PaddleOCR的表格结构识别算法模型、来自阿里读光有线和无线表格识别算法模型等。

该仓库将表格识别前后处理做了完善,并结合OCR,保证表格识别部分可用。

该仓库会持续关注表格识别这一领域,集成最新最好用的表格识别算法,争取打造最具有落地价值的表格识别工具库。

欢迎大家持续关注。

表格结构化识别

表格结构识别(Table Structure Recognition, TSR)旨在提取表格图像的逻辑或物理结构,从而将非结构化的表格图像转换为机器可读的格式。

逻辑结构:表示单元格的行/列关系(例如同行、同列)和单元格的跨度信息。

物理结构:不仅包含逻辑结构,还包含单元格的包围框、内容等信息,强调单元格的物理位置。

图来自: Improving Table Structure Recognition with Visual-Alignment Sequential Coordinate Modeling

Last updated 23 Nov 2023, 08:31 +0800 . history