On this page
概览
简介
该仓库是用来对文档中表格做结构化识别的推理库,包括来自PaddleOCR的表格结构识别算法模型、来自阿里读光有线和无线表格识别算法模型等。
该仓库将表格识别前后处理做了完善,并结合OCR,保证表格识别部分可用。
该仓库会持续关注表格识别这一领域,集成最新最好用的表格识别算法,争取打造最具有落地价值的表格识别工具库。
欢迎大家持续关注。
表格结构化识别
表格结构识别(Table Structure Recognition, TSR)旨在提取表格图像的逻辑或物理结构,从而将非结构化的表格图像转换为机器可读的格式。
逻辑结构:表示单元格的行/列关系(例如同行、同列)和单元格的跨度信息。
物理结构:不仅包含逻辑结构,还包含单元格的包围框、内容等信息,强调单元格的物理位置。
图来自: Improving Table Structure Recognition with Visual-Alignment Sequential Coordinate Modeling
Last updated 23 Nov 2023, 08:31 +0800 .