跳转至

RapidOCR 文档

垂直项目(偏学术)

RapidAI/RapidOCR

SWHL
Creator

元数据
- 2022/10/1
- 分类于 OCR相关项目
- 需要 2 分钟阅读时间

垂直项目(偏学术)

引言¶

以下几个方向，每个都是比较独立的方向，但是却和OCR有着千丝万缕的关系，关于它们的资料就像散落在天空中的星星一般，散发着微弱的光芒，这里要做的就是将这些点点光芒聚集起来。
这里将会汇总出以下几个OCR周边项目的一些文档和资源，包括学术动态和一些工程化代码。
欢迎各位小伙伴提供PR。

Visual Text Rendering¶

Glyph-ByT5: A Customized Text Encoder for Accurate Visual Text Rendering

阅读序列抽取¶

数据集：

ReadingBank

手写体识别¶

TODO

手写体公式识别¶

TODO

公式识别¶

TODO

公式检测¶

图像中公式检测需求一般出现于文档分析和还原需求中。

单纯公式检测任务包括对行内公式和行间公式的检测。而版面分析任务中，仅有对行间公式的标注，缺乏行内公式标注。如果想要精细化做版面还原，行内公式的检测识别就变得尤为重要。

这一块的工作，breezedeus做得比较好，详情可以参见其博客：Pix2Text (P2T) 新版公式检测模型。

有关数据集：IBEM 和中文 CnMFD_Dataset

发票识别¶

CSIG 2022 Competition on Invoice Recognition and Analysis

图像文字擦除¶

CTRNet：图像文字擦除 | Demo

文档增强¶

DocDiff（Github）: 文档增强模型，可以用于文档去模糊、文档去噪、文档二值化、文档去水印和印章等任务。

文档图像矫正¶

PaperEdge：文档图像矫正 | Demo
DocTr++ | Demo | Code
DocRes：统一文档图像恢复任务的广义模型

版面分析¶

相关论文和帖子：
- 版面分析方法汇总
相关工程：
- PaddleOCR Layout
- 海康DAVAR VSR
数据集汇总：
- 英文版面分析数据集：
  - PubLayNet: IBM构建，34万张图像，分为5类：text, title list table figure。
  - DocBank：微软亚洲研究院构建，50万英文文档图像，分为12类：摘要、作者、标题、公式、图形、页脚、列表、段落、参考、节标题、表格和文章标题。
  - D4LA: 阿里通义实验室构建，11092张图像，12个文档种类，27个类别，手工标注。详情可参见论文Vision Grid Transformer for Document Layout Analysis
- 中文版面分析数据集：
  - CDLA：中文文档版面分析数据集，面向中文文献类（论文）场景，总共6000张（5000训练，1000测试），分为10类：正文、标题、图片、图片标题、表格、表格标题、页眉、页脚、注释和公式。

表格结构识别¶

table-transformer
相关论文和帖子：
相关工程：
数据集汇总：
- 英文表格识别数据集：
  - PubTabNet: IBM构建，568k+文档图像数据，包括表格图像和对应的HTML标注。

视频OCR¶

相关论文和帖子：
相关工程：
- video-subtitle-extractor: 一款将视频中的硬字幕提取为外挂字幕文件(srt格式)的软件
- RapidVideOCR: 提取视频中硬字幕
数据集汇总：
- BOVText: A Large-Scale, Bilingual Open World Dataset for Video Text Spotting: 快手科技、浙江大学和北京邮电大学合作提出，大规模双语开放场景下的视频文本基准数据集，该数据集主要提供了2000+视频，1,750,000帧开放视频场景的视频。同时，还提供了丰富的标注类型（标题、字幕、场景文本等）。该数据集支持四个任务：视频帧检测、视频帧识别、视频文本跟踪和端到端视频文本识别。

卡证OCR¶

相关论文和帖子：
相关工程：
- fake_certificate_generator: 假的证件合成器，包括身份证、驾驶证、营业执照。
数据集汇总：
- 暂无，一般这类数据较为敏感，通常都合成假数据来使用。

印章OCR¶

评论