to navigate

to select

to close

On this page

垂直项目(偏学术)

以下几个方向，每个都是比较独立的方向，但是却和OCR有着千丝万缕的关系，关于它们的资料就像散落在天空中的星星一般，散发着微弱的光芒，这里要做的就是将这些点点光芒聚集起来。
这里将会汇总出以下几个OCR周边项目的一些文档和资源，包括学术动态和一些工程化代码。
欢迎各位小伙伴提供PR。

阅读序列抽取

数据集：

ReadingBank

手写体识别

TODO

手写体公式识别

TODO

公式识别

TODO

公式检测

图像中公式检测需求一般出现于文档分析和还原需求中。

单纯公式检测任务包括对行内公式和行间公式的检测。而版面分析任务中，仅有对行间公式的标注，缺乏行内公式标注。如果想要精细化做版面还原，行内公式的检测识别就变得尤为重要。

这一块的工作，breezedeus做得比较好，详情可以参见其博客：Pix2Text (P2T) 新版公式检测模型。

有关数据集：IBEM 和中文 CnMFD_Dataset

发票识别

CSIG 2022 Competition on Invoice Recognition and Analysis

图像文字擦除

CTRNet：图像文字擦除 | Demo

文档增强

DocDiff（Github）: 文档增强模型，可以用于文档去模糊、文档去噪、文档二值化、文档去水印和印章等任务。

文档图像矫正

PaperEdge：文档图像矫正 | Demo
DocTr++ | Demo | Code

版面分析

相关论文和帖子：
- 版面分析方法汇总
相关工程：
- PaddleOCR Layout
- 海康DAVAR VSR
数据集汇总：
- 英文版面分析数据集：
  - PubLayNet: IBM构建，34万张图像，分为5类：text, title list table figure。
  - DocBank：微软亚洲研究院构建，50万英文文档图像，分为12类：摘要、作者、标题、公式、图形、页脚、列表、段落、参考、节标题、表格和文章标题。
  - D4LA: 阿里通义实验室构建，11092张图像，12个文档种类，27个类别，手工标注。详情可参见论文Vision Grid Transformer for Document Layout Analysis
- 中文版面分析数据集：
  - CDLA：中文文档版面分析数据集，面向中文文献类（论文）场景，总共6000张（5000训练，1000测试），分为10类：正文、标题、图片、图片标题、表格、表格标题、页眉、页脚、注释和公式。

表格结构识别

相关论文和帖子：
相关工程：
数据集汇总：
- 英文表格识别数据集：
  - PubTabNet: IBM构建，568k+文档图像数据，包括表格图像和对应的HTML标注。

视频OCR

相关论文和帖子：
- 【NeurIPS2021】A Bilingual, OpenWorld Video Text Dataset and End-to-end Video Text Spotter with Transformer | 博客解读
- 【ACM MM 2019】You only recognize once: Towards fast video text spotting
相关工程：
- video-subtitle-extractor: 一款将视频中的硬字幕提取为外挂字幕文件(srt格式)的软件
- RapidVideOCR: 提取视频中硬字幕
数据集汇总：
- BOVText: A Large-Scale, Bilingual Open World Dataset for Video Text Spotting: 快手科技、浙江大学和北京邮电大学合作提出，大规模双语开放场景下的视频文本基准数据集，该数据集主要提供了2000+视频，1,750,000帧开放视频场景的视频。同时，还提供了丰富的标注类型（标题、字幕、场景文本等）。该数据集支持四个任务：视频帧检测、视频帧识别、视频文本跟踪和端到端视频文本识别。

卡证OCR

相关论文和帖子：
相关工程：
- fake_certificate_generator: 假的证件合成器，包括身份证、驾驶证、营业执照。
数据集汇总：
- 暂无，一般这类数据较为敏感，通常都合成假数据来使用。

印章OCR

Edit this page

Last updated 28 Apr 2024, 11:13 +0800 . history

衍生项目(偏工程)

常见问题 (FAQ)

垂直项目(偏学术)

阅读序列抽取 link

手写体识别 link

手写体公式识别 link

公式识别 link

公式检测 link

发票识别 link

图像文字擦除 link

文档增强 link

文档图像矫正 link

版面分析 link

表格结构识别 link

视频OCR link

卡证OCR link

印章OCR link

阅读序列抽取

手写体识别

手写体公式识别

公式识别

公式检测

发票识别

图像文字擦除

文档增强

文档图像矫正

版面分析

表格结构识别

视频OCR

卡证OCR

印章OCR