跳转至

垂直项目(偏学术)

引言

  • 以下几个方向,每个都是比较独立的方向,但是却和OCR有着千丝万缕的关系,关于它们的资料就像散落在天空中的星星一般,散发着微弱的光芒,这里要做的就是将这些点点光芒聚集起来。
  • 这里将会汇总出以下几个OCR周边项目的一些文档和资源,包括学术动态和一些工程化代码。
  • 欢迎各位小伙伴提供PR。

Visual Text Rendering

阅读序列抽取

数据集:

手写体识别

TODO

手写体公式识别

TODO

公式识别

TODO

公式检测

图像中公式检测需求一般出现于文档分析和还原需求中。

单纯公式检测任务包括对行内公式和行间公式的检测。而版面分析任务中,仅有对行间公式的标注,缺乏行内公式标注。如果想要精细化做版面还原,行内公式的检测识别就变得尤为重要。

这一块的工作,breezedeus做得比较好,详情可以参见其博客:Pix2Text (P2T) 新版公式检测模型

有关数据集:IBEM 和中文 CnMFD_Dataset

发票识别

图像文字擦除

文档增强

  • DocDiffGithub): 文档增强模型,可以用于文档去模糊、文档去噪、文档二值化、文档去水印和印章等任务。

文档图像矫正

版面分析

  • 相关论文和帖子:
  • 相关工程:
  • 数据集汇总:

    • 英文版面分析数据集:

      • PubLayNet: IBM构建,34万张图像,分为5类:text, title list table figure。
      • DocBank:微软亚洲研究院构建,50万英文文档图像,分为12类:摘要、作者、标题、公式、图形、页脚、列表、段落、参考、节标题、表格和文章标题。
      • D4LA: 阿里通义实验室构建,11092张图像,12个文档种类,27个类别,手工标注。详情可参见论文Vision Grid Transformer for Document Layout Analysis
    • 中文版面分析数据集:

      • CDLA:中文文档版面分析数据集,面向中文文献类(论文)场景,总共6000张(5000训练,1000测试),分为10类:正文、标题、图片、图片标题、表格、表格标题、页眉、页脚、注释和公式。

表格结构识别

视频OCR

卡证OCR

  • 相关论文和帖子:
  • 相关工程:
  • 数据集汇总:
    • 暂无,一般这类数据较为敏感,通常都合成假数据来使用。

印章OCR

评论