RapidOCR

Info

该部分以rapidocr_onnxruntime库下RapidOCR为例作讲解，其他推理引擎与这个基本类似，请移步具体源码查看。

init [SOURCE]¶

def __init__(self, text_score: float = 0.5,
    print_verbose: bool = False,
    min_height: int = 30,
    width_height_ratio: float = 8,
    max_side_len: int = 2000,
    min_side_len: int = 30,
    return_word_box: bool = False,
    det_use_cuda: bool = False,
    det_use_dml: bool = False,
    det_model_path: Optional[str] = None,
    det_limit_side_len: float = 736,
    det_limit_type: str = "min",
    det_thresh: float = 0.3,
    det_box_thresh: float = 0.5,
    det_unclip_ratio: float = 1.6,
    det_donot_use_dilation: bool = False,
    det_score_mode: str = "fast",
    cls_use_cuda: bool = False,
    cls_use_dml: bool = False,
    cls_model_path: Optional[str] = None,
    cls_image_shape: List[int] = [3, 48, 192],
    cls_label_list: List[str] = ["0", "180"],
    cls_batch_num: int = 6,
    cls_thresh: float = 0.9,
    rec_use_cuda: bool = False,
    rec_use_dml: bool = False,
    rec_keys_path: Optional[str] = None,
    rec_model_path: Optional[str] = None,
    rec_img_shape: List[int] = [3, 48, 320],
    rec_batch_num: int = 6,
    intra_op_num_threads: int = -1,
    inter_op_num_threads: int = -1,
):
    pass

参数¶

text_score (float, optional): 文本识别结果置信度，值越大，把握越大。取值范围：[0, 1], 默认值是0.5。
print_verbose (bool, optional): 是否打印各个部分耗时信息。默认为False。
min_height (int, optional): 图像最小高度（单位是像素），低于这个值，会跳过文本检测阶段，直接进行后续识别。默认值为30。min_height是用来过滤只有一行文本的图像（如下图），这类图像不会进入文本检测模块，直接进入后续过程。
width_height_ratio (float, optional): 如果输入图像的宽高比大于width_height_ratio，则会跳过文本检测，直接进行后续识别，取值为-1时：不用这个参数. 默认值为8。
max_side_len (int, optional): 如果输入图像的最大边大于max_side_len，则会按宽高比，将最大边缩放到max_side_len。默认为2000px。
min_side_len (int, optional): 如果输入图像的最小边小于min_side_len，则会按宽高比，将最小边缩放到min_side_len。默认为30px。
return_word_box (bool, optional): 是否返回文字的单字坐标。默认为False。在rapidocr_onnxruntime==1.4.0中，汉字会返回单字坐标，英语返回单词坐标。在rapidocr_onnxruntime>=1.4.1中，汉字返回单字坐标，英语返回单字母坐标。
det_use_cuda (bool, optional): 是否使用CUDA加速推理。默认值为False。
det_use_dml (bool, optional): 是否使用DirectML加速推理(仅限于Window10及以上)。默认值为False。详细参见 → link 。
det_model_path (Optional[str], optional): 文本检测模型路径，仅限于基于PaddleOCR训练所得DBNet文本检测模型。默认值为None。
det_limit_side_len (float, optional): 限制图像边的长度的像素值。默认值为736。
det_limit_type (str, optional): 限制图像的最小边长度还是最大边为limit_side_len
示例解释：当limit_type=min和limit_side_len=736时，图像最小边小于736时，
会将图像最小边拉伸到736，另一边则按图像原始比例等比缩放。取值范围为：[min, max]，默认值为min。
det_thresh (float, optional): 图像中文字部分和背景部分分割阈值。值越大，文字部分会越小。取值范围：[0, 1]，默认值为0.3。
det_box_thresh (float, optional): 文本检测所得框是否保留的阈值，值越大，召回率越低。取值范围：[0, 1]，默认值为0.5。
det_unclip_ratio (float, optional): 控制文本检测框的大小，值越大，检测框整体越大。取值范围：[1.6, 2.0]，默认值为1.6。
det_donot_use_dilation (bool, optional): 不使用膨胀操作。默认值为False。
det_score_mode (str, optional): 计算文本框得分的方式。取值范围为：[slow, fast]，默认值为fast。
cls_use_cuda (bool, optional): 是否使用CUDA加速推理。默认值为False。
cls_use_dml (bool, optional): 是否使用DirectML加速推理(仅限于Window10及以上)。默认值为False。详细参见 → link 。
cls_model_path (Optional[str], optional): 文本行方向分类模型路径，仅限于PaddleOCR训练所得二分类分类模型。默认值为None。
cls_image_shape (List[int], optional): 输入方向分类模型的图像Shape(CHW)。默认值为[3, 48, 192]。
cls_label_list (List[str], optional): 方向分类的标签，0°或者180°，该参数不能动。默认值为["0", "180"]。
cls_batch_num (int, optional): 批次推理的batch大小，一般采用默认值即可，太大并没有明显提速，效果还可能会差。默认值为6。
cls_thresh (float, optional): 方向分类结果的置信度。取值范围：[0, 1]，默认值为0.9。
rec_use_cuda (bool, optional): 是否使用CUDA加速推理。默认值为False。
rec_use_dml (bool, optional): 是否使用DirectML加速推理(仅限于Window10及以上)。默认值为False。详细参见 → link 。
rec_keys_path (bool, optional): 文本识别模型对应的字典文件，默认为None。
rec_model_path (Optional[str], optional): 文本识别模型路径，仅限于PaddleOCR训练文本识别模型。默认值为None。
rec_img_shape (List[int], optional): 输入文本识别模型的图像Shape(CHW)。默认值为[3, 48, 320]。
rec_batch_num (int, optional): 批次推理的batch大小，一般采用默认值即可，太大并没有明显提速，效果还可能会差。默认值为6。
intra_op_num_threads (int, optional): 参见docs。默认值为-1.
inter_op_num_threads (int, optional): 参见docs。默认值为-1.

使用示例¶

from pathlib import Path

from rapidocr_onnxruntime import RapidOCR

engine = RapidOCR(text_score=0.6, det_use_cuda=False)

img_path = Path('tests/test_files/ch_en_num.jpg')
result, elapse = engine(img_path)
print(result)
print(elapse)

call [SOURCE]¶

def __call__(
    self,
    img_content: Union[str, np.ndarray, bytes, Path],
    use_det: Optional[bool] = None,
    use_cls: Optional[bool] = None,
    use_rec: Optional[bool] = None,
    **kwargs,
) -> Tuple[Optional[List[List[Union[Any, str]]]], Optional[List[float]]]:
    pass

参数¶

img_content (Union[str, np.ndarray, bytes, Path]): 图像内容。
use_det (Optional[bool], optional): 是否使用文本检测模型，当为None时，默认使用。默认值为None。
use_cls (Optional[bool], optional): 是否使用文本行方向分类模型，当为None时，默认使用。默认值为None。
use_rec (Optional[bool], optional): 是否使用文本识别模型，当为None时，默认使用。默认值为None。

输入¶

确保输入模型前的图像通道顺序为BGR。当前LoadImage类内部已经对此做了处理，参考下面写法即可正常使用。支持4种输入类型：Union[str, np.ndarray, bytes, Path, PIL.Image.Image]

strnp.ndarrayPIL.Image.ImageBytesPath

from rapidocr_onnxruntime import RapidOCR

engine = RapidOCR()

img_path = 'tests/test_files/ch_en_num.jpg'
result, elapse = engine(img_path)
print(result)
print(elapse)

import cv2
from rapidocr_onnxruntime import RapidOCR

engine = RapidOCR()
img = cv2.imread('tests/test_files/ch_en_num.jpg')
result, elapse = engine(img)
print(result)
print(elapse)

from PIL import Image
from rapidocr_onnxruntime import RapidOCR

engine = RapidOCR()
img = Image.open('tests/test_files/ch_en_num.jpg')
result, elapse = engine(img)
print(result)
print(elapse)

from rapidocr_onnxruntime import RapidOCR

engine = RapidOCR()

img_path = 'tests/test_files/ch_en_num.jpg'
with open(img_path, 'rb') as f:
    img = f.read()
result, elapse = engine(img)
print(result)
print(elapse)

from pathlib import Path

from rapidocr_onnxruntime import RapidOCR

engine = RapidOCR()

img_path = Path('tests/test_files/ch_en_num.jpg')
result, elapse = engine(img_path)
print(result)
print(elapse)

输出¶

RapidOCR在调用时，有三个参数use_det | use_cls | use_rec，可以控制是否使用检测、方向分类和识别这三部分，不同的参数决定了不同的输出。

如果图像中未检测到有效文字信息，则返回Tuple[None, None]。详细搭配如下：

返回单字坐标只有检测只有分类只有识别检测 + 识别分类 + 识别检测 + 分类 + 识别

⚠️注意：在rapidocr_onnxruntime==1.4.0中，汉字会返回单字坐标，英语返回单词坐标。在rapidocr_onnxruntime>=1.4.1中，汉字返回单字坐标，英语也返回单字母坐标。

from rapidocr_onnxruntime import RapidOCR

engine = RapidOCR()

img_path = 'tests/test_files/ch_en_num.jpg'
result, elapse = engine(img_path, return_word_box=True)
print(result)
print(elapse)

返回值result: List[List[float], str, float, List, List[str]] ([[左上, 右上, 右下, 左下], 文本内容, 置信度, 单字坐标, 对应的单字文本])

[
    [
        [[6.0, 2.0], [322.0, 9.0], [320.0, 104.0], [4.0, 97.0]],
        '正品促销',
        0.9989291429519653,
        [
            [[6, 2], [84, 3], [82, 98], [4, 97]],
            [[84, 3], [163, 5], [161, 100], [82, 98]],
            [[163, 5], [243, 7], [241, 102], [161, 100]],
            [[243, 7], [322, 9], [320, 104], [241, 102]]
        ],
        ['正', '品', '促', '销']
    ],
    [
        [[70.0, 98.0], [252.0, 98.0], [252.0, 125.0], [70.0, 125.0]],
        '大桶装更划算',
        0.9843036532402039,
        [
            [[70, 98], [99, 98], [99, 125], [70, 125]],
            [[99, 98], [129, 98], [129, 125], [99, 125]],
            [[129, 98], [160, 98], [160, 125], [129, 125]],
            [[165, 98], [194, 98], [194, 125], [165, 125]],
            [[194, 98], [224, 98], [224, 125], [194, 125]],
            [[224, 98], [252, 98], [252, 125], [224, 125]]
        ],
        ['大', '桶', '装', '更', '划', '算']
    ],
    ...
]

from rapidocr_onnxruntime import RapidOCR

engine = RapidOCR()

img_path = 'tests/test_files/ch_en_num.jpg'
result, elapse = engine(img_path, use_det=True, use_cls=False, use_rec=False)
print(result)
print(elapse)

返回值result: List[List[float]] (每个框的坐标[左上, 右上, 右下, 左下])

[
    [[5.0, 2.0], [322.0, 9.0], [319.0, 103.0], [3.0, 96.0]],
    [[70.0, 98.0], [252.0, 97.0], [252.0, 125.0], [70.0, 126.0]],
    ...
]

from rapidocr_onnxruntime import RapidOCR

engine = RapidOCR()

img_path = 'tests/test_files/ch_en_num.jpg'
result, elapse = engine(img_path, use_det=False, use_cls=True, use_rec=False)
print(result)
print(elapse)

返回值result: List[List[str, float]] ([方向0或180, 置信度])

[
    ['0', 0.9998784],
    ...
]

from rapidocr_onnxruntime import RapidOCR

engine = RapidOCR()

img_path = 'tests/test_files/ch_en_num.jpg'
result, elapse = engine(img_path, use_det=False, use_cls=False, use_rec=True)
print(result)
print(elapse)

返回值result: List[List[str, float]] ([识别的文本, 置信度])

[
    ['韩国小馆', 0.7992169380187988],
    ...
]

from rapidocr_onnxruntime import RapidOCR

engine = RapidOCR()

img_path = 'tests/test_files/ch_en_num.jpg'
result, elapse = engine(img_path, use_det=True, use_cls=False, use_rec=True)
print(result)
print(elapse)

返回值result: List[List[float], str, float] ([[左上, 右上, 右下, 左下], 文本内容, 置信度])

[
    [[[9.0, 2.0], [321.0, 11.0], [318.0, 102.0], [6.0, 93.0]], '正品促销', '0.7986101984977723'],
    [[[70.0, 98.0], [251.0, 98.0], [251.0, 125.0], [70.0, 125.0]], '大桶装更划算', '0.7368737288883754'],
    ...
]

from rapidocr_onnxruntime import RapidOCR

engine = RapidOCR()

img_path = 'tests/test_files/ch_en_num.jpg'
result, elapse = engine(img_path, use_det=False, use_cls=True, use_rec=True)
print(result)
print(elapse)

返回值result: List[List[str, float]] ([识别的文本, 置信度])

[
    ['韩国小馆', 0.7992169380187988],
    ...
]

from rapidocr_onnxruntime import RapidOCR

engine = RapidOCR()

img_path = 'tests/test_files/ch_en_num.jpg'

# 默认都为True
result, elapse = engine(img_path, use_det=True, use_cls=True, use_rec=True)
print(result)
print(elapse)

返回值result: List[List[float], str, float] ([[左上, 右上, 右下, 左下], 文本内容, 置信度])

[
    [[[9.0, 2.0], [321.0, 11.0], [318.0, 102.0], [6.0, 93.0]], '正品促销', '0.7986101984977723'],
    [[[70.0, 98.0], [251.0, 98.0], [251.0, 125.0], [70.0, 125.0]], '大桶装更划算', '0.7368737288883754'],
    ...
]

RapidOCR

__init__ [SOURCE]¶

参数¶

使用示例¶

__call__ [SOURCE]¶

参数¶

输入¶

输出¶

评论

init [SOURCE]¶

call [SOURCE]¶