paddleocr package使用说明

    本地构建并安装

    1. pip install dist/paddleocr-0.0.3-py3-none-any.whl
    • 检测+识别全流程
    1. from paddleocr import PaddleOCR, draw_ocr
    2. ocr = PaddleOCR() # need to run only once to download and load model into memory
    3. img_path = 'PaddleOCR/doc/imgs/11.jpg'
    4. result = ocr.ocr(img_path)
    5. for line in result:
    6. print(line)
    7. # 显示结果
    8. from PIL import Image
    9. image = Image.open(img_path).convert('RGB')
    10. txts = [line[1][0] for line in result]
    11. scores = [line[1][1] for line in result]
    12. im_show = draw_ocr(image, boxes, txts, scores, font_path='/path/to/PaddleOCR/doc/simfang.ttf')
    13. im_show = Image.fromarray(im_show)
    14. im_show.save('result.jpg')

    结果是一个list,每个item包含了文本框,文字和识别置信度

    1. [[[24.0, 80.0], [172.0, 80.0], [172.0, 104.0], [24.0, 104.0]], ['产品信息/参数', 0.98069626]]
    2. [[[24.0, 109.0], [333.0, 109.0], [333.0, 136.0], [24.0, 136.0]], ['(45元/每公斤,100公斤起订)', 0.9676722]]
    3. ......

    结果可视化

    • 单独执行检测
    1. from paddleocr import PaddleOCR, draw_ocr
    2. ocr = PaddleOCR() # need to run only once to download and load model into memory
    3. img_path = 'PaddleOCR/doc/imgs/11.jpg'
    4. result = ocr.ocr(img_path,rec=False)
    5. for line in result:
    6. print(line)
    7. # 显示结果
    8. from PIL import Image
    9. image = Image.open(img_path).convert('RGB')
    10. im_show = Image.fromarray(im_show)
    11. im_show.save('result.jpg')

    结果可视化

    paddleocr package使用说明 - 图1
    • 单独执行识别
    1. ocr = PaddleOCR() # need to run only once to download and load model into memory
    2. img_path = 'PaddleOCR/doc/imgs_words/ch/word_1.jpg'
    3. result = ocr.ocr(img_path,det=False)
    4. for line in result:
    5. print(line)

    结果是一个list,每个item只包含识别结果和识别置信度

    1. ['韩国小馆', 0.9907421]

    查看帮助信息

    1. paddleocr -h
    • 检测+识别全流程
    1. paddleocr --image_dir PaddleOCR/doc/imgs/11.jpg
    • 单独执行检测
    1. paddleocr --image_dir PaddleOCR/doc/imgs/11.jpg --rec false

    结果是一个list,每个item只包含文本框

    1. [[26.0, 457.0], [137.0, 457.0], [137.0, 477.0], [26.0, 477.0]]
    2. [[25.0, 425.0], [372.0, 425.0], [372.0, 448.0], [25.0, 448.0]]
    3. [[128.0, 397.0], [273.0, 397.0], [273.0, 414.0], [128.0, 414.0]]
    4. ......
    • 单独执行识别
      1. paddleocr --image_dir PaddleOCR/doc/imgs_words/ch/word_1.jpg --det false

    结果是一个list,每个item只包含识别结果和识别置信度

      当内置模型无法满足需求时,需要使用到自己训练的模型。 首先,参照 第一节转换将检测和识别模型转换为inference模型,然后按照如下方式使用

      1. paddleocr --image_dir PaddleOCR/doc/imgs/11.jpg --det_model_dir {your_det_model_dir} --rec_model_dir {your_rec_model_dir}