通过百度飞桨在代码块中内置图片\PDF的OCR识别

马先生1 2025-02-27 19:41:56 问答飞浆paddleOCR 收藏

15 / 602

安装 paddle

在明道的 Docker 中安装

安装 pip 的 setuptools

安装 paddleocr

安装 fitz\PyMuPDF，正常通过 pip 安装即可
在代码块中引用即可。

import requests
   import json

def getfilename(i):
str1=i[:i.find('?')]
str1=str1[str1.rfind('/')+1:]
str1=str1[str1.rfind('.')+1:]
print('str1',str1)
return(str1)

ocr = PaddleOCR(lang='ch',use_gpu=False,show_warning=False,show_log=False)
file_addr=input["att1"]

file_dir='/tmp/'

list1=file_addr[2:len(file_addr)-2].split('","')
retlist = []
for i in list1:
file_http_path = i.encode('gbk').decode('unicode_escape')
tmpfilename=getfilename(i)
if tmpfilename=='pdf':
file_name = file_dir+'test.pdf'
else:
file_name = file_dir+'test.'+tmpfilename
#print('file_http_path:',file_http_path)
response = requests.get(file_http_path)
with open(file_name, "wb") as file:
file.write(response.content)
result = ocr.ocr(file_name, cls=False)[0]
json1 = json.dumps(result, ensure_ascii=False)
retlist.append(json1)

#print('retlist',retlist)
output = {'att1': retlist}

野猪向前冲 2025-02-27 19:41:56 回复

马先生1 2025-02-27 18:23:49

哈，这个问题是明道云的问题。把 PDF 发给我，+V myf78020281

我想了个方法解决，下周在来了。。。必须搞出来识别大 pdf。等我在搞搞在交流。这个做出来很有意义

马先生1 2025-02-27 18:23:49 回复

野猪向前冲 2025-02-27 17:03:11

我的 pdf 太大了，我用容器的 python 环境都识别了接近 3 分钟，代码块超时的问题我还要解决，还有代码块运行一直报错 bin/sh: 1: cat: Permission denied/bin/sh: 1: grep: Permission denied[libprotobuf ERROR。

哈，这个问题是明道云的问题。把 PDF 发给我，+V myf78020281

野猪向前冲 2025-02-27 17:03:11 回复

马先生1 2025-02-27 16:55:25

我花的时间可能更多，特别是那个代码块，不过，现在代码块是现成的了。

要不是因为镜像太大，我都准备挂网盘了

我的 pdf 太大了，我用容器的 python 环境都识别了接近 3 分钟，代码块超时的问题我还要解决，还有代码块运行一直报错 bin/sh: 1: cat: Permission denied/bin/sh: 1: grep: Permission denied[libprotobuf ERROR。

马先生1 2025-02-27 16:55:25 回复