|
EDA365欢迎您登录!
您需要 登录 才可以下载或查看,没有帐号?注册
x
近日,百度在海外官方账号介绍了最新轻量级文字识别模型 PP-OCRv5。该模型仅0.07B参数,以千分之一参数量实现与700亿参数大模型相媲美的OCR精度。在多项 OCR 场景测试中,PP-OCRv5 的表现超越GPT-4o、Qwen2.5-VL-72B等通用视觉大模型。最新信息显示,飞桨团队发布的技术Blog已连续一周登顶Hugging Face博客热度榜首,受到开发者社区的广泛关注。( F7 S& H3 d, E* h9 W4 Y, E
5 R0 d' Z) d0 F% ]: t0 p0 b
( G+ t+ a1 I( w4 k9 x
; C( B0 {3 Z4 V<a href=\"#\" rel=\"nofollow\">9 Q# _% c9 @3 Q3 G& G( [9 P
! ^( W2 i9 z* e. b* V9 e; b据了解,2025年5月,飞桨团队推出PaddleOCR 3.0版本,文字识别方案PP-OCRv5与通用文档解析方案PP-StructureV3,以及原生支持文心大模型4.5的智能文档理解方案PP-ChatOCRv4共同构成其三大特色能力。自2020年开源以来,PaddleOCR累计下载量突破900万,被超过5.9k开源项目直接或间接使用,是GitHub 社区中唯一一个 Star数超过50k的中国OCR项目。1 c/ b* }6 S& `+ o2 N8 j- @% L
P# e. X9 F/ |( O; _& l. ?/ [% }: ~
; J- Q' J- O) K; |0 ?8 J<a href=\"#\" rel=\"nofollow\">$ Y+ V4 g5 S ^/ Z* c) ^
6 H' X( n; G2 ]+ ?& |; h9 b
9月18日晚,Paddle OCR项目登上了GitHub全球总榜 trending榜, 位于python榜第5,总榜第13。' K1 [9 d% Z+ R. Q: H
% p/ u, F' k! O& h
% m) g9 _; q" b# n. b: R o: ]9 {# t
<a href=\"#\" rel=\"nofollow\">+ x [6 I% Z7 I5 h* E6 o4 H
! K6 L1 D# w8 |% b3 Z4 f/ j3 dBlog指出,在OCR场景中,通用视觉大模型(VLM)在精确文本定位和边框精度上仍面临挑战,同时容易带来高计算开销和“幻觉”输出。相较于VLM,PP-OCRv5采用了模块化双阶段检测与识别方案,能够实现轻量高效推理与更精准的文本边界框输出。& S6 a9 S1 C8 Z4 K* L8 v! ~
6 e6 @8 _. P4 G- a
) |! O d2 b9 W, R- J) t9 W3 _
Benchmark数据显示,PP-OCRv5在 Printed Chinese、Printed English、Handwritten English 等核心任务上与百亿级大模型 Qwen2.5-VL-72B 精度持平甚至更优;在Handwritten Chinese、Chinese Pinyin等复杂场景中,仍稳居前列,表现出强泛化能力。
& Q( i& {' F% e0 d" z _; G
) m6 `0 v. Z4 t0 p
6 f* c+ G# A9 X J" W. R& E3 o# n% T% a2 t( x: T
<a href=\"#\" rel=\"nofollow\">
9 y6 u; o6 A/ {* V7 j: j- J9 W. B) Q: V
6 Q. F) I. s5 A, p5 K0 O, q作为百度飞桨团队推出的全场景文字识别模型,PP-OCRv5是业界首个单模型支持5 种文字类型的超轻量级(<100M)开源模型,且支持复杂手写体识别,可广泛应用于教育行业的试卷作业批改、医疗行业的病历数字化、法律行业的合同笔录数字化等多场景业务需求。
E6 i9 F0 _" @* ]
) S/ i- P# ^. F x3 s7 P3 b『本文转载自网络,版权归原作者所有,如有侵权请联系删除』 |
|