|
|
EDA365欢迎您登录!
您需要 登录 才可以下载或查看,没有帐号?注册
x
近日,百度在海外官方账号介绍了最新轻量级文字识别模型 PP-OCRv5。该模型仅0.07B参数,以千分之一参数量实现与700亿参数大模型相媲美的OCR精度。在多项 OCR 场景测试中,PP-OCRv5 的表现超越GPT-4o、Qwen2.5-VL-72B等通用视觉大模型。最新信息显示,飞桨团队发布的技术Blog已连续一周登顶Hugging Face博客热度榜首,受到开发者社区的广泛关注。
! K* H+ R, x4 K! X, `; V+ J- b# ?, b
7 t2 w- J3 v$ p' [6 w. q
5 Y% @% G) \6 p7 Q1 s0 C. c# Y
<a href=\"#\" rel=\"nofollow\">9 l- K. E' L' `; @
$ B s/ n8 i1 P+ N( O; w0 ^( D5 [
据了解,2025年5月,飞桨团队推出PaddleOCR 3.0版本,文字识别方案PP-OCRv5与通用文档解析方案PP-StructureV3,以及原生支持文心大模型4.5的智能文档理解方案PP-ChatOCRv4共同构成其三大特色能力。自2020年开源以来,PaddleOCR累计下载量突破900万,被超过5.9k开源项目直接或间接使用,是GitHub 社区中唯一一个 Star数超过50k的中国OCR项目。
8 D& l! {- \1 J) h$ j2 G% b+ R( _2 M; S: p
" M! g# |" s' {
<a href=\"#\" rel=\"nofollow\">
* p' x: k' N, n/ o6 L |' F' L2 l9 ]/ W8 z- X
9月18日晚,Paddle OCR项目登上了GitHub全球总榜 trending榜, 位于python榜第5,总榜第13。
+ J' o3 f5 Q7 K ?' ], _9 t5 y
- `, s# A- \" Q3 M9 B7 P& z* l& T0 Q& M5 {2 L4 ?* p. E
9 Q4 T! i# K$ E' X<a href=\"#\" rel=\"nofollow\">
8 J9 w" V8 v7 Q! N0 u
1 W" Y+ i- V2 ^5 ?Blog指出,在OCR场景中,通用视觉大模型(VLM)在精确文本定位和边框精度上仍面临挑战,同时容易带来高计算开销和“幻觉”输出。相较于VLM,PP-OCRv5采用了模块化双阶段检测与识别方案,能够实现轻量高效推理与更精准的文本边界框输出。9 |7 _0 l9 q$ }9 N# R: C U
) {$ Y* _$ @/ g1 w7 n1 K
* M/ I/ X. [" |7 }Benchmark数据显示,PP-OCRv5在 Printed Chinese、Printed English、Handwritten English 等核心任务上与百亿级大模型 Qwen2.5-VL-72B 精度持平甚至更优;在Handwritten Chinese、Chinese Pinyin等复杂场景中,仍稳居前列,表现出强泛化能力。: |. E1 N0 e) }8 T6 U- N. f5 ^
6 k: T! z6 `! g2 m: t( {. i) {6 i6 ^& d. H2 u( e8 J0 D: N, f
: ?1 ~6 A3 ?, r1 y0 u<a href=\"#\" rel=\"nofollow\">- i8 d8 L7 f5 R: o2 x3 K7 O( q
4 u5 p; b7 c! g2 H2 t7 y" t8 l作为百度飞桨团队推出的全场景文字识别模型,PP-OCRv5是业界首个单模型支持5 种文字类型的超轻量级(<100M)开源模型,且支持复杂手写体识别,可广泛应用于教育行业的试卷作业批改、医疗行业的病历数字化、法律行业的合同笔录数字化等多场景业务需求。
: O; M5 C) J& ~; r
- h) U" N1 c* G. G( M『本文转载自网络,版权归原作者所有,如有侵权请联系删除』 |
|