找回密码
 注册
关于网站域名变更的通知
查看: 576|回复: 1
打印 上一主题 下一主题

离线语音识别芯片技术及对比

[复制链接]
  • TA的每日心情
    开心
    2020-9-8 15:12
  • 签到天数: 2 天

    [LV.1]初来乍到

    跳转到指定楼层
    1#
    发表于 2020-10-20 13:47 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式

    EDA365欢迎您登录!

    您需要 登录 才可以下载或查看,没有帐号?注册

    x
    离线语音识别芯片对比$ P. d/ o% _! y1 F  s

    ( ]* _  w% O2 p% L$ F前言
    0 Y5 o  y) a6 Z& \9 Q9 G3 ~+ N% {
    5 u3 w6 v* I1 v( J. f本文关注的重点是语音识别的硬件载体:语音识别芯片,特别是离线语音识别芯片。7 r' y% h, f, X  O
    ' D" D: V9 J6 ~9 X# n
    一、 语音识别技术的原理! {$ w4 O0 V/ J  `$ k/ V" n
    9 S& L* g' }' r+ P* N4 ~
    定义:语音识别技术(ASR Automatic SpeechRecognition),让智能设备听懂人类的语音。语音识别的工作流程,可以分为三大步骤:前端语音处理、模型训练、后端识别处理。% S# v2 L5 [! Q2 S" O2 n* E
    ' ]. w) K- ]: |
    1.前端处理3 a* q; r8 W+ {" a0 E( @
    / x, k) t, b* ~( G6 ?
    前端处理,即将语音的模拟信号,转换成机器能读懂的数字信号,并做信号优化处理。前端处理关联硬件:麦克风、Codec/ADC、PDM\I2S、音频处理能力(NPU或DSP)以下是前端处理的流程原理简化:
    0 @# b' p; c* T: w* R" j" i5 B6 I) }# ]
    语音声波转模拟电信号:麦克风分柱极体和硅麦两种,硅麦又分为模拟和数字。7 @( P4 S5 l* Q

    0 W' U2 N( j. V* f预处理: 静音切除 VAD、分侦加窗、降噪(主动降噪ANC)、预加重等。3 V7 Z* R# H, P7 \' R" y' u- J' S
    ! S$ c( \7 Q2 g" b  c0 C6 ?
    特征提取:图中选的是主流的MFCC,其他还有LPCC,PLP等,选取后续可以匹配的特征点。! X  n$ \1 P6 z: E$ M8 i2 h
    1 i+ g0 z0 J( @6 Y+ \
    2.模型训练; b8 T3 k3 Q# q0 D# @- a

    - ^# [2 J4 W0 I5 o, N+ G7 |6 X模型 可以理解为“字典”,机器收到语音信息后,跟模型比对找出相似的语音和单词。! B% t( Z* K$ D

    ' G8 L* Y) h5 K& e4 Q3 s那模板怎么来的呢?这需要通过预先大量地采集语音和语言信息(通常叫语料收集),并通过特定的算法跳出最典型的语音特征值。这就叫做“模板训练”,编辑一本字典出来。语音识别系统的模型训练通常分为两套:% U" O: {. q; H6 W
    8 _6 U' T  C' `- r& a' ]) P
    语言模型训练:语言模型是用来计算一个句子出现概率的概率模型,是语音识别中的”字典”它需要综合三个层次的知识:字典,语法,句法,让机器能更好理解人类的自然语言。
    : H9 k* w# l- g0 E; J, W2 J* l- ]' {; \. _) r3 i) W5 U
    声学模型训练:声学模型是识别系统的底层模型,是语音识别系统中最关键的部分,算法主要集中优化该部分声学模型是通过大量的语音收集,并根据特定的算法规则获得特征值,用于后面的识别比对。互联网巨头,拥有大量的用户基数和语音收集渠道,相对于传统公司有优势。: {3 R/ B3 Y$ f: [6 W2 T

    ; `: x& U' o% C1 ?0 u3.后端识别处理(语音解码)
    8 Q  L9 g+ |: p+ D: k$ i" W# b5 f( \, S0 |' N: E0 q! q/ G- o
    指利用训练好的“声学模型”和“语言模型”对提取到的特征向量进行识别,并输出识别结果。该步骤跟模型建立有深度关联,有时将”模型建立”归类到后端识别处理中,与前端处理对应。
    , Y3 H  v& p5 x$ v7 `+ @* c/ s; c* S9 M$ u
    识别准确率和响应速度,通常取决于主控运算速度,以及前端处理和模型的综合表现。
    4 b, _# m7 `; K( N% d" w3 g% J6 X6 G
    以下是详细语音识别技术的原理分支整理:
    + Q0 \. C& B3 k9 G( u* w) ^$ i3 |7 z3 @  i& n$ L7 t8 g
    二、语音识别技术的发展史
    % k) B1 w4 l3 R# z
    , q+ h2 R* I/ G' |5 l- S* v鉴于语音识别芯片,是与算法有着高度关联。所以以下简单探讨了语音识别技术的发展史。
    0 U7 }7 R4 A, W3 y! f9 J0 t
    ) x+ K) B# x5 I3 X9 C语音识别技术的核心和发展,主要在声学模型的建模(训练)的领域上,可以分为三个阶段:4 p4 L1 E* @# X! H
    ' M& |% v+ W; A8 t
    第一阶段 模型匹配法 / 语音标签(70年代)! R' J+ }6 b$ t6 R* `9 L
    ' F5 W4 b: {% \9 h# W. a: y4 \7 s
    主要集中在小词汇量、孤立词、特定人语音识别方法,方法是简单的模板匹配
    2 `: j0 {; C6 c0 P
    0 _, k' X4 |1 T& \0 W- A模板匹配:测试语音与参考语音 分别进行特征值提取后,直接整段比对吻合度。
    ! N. B7 [* ?& F$ G+ z+ B
    & Q. V, o- j! n+ O4 s- D主流算法:动态时间规整(DTW)、支持向量机(SVM)、矢量量化(VQ)。8 c7 u# l9 g4 I; W

    8 f1 L; L4 [8 H1 f; U& d4 E技术局限:同个人感冒就识别不了,匹配方法原始,命令词多了识别效率很慢。第二阶段:概率统计型(1993年~2009年)
      a. s- _+ R4 R
    * z! u% i8 t1 ~6 @6 p部分厂家称为非特定人语音识别,准确来说是概率统计型,主流的技术是GMM+HMM。* H8 s6 ]& Q8 S+ j! L0 y

    6 m: r% W5 }. ~! {HMM模型将语音转换文本的过程中,增加了两个转换单位:音素和状态GMM 是将状态的特征分部,用概率模型来表述,提升语音帧到状态的准确率。
    ) ~7 x& M+ b! G! E# `( O/ ^" Q
    - q/ r. B$ j$ \0 P: G1 B基于GMM-HMM框架,后续又提出了许多改进方法:动态贝叶斯方法、区分性训练方法自适应训练方法、HMM/NN混合模型方法等 GMM+HMM模型,在大词汇量的语音识别情况下,识别准确率和效率均比较c差。
    5 H2 M8 }  o, c: A  Z* j+ o+ l! R. x+ m- [  V
    第三阶段:辨别器分类方法(2009年至今)
    9 x1 i/ R) _6 ]$ S- k; L5 n5 }2 J
    9 Z' p1 b- w1 p5 V6 M  }常被成为深度神经网络识别,是当下最主流语音识别技术类型,包括:
    . k' b. P6 y/ ]* x( k- a
    8 H  C6 e5 v6 k1、深度神经网络/深信度网络-隐马尔科夫(DNN/DBN-HMM)。
    - C8 Q. d. g. `  ^' W( o! |: d/ q" M8 g) A: |/ L
    2、递归神经网络RNN——>LSTM&BLSTM:结合上下文建模,计算复杂度会比DNN增加。3、卷积神经网络CNN:图像识别的主流的模型,优化语音的多样性,减少硬件资源浪费。4 N7 U5 P! @( B* Y, m8 z3 o: @

    + H* |  X9 X- |- U下一代语音识别技术:端到端CTC?; z2 x! \1 [6 S+ `, C# d* L" ^
    $ i: _6 o" H- F" V
    不再需要HMM来描述音素内部状态的变化,而将语音识别的所有模块统一成神经网络模型。国内大厂的技术选择:科大讯飞–深度全序列卷积神经网络DFCNN)、阿里LFR-DFSMN、
    $ u' J$ X3 h  ^* p
    0 P! D9 A+ {* }1 F( _4 A1 M百度SMLTA、Kaldi。- z$ O5 j0 g4 `2 W+ t& x, P$ p6 Q

    6 h- l9 e  z# X( Q( y4 {; K三、语音识别芯片的比对; F8 u" y( S" D: f; r4 u

    * P4 y! Y# x. y) A按照语音识别的市场应用的发展方向,我们可以将语音识别芯片分为两大类:
    . i, ^2 P, U# f& `2 J, c
    % y1 f  S- J3 I在线语音识别:即大词汇量连续语音识别系统
    8 ^3 x  d* A* y9 Y( m$ ?9 Z: H" ?
    典型应用:在线翻译、智能客服、大数据分析、服务机器人等。
    . Q$ w) x7 e4 X  U1 S% U: _9 H) R* j7 d; e/ }2 G, s
    离线语音识别:即小词汇量、低功耗、低成本的语音识别系统。6 o- B' o, k8 F/ q+ N  |
    0 G) h! O% Q  O
    典型应用:智能家电、语音遥控器、智能玩具、车载声控、智能家居等。离线和在线的区别在于:语音识别的工作是放在本地设备端还是云端服务器。/ d/ ^( f1 w2 T  M: J- [3 }* ^

    . n$ S1 v! x; B: U' ]在线语音识别芯片:" t' Z1 O) v3 l- @$ Y1 h9 G% E
    * g: I# z, x1 ]+ w
    在线语音芯片只做前端语音处理,后端识别处理都放在云端服务器,所以才称为在线。在线语音识别芯片,严格来说定义也不大对了,它更像个”万精油”型的芯片。芯片配置强大的CPU、大容量存储、完整的音视频和通讯接口,甚至会内置PMU、WiFi、PHY等功能。它可以被应用于语音识别,也可以应用于其他多媒体的处理,是个万精油型的主控芯片。所以该类别的厂商,通常都是像的MTK、瑞芯微、全志这类最早做平板和手机CPU的。" [' a7 U( p: }# K

    . `" `" b5 q( P: I- y该类芯片包括:士兰微和阿里合作的SC5864、全志与科大讯飞合作的R16和XR872、瑞芯微 RK2108、MTK MT8516、炬芯ATS3605D等,典型的应用就是智能音箱。- J7 I# E) J9 n4 b
    ! `. j$ h5 y+ B- S
    离线语音识别芯片
    - Z% R' Z9 H" o* \) M% |$ o' S
    . h, ?# E, N( k) B, R根据前两个篇章的内容,结合公司背景等因素,我将语音识别芯片分类如下:0 [* V9 d! a  t4 O) W* _' N0 {0 E
    ( _3 Y5 b; ?$ P4 f6 w# p
    芯片比对参数说明:8 Y  H' F- I+ }, [) r

    ( _$ ]$ z% _9 T6 f8 q识别距离&识别率:属于芯片的两个重要显性指标,与消费者的体验直接相关,但由于每家厂商测试的前提条件各自不同,也跟芯片的市场定位有关,所以并非绝对指标。7 e- e  {$ D* n, u, M

    $ l1 g4 ]( A; P" s处理器:分为mcu和Audio Core,前者偏芯片与周边期间协同合作的控制器,后者偏处理音频信号和跑识别算法,后者相对于前者更重要些,是直接决定芯片的语音识别的响应速度和准确率的重要因素。
    7 t7 q! w" m+ ?) c( b( @' x
    ) P* D7 j  U+ f  E! x4 H3 U存储:硬件存储决定了处理器可调用的资源大小,也决定了识别词条数量0 A6 w7 }) {, V/ m0 a
    3 x) D/ E6 [4 G. B
    语音算法:分前端信号处理算法(降噪\波束成形\回应消除\VAD静音抑制\麦克风矩阵\远场识别等)和后端识别算法(声学模型算法/NPL自然语言等)。这个是偏软的参数
    / ?  q% _" U- A* g3 n/ [! C- y0 U% U$ B2 ?( E
    音频通道&外设接口: 芯片与周边器件的通信桥梁,对于语音识别来说,音频的输入和输出更重要,单独提列出来。音频输入分模拟输入(ADC)和数字输入(PDM),音频输出通常是DAC。
    * H0 a4 H( H2 W7 t! p! u/ R! S! L1 J7 [
    电源功耗:功耗不能直接比对大小,而是要比能耗比,即同样性能下的功耗对比。
    $ v. t" M5 }; C/ A. R  q1 X/ p
    & ]4 B1 u4 }0 z5 p0 @4 y其他因素:工作温度、封装等,以及特殊备注。以上参数,除了通用的硬件参数,其余的各家定义也略微有些不同,不能单独对比。4 l% }; V  j  D' \4 F7 g

    $ @2 |% o' E. @9 K# {1.0&2.0时代:传统型
    2 N; x( m9 _3 S9 }1 A  R7 g$ G' X8 V3 g0 M4 b3 j
    算法模型主流是GMM+HMM,或者模型匹配(语音标签)的。而且,由于芯片配置简单,不具备降噪等功能,识别距离在25m,识别率通常在90%左右。词条数510条。+ Z+ S, G; i& g9 C8 Z: u
    1 @: s! d4 B, T3 I! y5 M
    每家的芯片有基本的ASR功能,但各自都有”性能短板”:不带主控、不带存储、语音指令和算法外挂、OTP固定词条、性能低端、接口单一等等,这些短板,都是为了降低成本,在低端市场需要有成本优势。8 g8 r4 j$ Y- N6 L1 }0 Q  u7 T

    + x+ s' i( e  m; M1 b( O" r厂商分析:台湾 新塘、凌阳- }# k' E; y: a  B

    ( w4 e" D, i' O" J6 [* d台湾系早几年前曾是离线语音识别领域最活跃的,包括芯片厂新塘和凌阳,以及台湾赛维这类算法公司。本人就曾推广过新塘ISD9160,当时在家电领域应用挺多,但因识别率差等原因,消费市场反馈差,需求下滑很快。: X9 a& A! O4 W( N. x, v9 _
    ; u# V4 j; G7 e9 e' a; V
    都是曾经非常通用的语音识别芯片,有现成的动态指令库,开发简单好用。1 Q+ `  \2 |" e' c1 `3 Y! i8 M
    + a9 `* L+ z6 N* \0 [7 B$ @7 @
    ICRoute 上海音航
    3 y% X0 P1 {  ~6 U  Z4 N  |# m% J  m9 a
    根据以上表格,这家公司的LD3320除了没有MCU,其余语音识别功能都比较完整,所以识别率达到95%和命令词50条。再看其官网的开发资源和技术介绍非常完整,也有方便用户定制指令的软件工具。如果不考虑价格,个人感觉他们家在传统型中,应该算是最棒的。
    5 k0 o5 y; ?. r  a1 F$ m4 ]# _( T- _! j7 [. [' ~
    另外,该公司的大股东孙放,也是北京雷动云合的联合创始人,雷动云合是做视觉识别产品的。果然,大佬们都盯着未来AI人机的两大入口:视觉 & 语音识别。% h* e' [$ K: `& S0 v8 c& h
    & B& j2 g$ ]5 V$ b9 L0 ?
    除了语音识别,都有做语音芯片(常见于儿童玩具),在网上很活跃,成本应该很低。# o8 ?# i; d% b  H
    , W/ {4 t( a" V1 k! V
    同类的还有深圳盛矽和深圳捷通等,都是集中在广东区域啊,广东的汕头澄海盛产的玩具产品等可是遍及全球呢,产业的发达果然是能带动起周边相关行业的发展啊。
    2 C# g  E1 @' P1 W! [7 w+ I, G9 h# M2 p8 K: P: |: @$ C- C, g
    3.0时代:互联网型
    ! C) D9 w0 B/ J% ~8 e) [# X
    . N$ x! u! M( B  I, E互联网公司最近几年纷纷活跃于互联网行业之外,寻找新的增长点或加深企业护城河纵深。语音识别和视觉识别作为人机交互两大入口,自然也就得到互联网企业的青睐。但互联网公司自身没有芯片设计能力,往往需要借助外力,战略合作和\收购控股\购买成熟IP等是常见手段。+ h- V" N3 Z) O% S

    " n. F& @: k5 R9 r9 u% f互联网公司推出的语音识别芯片,纷纷专注于用上高配置的DSP(功耗自然不低),而且拥有丰富的外设接口,芯片可以实现离在线一体化的功能。主要技术特点侧重于后端识别算法,但前端信号处理能力也不弱。
    / ]/ [$ w. l* m5 p
    ! \9 a% {  G) L+ s: T$ Q1 l. f* \互联网型还有个广为人知的特点,以低价杀穿市场,快速获取用户增长。这个我们看在近年来互联网行业大规模烧钱竞争即可知。只是我个人觉得,所谓的互联网思维对于需要长周期精耕细作的芯片行业来说,是否利大于弊还是搞乱一锅粥大家都挨饿?
    2 E5 V% Q/ F1 Q/ F; [# h4 t
    5 D+ X2 N2 g& ]1 h8 z厂商分析:
    # [) Q+ c8 j& E互联网巨头:阿里巴巴和百度
      ~( s# H/ J1 ~* x" q$ f$ J3 R8 s( n& {; T# m/ {! [+ M, l
    两家互联网巨头本身都有各自成功的智能音箱产品:天猫精灵和小度,各自也分别选择多家芯片原厂合作推出在线和离线芯片,实现自产自销。阿里平头哥 将IP卖给合作公司,百度则是购买Candence HiFi4 IP(话说这个IP最近看了至少有三家在用或即将用). U0 M, z, W/ j1 ?. p7 v

    5 m0 O% r2 x& E$ r在线语音识别巨头:讯飞、思必驰、云之声
    ) I) |* C7 g: F" a
    , G) _/ ^1 O& T; |: }; H5 e三家在线语音识别巨头,纷纷从云端幕后往前台站出来,将已有的语音识别算法技术优势,进一步下沉到端侧的离线语音识别芯片,打通线上和线下。三家各自市场侧重点都不同,讯飞侧重教育行业、思必驰侧重车载行业、云之声侧重家电行业,当然这个划分也非绝对,各自肯定有交叉竞争关系。9 S" B6 H4 H0 {4 E

    8 E2 m, Z2 ^& d# D语音算法公司:互问、华镇5 S) w/ s6 y9 a' {# U5 m

    & b, @/ `* f" L4 \  ^相比讯飞等三家,互问和华镇的技术更”硬”一些,技术也更偏硬件侧。两家各自都找第三方芯片公司,合作推出自家命名的芯片产品。3.0时代:纯芯片型! Y  T2 G+ d; c+ _% |7 i9 P( K. P

    , V3 F- O2 ?, V纯芯片型大部分属于初创新公司,拥有完整得芯片设计到算法开发的能力,相比于传统型,纯芯片型算法技术更优;相比于互联网型,纯芯片型更专注芯片硬件技术。3 x5 R* Z3 Q+ Y( R+ v
    / ^5 r" N" _- {, }
    芯片语音处理核心,多为专用的NPU。同等资源下,NPU算力和能耗比远高于通用DSP。而且该类芯片多具有强大的前端信号处理能力,能真正做到降噪\原唱识别等功能。加上不断优化的声学算法模型和语料定制,识别率通常在95%以上。7 h. w# t) w' t# c! o: o  P6 s: m4 M
    # e; W8 C7 v5 D# J, {5 ^

    & d) {/ p) }+ |' Y市场角度看,语音识别市场当前还远不成气候,仍然属于比较前言的领域。无论是纯芯片型还是互联网型,各自没有真正意义上你死我活的竞争关系,因为与其争夺现有的小饼干,还不如一起拱成大蛋糕分而食之。增量市场阶段,合作共赢更符合各自利益。
    7 B! G+ `5 d2 S* E: E6 ?
    ) B3 k9 @6 ~" }4 T+ A4 v6 N) e: R产品角度看,语音识别技术仍然有很大的技术进步空间,实际消费者的体验也有待优化,包括像自然语言、非连续性回音消除、端到端技术应用等。也有人说,语音识别芯片加上无线通讯技术,实现离在线一体,兼顾响应速度和识别灵活度。
    ; Q. l  o$ W( Q" B- m6 s& c4 h
    2 N0 n% ~' {/ j' j- X产业链角度看,从我整理的国内射频芯片原厂开始,到这篇语音识别,知名的厂商都更多集中在北京和上海,深圳虽然有着发达的电子企业和成熟的芯片供应体系(华强北),但芯片制造等产业配套是比不了北上。而且半导体本身属于长周期的投入,可能也不能兼容快节奏的深圳?0 {; r! x) _  o* }6 [7 n, N' B& C
    ( h" P! d/ c3 M, p5 f. N9 C
    离线语音识别模块:可直接用于空调、冰箱、洗衣机、油烟机、饮水机、风扇等。+ P8 ^; o, g7 V! B0 T

    ! F+ S  z( G' M& o& V8 E特点:1、长距离和高噪音下的高识别率;2、超高性价比,绝对不玩高大上4 A3 H0 N+ W( Y+ e

    ; w- x& _! S5 ]2 D
  • TA的每日心情
    开心
    2020-8-28 15:14
  • 签到天数: 2 天

    [LV.1]初来乍到

    2#
    发表于 2020-10-20 14:26 | 只看该作者
    语音识别的工作流程,可以分为三大步骤:前端语音处理、模型训练、后端识别处理。
    您需要登录后才可以回帖 登录 | 注册

    本版积分规则

    关闭

    推荐内容上一条 /1 下一条

    EDA365公众号

    关于我们|手机版|EDA365电子论坛网 ( 粤ICP备18020198号-1 )

    GMT+8, 2025-7-18 12:06 , Processed in 0.125000 second(s), 23 queries , Gzip On.

    深圳市墨知创新科技有限公司

    地址:深圳市南山区科技生态园2栋A座805 电话:19926409050

    快速回复 返回顶部 返回列表