EDA365欢迎您登录!
您需要 登录 才可以下载或查看,没有帐号?注册
x
本帖最后由 邵教授专栏 于 2022-10-21 10:40 编辑 ) D( H! g5 I0 B" X9 X$ ^1 B
E+ T6 c: ^" d6 R你现在是如何看待计算成像的?是不是还感觉很陌生?是不是还在质疑计算成像的应用前景?当你掏出手机拍照时,你是否想到计算成像已经铺天盖地地走入了你的生活,你享受了它的红利,却浑然不觉。 是的,当今时代,智能手机无疑是高科技领域走得最快的,随着华为Mate系列和iPhone最新版本的发布,我们甚至发现:它们的卖点几乎都集中在摄影,甚至淡化了手机的通信功能。此时,你还去质疑计算成像的应用,这样对吗? 这时候,面对计算成像的正确态度应该是:“未来”已来,计算成像大规模走向应用已是必然。同时,我们也要看到,计算成像的应用序幕才刚刚拉起,前途不可限量,但也充满着挑战,需要靠实力去打动用户,以解决迫切需求驱使产业更新换代,驱动产业革命。这个过程绝对不会是一帆风顺的,需要科学家、企业家和终端用户共同去推动。 在此篇中,我将从手机摄影、监控、汽车自动驾驶、光学遥感、医学检查和手术、工业检测和军事领域中的几个典型案例入手,讲述计算成像的应用需求和发展前景。
# D( s1 P% X1 [# b1.手机摄影 计算成像技术的大规模应用可以说还是从智能手机开始的,智能手机的普及无疑助推了计算成像技术的发展,以至于我们现在很少看到卡片相机的影子,甚至摄影爱好者也“沦为”了手机党。这说明什么问题? 智能手机对摄影的助推是巨大的,超过了以往的所有摄影器械,便携的性能,看起来还不错的性能,强大的处理能力,加上高速的移动网络,在随拍随分享的时代,它不火天理难容。 那下面我们就来看看买家和卖家的观点吧。 对于买家来讲,他希望手机能拍出单反的效果:广角拍风景和室内活动、长焦距拍远山和月亮、大光圈拍人像、夜景还要高动态范围、强大的PS功能……,总之,花一个肉夹馍的钱,吃到满汉全席的感觉。 对于卖家而言,“上帝”永远都是对的。长枪短炮的单反、低调奢华的徕卡,那些看起来不错的效果都是拿银子砸出来的。你看,全画幅的探测器(36 mm × 24 mm、“大底”)、若干单个耗资成千上万的笨重高大镜头、三脚架、滤镜、闪光灯、存储卡等等,是不是恰好应了“单反穷三代”那句话?作为一个资深的摄影爱好者,我也劝你一句:再好的器材,也不一定能出好作品!而恰恰相反,手机摄影却能让你满足“大妈变姑娘、大爷成小伙”的虚荣心! 对卖家来讲,任何硬件都需要成本,这些硬成本在手机厂商那里几乎能压缩至极限,那么剩下能压缩的就是靠着强大算法和手机处理能力了,此时,计算成像成为了手机厂商的首选。 那好,我们来看看手机摄影的硬件条件吧:高密度小像元的“小底”CMOS探测器、模压的塑料光学镜头、狭小的安装空间……那,我们该怎么跟“长枪大炮”的单反比? 悲观,这个词从来都不在科学家的字典里。我们来看看手机的优势在哪里?对,有强大的CPU和GPU!那还有什么?对不起,没了!科学家说:嗯,有了这些,就足够了!因为,我们有强大的算法,加上CMOS的高帧频,当然,还有我们强力的大脑——其实就是适合手机的计算成像方法。 于是乎,我们看到了F#0.95的大光圈,看到了人像模式,看到了手机拍月亮的奇迹,也看到了比单反还绚丽的色彩,更有各种PS滤镜。你看,因为有了手机的强大计算能力,把一个专业摄影师压根看不上的摄像头打造成了“摄像头+PS=专业相机”的典范。Wow,Powe RFul,right? 怎么实现的?以大光圈为例,主要依靠音圈高速驱动镜头短时间内拍摄多帧图像,根据大光圈的特点锐化焦内图像、平滑焦外图像,最后合成一幅图。你看,高帧频的CMOS发挥了重要作用,大光圈成像模型和图像处理更是威力无比。 这时候,一定会有人问:手机摄影能超越单反吗?这个问题很难回答,因为一部分功能可以说手机已经超越了单反,比如HDR;但单反强大的高品质镜头群、大像元的探测器,这些是单纯依靠小尺寸小像元的廉价CMOS和塑压的镜头,即使把Photoshop都嵌入到手机里,也难以达到某些功能,比如“打鸟”。有人说:某某手机能拍月亮不能“打鸟”?那我问你:你知道原理是什么吗?你看过拿手机秀拍月亮,你见过秀手机“打鸟”吗?拍月亮的核心是深度学习,也就是说,你拍的月亮是从样本库来的,因为深度学习过度依赖样本,泛化能力太弱,而绚烂世界的不可枚举性自然看不到“打鸟”的场景。 当很多人享受了手机摄影带来的福利之后,他们有了更高的要求,既需要更广的视场,还需要更高的分辨率,以及更长的焦距(更远),而手机摄像头的凸起已成了手机的一块心病。可是,给摄像头留的空间非常小了,要求却要更小。夜景、高动态范围(更强)等等,能加上都给加上。你看,一个小小的手机摄影,把计算成像的目标“更高、更远、更广、更小、更强”给发挥得淋漓尽致了! 在这里,“更小”的要求挑战更大。那么,计算成像能做的空间有多大呢?在第三篇“ 光学系统设计何去何从? https://mp.weixin.qq.com/s?__biz=MjM5ODA5ODU3NA==&mid=2653298944&idx=1&sn=cd2644e6466365d0601be6faf4c8c106&scene=21#wechat_redirect![]() ”一文中,我已讲过更小的光学系统设计,对于手机镜头而言,如果把8片左右的镜片减少至5片以下,还要保障成像质量,这对现在的光学系统设计而言无疑是巨大的挑战,不采用计算成像的方法,几乎不可能完成。更有甚者,很多厂家为了提升图像质量,在考虑用更大尺寸的CMOS器件,而这恰恰为“更小”提出更为严峻的挑战! 那我们该怎么办?这个时候,你还怀疑计算光学系统设计吗?当然,现在这些技术还不成熟,还有很长的路要走,但饭要一口口吃,路要一步步走。 目前,我们在这方面做了大胆的尝试,一方面是放松公差的约束条件,另一方面,采用低精度镜面的高精度成像方法,把主要的精力集中到非线性处理模型中。一些阶段性的成果表明,这可以降低成本,减小体积。
( |/ @4 h2 G9 u7 v$ T8 t2 ^2.监控 监控的需求很简单:大视场高分辨率,能够穿透雾霾,全天候成像——也就是“更广、更高和更强”。 监控几乎无处不在,大量的摄像头部署在城市的各个角落,甚至是在偏远的村庄、孤寂的路边,都有监控摄像头的存在。但是,我们依然还会发现,需求的增长速度超越了技术的发展。越来越多的用户发现不是上了4K就能解决清晰成像的问题,很多时候发现高像素似乎是个伪命题:难以透过的雾霾(尽管他们都号称自己的相机能穿雾)、弱光下的噪声、强光下的瞬“盲”,还有那些高速“飞行”的物体(运动模糊),这些会顿时让你的4K无地自容。 广域大视场和高分辨率本身就是一个矛盾,解决这个问题需要跟动物学习,即仿生学。复眼在动物界普遍存在,我们知道蚊子、苍蝇、蜻蜓、蜘蛛、虾蛄都拥有不同类型、功能各异的复眼。但很少人知道扇贝竟然也有100多只眼睛,分布在扇贝壳上那些闪闪发光的东西,其实是盯着你看的多只眼睛。 为什么夏天时蚊子那么难打?这是因为当你慢慢靠近蚊子时,它的复眼已经开始预警,已做好了逃逸准备;当你的手掌迅速扑来时,一阵激动却发现扑空了,蚊子早已不知所向。这就是复眼的威力:具有宽广的视场,超强的预警能力。 我们再来看看虾蛄,它的复眼不仅可以拥有宽广的视场,而且这些眼睛带着不同光谱的“偏振镜”,能够在黑暗的环境中感知“敌人”,给自己留下生存的空间。看来,虾蛄比我们人类还懂得多孔径成像,更懂多维物理量探测。 动物的这些“特异功能”恰恰是我们监控所需要的,因此,现在越来越多的多孔径相机应用在监控领域,有的孔径换成了红外相机,还有很多人在考虑加上偏振。这些做法无疑能够解决监控中的一些问题,但也付出了代价:相机数目的增加会提高成本,也带来了体积、重量的增加。这样的代价是否值得?既然分辨率与视场存在测不准的关系,是一个矛盾体,我们是不是就认命了?科学家从来不相信眼泪,以前如此,现在还是如此! 我认为:现在的很多难题其实还是受到材料和探测器工艺的限制。举个例子:人的视网膜是曲面结构的,而且黄斑位置处视神经分布密集,具有非常高的分辨率;人眼的视神经又有锥状细胞和杆状细胞组成,前者感光面小,又能够感知红绿蓝三种色彩,可以很好地工作在光线充足的环境下;而后者的感光面大,只能感应“黑白”强度,适合在暗弱环境下工作,比如夜间。烈日当下,当你从室外踏进光线暗淡的屋子时,你会有瞬间“瞎”了的感觉,然后几秒钟后,你可以看清楚东西了。这个过程其实就是两种不同细胞工作模式切换的结果,从锥状细胞切换到了柱状细胞。在夜间,你看树叶都是黑黑的一片,其实也是因为锥状细胞感光受限,感受不到色彩。 如果我们有了仿视网膜的曲面探测器,试想一下,是不是光学系统就可以大大简化了?原先那么复杂的系统,现在可以用一个球透镜来代替,视场大、分辨率高,体积还小。这些问题,我会在后续的计算探测器一文中详细论述。 当然,监控躲不开的还有那透不过的烟尘云雾,单纯靠暗通道去雾等图像处理手段不能从根本上解决问题,偏振去雾也带来了能量损失,散射成像还不够成熟,这些问题都需要一步步解决。
z" c: \& V8 S* S+ ^0 }3.汽车自动驾驶 自动驾驶已为必然趋势,毋庸置疑。自动驾驶最可靠的是视觉,但视觉信号恰恰没有了距离信息,判断误差稍大即可导致追尾碰撞等一系列问题。于是,大家想到了雷达:(1)超声波雷达:几乎每辆汽车都安装了,作为倒车雷达,低速时还能比较好地工作,但速度比蜗牛快时,它就doesn't work了。(2)毫米波雷达:贵,体积大,成像机制复杂,很少用来成像;(3)激光雷达:太贵,体积大,扫描成像帧频低,全固态又看不远。其实激光雷达还有一些问题:强光干扰时,回波信号受到严重干扰,工作不正常;不同材质对激光的反射率不一样,导致相同距离的物体因材质不同回波信号不同,产生误差;当多辆汽车同时工作时,你想象一下,那会是一个什么场景! 很多人认为:没有激光雷达,自动驾驶不可能达到L5级。这便是对的吗?很多人也在质疑马斯克的特斯拉不安装激光雷达,命将不长。这是真的吗? 我们来看看汽车自动驾驶需要什么:全视场无死角、高分辨率、全天候工作(白天、黑夜、阴雨天、雾霾天)、距离信息、自动识别、危险等级判断等等。全视场当然靠多个摄像头,摄像头也不贵;高分辨率也没问题,反正芯片越来越便宜;全天候,这个有点难,其他领域没有解决的,我也解决不了;距离信息用激光雷达吧,还能成像,可是……;有了这些信息再做自动识别和危险等级判断,那是信号处理专家的事儿,让他们去攻克吧。 那么,离了激光雷达是不是真的不行?你看看路上跑的特斯拉,号称也能自动驾驶(L3),靠的全是图像。你等它那个比蜗牛反应快的超声波雷达预警时,你可能早就撞上了。我们也经常看到特斯拉自动驾驶出现事故云云,当然会期望能有准确的距离信息。如果你读过我全部文章,其实这个时候你应该想到我要说什么了。对,偏振三维成像,我们可以依据偏振信息获得“深度”信息,前提是要有一个标定后的相机或者一个测距的雷达,而这些的成本比激光雷达要低多了。
2 U% }& S6 }" K! D4.光学遥感 光学遥感在国民生活中的作用太大了:资源勘测、灾害预警、紧急救援、环境监测等等,搭载的平台有卫星、飞艇、飞机、无人机。那光学遥感有哪些需求呢? 宽广的视场、高分辨率、全天候(穿云透雾)、更小的载荷、更低成本、多物理量探测(偏振、光谱等),这些都是光学遥感希望拥有的。很显然,视场和分辨率的矛盾又出现了,更强的环境适应能力(全天候)也面临着巨大的挑战,视场和分辨率又决定了载荷的形态,想做小也比登天难;现实生活中“物美价廉”的奢求一遍又一遍地打着我们的脸,高性能低成本——那是痴人说梦! 幸运的是,科学家就是那些痴人!当然,痴人圆梦是要付出巨大代价的。如果科学家安于现状,享受生活,那么,就不会有科学技术的进步,我们还停留在茹毛饮血的时代。 我们就说一说低成本吧。光学系统的加工装调难度和成本与口径往往呈指数关系,高分辨率就意味着大口径,而大口径付出的代价实在是太大。忆往昔,看看James Webb,耗资100亿美元,历时25年,6.5 m口径! 在成本方面,我们真的要学习消费数码,典型的就是手机摄影——那么小的空间装下“强大”的相机,依靠的是手机强大的计算性能,当然主角是计算成像。 在前面的文章里,我多次提到过降低成本的两种方法:放宽加工装调公差和低精度的高精度成像,当然还有光学-图像联合设计方法,这些都可以一步步地减小体积,降低成本。当然,这些还不够,我们更需要的是非线性成像模型和高精度的光场解译方法。 # q+ }) ~2 b9 @/ I! l
5.医学检查和手术 X光、B超、CT、内窥镜,这些成像手段在医学检查和手术中都发挥着重要的作用,对医疗水平的提升贡献巨大。做一名救死扶伤的医生是神圣的,当你怀着对美好未来的憧憬走上医学的这条道路上,你的认知发生了变化:原来你认为医生什么病都能治,而现在你发现能治好的病其实病不多,大多数治不好。 我们最熟悉的感知方式是视觉,尤其是在可见光波段。但是,因为光的穿透能力太差,受生物组织和水的影响都很严重,成像质量差,甚至成不了像。超声波穿透能力强,可惜分辨率太低,即使专业人士也难以看出所有的病症。于是上CT,分辨率上去了,图像清晰了,很多病症都能检测出来。可是在手术的过程中,外科大夫去找那个病症的“结节”却非常困难。 在骨科手术过程中,病人在淌血,水管在冲洗,刀具在高速运转,打磨着那块“病骨”,这时候,一片模糊,什么都看不到了,怎么办?歇一会儿再干,病人的创口开放着,边干边停,历时时间太长,能不能在看透那片浑浊,看清手术现状,早点结束手术?答案是能,而且以后更能! 在医学成像方面,应该说最大的挑战还是要穿透人体组织的混沌介质,一是看穿多深,二是看多清楚,这些都与人体组织密切相关,而人体组织又太复杂了:心脏有肌肉和血管,肺组织中有空气充斥,不同人体部位中的脂肪和结缔组织,还有骨骼、血液在其中,而且它们的密度还千差万别。 在穿透人体组织的医学成像中,比较典型的技术有偏振成像、光声成像和散射成像。偏振成像能够透过水、血液等浑浊度不太高的场合,典型的是手术现场;光声成像是关联成像的一种,光穿透生物组织后,分子吸收能量后振动产生超声波,可以将调制的光信号转换为变化的声信号,通过声信号的探测与光信号做相关运算重建图像。与超声不同,成像分辨率是光学成像的分辨率。但光声成像需要较高功率的激光产生足够强的超声信号,这种强度的激光会产生灼伤,而且需要扫描成像,实时性差,不宜活体观测。散射成像在前面多次讲过,尽管目前已有较大的进展,但还有很多问题需要解决,具体可参考“ 散射成像:又爱又恨的散射 https://mp.weixin.qq.com/s?__biz=MjM5ODA5ODU3NA==&mid=2653300840&idx=1&sn=8c6ed4153b33645e9c1f9180afb75fe2&scene=21#wechat_redirect![]() ”一文。 近年来傅里叶叠层成像(Fourier Ptychographic Microscopy, FPM)发展很快,它融合了叠层相干衍射成像、相干合成孔径以及相位恢复技术的思想,克服了传统显微镜视场与分辨率相互制约的问题,具有大视场、高分辨率、像差自矫正、无标记以及定量相位成像等特点,在数字病理以及无标记定量相位成像等领域优势明显。此外,FPM还可以应用于X光波段的纳米尺度的显微成像以及基于相机扫描的远距离遥感高分辨率成像。 近两年来,康涅狄格大学郑国安教授课题组提出了无透镜编码叠层成像,这一技术同样由叠层相干衍射成像技术演化而来,可以看作是FPM在互易空间的实现。其系统简单,在传感器的玻璃保护层表面直接均匀涂抹一层薄的散射介质(微球粉末或血液),物体可以直接放置在传感器上方不足1 mm的位置。该技术具有高通量、大视场、高分辨率以及定量相位成像等特点,特别是能够定量重构缓变的低频大相位物体,是其独特的技术优势。目前,该技术已经被证明了在高通量血细胞计数、数字病理、抗药性测试、无标记定量成像等领域具有应用价值,具体可参阅我的学生郭成飞的博士学位论文,他在郑国安教授的指导下做了大量的研究工作。 8 q1 _" m0 q" q' u9 \7 v5 p& ~
6.工业检测 工业检测是一个非常大的领域,涉及面极广。非接触测量是光学成像的强项,很多场合没有可接触空间,探针之类的无法安装,这时候光学就发挥了很大的优势。工业检测的要求主要有:高分辨率、大视场、多维度(主要是三维形貌)、实时性高等,优势是可以使用照明,不利的是很多工作场合有空间上的约束。 因为可以采用照明方式,那么计算照明的手段都可以应用到工业检测的领域,从最初的结构光照明,到后来的主动偏振成像,再到傅里叶叠层成像,都是应用的典范。结构光照明成像是工业检测中最为成熟的手段,在工业加工、检测、装调过程中都有典型的应用,主要瞄着高分辨率、三维形貌等来解决问题。在技术层面上,发展也很快,实时性也得到很大的提高;但是由于结构光投影的约束,做到大视场高分辨率却很难。当然了,解决的办法也有,成本最低的就是扫描成像,将一个很大的物件经过纵横多次扫描,覆盖整个视场。对结构光而言,还有一个要解决的问题就是镜面反射和投射到透明介质,需要特殊的模型。 偏振成像的好处则除了能引入偏振特性以判别不同材质,而且也能获取三维形貌。偏振成像技术的发展,会给工业检测注入新的血液,尤其是结合双目视觉和结构光成像等手段,会有全新的、可期待的结果。 ' p0 _3 v% q) Z
7.军事应用 在军事应用中,可以说计算成像在“更高、更远、更广、更小和更强”都有巨大的潜力,尤其是面对越来越复杂的战场环境,在更大范围内(更广)及早地发现敌人(更远),辨识型号(更高),能够在对抗情况下(更强)对敌精确打击,这些都是传统光学成像难以克服的问题。 在这里,我说一下低成本吧。战争拼的是实力(当然包括智力),打的都是“银子”,尤其是非对称格局下如何取胜。“打得起”的弹,而且抗干扰能力还要强,需要像对待手机摄影的设计那样,“斤斤计较”,模式创新,采用计算光学系统设计方法简化光学系统设计,采用模压方式制作低成本的光学镜头,采用集成化手段减小体积、重量、功耗,提高性能,采用计算成像方法应对强光对抗、战场烟尘等复杂环境。 : E$ U* D) [4 o) c& f0 |0 I2 s& o
8.总结 计算成像应用的大趋势已经到来,随着人工智能等信息处理能力提升,传统的光学成像技术越来越捉襟见肘。很多研究人员发现传统视觉在人工智能中的应用已显现出巨大的能力缺陷,主要的问题是在信息量上的不足,这是因为视觉获取的主要是空间、时间和色彩(强度)的信息,而偏振、相位、光谱等重要物理量信息缺失,在维度上就处在了劣势。于是,有人提出了“物理视觉”这个概念,以区分传统的机器视觉,其实,这些问题我在“光场:计算光学的灵魂”一文中已有论述,这些需求实际上都触及到了计算光学的灵魂深处,需要我们不断发展新理论,研究新技术,开拓新领域,才能够解决这些真问题。 8 A, P2 y% R$ @& b, Y
0 U* C4 \, a, z# W6 H9 `- m
本文为作者原创,如需转载,请留言!
# ^2 ?4 Q+ \; h# e, r |