近(jìn)期中央密集(jí)点(diǎn)名“新基建(jiàn)”,备受关(guān)注。人工智能作为新基建核心领域之一,展现出强大成(chéng)长潜力,将成为产业数(shù)字(zì)化的重要驱动。乘着(zhe)东风,多模态融合发展或为(wéi)人工智能深(shēn)入(rù)拓(tuò)展场景、实现万物(wù)互联提供不竭动力。
近日,由蚂蚁金服(fú)牵头制定的“生物特征(zhēng)识别多模态(tài)融合国际标准(zhǔn)”正式立(lì)项,这一标准的制定,对于多模态领域发展与技术规范产(chǎn)生了(le)重大影响(xiǎng)。
为此,笔者与眼(yǎn)神科技(jì)、云从、银河(hé)水滴等多个企业方,进行了关于多模态领域发(fā)展(zhǎn)主题的对话。相较于(yú)多模态,我们应该先了解单模(mó)态。在(zài)对话中笔者了解到,对于指纹识别、人脸识别、虹膜识(shí)别、指静脉识别等(děng)每一(yī)种生物识别技(jì)术,通过每(měi)一种算法用一个传感器去解决一(yī)个问题的模式,即为(wéi)单模态。
后(hòu)来,随(suí)着AI发(fā)展和信息化的迭代(dài),不同信息从不同方位、不同传感器一拥而入,单(dān)一(yī)识别技术已经很难满(mǎn)足这样的发展,在这种情况下,多模态技术应(yīng)场景(jǐng)而(ér)生。但多模态(tài)并不是(shì)单模(mó)态的简单叠加或(huò)组合替代,而是基于(yú)数据融合的算法融合、并依托平台决策为支撑,是单(dān)模态(tài)生物识别技术的重大(dà)突破(pò),也是识别技术的未来发展方(fāng)向。
目(mù)前,多模态(tài)技(jì)术(shù)主要应(yīng)用于线(xiàn)上娱乐、身份认证、医疗健康、智慧金(jīn)融、安防、教育、军工、园区等领域。
应用驱动下,多模态(tài)成AI行(háng)业(yè)发展新风向
多模态从(cóng)2018年(nián)开始成为技术(shù)行业(yè)的焦点。那时,很多国内大企业,如华为、腾讯、百度、阿里(lǐ)等公司(sī),都开(kāi)始逐渐把目光(guāng)瞄向多模态;很多创业公司,如眼(yǎn)神科技、云从(cóng)、依图、银河水(shuǐ)滴等(děng)也(yě)在思考这(zhè)个方向性(xìng)的发展问题。
腾讯AI Lab的博士俞(yú)栋(dòng)曾说(shuō)“多(duō)模态是迈向通用人工智能(néng)的重要(yào)方向”,通用人(rén)工(gōng)智能是弱人工智能时代需要走的一个方(fāng)向,弱人工智(zhì)能是“见多识(shí)广(guǎng)”,解决的是感知问题。
在眼神(shén)科(kē)技创始人兼CEO周军看来:“通用人工智(zhì)能(néng)具有几个(gè)属性:自学习、增量学习、增(zēng)强学习,这些内容(róng)结(jié)合在一(yī)块,是(shì)强人工智能。从弱人工智能到强人工智能的奇(qí)点(diǎn),截止目前还没有突破。”“见(jiàn)少知多”、“不见而预知(zhī)”的强人工智能(néng)时代,这是国际前沿人工智能公司一(yī)直(zhí)努力多年的事情,但是(shì)技术(shù)遇(yù)到了天花(huā)板。
据了(le)解(jiě),眼神科技从(cóng)早期就已经完(wán)成了指纹识(shí)别(bié)、人脸识别(bié)、虹膜识(shí)别技术的研发,形成(chéng)基础(chǔ)算法,其(qí)在面向市场推(tuī)广中发现(xiàn),单(dān)一(yī)技术决策存在局限,并(bìng)在应用驱动下推出多模态融合生(shēng)物识别(bié)技术。“多模态融合生(shēng)物识别可以提升识别精(jīng)准度,也(yě)能在(zài)一定(dìng)程(chéng)度提升生物识别技术(shù)的(de)场景适应(yīng)性和(hé)隐私安全性。”眼神科技表示(shì)。
简单来说(shuō),模态就是(shì)“感官”,多(duō)模态就是将多种感官(guān)融合的(de)方式。云从科技(jì)解释道:“如(rú)果把‘模态’通(tōng)俗(sú)地理(lǐ)解为感官,那(nà)么智能音箱(xiāng)就是一台只(zhī)具备听觉模态(tài)的物联网设备,而加载AI分析能力(lì)的摄像头可以视为视觉(jiào)模(mó)态(tài)的物联(lián)网设(shè)备,把(bǎ)听觉(jiào)、视觉甚至更多模态组合到一起,可诞生多模态物联(lián)网”。
与眼神科技、云从(cóng)科技领域(yù)略有(yǒu)不同的步态识别(bié)企(qǐ)业银河水滴表示,“多模态技术在我国早(zǎo)已得到广泛应用,如在公共安防(fáng)领域。另外,指纹和人(rén)脸(liǎn)识(shí)别(bié)等技(jì)术的配合使(shǐ)用也比较成熟,目前正(zhèng)在向更深入更广(guǎng)泛的(de)程度迈进,在这个过程中(zhōng),步态识别技术越来越受到重视”。
据悉,步态识别是一种新兴的生(shēng)物特征识(shí)别技术,相较于其(qí)他识别方式,步态识别的识别(bié)距离更远。例如(rú),普通高清摄像机(jī)下识别距离最远可达50米,属于非受控识别,无(wú)需识别对(duì)象主动配(pèi)合(hé)。步态识别是由(yóu)体型、头型、肌(jī)肉力量、运动神(shén)经灵敏度、走路姿态等共同决定,局(jú)部变化并不会影(yǐng)响识别结果。
因此,步态识别技术可以有效弥补(bǔ)其他识别技(jì)术的(de)不(bú)足,比如识别距离普遍较短、需要主(zhǔ)动配合或接触等(děng)问题。结合了步态识别的多(duō)模态技(jì)术将有(yǒu)更广泛(fàn)的应用前景。
同时(shí),银河(hé)水滴也称:“每一种信息的来源都可以称为一种模态。就AI而言,步态、人脸、虹(hóng)膜、指(zhǐ)纹(wén)、语音等生物特征(zhēng)模态是机器识别的(de)依据,多模态识别即是一种结合以上多(duō)种识别技(jì)术的解(jiě)决方案(àn)。任(rèn)何一(yī)种识别方式都有一定的不足,多种模式结合(hé)可以达到更(gèng)好的效果”。
新(xīn)基建下,多模态(tài)融(róng)合的AI行(háng)业进入快(kuài)车道
国家新基建政策的颁布(bù),让AI行业(yè)拥有(yǒu)了更大的发(fā)展空间,加之这次生物(wù)特征识别多模态融合标准的立(lì)项,更是让AI有(yǒu)了(le)更多的(de)想象(xiàng)空间。
新基建实际上(shàng)是(shì)新时代下,可(kě)促进(jìn)物质、能量、数据更高效产生和流动,使其朝(cháo)着能够产生更(gèng)大价值的地(dì)方(fāng)汇聚,这次新冠疫情已经切(qiē)身感受(shòu)到基于AI技术下(xià),新基建所带(dài)来的社会效(xiào)应。
云从(cóng)科技(jì)称(chēng),新基建下AI得到很(hěn)好应用,而多模态(tài)融合是AI技术发展必(bì)然结果,因为(wéi)单点(diǎn)技术存在瓶颈,无法很好(hǎo)发挥AI的作用,容易导致部分功能和体验感缺失。
而在多模态(tài)或AI技术闭环的(de)支持下,AI可以在消费端与生产端更好服(fú)务社(shè)会。“AI是‘头雁’,解决(jué)的是问题本身(shēn),怎样让(ràng)能力提高,怎么去解决问(wèn)题。让AI引(yǐn)领技术发展是整个行业,也(yě)是云从当(dāng)前思考的(de)主(zhǔ)要问题。”云从科技补充道。
在消费者端(duān),最(zuì)能体现更好(hǎo)、更自然交互的是一位24小时的个人助理,它能知道用户什么时候想要什么(me),用户永远能得(dé)到(dào)自己期(qī)望的服务。
在生产者(zhě)端,人机协同将(jiāng)能(néng)扩展人(rén)类(lèi)专家的能力,比如现在医生一天只能诊断10个人,未来也许(xǔ)在AI的(de)帮助下,通过(guò)语音(yīn)、AI诊断、视觉辅助、大(dà)数据等技术(shù)可以一天诊断1000个(gè)人。
云从科技总结了目前AI设备(bèi)技术闭环的(de)三种形式:1、感知,包(bāo)括语音识(shí)别、语义理解、多轮对话、NLP、语音精(jīng)准识别等领(lǐng)等;2、认知,包括自(zì)然(rán)物体(tǐ)识别、人脸识别、肢体动作识别(bié)等;3、决(jué)策,包(bāo)括(kuò)AI对(duì)热量、红外捕(bǔ)捉信号、空间信号的阅(yuè)读与(yǔ)理解(jiě)。
眼(yǎn)神科技则向笔者表示:“新基建的重要领(lǐng)域(yù)之一就是AI,乘着“新基建”的东风(fēng),AI行业发展将加速进入快车道。从这(zhè)次(cì)新冠疫情(qíng)中可以看到(dào),AI在公共安防(fáng)、疫情防控、远程办公及(jí)服(fú)务中发挥了(le)重要(yào)作(zuò)用”。
此(cǐ)外,中国基础设施的“智能化”建(jiàn)设迫在眉睫,智慧城市、智慧安防、智能医疗、智(zhì)慧社区、智慧教育等基础设(shè)施智能化建设进入全面(miàn)爆发期,将为AI拓展(zhǎn)更多创新(xīn)应用场(chǎng)景和市场空间。在眼神科技看(kàn)来,“在AI应用场景不断深耕(gēng),以及5G、大(dà)数据(jù)、云(yún)计算等新(xīn)兴技术的融合推动下,多模态融合生物识别是AI未来发展的必经之路”。
不(bú)过,目(mù)前AI还处于一个(gè)初级阶段,更(gèng)为关注的是更简单层次(cì)的交互。比如语音、人脸识别,这些只是感知阶(jiē)段(duàn)。而且在信(xìn)息化时代下,很多场景每天都会产生海量的视频和图(tú)像数据,但这些(xiē)信息并没有得到很好利用,大量(liàng)值(zhí)得挖掘的(de)潜(qián)在(zài)价值,被使用的也仅是(shì)冰山一角。
对此,眼神科技称,“在实(shí)战应用场景会有很多不可(kě)控的(de)因(yīn)素,比如(rú)遮挡、光照等,这些会影响生物(wù)特征识(shí)别(bié)技术的应用,行(háng)业需要针对现有(yǒu)实际问(wèn)题,对各种(zhǒng)识别技术进行不(bú)断的研发和优(yōu)化算法”。
云从科技(jì)也表示,“现在AI仅处于初步发展阶段,解决的是简单(dān)层次的交互,更深层次的多模态融合交互,目前做得还远远不(bú)够(gòu),有待继续(xù)加强”。