人脸识别测温终端会是短期产物吗?

疫情之下,非接触式测温门禁的需求成为企业复工和社区管理的刚需设备。非接触式人脸识别测温终端主要依靠红外远距离测温,从而减少人与人的接触,降低感染风险。

有人担心红外测温会不会有辐射,会不会对身体造成影响,甚至有个别市民因为不愿被红外测温枪对着额头测温,与防疫测温人员产生争执。其实这都是没有摸清远距离红外测温的原理。

实际上,任何高于绝对零度(-273.15℃)的物体都会向外辐射出能量,温度越高,发出的红外辐射能力越高。红外测温仪或测温枪这些测温终端是作为辐射的接收器来收集人体发放出来的能量,而非发射器。测温终端接受这些红外辐射能量后,将电磁波转化为温度信息,从而实现非接触式的体温测量。

人脸识别测温终端应用在公司企业场景中,更需要具备人脸识别、NFC识别、体温异常提醒等功能,确保满足企业考勤和防疫需求。虽然目前,红外人脸识别测温终端大多数是在疫情背景下,产品稳定性和测温效果等尚未发展成熟,但对比起普通的水银体温计等传统方式,人脸识别测温终端有速度快和无感染风险等优势。尤其在一些客流量大或需要24小时值守的地方,红外人脸识别测温终端可以无需人手测温,自动完成测温和身份识别功能。

人脸识别测温终端结合闸机使用,进入人员只要同时符合“体温正常”和“通过身份识别核验”,闸门才会打开,减少防疫管控人员的工作量,提高检验和通行效率。人脸识别测温终端应用在车站、工厂、园区、学校等人员较密集的公共场所,有助快速排查和锁定体温异常人员,防止病毒通过人员扩散。

有人说,人脸识别测温终端只是短期的需求,像非接触式的红外人脸识别测温终端也只能是短期产品,疫情过后可能就用不上了。但需要看到的是,这次疫情让全国对卫生安全的意识提升了一个台阶。时刻关注人员的健康状况,可以及早防范和减少交叉感染风险。就算这些测温门禁终端平时不启动红外测温功能,只在必要时进行不放,也能实现平战两种情况使用,减少非常时期更换设备的成本。

同时,这些智能测温人脸识别门禁终端还可以及时上传测温和考勤信息,做好出入口管控管理。结合身份核验和智能大数据,对确诊人士进行及时隔离和行踪溯源。在疫情下,根据患者身份跟踪溯源,锁定传播轨迹,是控制疫情蔓延的关键,通过各种身份核验终端就能将数据汇总到云端,进行快速跟踪处理。

非接触式门禁设备在未来将会应用在更多的公共场所。无论是在疫情期与否,公共卫生的细菌传播始终是日常生活中需要长期关注的一部分。减少一分接触,就减少一分感染的风险、应用红外测温和非接触式门禁考勤终端,可以及早将公共场所提升防疫级别,降低人力成本,减少感染风险,保障我们的环境更健康,生活更便捷。

测温头盔趁势而起,疫情下加速落地

红外测温在疫情下成为刚需。针对不同的使用场景和需求,多种测温方式应该互补并用,清除测量死角、提升测量效率。

在机场、车站、园区、地铁等人流密集场所,对无接触、高效率、精准测温有需求。在这些场所,首先一对一近距离使用的红外测温枪不适于大规模使用,其次安置在卡口位置的桩式测温设备,价格相对较高,多数只能用于室内,同时还需要黑体、机架、网络、供电等条件要求,在部署上有一定限制。

还有什么更加灵活、高效的测温方式呢?

    智能头盔——防疫装备中的“轻骑兵”

一款智能头盔日前在深圳、上海部分机场、地铁站、企业园区完成了部署和试点应用,对于人流密集区域人员体温排查效率的提升相当显著。工作人员配戴头盔后,只要一眼扫过即可完成对前方几米范围内所有目标人员的扫描,发现发热人员立刻可以声光报警;可以无接触自动记录被检测信息和温度,解放双手,提升效率;检测人员和被检测者始终保持在安全距离,完全无接触状态完成检测、排查和记录,上百人队伍可以在不到2分钟时间便完成发热人员筛查和记录;8小时待机,带上头盔就能排查测量发热者,支持室内室外多种环境和场景,可以随时随地、动态巡查……

这款头盔是光启技术的智能头盔N901,既能实现传统红外测温摄像头的自动测温功能,还可实时识别二维码,自动记录信息,不需要施工布线,工作人员配戴即用,部署灵活,实现超高效率、无感、机动巡查发热人员。

佩戴智能头盔N901的警察在高速路口执勤的图片在深圳交警微博发出后,网友们的评论一下子炸了锅,纷纷称赞这款头盔帅气、炫酷、科技感十足,大大方便了通行。

2

    据光启相关技术人员介绍,智能头盔N901是光启人为抗击疫情所打造,专门解决各种复杂场景下如在对大人流中及时、精准、高效地发现发热者、防控风险。

“这是一款高度智能的穿戴式装备,专门应对现在疫情防御中很多难点问题,发热人员在5米左右就可以被筛查出来;对5米范围内的所有人员进行扫描,对发热人员的‘检出率’可达100%。只要是发热人员,100%可以被发现并告警,距离越近准确度越高。”一名技术人员表示,“不但可以发现发热人员,对每个检测对象都能自动记录温度,整个过程效率很高,都是在安全距离无接触完成,对双方都很安全。”

据了解,智能头盔N901具有机动部署、无感巡查的高效率。通常,一个三甲医院10台就可以全覆盖,巡查、大型办事大厅一两台就可以,大型园区五台内全部可以管控,大型商业区域五到十台就可以覆盖全部巡查,一个地铁站最多两三台可以覆盖机动巡查。相比价格高昂的固定端红外摄像头每个卡口都要部署,智能头盔N901属于防疫装备中新兴的“轻骑兵”。

    智能头盔N901的“黑科技”

除了强大功能、场景适配、巡检高效外,智能头盔N901还集成了很多“黑科技”:

采用航空级超材料技术赋能,实现减重与吸能,整个头盔不足1200克,配戴起来很轻便,但抗爆损能力却很强,即便3公斤钢锥在1米高的高度砸落也不会损伤;

通过超材料技术还实现大幅降低对人体电磁辐射,相应SAR值小于0.05瓦/公斤,是国家标准的1/40,极大地保护工作人员的健康;

强大的AI能力,不仅可以排查发热人员,还可实现二维码扫描、智能交互、人脸识别、证件识别、指战交互等智能能力;

全天候增强现实技术,视角广,虚拟屏幕可达74寸,保障配戴者视觉感觉好,不易疲劳;

采用多种航空级技术和工艺,例如航空级护目镜,可以防飞沫、防感染外,还可以防刮花、防雾、防指纹,即便汽车碾压也不会损坏变形;例如采用了航空级散热技术和能控技术,可以支持工作人员8小时超长待机,而且不会过热……

“智能头盔N901不仅具备智能排查和保护配戴者的功能,还要解决了配戴舒适的问题,在整个设计过程中增加了大量的工程技术,也引入了人体工程学设计,目的就是让每个工作人员能舒适、安全地开展工作。”一位业界专家进一步介绍。

    源于军工和公共安防等领域积累

光启在其近10年的发展历程中,主要在军工和公共安防等科技领域耕耘。据了解,智能头盔N901的基础技术,就是在其智能头盔的技术上演进而来。

光启警  用智能头盔是一款应用于实战的智能头盔,具有全智能实战性,能够实时自动人脸识别,5米外秒级响应识别“黑白名单”人员、车辆、证件,并具备语音翻译、实时直播、前后台互动、大规模协同作战等功能。像电影中的情节,警务人员佩戴头盔后,马上变身为“超级战警”。

目前,光启技术警  用智能头盔已在第一、二届中国国际进口博览会上及多个城市70周年国庆的安防保障中,大规模投入实战应用。该装备投入使用以来,平均每识别一万人次就能发现两次风险隐患并当场处置,已化解多次重大安全风险。

据了解,续航能力也是一个重要指标。与普通手机、PAD不同,智能头盔的应用主要是在室外环境下视频大数据流的实时直播、传输、人工智能计算应用,对功耗的要求极高。光启警  用智能头盔采用了先进的低功耗设计,AR显示节能85%的功耗,AI系统节能40%功耗,整机待机时间能长达72小时以上、连续实时自动识别功能超长续航6小时,电池更换简单。而同类智能眼镜产品续航时间仅为30分钟左右,或者拖着一根长长的数据电源线从头部连接到身上的手机,难以实战使用。

一位装备领域的业界专家表示,凭借在超材料、大数据、AI、AR、精密智能制造等领域的技术突破和积累,光启技术是业界具备智能头盔快速批产实力的企业。正是基于在智能头盔领域的研发和批产实力,加上规模化实战应用经验,光启技术才能在短短一个月之内成功推出智能头盔N901。

    智能头盔首批订单完成交付,光启2019年净利增长70%

根据光启技术近日发布的2019年年度业绩快报公告,其2019年营业总收入为4.82亿元,比上年同期增长3.92%;归属于上市公司股东的净利润为1.2亿元,比上年同期增长70.22%。

公告显示,光启技术总资产为80.46亿元,比本报告期初下滑1.87%;基本每股收益为0.0557元,上年同期为0.0327元。

2

    据了解,公司于2017年2月完成非公开股票的发行,并在2017年12月完成了国防军工企业深圳光启尖  端技术有限责任公司的资产注入。经过三年的建设,公司主营业务已从传统汽车零部件的生产制造转型成为国防军工超材料技术装备的研制与生产。报告期内,公司分别与多家重点客户签订军工产品批产订货合同,核心产品追加订货额度大幅增加,批产产品种类不断丰富,客户认可度进一步提高。公司新一代单兵AI装备产品智能头盔首批订单在上海完成交付,获得了客户的高度认可。

    5G将推动智能头盔大范围落地

随着5G的来临,集AI、AR等技术于一身的智能头盔将进一步全面落地。

中国电信将VR/AR列入5G十大行业应用(包括智慧警务、智慧交通、智慧生态、智慧党建、媒体直播、智慧医疗、车联网、智慧教育、智慧旅游、智能制造)中的“服务美好生活”类别。

中国联通在AR眼镜、基于5G的无人机、移动布控球、固定摄像机、AR警务头盔等产品都有布局,推动5G与AR在远程协助、AR智慧巡检、AR智慧安防等多领域的联动发展。

中国移动的专家也曾表示,5G到来之后,针对大带宽的业务很典型的就是高清视频、AR、VR为代表的大视频应用。AR终端是人机交互、计算机视觉、显示技术的集大成者,安全泛在、灵活智能的5G网络将术改变我们和移动设备间的关系,为智能终端的普及提供坚实支撑。

语音识别市场竞争激烈,亚马逊崛起与微软衰落形成反差

语音识别是一种可以识别口语单词的技术,然后可以将其转换为文本。语音识别的一个子集是语音识别,这是一种基于语音识别人的技术。全球五家顶尖科技公司Amazon,Microsoft,Google和Apple已通过Google Home,Amazon Echo和Siri等服务在各种设备上提供此功能。

随着市场上许多语音识别产品的推出,我们决定研究语音识别的业务含义。通过研究这些公司的语音识别技术,我们尝试为读者解答以下问题:语音识别如何驱动这些公司的商业价值?他们为什么要投资语音识别?几年后这项技术会是什么样?我们从一些背景开始,探讨技术巨头如何以及为何开发语音识别技术。其次是来自亚马逊,微软,谷歌和苹果的语音识别技术的衰落。

技术公司正在意识到对语音识别技术的兴趣,并正在努力使语音识别成为大多数产品的标准。这些公司的目标之一可能是使语音助手围绕上下文和内容更加准确地讲话和答复。研究表明,具有语音识别功能的虚拟助手的使用量预计将在明年继续增长,从2017年的6050万在美国增加到2018年的6240万。到2019年,有6660万美国人使用语音或语音识别技术。

为了建立强大的语音识别体验,其背后的人工智能必须变得更好,以应对口音和背景噪音等挑战。如今,自然语言处理和神经网络技术的发展极大地改善了语音和语音技术,以至于今天据说与人类同等。例如,在2017年,该公司记录的Microsoft语音技术的单词错误率达到5.1%,而Google报告说它已将其错误率降低到4.9%。

研究公司Research and Markets报告说,到2023年,语音识别市场的价值将达到180亿美元。随着语音识别技术变得越来越大,该研究估计它可以应用于从电话到冰箱再到汽车的所有领域。在拉斯维加斯举行的CES 2017年度展会上可以看到其中的一瞥,那里推出或宣布了带有语音的新设备。尽管所有应用程序都具有非常相似的功能和集成机会,但我们已根据我们研究的重点将它们归类为每个应用程序的主要关注领域。

语音识别市场竞争激烈,亚马逊崛起与微软衰落形成反差

直到最近,亚马逊的语音虚拟助手Alexa仅在亚马逊生产的商业产品上可用。但是,Amazon Web Services已将语音助手提供给其他公司。亚马逊与英特尔合作推出了Alexa语音服务设备软件开发套件,该套件可允许第三方公司将Alexa功能嵌入其设备。此次合作是亚马逊“ Alexa Everywhere”战略的结果,该公司表示,该战略旨在使各种智能和可穿戴设备的制造商都能普遍使用Alexa背后的技术。

在拉斯维加斯举行的CES 2018上,索尼,TiVo和海信发布了集成Alexa的智能家居技术,使客户能够通过语音控制电视。惠而浦,三角洲,LG和海尔等家用电器制造商还增加了Alexa的语音识别技能,以帮助人们控制房屋的各个方面,从电视,微波炉到空调装置和水龙头。根据Amazon Alexa网站的数据,Alexa可以控制来自2500多个品牌的13,000多种智能家居设备。

包括其他公司的产品在内,Alexa现在拥有30,000种技能。尽管苹果拥有Siri,谷歌将其未命名的虚拟助手内置在智能手机和扬声器中,但亚马逊将Alexa集成到了智能扬声器Echo中。亚马逊没有透露最终的销售数字,Forrester预测到2017年底将售出2200万个Echo单元。Forrester称,达到这个销售数字将使Echo成为美国最大的语音助手。

作为虚拟助手,亚马逊声称亚马逊提供的Alexa for Business可以帮助专业人士管理日程安排,跟踪任务并设置提醒。当集成到会议控制台等设备中时,该应用程序可以通过发言人的声音控制会议室设置。支持Alexa的设备还可以在较小的会议室中充当音频会议设备,或者在较大的会议室中充当控制设备。

罗技将Alexa内置到其Harmony远程装置中,以控制家庭娱乐系统和智能家居设备。当客户说出简单的命令(例如“ Alexa,打开电视”或“ Alexa,播放DVD”)时,将激活远程单元。然后,Alexa将请求发送给Harmony,后者通过红外将请求中继到家用设备,蓝牙或IP。

据亚马逊称,原型团队由罗技公司的一名高级软件架构师组成,他花了两个小时将Alexa集成到Harmony中。一旦原型准备就绪,罗技(Logitech)的团队就准备了发射所需的技能。根据罗技(Logitech)的数据,亚马逊报告说,从原型开发到生产级技能的过程不到两周。在此案例研究中未提供其他详细信息或编号。

在更基本的层面上,亚马逊还提供自动语音识别(ASR)服务Transcribe,使开发人员能够向其应用程序添加语音到文本功能。一旦语音功能集成到应用程序中,最终用户就可以分析音频文件,然后接收转录语音的文本文件。Google Assistant是谷歌的语音虚拟助手,其技能包括诸如通过Google Pay发送和请求付款或对Pixel 手机进行故障排除之类的任务。

在Android或iOS手机,智能手表,Pixelbook笔记本电脑,Android智能电视/显示器和Android自动启用的汽车等设备上都可以使用Assistant。当需要在诸如库之类的地方保持安静时,用户还可以在Assistant中键入命令。Google Assistant为儿童和家庭提供了50种与语音相关的游戏。

随身携带的Google智能扬声器包括Home。谷歌声称该扬声器可与来自150多个品牌的5,000多个智能家居设备配合使用,例如咖啡机,电灯和恒温器,其中包括索尼,飞利浦,LG和东芝。据报道,在2018年第一季度,谷歌售出了320万台其Home和Home Mini设备,超过了Alexa支持的Echo设备(250万台)。两家公司都没有发布官方数据。

为了使Assistant更加普及,Google通过Actions打开了软件开发工具包,该工具包允许开发人员在支持人工智能的自己的产品中建立声音。谷歌最近还启动了Assistant Investments计划,该计划投资于致力于提高语音和辅助技术(无论是硬件还是软件)的初创公司,并专注于旅游,游戏或酒店业。

根据该计划,谷歌将在技术,业务开发和产品潜在客户方面提供支持。初创公司还将获得对Assistant的新功能和计划的首次访问; Google产品(包括Google Cloud)的信用; 以及潜在的联合营销机会。Google的另一种语音识别产品是由AI驱动的云语音到文本工具,开发人员可以通过深度学习神经网络算法将音频转换为文本。该工具可使用120种语言,支持语音命令和控制,转录来自呼叫中心的音频,处理实时流或预先录制的音频。

来源:电子发烧友

2020年中国智能语音行业研究报告

人类对机器语音识别的探索始于20世纪50年代,迄今已逾70年。2016年,在深度神经网络的帮助下,机器语音识别准确率第一次达到人类水平,意味着智能语音技术落地期到来。不过人们面对“AI”时希望得到自然、类人的交互体验,这是一个宏伟的开放性课题,背后涉及的各学科技术仍有不足,还面临长期的求索方能突破。

消费级智能硬件是最早显示出市场潜力的赛道,市场各方都在瞄准消费级智能交互终端。而智能终端的背后还有广阔的生态,包括语音开放平台、语音操作系统、内容等等,近年行业正在经历从单一商业模式向多元化商业模式的变迁,技术输出的“厚度”增加,“边界”扩大,也带来了技术落地曲线的加速度增加。

智能语音企业级和公共级市场主要有平台化技术输出和解决方案两类商业模式,解决方案业务占比较高。与国外市场以医疗为重头有所差异,我国市场以智能客服、公检法及教育业务份额更高。智能语音为各行业解决了刚需性问题,将促进各行业业务效率的提升。

目前全国约有超过250家企业参与智能语音语义市场。互联网巨头、技术提供方、设备商和行业集成商应分别重视连续性投入支持问题、基础开发模块标准化程度提升与商务团队配置问题、设备后服务增长问题和软件研发能力建设问题,迎接人机交互升级带来的行业价值链扩张。

智能语音的概念

智能语音即实现人与机器以语言为纽带的通信

智能语音即实现人与机器以语言为纽带的通信。人类大脑皮层每天处理的信息中,声音信息占20%,它是沟通最重要的纽带,人机对话将方便人们的工作与生活。完整的人机对话包括声音信号的前端处理、将声音转为文字供机器处理、在机器生成语言之后,用语音合成技术将文本语言转化为声波,从而形成完整的人机语音交互。

2020年中国智能语音行业研究报告

智能语音的前情提要

机器“听觉”本质上是对声音特征和文本的分类任务

人的听觉形成过程是将声能转变为机械能、再转为生物电信号,在听觉中枢加工、分析的结果,而机器的“听觉”则经过声音信号-音频信号-电信号-特征向量-解码为文字-理解的过程,本质是对声音特征和文本的分类任务(将字音分类对应为文字、将文字对应为潜在语义),如果需要机器感知声音的起止和音色等特征,还需要另外进行信号处理与特征分类任务。

深度神经网络是智能语音技术近年达到落地可用的推动器

2011年,微软研究院提出的基于上下文相关深度神经网络和隐马尔可夫模型的声学模型在大词汇量连续语音识别任务上获得了显著的性能提升,从此大量研究人员开始转向深度学习在智能语音领域的研究,2016年,机器语音识别准确率第一次达到人类水平,意味着智能语音技术的落地期到来。近年,研究方向主要是端到端神经网络及针对实际应用中的算法优化。

所涉学科及其研究任务

本章小结

技术闭环完成度有待提升,面临长期的求索方能突破

智能语音背后涉及的声学研究、模式识别研究、通用NLP研究及垂直场景的深度语义理解等还未成熟到拼成一个没有明显短板的“木桶”,在交互体验、使用效果、场景性优化等方面都还有很长的路。与人工智能发展最快的分支计算机视觉相比,尽管二者都凭借深度学习取得重大突破,并在识别准确率上达到人类水平,但计算机视觉通过人脸识别这一大技术分支便高完成度地解决1:1或1:N比对问题,快速渗透到了各行各业;智能语音技术要解决的却远远不是1:1或1:N的比对,而是人们面对“AI”时希望得到的自然、类人、甚至高信息密度的交互体验,这是一个宏伟的开放性课题,因此尽管智能语音已取得了一些商业上的成就,但仍面临长期的求索方能突破。

子研究:消费级市场

国内智能音箱卡位家庭流量迁移(1/3)

从PC与移动互联网看流量迁移模型

目前移动数据及互联网业务收入达到固定数据及互联网业务收入的三倍,说明互联网流量大量迁移到移动端。智能音箱厂商则希望在智能音箱从用户家庭场景流量中分一杯羹,成为家庭场景流量入口。借鉴移动互联网的经验,有三个关键因素将促成设备端口的流量增长:终端可得性、接入便利性、应用丰富性。

智能音箱的渗透情况

在我国城镇住房中渗透率达到20%

预计到2019年底,中国智能音箱累计出货量超过7200万台,在我国城镇住房中渗透率达到20%,接近2012年智能手机的渗透程度,“终端可得性”条件初步具备,跨过了家庭流量迁移的第一道门槛。

国内智能音箱卡位家庭流量迁移(2/3)

为什么说国内智能音箱会成为巨头的市场

2019年,尽管我国智能音箱硬件补贴已进入收缩阶段,补贴额依然达到15.8亿元(产品库存对该数值有一定影响),中小玩家难以支撑大量补贴,因此巨头占据了绝大部分市场。目前智能音箱市场主要由天猫精灵、小度音箱和小度在家、小爱音箱占据,互联网基因使它们在智能音箱产品上复制了互联网玩法——补贴攻城、低价策略、互联网服务运营回血,同时应用开发者的广泛聚拢、产品智能化提升的开发都需要强大的资金和资源支持,使智能音箱市场很难存在群雄并起的格局,智能音箱的流量也相应聚拢在大平台。而在智能音箱的生产成本中,麦克风阵列仍然是最大的部分。

国内智能音箱卡位家庭流量迁移(3/3)

流量的变现模式是下一步需要考虑的问题

目前终端设备销售以外的商业化还不是市场主要关注的问题,但已开始有一些尝试。智能音箱的应用/技能基本是以设备绑定形式存在,因此品牌设备方本身也是平台方(可以理解为智能音箱的核心预置应用、应用商店、主页、操作系统提供方),这为智能音箱更好地复制互联网变现模式打下了基础,电商购物、平台广告植入、应用推广和应用内购买(IAP)分成、用户增值服务付费、开发者服务等都是可能的变现方式,其中用户增值服务和电商购物已开始抢跑。与传统的互联网产品商业模式相比,由于前述智能音箱在活跃度、应用丰富性、流量质量等尚未取得突破,且口播广告不符合音箱产品使用逻辑、信息流及原生广告有待开发,因此广告形式、应用推广及IAP形式的变现还存在较大瓶颈。

本章小结

复盘消费级市场:商业模式多元化与技术落地曲线的加速度

在智能音箱部分我们探讨了品牌设备商如何形成多元化的变现模式,对于消费级市场另一大主力参与者——语音交互技术提供方而言,发展空间也远远不止下游B端品牌设备商在设备开发过程中支付的技术付费。一方面,技术提供方可以通过提供芯片、麦克风阵列解决方案、AI算法的全链方案,增加技术输出的“厚度”,同时实现技术与解决方案的研发中基础环节与模块标准化,降低客户的开发配置门槛;另一方面,强化对应用场景的理解,打磨交互功能和用户体验,给实际问题提供“向前一步”的解决能力,从而获得C端收费的可能。这两类发展空间的实现有赖于两点基础要素:(1)具备全链条语音交互技术能力;(2)有建立用户联系、获取用户体验反馈的场景。

子研究:企业级与公共级市场

企业级与公共级市场画像

平台化技术输出和解决方案两类模式,解决方案业务占比高

智能语音消费者业务主要通过硬件出售及相关互联网增值服务获利,而企业级和公共级业务则主要有两类合作模式:一是技术平台输出模式,将通用技术能力封装为SDK或API,下游客户或生态中的开发者使用时向技术提供方支付一定费用,当然为了促进生态的快速发展,一些平台如华为HiAI、百度语音技术采取面向开发者免费的策略;二是切入传统行业,提供解决方案(含核心设备),这种情形下涉及智能语音企业与传统行业集成商或最终客户进行定制化、深度合作。

智能语音与医疗健康(1/2)

核心价值在于提升输入效率和查询效率

医疗领域对于智能语音的需求主要来自电子病历系统上的语音功能,通过语音输入的方式生成结构化病例、执行病例检索,节约医师输入病历的时间,解决方案一般包括ASR/NLU技术和专用医疗麦克风。在导诊机器人、问诊小程序、诊后随访系统、住院病房管理系统、临床决策支持系统(CDSS)中也有应用。在落地过程中,需要重视针对医疗专业术语和各科室专有名词/符号/用药等知识进行模型训练和优化,建立筛选机制以过滤问诊无关信息,并进一步增强病例整理的语义标准化与深度结构化能力,以使系统便捷提取病例主症状、伴随症状、用药等重要特征信息。

智能语音与医疗健康(2/2)

发展速度受限于我国医疗信息化建设现状

Nuance是全球最大的智能语音公司,2018年其在医疗业务上取得9.9亿美元收入,占公司总收入的48%。相较而言,我国智能语音市场中2018年医疗健康仅占0.7%。这主要是由于美国医疗机构以私立为主,对诊疗服务人性化、医疗信息化关注度更高;我国医疗信息化发展水平相对落后,三级以下医院信息化建设经费有限、专项政策引导力度有待提升、数据孤岛普遍存在,因此目前市场处于单点式推进状态,短期内推进速度比较平稳。不过,智能临床决策支持系统和电子病历语音录入等应用与医疗信息系统打通集成、分级诊疗、医保控费、民生建设等都有直接关系,若相关政策引导加强、医疗数据标准建立和医疗数据跨机构整合推动加速,则有望复制海外市场的医疗业务体量。按照现状估计,预计到2022年,我国电子病历语音输入累计覆盖近1600家三级与二级医院(付费数,渗透率分别为36%和4.5%),180万医生受益。

智能语音与公检法

帮助公检法系统实现便捷办公和战法突破

智能语音与教育

应用于教、管、测、考等环节

智能教育领域,AI课堂的建设进入快车道,强调两点:一是解决家校之间、线上线下之间学习资源互通的问题,二是通过多模态识别收集课堂学情信息并做数据精准分析,因此通过语音转录、语音识别等技术实现授课语音转录为文字、利用多模态识别进行课堂质量监测不可或缺。另一方面,在线教育竞争呈白热化态势,用技术解决教育资源的复用、增加学习交互体验感等诉求也促进了智能语音技术在线上口语测评、虚拟教师等领域的应用。考试赛道方面,北京、上海、江苏、广东等省市近年推行在新中考、新高考英语考试中以机考形式进行口语测试,因此人机对话技术和智能语音评测技术开始应用于考试场景,以提升口语考试的效率。

智能语音与客服

从人机对话辐射到营销管理和通话服务质检

相对于前文所述的医疗健康、公检法、教育领域,客服领域的行业开放性相对较高,对AI应用迫切性强,参与者众多,未来一段时期内业务体量较大。目前AI客服可以为IVR、APP、小程序、网页等各端口提供自动对话功能,应用场景包括智能营销、呼入服务应答、电话质检、在线客服及辅助人工服务,在一定程度上满足了减轻传统客服中心一线人员工作负担、减少用户等待应答、低成本增加企业营销曝光等需求,应用渗透率较高。但目前AI客服营销转化率低、呼入服务应答转人工率高、业务场景适应性对话系统的建设成本与效果性价比较低、真实场景中对话异常处理灵活度不够等问题依然是行业痛点。传统客服产业由客服软件开发商、呼叫中心厂商、硬件设备厂商、电信运营商和软件集成商组成,AI客服则涉及多种类型的企业:近年来通讯云厂商一定程度上取代了传统呼叫中心,其呼叫中心和云客服业务可以集成提供客服机器人能力,AI客服机器人公司和客服SaaS也可通过渠道或者直销模式为客户提供AI客服服务。

智能语音与互联网内容审核监管

特定声音检测和语音识别技术帮助净化网络环境

互联网的变迁使音视频内容的传播得以快速发展,经统计,我国部分头部娱乐社交类App月度总有效使用时长达到每月70亿-90亿小时,用户每天将从娱乐社交平台接触大量信息。这也带来了垃圾信息审核难题,2019年上半年,多款语音社交App因通过语音传播违规信息下架。粗略估计娱乐社交类App背后产生的音视频内容时长接近每月4700万小时,这一数字如果用年来表示,相当于5400年,显然通过人工审核音视频的方式净化网络环境是不可能实现的,而如果依靠举报再人工审核的方式也只如沧海一粟、大量问题语音将被漏查。目前除使用图像识别技术审核图片和视频帧外,以依图科技为代表的AI公司开始通过特定声音检测和语音识别技术赋能实时语音流及音频文件的内容审核,弥补之前针对互联网语音内容的审核空白,提高审核效率与准确度。

智能语音与泛传媒

增加媒体产能,丰富传播形式

智能语音在泛传媒领域的应用主要包括合成主播自动播发稿件,将外语音视频新闻或节目自动翻译、根据画面同步匹配字幕,及为新闻稿件文字自动合成语音等。以自动播发稿件为例,2019年全国两会期间,新华社AI合成主播共播发稿件236条,为资讯内容的生产提供了新的方式;而音频与文字之间的转换则丰富了媒体的传播形式,使用户能够按需、按喜好获取资讯服务。

子研究:市场参与者

中国智能语音行业图谱

中国智能语音行业热度

市场较为理性,入局企业数量252家

据统计,我国人工智能创业项目中处于语音识别和语义分析赛道的共有252家,占比10.6%。同时,根据国家工业信息安全发展研究中心数据,截至2018年底,我国人工智能领域合计申请专利44.4万件,而语音识别与自然语言处理技术则合计申请专利6.1万件,占比达到13.6%,反映出智能语音领域单位技术产出情况高于行业整体,且发展也更倚重技术要素。

写在最后

AI助理的真正形态:向多模态高密度交互升级

在5G快速发展的背景下,高带宽和低时延特性使多模态识别开始普及,未来支持多模态识别的AI芯片、支持多模态识别的物联网操作系统以及AI算法将受益。多模态识别的主要应用场景包括车载(第三空间)、智能机器人、身份鉴定,具体将会通过语音识别、人脸识别、表情分析、唇动状态、眼球跟踪、手势识别、触觉监控等智能人机交互手段综合识别人的情绪、疲劳状态、复核验证人的身份,对于更加精准、主动和个性化地提供人机交互方式十分重要。

另一方面,语音转写已经成为智能语音技术落地的重要场景,目前在短时间、对话人数少的场景下应用效果较好,但在企业级和公共级场景下往往面临对话时间很长的情况,仅做语音转文字和简单的结构化,不能甄别有效信息、语义结构分类不理想等将是限制语音转写规模化落地的最大问题,行业的高速发展有赖于准确地按照需求提取长时语音消息的有效内容。

来源:艾瑞咨询

30年经验的工程师怒了:这样的红外热成像测温产品怎么可以入市

“我跟你说,我今天遇到一件非常气愤的事情,一整天都在调试某厂的红外测温产品,无论何种环境、何种参数,始终都是误报,我没法交货了;最让我无法接受的是,该厂售后支持还一直强调他们的产品没有问题……”

有一段时间未联系的某项目老总一给小编电话就絮絮叨叨起来,语速快得都无法插上嘴,这得是遇上了多大的问题,才能让一位拥有30多年工程经验的老工程师如此气愤?

疫情催生新需求

一番了解下来,原来又是疫情惹的祸!

我们知道,在疫情之前,红外测温一般是通过手持的方式进行,几乎没有全天候对人进行测温防控的需求。

由于疫情的完全控制时间可能要到4月,持续地设置测温卡点对进出人员进行检测变得不现实,于是市场上对7×24小时的全天候智能测温产品产生了庞大的需求。

需要特别说明的是,疫情只是催化剂,未来在学校、商场、地铁、商业楼宇等场所,人体测温都会成为长期的需求,这将会成长为一个全新的市场,其需求不亚于固定监控产品。

而且,热成像技术门槛高,在我国还属于高端应用,只有少数企业具备研发和生产实力,产品价格高,具有广阔的市场空间和利润空间。

安防企业第一时间就洞悉了这一市场痛点,利用技术及产业链优势,春节期间就加班加点研发。于是,支持人体测温的门禁道闸、枪机、球机等产品先后面世,并快速投入到实战中。

心急吃不了热豆腐

此次该项目老总抱怨的问题就出在新产品中。

用红外热成像对人体进行测温,3大因素将影响其准确度,首先是传感器,这是将物体表面温度分布转换成人眼可见图像的核心器件,其性能优劣直接决定了使用效果;其次是成像系统控制,如信号处理、软件控制等;第三是环境干扰性。

而从疫情爆发到产品上市,慢的基本上1个月就出货,快的几乎几天时间。如此短的研发周期,几乎可以说,产品未经实战验证就直接上市了,就如当年的二维人脸识别技术一样,实际的应用效果远远达不到使用需求,被斥为鸡肋。

目前紧急研制出来的红外热成像产品正处于这样的不利境地,先不说厂商能否找到合适的传感器,光是软件调试、场景适应性就不是一时半会能调试好的,如市场上出现的黑体校准,就是应对产品可能存在的不足而推出的应对之策,真正的好产品是不需要多此一举的。

不仅如此,市场上还出现了一些厂商相互攻击的情况,通过对手产品存在的漏洞来打压对手。

这里需要给予肯定的是,针对市场新冒出来的需求,各个安防企业都盯紧这块蛋糕,推出的产品非常具有安防的特质——防控,如一些热成像产品采用的是双光谱设计(红外热成像+可见光),这就是把森林防火、边防、海防的技术与应用移植过来的成果,确实更有利于防控,可实现图像关联,迅速确认人员。

当然,对目前出现的问题,还需要多进行实践,从实战中汲取经验并改进,必将能推出符合市场需求的红外热成像体温检测产品,如通过可见光图像识别人脸,联动红外热成像系统只对人脸检测,可很好降低环境的干扰问题。

红外热成像测温设备选用建议

疫情是件公共卫生突发事件,但防控却是一件持久的事情,同时防控又是一件非常严肃的事情,因此我们不能急于求成,如果有企业为了占领市场推出不符合应用要求的产品,最后为此付出的代价是难以估量的。

作为使用者,我们又该如何选择呢?在此小编提出如下几点建议。

1、选择成熟的产品。市场上原本就有一些针对人体测温的红外热成像产品,应用效果稳定可靠;可能它们的结构设计不能满足需求,如7×24全天候监控,可以给设备加装防护外壳的形式来解决。

2、唯应用效果论。市场上突然冒出种类多样的红外热成像产品,价格千差万别。多年从事红外热成像采购的同行告诉我们,热成像目前还属于“高端货”,动辄几万、几十万都是正常的市场价格,不要轻易迷恋物美价廉。如果某款产品价格很低,那就要多多考虑了,建议以产品的使用效果为采购标准,而不要以价格作为衡量准则。

3、选择专业的品牌产品。推出热成像产品的厂家不少,但有实力自主研发的不多,而此前就有专注于人体测温的就更少,因此,在选择产品时,请优先选择此前就在人体测温上有积累的品牌,如大立科技、高德红外等企业;待市场经过一段时间沉淀后,再放宽品牌的选择范围。

需要说明的是,虽然红外热成像产品能解决部分区域的体温监控问题,但符合特定场景使用需求的产品并不多,目前您看到的多是新推出的产品,可能存在各种各样的问题;但在完整的产业链条下,以及实战持续推助改进,产品水平必会得到快速提升。

因此建议有需求的朋友先忍耐一段时间,相信经过一段时期的验证,产品性能必会得到大大改善,届时选购的产品,效果更好、也更能符合需求。

来源:OFweek工控网

使用Python和Keras创建简单语音识别引擎

语音识别是机器或程序识别口语中的单词和短语并将其转换为机器可读格式的能力。通常,这些算法的简单实现有一个有限的词汇表,它可能只识别单词/短语。但是,更复杂的算法(例如Google的Cloud Speech-to-Text和Amazon Transcribe)具有广泛的词汇量,并包含方言、噪音和俚语。

在本文中,我将演示:

语音转文字的工作原理
如何处理要转录的音频
使用Keras解决问题的深度学习模型
一种评估此模型的方法
将预测模型集成到项目中的脚本

简介

语音只是由我们的声带引起的空气周围振动而产生的一系列声波。这些声波由麦克风记录,然后转换为电信号。然后使用高级信号处理技术处理信号,分离音节和单词。得益于深度学习方面令人难以置信的最新进展,计算机也可以从经验中学习理解语音。

语音识别通过声学和语言建模使用算法来工作。声学建模表示语音和音频信号的语言单元之间的关系;语言建模将声音与单词序列进行匹配,以帮助区分听起来相似的单词。通常,基于循环层的深度学习模型用于识别语音中的时间模式,以提高系统内的准确性。也可以使用其他方法,例如隐马尔可夫模型(第一个语音识别算法是使用这种方法)。在本文中,我将仅讨论声学模型。

信号处理

有多种方法可以将音频波转换为算法可以处理的元素,其中一种方法(在本教程中将使用的一种方法)是在等距的点上记录声波的高度:

 

我们每秒读取数千次,并记录一个代表当时声波高度的数字。这是一个未压缩的.wav音频文件。“ CD质量”音频以44.1 kHz(每秒44,100个读数)采样。但是对于语音识别而言,16khz(每秒16,000个样本)的采样率足以覆盖人类语音的频率范围。

用这种方法,音频是通过一个数字向量来表示的,其中每个数字以1/16000秒的间隔表示声波的振幅。这个过程类似于图像预处理,如下例所示:

 

多亏尼奎斯特定理(1933年— 弗拉基米尔·科特尔尼科夫(Vladimir Kotelnikov)),我们知道,只要采样速度至少是我们要记录的最高频率的两倍,我们就可以使用数学方法从间隔采样中完美重建原始声波。

Python库

为了完成这个任务,我使用Anaconda环境(Python 3.7)和以下Python库:

ipython (v 7.10.2)
keras (v 2.2.4)
librosa (v 0.7.2)
scipy (v 1.1.0)
sklearn (v 0.20.1)
sounddevice (v 0.3.14)
tensorflow (v 1.13.1)
tensorflow-gpu (v 1.13.1)
numpy (v 1.17.2)

 

1.数据集

我们在实验中使用TensorFlow提供的语音指令数据集。它包括由成千上万不同的人发出的由30个短单词组成的65000个一秒钟长的话语。我们将建立一个语音识别系统,它可以理解简单的语音命令。您可以从此处下载数据集(kaggle.com/c/tensorflow-speech-recognition-challenge)。

2.预处理音频波

在使用的数据集中,一些记录的持续时间少于1秒,并且采样率太高。因此,让我们阅读声波并使用下面的预处理步骤来解决这个问题。这是我们要执行的两个步骤:

重采样
删除少于1秒的短命令
让我们在下面的Python代码片段中定义这些预处理步骤:

 

由上可知,信号的采样率为16000 hz。我们把它重采样到8000赫兹,因为大多数语音相关的频率都在8000赫兹。

第二步是处理我们的标签,这里我们将输出标签转换为整数编码,将整数编码标签转换为one-hot 向量,因为这是一个多目标问题:

 

预处理步骤的最后一步是将2D数组reshape为3D,因为conv1d的输入必须是3D数组:

all_wave = np.array(all_wave).reshape(-1,8000,1)

3.创建训练和验证集

为了执行我们的深度学习模型,我们将需要生成两个集合(训练和验证)。对于此实验,我使用80%的数据训练模型,并在其余20%的数据上进行验证:

 

4.机器学习模型架构

我使用Conv1d和GRU层来建模用于语音识别的网络。Conv1d是一个仅在一维上进行卷积的卷积神经网络,而GRU的目标是解决标准循环神经网络的梯度消失问题。GRU也可以看作是LSTM的一个变体,因为两者的设计相似,在某些情况下,可以产生同样优秀的结果。

该模型基于deepspeech h2和Wav2letter++ algoritms这两种著名的语音识别方法。下面的代码演示了使用Keras提出的模型:

 

注意:如果仅使用CPU来训练此模型,请用GRU替换CuDNNGRU层。

下一步是将损失函数定义为分类交叉熵,因为它是一个多类分类问题:

model.compile(loss=’categorical_crossentropy’,optimizer=’nadam’,metrics=[‘accuracy’])

Early stopping和模型检查点是回调,以在适当的时间停止训练神经网络并在每个epoch后保存最佳模型:

 

让我们在32的batch size上训练机器学习模型,并评估保留集上的性能:

 

该命令的输出为:

 

5.可视化

我将依靠可视化来了解机器学习模型在一段时间内的性能:

 

6.预测

在这一步中,我们将加载最佳的权重,并定义识别音频和将其转换为文本的函数:

 

对验证数据进行预测:

 

这是一个提示用户录制语音命令的脚本。可以录制自己的语音命令,并在机器学习模型上测试:

 

最后,我们创建一个脚本来读取保存的语音命令并将其转换为文本:

 

最后

语音识别技术已经成为我们日常生活的一部分,但目前仍局限于相对简单的命令。随着技术的进步,研究人员将能够创造出更多能够理解会话语音的智能系统。

霍尼韦尔发布热成像人体测温初筛解决方案 用科技赋能疫情防控

针对高流量人群环境疫情防控的需求,《财富》全球500强高科技企业霍尼韦尔(纽交所代码:HON)于近日发布集成化红外热成像人体测温快速初筛解决方案。通过热成像人体测温双光红外摄像机、热成像人体测温智能通道管理及安全集成管理系统平台等设备的快速布控,帮助用户实现无接触快速筛查体温超标人员,可广泛应用于公共交通、写字楼、工厂、海关、学校和医院等人流密集公共区域,有效地构建一个安全健康的环境。

当前正值疫情防控的关键时期,举国上下在全力抗疫的同时,也多措并举加快推动有序复工复产。针对面广量大的返工返岗人员,做好公共场所的人体测温和精准预警,是打赢这场防控复工双战“疫”的关键,而体温检测是判别和预防病毒感染的重要手段之一。

为了应对人流密集场所下的体温检测挑战,霍尼韦尔推出全新集成化红外热成像测温快速初筛解决方案,实现非接触式快速测量体温,并支持实时检测及超温报警,有效应对短时间内大量人员通行区域的测温需求,同时降低由身体接触引起的感染风险,用科技赋能疫情防控。

提供灵活布控方案,满足多场景应用需求

通过在霍尼韦尔热成像摄像机内设定温度检测规则,摄像机能够自动进行温度检测,发现超温者立刻发出报警信息;检测员还可通过客户端界面查看视频中人员的体温情况,发现体温异常者将采取合适措施予以高效管理;此外,摄像机还能与门禁系统智能闸机相联动,体温一旦超出设定值会即刻发出警告提示,关闭闸机禁止异常通行,并将相关体温数据和告警信息上传至管理平台。

支持人脸侦测、黑体校准,保障精准测温

为了保障高精度的非接触式人员测温,霍尼韦尔热成像摄像机基于深度学习的人脸侦测技术,即使戴口罩也能准确检测出人脸区域,有效减少由其他热源引起的误报;同时搭配测温校准设备黑体1,有效提升人体测温精度,通过可见光与热成像图像聚合能够更加清晰地呈现成像图片,由此降低测温系统的漏报与误报。

支持现场快速部署,满足灵活便捷安装需求

为了更快地响应不同环境中的防控需求,能够在有限的条件下进行现场快速部署是关键所在。霍尼韦尔提供快速布控测温方案配置,仅需1台热成像测温摄像机、1台黑体校准设备、1台客户端电脑、适配三脚架以及相关管理软件,即可完成不同现场环境的快速布控,便捷而高效。

霍尼韦尔智能建筑科技集团大中华区安防事业部总经理张金宏表示:“当前正值防疫复工双战‘疫’的关键时期,作为全球领先的安全解决方案提供商,霍尼韦尔在视频监控、门禁控制、报警联网及安全管理集成平台的技术功底上赋予数字化创新应用,提供集成化红外热成像人体测温快速初筛解决方案,有效地减少人体近距离接触而引起的健康风险,同时帮助用户解决快速部署、便捷安装的应用环境需求,以实际行动护航复工复产,筑牢复工防疫第一关。”

来源:美通社

海外订单井喷 红外测温仪供不应求

证券时报e公司讯,一家红外测温仪公司表示,公司依然是零库存的状态。“我们的海外订单近期上升得很快。”“我们现在急缺热电堆红外传感器。”一家额温枪厂商告诉记者。记者联系生产该传感器的某上市公司时被告知:“现在排单,5月份可以拿到货。”

来源:中国证券网

智能语音产品迎来发展黄金期

近日,易观发布的《2020年中国语音OS市场分析报告》显示,伴随5G技术的发展、人工智能技术以及自然语言理解能力的提升,智能语音产业迎来发展黄金期。与此同时,国内喜马拉雅、百度、科大讯飞等巨头纷纷在智能语音领域布局。

当前,国内智能语音产品发展水平如何?

据了解,目前,国内一线厂商机器翻译能力已经达到国际领先水平,中英文语音合成功能已超过普通人水平。在语音识别方面,准确率不断提升,包括喜马拉雅在内的主流厂商语音识别准确率达到97%。

智能语音产业迅猛发展,得益于中国智能语音产业规模持续快速增长。中国电子协会发布的数据显示,中国智能语音产业规模自2014年起增速持续增长,2018年已接近240亿元。

与此同时,语音技术全链路升级为语音OS培育丰沃土壤,为语音OS落地创造大量应用场景。易观在《中国语音OS市场专题分析2020》指出,家居、通勤、办公会议、亲子休闲等都是语音OS落地的主要场景。以喜马拉雅小雅OS为例,应用场景几乎覆盖用户的所有时段。清晨智能闹钟叫醒、通勤路上智能音箱播放有声书、晚间智能灯陪伴入眠。

据测算,2020年语音交互在国内智能家居市场中的渗透率将达到27%,充分说明了语音OS作为家居交互入口前景广阔。这一点,通过小雅OS用户数的快速增长得到了验证。2019年12月,喜马拉雅小雅OS上线2个月后,用户突破600万。

值得关注的是,在中国智能家居用户使用时长持续上升的大背景下,原本处于行业产业链各阶段的厂商尝试自建生态,整合内容、技能开发者、硬件厂商组装成解决方案搭建语音OS平台,加快了语音OS系统和语音识别技术的商业化落地。

以小雅OS与美的合作的小美Mini智能音箱为例,小雅OS为美的一站式赋能体系,不仅实现了美的品牌全品类智能家电的语音控制,还深入用户生活,实现场景化的设备联动。同时,小雅OS为美的深度打磨的语音交互体验也成为行业标杆,多轮对话和主动推送等能力为用户提供了更具人性化的交互体验。

此外,语音OS助推车联网生态迅猛发展。人在车内双手和双眼被占用,基于安全考虑,智能语音成了这一场景下最合适的交互方式。预计到2020年,语音交互在中国智能车载市场渗透率将超过50%。

业内专家表示,当前,各语音OS厂商在语音交互技术上的发展已经趋于成熟,未来语音识别和反馈能力上继续实现大幅度进步的可能性较低,各家语音OS平台的竞争重点将向内容和生态的整合能力上转变。

易观在《中国语音OS市场专题分析2020》表示,语音OS技术差距将进一步缩小,用户对音频内容愈加依赖,内容生态价值语音OS内容生态价值愈发重要。未来,随着硬件行业进入存量市场,语音OS将在企业端与用户端分别发力,商业化探索逐步深化,内容消费也将成为重要助力。在物联网技术加持下,语音OS平台将更加开放,迎来更大发展空间。

来源:经济日报

语音识别进化简史,从造技术到建系统

美国知名投资机构Mangrove Capital Partners在《2019年语音技术报告》中,给语音下了一个宏大的定义—欢迎下一代的颠覆者。可如果把时间倒退10年,大部分人还是会把“语音交互”定义为一场豪赌,都知道赢面比较大,却迟迟不敢下注,因为概念的落地还没有一个明确的期限,当正确的路径被走通之前,永远都存在不确定性。不过在此前的80年里,人类对语音技术的希望从未破灭,就像是在迷宫中找寻出口一般,一遍又一遍地试错,最终找到了正确的路径。

 

漫长的孩提时代

“明天天气怎么样?”“我想听周杰伦的歌”,诸如这样的指令每天有几亿次发生,哪怕是牙牙学语的孩子也可以和智能音箱进行流畅的对话。但在50年前,就职于贝尔实验室的约翰·皮尔斯却在一封公开信中为语音识别下了“死亡诊断书”:就像是把水转化为汽油、从海里提取金子、彻底治疗癌症,让机器识别语音几乎是不可能实现的事情。彼时距离首个能够处理合成语音的机器出现已经过去30年的时间,距离发明出能够听懂从0到9语音数字的机器也过去了17个年头。这两项创造性的发明均出自贝尔实验室,但语音识别技术的缓慢进展,几乎消磨掉了所有人的耐心。

在20世纪的大部分时间里,语音识别技术就像一场不知方向的长征,时间刻度被拉长到了10年之久:20世纪60年代,时间规整机制、动态时间规整和音素动态跟踪三个关键技术奠定了语音识别发展的基础;20世纪70年代,语音识别进入了快速发展的阶段,模式识别思想、动态规划算法、线性预测编码等开始应用;20纪80年代,语音识别开始从孤立词识别系统向大词汇量连续语音识别系统发展,基于GMM-HMM的框架成为语音识别系统的主导框架;20纪90年代,出现了很多产品化的语音识别系统,比如IBM的Via-vioce系统、微软的Whisper系统、英国剑桥大学的HTK系统;但在进入21世纪后,语音识别系统的错误率依然很高,再次陷到漫长的瓶颈期。直到2006年Hiton提出用深度置信网络初始化神经网络,使得训练深层的神经网络变得容易,从而掀起了深度学习的浪潮。

 

▲早在20世纪50年代,贝尔实验室就开始进行语音识别的研究。当时研究的主要是基于简单的孤立词的语音识别系统。

只是在2009年之前70年左右的漫长岁月里,中国在语音识别技术上大多处于边缘角色,1958年中国科学院声学所利用电子管电路识别10个元音,1973年中国科学院声学所开始了计算机语音识别,然后是863计划开始组织语音识别技术的研究,直到百度、科大讯飞等中国企业的崛起。

跃进的少年时代

2010年注定是语音识别的转折点。前一年Hinton和D.Mohamed将深度神经网络应用于语音的声学建模,在小词汇量连续语音识别数据库TIMIT上获得成功。从2010年开始,微软的俞栋、邓力等学者首先尝试将深度学习技术引入到语音识别领域,并确立了三个维度的标准:数据量的多少,取决于搜索量、使用量的规模;算法的优劣,顶级人才扮演者至关重要的角色;计算力的水平,关键在于FPGA等硬件的发展。

在这三个维度的比拼中,谁拥有数据上的优势,谁聚集了顶级的人才,谁掌握着强大的计算能力,多半会成为这场较量中的优胜方。于是在语音识别的“少年时代”,终于开始了跃进式的发展,刷新纪录的时间间隔从几年被压缩到几个月。

2016年语音识别的准确率达到90%,但在这年晚些时候,微软公开表示语音识别系统的词错率达到了5.9%,等同于人类速记同样一段对话的水平,时任百度首席科学家吴恩达发声称百度在2015年末即达到了同等水平;2017年6月,Google表示语音识别的准确率达到95%,而早在10个月前的时候,李彦宏就在百度世界大会上宣布了百度语音识别准确率达到97%的消息。

一个有些“奇怪”的现象,为何在语音识别领域缺少前期积累的中国,可以在极短的时间内实现从无到有,甚至有后发先至的趋势?可以找到的原因有二:首先,传统专利池被挑战,竞争回归技术。语音识别进入深度学习时代,并没有背负太多的专利包袱,国内外玩家们有机会站在了同一起跑线上。

比如2013年百度的语音识别技术还主要基于mel-bank的子带CNN模型;2014年就独立发展出了Sequence Discriminative Training(区分度模型);2015年初推出基于LSTM–HMM的语音识别,年底发展出基于LSTM-CTC的端对端语音识别系统;2016年和2017年将Deep CNN模型和 LSTM、CTC结合起来,2018年推出Deep Peak 2模型,2019年又发布了流式多级的截断注意力模型……此后,百度还推出了针对远场语音交互的鸿鹄芯片,可以实现远场阵列信号实时处理,高精度超低误报语音唤醒以及离线语音识别。

其次,语音识别进入到生态化、产业化的时代。在Google发布了语音开放API后,对Nuance产生了致命的打击,不仅仅是Google在产品和技术上的优势,也来自于Google强大的人工智能技术生态,例如以TensorFlow为代表的深度学习引擎。同样的逻辑,百度在2015年就开放了上百项智能语音专利,与海尔、京东、中兴通讯、中国普天等组建了智能语音知识产权产业联盟,同时PaddlePaddle、Warp-CTC、百度大脑的开放和开源,对中文语音识别有着潜移默化的影响,成了中国语音识别领域标准的制定者。

除此之外,2018年公布的第二十届中国专利评审结果中,百度的语音、机器翻译、无人车相关三项专利获奖,成为人工智能领域至今为止在国内专利界获得的最高级别政府奖项。其中“语音专利”涉及的新语音识别模型—采用深度学习算法在24时内对数以百亿级的大规模数据进行实时分析,高性能计算,令语音识别技术的准确率达97%,解决了语音识别领域关键性、共性的技术难题,被MIT 评为“2016年全球十大突破技术”。

语音识别的话语权,逐渐从大学和机构的实验室转移到了微软、Google、百度等商业巨擘手中,并最终迎来了跃进式发展的十年。或许语音技术的“少年时代”还有很长的路要走,但终究走出了漫漫黑夜,瞥见了黎明的曙光。

语音交互的“诱惑”

需要思考这样一个问题:为何语音识别在80年的技术长征中,出现了这样或那样质疑的声音,仍然对语音识别如此痴迷?前70年的答案可能是希望,最近10年的驱动因素则可能是庞大蛋糕的诱惑。先来盘点一下2010年后语音识别走向应用的三个过程。

一问一答阶段:彼时语音识别在自我学习、逻辑推理方面还有很大欠缺,不能针对同一对话内容展开深入交互,比如你问天气如何,系统会自动调取天气数据,接着问明天天气如何?会调取明天的天气预报。但今天天气和明天天气之间都是各自独立的对答,不能连接贯通,也未能形成逻辑。

有问有答阶段:语音识别开始在问答的基础上有了对话的属性,对应的产品有苹果的Siri、Google Now、百度语音、微软Cortana等等,彼时仍然停留在“人机对话”,处于机器被动接受人类输入大量数据阶段,不能更深层次理解人的意思,无法实现自学习、自成长,与机器的语音交流还不能像人一样自然。

自然交互阶段:从语音识别到语音交互,不仅有问有答,人工智能还可以根据上下文逻辑和环境信息,作出个性化的决策或推荐。典型的场景就是智能音箱,亚马逊、谷歌、百度、小米、阿里等无不开始在智能音箱领域发力,语音识别入口正逐渐撬开内容、IoT等生态,已然是AI入口之争的主战场。

不难从中看到这样的变化:刚开始的语音识别还处于造技术的阶段,可能仅仅是为了新奇炫酷的体验,但随着智能音箱、语音助手等软硬件应用的普及,解决了一个又一个棘手的痛点,语音交互开始有了成为下一代人机交互方式的可能,进而打造一个以语音为入口的全新操作系统。

可以借鉴脑学界“感官侏儒”的说法,手和舌头是人类最灵活的两个部分,从DOS系统到施乐的图形化界面再到移动设备的触控交互,无不依赖于手的交互。而当语音技术和人工智能同时走向成熟,或许就像 《2019语音技术报告》中所描述的:“语音交互扭转了以往人机交互的存在形态,用户与设备间基于语音交互的全新关系开始搭建,与之前互联网向移动互联网过渡一样,其对底层平台的全新需求也在酝酿当中。”甚至不排除语音优先的可能,亚马逊Alexa首席科学家Rohit Prasad曾直言:“我们希望消除与客户的摩擦,最自然的方式就是通过声音。它不仅仅是一个能提供一堆结果的搜索引擎,它还会告诉你答案。”言外之意,语音技术可以帮助人们摆脱文字和屏幕的束缚,提供一种升维的用户体验。

巨头们的新战场

接过前辈们的衣钵,Google、百度等巨头并非没有“私心”。因为在语音交互成为人机交互主流方式的同时,也在重构现有的商业规则。比如在触控交互的世界里,人们与服务的连接通过这样或那样的App,生活中也出现了社交、搜索、电商、资讯等领域的诸多超级App,但语音交互是典型的服务找人,诸如搜索、电商、社交、广告等主流的盈利路径都将被重构,乃至颠覆现有的市场格局。

一个典型的例子,不管是国内百度的小度、天猫精灵、小爱同学,还是Google Assistant、亚马逊Alexa,早已不再满足于“语音助手”的身份,在功能上开始向语音对话、内容服务、IoT设备管理等方向演进,在场景上覆盖了家庭、汽车、酒店等等,以语音交互为切入的生态系统早已有了雏形,成为触控之外的又一个杀手级应用。

 

▲典型的场景就是智能音箱,亚马逊、谷歌、百度、小米、阿里等无不开始在智能音箱领域发力。

同时语音的颠覆性也逐渐浮出水面,原先想要听一首歌、看一部电影的时候,需要在手机上打开特定的App,手动输入歌曲或电影的名字,在一连串的搜索结果中找到自己需要的。语音交互的场景下,只需要发出相应的语音指令,设备就可以自动播放你想要的歌曲或视频,不仅在效率上指数级提升,也在改变音乐或视频服务方的地位,从前端走向后台的内容供应商。

截止到目前,几乎所有的互联网巨头都对语音势在必得,尤其是在炙手可热的智能音箱赛道上,国外出现了谷歌、亚马逊、苹果等巨头林立的局面,国内的百度、阿里、小米直接拿到了90%的市场份额,并且有着一家独大的趋势。

小结

如果以2019年作为新起点的话,语音识别已经从螺旋桨飞机时代进入喷气式飞机时代,下一步的目标无疑就是成为火箭级的产品。幸运的是,在这场决定着未来科技生态的战场上,中国的玩家不再缺席,而是从跟随者变成了领导者。

来源:微型计算机