复工了,测温仪够用吗?

九安医疗(002432.SZ)最近持续被投资者问到:什么时候能在京东上买到他家的红外测温仪?

对此,九安医疗的回复是,“争取在三月中上旬开始将线上订单按顺序发出”。这些订单来自京东、天猫旗舰店以及线下的商业渠道,总数已经超过14万台。但眼下,他们暂停了一切商业渠道合作,先“尽全力保障防疫需求”。

这是整个行业的一个缩影。

在机场、火车站等人流密集的公共场所外,随着全国范围的陆续复工,无论是小区、超市,还是银行、地铁等场景,都催生了大量测温防疫的需求。

尽管行业内的主要生产商已经在尽力释放产能,但和此前吃紧的口罩类似,红外测温仪还在追赶复工潮。

赛迪顾问最近在一份报告里说,除了短时间内需求暴增外,“部分核心材料供给不足、春节期间人员召集难”影响了产能的恢复。

这种情况很可能在3月份得到改善。

随着产业链的整体复工,红外测温仪从2月11日前后进入产能暴发期。赛迪顾问预测,相关产业链企业复工率100%的话,全自动红外测温仪和手持设备每天能生产1500台和15000台,大约1个半月就能满足市场需求。

 

1个月用掉1年的产量

随着各地复工潮陆续到来,红外测温仪的需求随之暴增。体温检测是新冠疫情的第一道防线。

目前的红外测温仪有全自动和手持两种。全自动红外测温仪不用接触,短时间可以远距离测量多人体温;手持式设备则应用更灵活,价格也只有前者的1/200。

数据显示,截至2月2日,国内各地对两种测温仪的需求分别是2万台和超过30万台。而2019年,全国生产的两种测温仪分别也只有2.98万台和30万台。

也就是说,2020年1个月的需求,就和去年全年齐平了。

这还只是冰山一角。

工信部原材料司司长王伟此前在新闻发布会上说,预计今年全国对红外测温仪的总需求将超过60万台,其中全自动的需求为6万台,手持式则需要55万台。

由此催生出的,是一个几十亿元的新市场。上海证券认为,国内仅交通运输领域对测温仪的需求就有41亿元的市场空间,其中地铁站、汽车站分别有17.8亿元和13.3亿元。

受此刺激,红外测温仪的上市公司受到了追捧。春节后第一周的交易日,高德红外的涨幅就高达34.79%。大立科技同期则走出了三个涨停板,一个月内股价累计上涨47.85%。

 

中国有完整的红外测温仪产业链。处于核心地位的是30家生产制造企业,其中有7家是上市公司,艾睿光电则是睿创微纳(688002.SH)的全资子公司。不过,要想消化目前的需求,整个行业还需要时间。

高德红外在给《财经国家周刊》记者的回复中提到:生产进度上,预计本月会交付超过1万套全自动红外测温仪。相比之下,目前大立科技和华中数控的月产量分别还只有2000套和1000套。

以这三大主力军目前的产能总和,要满足6万台的需求,需要超过4.6个月。

产能已经开始恢复

这已经是整个春节相关企业“轮轴转”下的结果。

不同于其他一些领域,红外测温仪的主要企业早早就复工了。华中数控、高德红外、海康威视等从1月23日起就恢复了生产,艾睿光电、大立科技等也在大年初四复产。“假期无休、生产和服务24小时轮岗”是这些企业的共同状况。

不过根据记者调查了解,目前的产能仍然受到一定影响。

首当其冲是春节假期和疫情的叠加影响下,这些企业同样遭遇了“员工到岗复工难”。

工信部2月2日发布的数据显示,当日全国温测企业的复工率为50%。对应的生产数据是,全国一天生产的全自动红外测温仪只有800台。

到2月13日,高德红外称复工人数已经达到1500人,占总量的70%。这已经是整个行业比较高的水准了。

另一个影响产能的因素,是配套企业复工率不足,导致很多原材料缺乏。王伟在上述新闻发布会上说,这是一个比较突出的问题。

红外测温仪产业的链条非常长。这个看似简单的仪器包含众多零部件,从镜头、体温探测器、传感再到信号处理、显示输出,上游还涉及芯片设计、生产、封装等环节。因此需要多个产业、企业的协同配合。

 

由于此前需求稳定,生产厂商一般都不会多备货。一家制造企业人士告诉记者,“红外测温仪都是定制化生产,之前每年的产量也就几百台”。需求暴增,“很多地方的卫健委、医院都打电话来(要货)”,他们手里的原材料不够了。

但在当时,上下游配套企业也都还没复工。生产企业只能向关联企业“紧急求援”。联创光电、华天科技就是在华中数控、鱼跃医疗的求助下紧急开工的,赶工红外测温仪的连接线和封装芯片。

这种情况在1月30日已有所改观,国务院应对新冠肺炎疫情联防联控工作机制医疗物资保障组紧急通知,要求组织做好红外测温仪及配套零部件生产企业复工复产的工作。随着上下游产业链在2月10日陆续复工,预计红外测温仪的生产能大幅度提速。

还需要支援芯片

不过,核心组件紧缺仍是一大问题。红外测温仪的核心部件是红外的体温探测器,相应的芯片技术又是其中的核心。

2016年11月前,探测器和芯片都要依靠进口,直到烨映电子掌握核心技术。赛迪顾问在前述报告中说,我国的温测产业在关键物料上仍然无法自给。电子行业中的专家判断,红外测温仪的国产化率为20%左右。

只有少数几家公司没有芯片困扰。

艾瑞光电、高德红外此前都曾公开表示,无论是芯片还是探测器,库存和产能都相对充足、能满足生产需求。高德红外的芯片储备还有3万片。它们都是少数派,既有芯片、探测器,甚至还能做组件和成品的。大立科技近期也表示,对此有独立研发和量产的能力。

不少企业仍在为此发愁。作为核心供应商,烨映电子储备有限,到1月23日它的库存就空了。即使紧急复工,扩产的难度也很大,这时候成本更贵、原材料也受限。

临时从外海采购也不太现实。据相关企业方说,至少需要半年时间才能到货。不仅因为有报关、物流等问题,原厂、大代理商可能也并没有现货。

红外测温仪此前的需求稳定,上游厂家不会多产。“即使有储备,也大多是为专门客户准备的,不一定能调拨。”硬之城创始人李六七说,这类产品多是定制的,不同企业的规格也不尽相同。解决办法除了与供应商协商之外,就是寻找各种替代方案。

 

国内红外测温仪生产企业缺的“芯”,还不止这一种。典型事件是1月23日,华中数控多个渠道发布物资紧缺公告。他们为紧急生产红外测温仪采购的物料,缺少了1000只美国ISSI公司的内存芯片,公司董事长陈吉红不得不求助朋友圈。

需求的持续攀升下,各类芯片、相关组件的紧张问题也待解。“半导体行业中的个人、我们这样的平台,都在想办法帮忙。”李六七说,无论是用朋友圈关系,还是调用供应商网络,都在努力对接可能的资源。

来源:新浪财经

AI测温:复工潮里筑起的第一道防疫“屏障”

随着越来越多的企业开始复工,新型冠状肺炎疫情也到了“外防输入、内防扩散”的疫情防控关键期。尤其是各大城市的火车站、汽车站、地铁站、机场,还有写字楼、居民社区等人口密集区域,纷纷严阵以待,出入口的体温筛查已经成为一种刚需。

 

突发疫情下的迫切需求

如果你已经返程或者复工,不难发现,在车站、地铁站等交通枢纽,很多安检口架了一台摄像机,有工作人员观察着背后的显示屏,当行人经过时,屏幕上会显示人体的红外成像,温度在正常阈值内无感通过,疑似高温行人则会被拦截,由工作人员进行二次测温。

这样的场景正是基于AI测温技术的落地,相比传统的体温筛查手段,实现了无接触感应、高效率通行以及高温智能预警。常见的体温监测需要人工手持额温枪,工作负荷大,效率低下,也容易导致排队人群密集聚集,同时近距离的监测方式还加大了交叉感染的风险。疫情防控的焦灼需求之下,AI测温方案开始进入公众视野。

在公开的新闻报道中可以看到,百度AI多人体温快速检测解决方案在北京清河火车站落地应用,基于人脸关键点检测及图像红外温度点阵温度分析算法,这套方案可以对一定面积内乘客的额温进行检测,即使佩戴帽子和口罩也能进行快速筛查;商汤AI智慧防疫解决方案区域通行模块在北京首都机场3号航站楼站投入使用,系统自动对行人额温进行测量,如果出现疑似体温异常情况,发出实时声光和弹窗告警,对于未戴口罩的人员,系统也可以自动识别并提醒;旷视AI测温系统则应用在了海淀政务大厅和海淀区部分地铁站,系统支持大于3米的非接触远距离测温,其智能疑似高热报警带宽可达到1秒15人,且一套系统可以部署16个通道,基本保证一个地铁口的管控…

从技术层面看,AI测温由“红外测温+人脸识别”两项技术加持。人体是天然的热辐射体,且维持在比较稳定的状态,在特定范围内能够与周围环境区别开来,进行“分割”。人脸识别技术可以定位脸部测试区域,并将之映射到热成像的摄像头中。获取这片区域的温度后,再通过一定补偿算法来给出实际的体表温度。

从业内产品看,目前在市场上落地的主要还是采用“红外+可见光”双传感器的组合,用红外技术保证远距离实时测温,用AI视觉技术定位、识别和溯痕,以非接触、非配合式的方式实现大规模的人流筛查。

从应用目的看,AI测温主要适用于各类人流量大的出入口,进行较大范围内的初筛,对“疑似高温”识别预警。由于各技术企业的AI测温方案细节不同,产品精确度受限因素也有差异,加上行业标准也不统一,要进行更准确的测量,还需配合人工筛查。

测温精度是怎样炼成的

对于AI测温的产品和方案,测温精度是影响疫情管控成效的关键指标之一。当下众多企业推出的产品普遍标注的测温精度大概在±0.3℃—±0.5°C。当然理论上这个数值越小,代表误差越小,精度越高。

导致测量数值差异的因素主要与红外探测器的分辨率、是否配置黑体以及外部环境有关。

红外探测器的分辨率直接影响着热成像仪的清晰度。一般来说,分辨率越高,最小成像面积越小,识别被测物体的精准度越高。就记者目前在市场上了解到的AI测温产品来看,红外探测器的分辨率差异较大,常见的有384*288、256*192、160*120…当然像素越高,精度越高,造价越高。

黑体对于红外测温仪的校准至关重要,因此对于精度的影响也是不言而喻的。因为黑体能全部吸辐射能量,并全部辐射出去,用红外测温仪检测才没有能量损失,测得的温度才准确。也就是说,黑体在红外测温仪中是用来校正仪器的测温误差和标定仪器测温曲线的。据某个AI测温项目团队的测试发现,在有黑体的情况下AI测温方案的精度是±0.3℃,在没有黑体的情况下,方案的精度是±1℃。

此外,如果脱离环境温度来评估红外测温仪的精度也是不靠谱的。因为红外测温只能测物体表面的温度,在环境温差过大时需要调节时间,而且多数在零下环境中测量误差会比较大。北京的冬天,如果你从室外走进地铁站,工作人员用额温枪在你额头上扫一下,显示的温度可能也就三十度左右。日常生活中你可能常有这样的体验:室内测温比室外测温更“准确”,藏于袖中的腕内测温比暴露在外的额头测温更“准确”。

综合上述因素考量,现在市场上的AI测温方案为了要达到相对精确的测温效果,往往要结合分辨率较高的红外探测器与高精度黑体,而且在无特殊要求下,一般是部署在室内,甚至设置一定的过道来缓冲温差。不过出于成本等原因,也有一些公司在寻找一些能够代替黑体的方法来实现精度。从当前的实践来看,作为一道体温“初筛”的屏障,±0.5℃—±0.3℃的误差基本可以满足落地要求。

人脸识别与温感的技术联动

红外测温的技术已经相当成熟,其作用毋庸置疑,那么人脸识别在AI测温产品中发挥的是怎样的作用呢?就现有的技术方案来看主要集中在两点,其一,是通过捕捉人脸信息,将面部信息结构化提升检测精度;其二,结合大数据技术,通过人像数据库可以实行轨迹追踪,帮助抑制疫情扩散。

在传统的热成像红外测温技术中,环境因素干扰比较大,温度相近的物体是归为一类的,尤其是当环境温度越接近目标温度时,出现“误判”的可能就比较大。一个经典的例子是,如果在红外探测器下,小赵与同伴小钱手里的保温杯都被检测为38°,那么小赵与拿着保温杯的小钱都得被扣下来。如果能找到特定的检测区域进行个体的区分,那么检测的精准度就会上升。

引入AI人脸识别技术的意义也就在这里。因为人脸或者说人的皮肤,发出的热辐射相对稳定,受环境的影响相对较小,在复杂环境中,脸是人体与外部环境区分度最大的一个部分,更能与周围环境相区别。以旷视的AI测温技术为例,AI视觉技术捕捉到人脸后,通过“抓拍标定”可以将可见光画面中的人脸、人体等生物信息进行结构化处理,分离出“额头”、“人脸”、“人体”等部分,之后再与红外测温结果比对并标定,测温精度由此提高。

另外,人脸识别技术的加持对于追踪体温异常人员行动轨迹、分析潜在感染人群也是一大利器。京东针对疫情研发的智能温感筛查系统就充分利用了这一点。

据京东云与AI技术研发人员介绍:“我们将温感与口罩遮挡下的面部识别等技术联动,通行人员无须停留、也无需摘下口罩、帽子等即可快速进行体温检测,如遇体温异常人员,系统可融合多维度数据,快速追溯其活动轨迹,提供接触人群、潜在感染人数等智能分析,帮助有效抑制病毒感染扩散。”

这套系统通过红外相机“抓取”人流中的高温人员,快速定位体温异常者。当出现超过预警体温的人员时,系统立即报警,突出显示在“疑似人员区域”界面,帮助现场工作人员迅速进行二次确认。更重要的是,系统可随时查询通过测温卡口的所有人员信息和疑似人员信息,包括人脸照片、测试体温值、通过时间,方便进行统计和事后追踪。同时系统可以融合多维度数据,智能分析追溯疑似感染人员的行动轨迹,并且提供接触人群、潜在感染扩散人群预测。此外,系统也支持与现有监测平台和定位设备集成,可以形成完整的疫情防控体系。目前,京东智能温感筛查系统已在全国10余个城市的人群密集区域、关键出入口落地应用。

 

遮挡人脸识别的“突围”

本次疫情的AI测温方案中,有一个比较共性的技术瓶颈——戴口罩下的人脸识别率不足。长期致力于三维人脸识别的AI安防企业的卢深视对这一技术难点进行了归因:

其一,戴口罩人脸的人脸检测和人脸关键点检测的精度受到口罩遮挡的影响会降低;

其二,由于口罩遮挡,人像信息减少,学习到的特征的判别性随之较少。具体来说,二维纹理信息会由于遮挡而丢失、三维形状信息会带有噪声;

其三,口罩类型比较多且口罩遮挡程度不一,如何更多地利用非遮挡区域的信息是主要问题。

围绕严重遮挡人脸识别方向,的卢深视于2020年1月中旬启动口罩识别项目,花了大概两周时间在1月底实现落地。

在的卢深视参与构建的温州地区多人智能通过筛查方案中,利用热成像体温检测手段配合人脸识别及比对技术,可快速确定体温异常人员及其身份,系统自动调出其过往行为轨迹,实现智能筛查与轨迹溯源。整个筛查过程无感、大角度可识别,满足疫情防控需求。这一破题过程事实上也经历了诸多曲折。

戴口罩人脸数据是第一个难关。要优化人脸识别算法模型,训练数据规模越大,优化效果越好。但是在试验阶段很难在短时间内采集到大量的戴口罩数据。为此,的卢深视采用了模拟遮挡的方法,生成大量二维、三维的遮挡数据。据的卢深视方面介绍,以三维遮挡数据来说,一般是先重建三维人脸模型,再将口罩的三维模板模型与三维人脸模型做非刚性对齐,从而完成模拟加口罩的操作。

数据之外,算法上也面临很大挑战。戴口罩人脸识别涉及的算法除了人脸检测、关键点检测和人脸特征提取算法外,还包括口罩(有无)检测或口罩区域检测。由于嘴部区域和鼻子区域受到了遮挡,相比无遮挡识别,困难显而易见。

的卢深视的研发团队基于人脸全局特征及局部特征相结合的方法,同时充分利用人脸未遮挡部位的三维几何信息进行三维人脸识别研究,尤其是增大了眼睛部分的特征,提升了模型在遮挡情况下的识别率。的卢深视的工作人员补充,在这一方案中,行人只要正确佩戴口罩即可,无需露出一定的鼻子特征。且目前在戴口罩场景下,识别准确率能达到97%。

在助力温州疫情防控的项目中,的卢深视还利用去年建立的三维人脸数据库样板,为疫情排查提供了依据。疫情爆发期间,温州在全市范围内实行村(居)民出行管控措施,要求全市每户家庭每两天指派一名家庭成员采购物资。为了保障此项管控举措的有效实施,的卢深视利用3D视觉人证比对终端设备搭配三维人像数据平台,形成人证比对及快速建库方案,在出入口进行刷脸核验,实现出入人员管控,同时对新增人员进行快速入库操作,后台大数据系统实时绘制人员行为轨迹,做到了智能排查、科学预警。

疫情之后:理性看待行业前景

在突发疫情面前,很多AI企业纷纷参与了AI测温方案的研发,其产品也多见于当下的公共场所,包括门禁、闸机也武装了测温功能,机器人、无人机也在测温一线试水。但疫情之后,测温是否会变成一种基础服务,成为社会机器的一部分,还没有定论。至少就眼下来看,AI测温要在日常生活里实现大规模落地,依然任重而道远。

从技术角度来说,AI测温方案本身依赖于红外测温和人脸识别的融合,但就技术成熟度而言,两者在这个方案中的融合程度还有待深入。而且在测温精度方面尚未形成统一的行业标准,业内标注的精度偏差值究竟基于怎样的测试条件,是否真的能达到这一效果,局外人其实不得而知。

从非技术角度来说,AI测温设备本身造价不菲,因为目前主要供给政府等公共管理部门,所以成本方面的问题还不太凸显。但实际上一方面是疫情管控下物资紧张,尤其是像红外传感器这样的核心部件一直处于短缺状态;另一方面,使用黑体和高精度的红外探测器,会使方案成本大大增加,特别是对于无人机、刷脸门禁等产品来说,这个价格其实很难负担。

未来,随着更多AI测温方案和产品的出现,大规模落地前景可期。但是需求痛点在哪里?应用场景是否有其必要性?业内应该更理性看待这项诞生于抗“疫”战场的“新技术”。

来源:51CTO

 

51CTO

 

51CTO

 

51CTO

语音识别揭秘:你的手机究竟有多理解你?

在我们的生活中,语言是传递信息最重要的方式,它能够让人们之间互相了解。人和机器之间的交互也是相同的道理,让机器人知道人类要做什么、怎么做。交互的方式有动作、文本或语音等等,其中语音交互越来越被重视,因为随着互联网上智能硬件的普及,产生了各种互联网的入口方式,而语音是最简单、最直接的交互方式,是最通用的输入模式。

在1952年,贝尔研究所研制了世界上第一个能识别10个英文数字发音的系统。1960年英国的Denes等人研制了世界上第一个语音识别(ASR)系统。大规模的语音识别研究始于70年代,并在单个词的识别方面取得了实质性的进展。上世纪80年代以后,语音识别研究的重点逐渐转向更通用的大词汇量、非特定人的连续语音识别。

90年代以来,语音识别的研究一直没有太大进步。但是,在语音识别技术的应用及产品化方面取得了较大的进展。自2009年以来,得益于深度学习研究的突破以及大量语音数据的积累,语音识别技术得到了突飞猛进的发展。

深度学习研究使用预训练的多层神经网络,提高了声学模型的准确率。微软的研究人员率先取得了突破性进展,他们使用深层神经网络模型后,语音识别错误率降低了三分之一,成为近20年来语音识别技术方面最快的进步。

另外,随着手机等移动终端的普及,多个渠道积累了大量的文本语料或语音语料,这为模型训练提供了基础,使得构建通用的大规模语言模型和声学模型成为可能。在语音识别中,丰富的样本数据是推动系统性能快速提升的重要前提,但是语料的标注需要长期的积累和沉淀,大规模语料资源的积累需要被提高到战略高度。

今天,语音识别在移动端和音箱的应用上最为火热,语音聊天机器人、语音助手等软件层出不穷。许多人初次接触语音识别可能归功于苹果手机的语音助手Siri。

Siri技术来源于美国国防部高级研究规划局(DARPA)的CALO计划:初衷是一个让军方简化处理繁重复杂的事务,并具备认知能力进行学习、组织的数字助理,其民用版即为Siri虚拟个人助理。

Siri公司成立于2007年,最初是以文字聊天服务为主,之后与大名鼎鼎的语音识别厂商Nuance合作实现了语音识别功能。2010年,Siri被苹果收购。2011年苹果将该技术随同iPhone 4S发布,之后对Siri的功能仍在不断提升完善。

现在,Siri成为苹果iPhone上的一项语音控制功能,可以让手机变身为一台智能化机器人。通过自然语言的语音输入,可以调用各种APP,如天气预报、地图导航、资料检索等,还能够通过不断学习改善性能,提供对话式的应答服务。

语音识别(ASR)原理

语音识别技术是让机器通过识别把语音信号转变为文本,进而通过理解转变为指令的技术。目的就是给机器赋予人的听觉特性,听懂人说什么,并作出相应的行为。语音识别系统通常由声学识别模型和语言理解模型两部分组成,分别对应语音到音节和音节到字的计算。一个连续语音识别系统(如下图)大致包含了四个主要部分:特征提取、声学模型、语言模型和解码器等。

 

(1)语音输入的预处理模块

对输入的原始语音信号进行处理,滤除掉其中的不重要信息以及背景噪声,并进行语音信号的端点检测(也就是找出语音信号的始末)、语音分帧(可以近似理解为,一段语音就像是一段视频,由许多帧的有序画面构成,可以将语音信号切割为单个的“画面”进行分析)等处理。

(2)特征提取

在去除语音信号中对于语音识别无用的冗余信息后,保留能够反映语音本质特征的信息进行处理,并用一定的形式表示出来。也就是提取出反映语音信号特征的关键特征参数形成特征矢量序列,以便用于后续处理。

(3)声学模型训练

声学模型可以理解为是对声音的建模,能够把语音输入转换成声学表示的输出,准确的说,是给出语音属于某个声学符号的概率。根据训练语音库的特征参数训练出声学模型参数。在识别时可以将待识别的语音的特征参数与声学模型进行匹配,得到识别结果。目前的主流语音识别系统多采用隐马尔可夫模型HMM进行声学模型建模。

(4)语言模型训练

语言模型是用来计算一个句子出现概率的模型,简单地说,就是计算一个句子在语法上是否正确的概率。因为句子的构造往往是规律的,前面出现的词经常预示了后方可能出现的词语。它主要用于决定哪个词序列的可能性更大,或者在出现了几个词的时候预测下一个即将出现的词语。它定义了哪些词能跟在上一个已经识别的词的后面(匹配是一个顺序的处理过程),这样就可以为匹配过程排除一些不可能的单词。

语言建模能够有效的结合汉语语法和语义的知识,描述词之间的内在关系,从而提高识别率,减少搜索范围。对训练文本数据库进行语法、语义分析,经过基于统计模型训练得到语言模型。

(5)语音解码和搜索算法

解码器是指语音技术中的识别过程。针对输入的语音信号,根据己经训练好的HMM声学模型、语言模型及字典建立一个识别网络,根据搜索算法在该网络中寻找最佳的一条路径,这个路径就是能够以最大概率输出该语音信号的词串,这样就确定这个语音样本所包含的文字了。所以,解码操作即指搜索算法,即在解码端通过搜索技术寻找最优词串的方法。

连续语音识别中的搜索,就是寻找一个词模型序列以描述输入语音信号,从而得到词解码序列。搜索所依据的是对公式中的声学模型打分和语言模型打分。在实际使用中,往往要依据经验给语言模型加上一个高权重,并设置一个长词惩罚分数。

语音识别本质上是一种模式识别的过程,未知语音的模式与已知语音的参考模式逐一进行比较,最佳匹配的参考模式被作为识别结果。当今语音识别技术的主流算法,主要有基于动态时间规整(DTW)算法、基于非参数模型的矢量量化(VQ)方法、基于参数模型的隐马尔可夫模型(HMM)的方法、以及近年来基于深度学习和支持向量机等语音识别方法。

站在巨人的肩膀上:开源框架

目前开源世界里提供了多种不同的语音识别工具包,为开发者构建应用提供了很大帮助。但这些工具各有优劣,需要根据具体情况选择使用。下表为目前相对流行的工具包间的对比,大多基于传统的 HMM 和N-Gram 语言模型的开源工具包。

 

对于普通用户而言,大多数人都会知道 Siri 或 Cortana 这样的产品。而对于研发工程师来说,更灵活、更具专注性的解决方案更符合需求,很多公司都会研发自己的语音识别工具。

(1)CMU Sphinix是卡内基梅隆大学的研究成果。已有 20 年历史了,在 Github和 SourceForge上都已经开源了,而且两个平台上都有较高的活跃度。

(2)Kaldi 从 2009 年的研讨会起就有它的学术根基了,现在已经在 GitHub上开源,开发活跃度较高。

(3)HTK 始于剑桥大学,已经商用较长时间,但是现在版权已经不再开源软件了。它的最新版本更新于 2015 年 12 月。

(4)Julius起源于 1997 年,最后一个主版本发布于2016 年 9 月,主要支持的是日语。

(5)ISIP 是第一个最新型的开源语音识别系统,源于密西西比州立大学。它主要发展于 1996 到 1999 年间,最后版本发布于 2011 年,遗憾的是,这个项目已经不复存在。

语音识别技术研究难点

目前,语音识别研究工作进展缓慢,困难具体表现在:

(1)输入无法标准统一

比如,各地方言的差异,每个人独有的发音习惯等,如下图所示,口腔中元音随着舌头部位的不同可以发出多种音调,如果组合变化多端的辅音,可以产生大量的、相似的发音,这对语音识别提出了挑战。除去口音参差不齐,输入设备不统一也导致了语音输入的不标准。

 

(2)噪声的困扰

噪声环境的各类声源处理是目前公认的技术难题,机器无法从各层次的背景噪音中分辨出人声,而且,背景噪声千差万别,训练的情况也不能完全匹配真实环境。因而,语音识别在噪声中比在安静的环境下要难得多。

目前主流的技术思路是,通过算法提升降低误差。首先,在收集的原始语音中,提取抗噪性较高的语音特征。然后,在模型训练的时候,结合噪声处理算法训练语音模型,使模型在噪声环境里的鲁棒性较高。最后,在语音解码的过程中进行多重选择,从而提高语音识别在噪声环境中的准确率。完全消除噪声的干扰,目前而言,还停留在理论层面。

(3)模型的有效性

识别系统中的语言模型、词法模型在大词汇量、连续语音识别中还不能完全正确的发挥作用,需要有效地结合语言学、心理学及生理学等其他学科的知识。并且,语音识别系统从实验室演示系统向商品的转化过程中还有许多具体细节技术问题需要解决。

智能语音识别系统研发方向

今天,许多用户已经能享受到语音识别技术带来的方便,比如智能手机的语音操作等。但是,这与实现真正的人机交流还有相当遥远的距离。目前,计算机对用户语音的识别程度不高,人机交互上还存在一定的问题,智能语音识别系统技术还有很长的一段路要走,必须取得突破性的进展,才能做到更好的商业应用,这也是未来语音识别技术的发展方向。

在语音识别的商业化落地中,需要内容、算法等各个方面的协同支撑,但是良好的用户体验是商业应用的第一要素,而识别算法是提升用户体验的核心因素。目前语音识别在智能家居、智能车载、智能客服机器人方面有广泛的应用,未来将会深入到学习、生活、工作的各个环节。许多科幻片中的场景正在逐步走入我们的平常生活。

来源:钛媒体

语音识别新范式:完全的“端到端”模型,优势在哪里?

“自然科学的发展除了按常规科学一点一滴地积累之外,还必然要出现‘科学革命’。”托马斯·库恩在其发表于 1962 年的经典著作《科学革命的结构》中提出的“范式转换”一词,如今已成为大家耳熟能详的技术用语。

大的“范式转换”存在于基础科学领域,小的“范式转化”也存在于几乎每个细分的技术领域。

语音识别新范式

以自然语言处理的子领域“语音识别”为例,从 2012 年引入深度学习技术开始,语音识别的研究热点经历了三个阶段:

2011年前后,基于 DNN+HMM(深度神经网络+隐马尔科夫模型)的语音识别

2014年前后,基于 LSTM+CTC(长短时记忆网络+连接时序分类)的不完全端到端语音识别

2017年前后,基于 Transformer(自注意力机制)的完全端到端语音识别

如果说 2011 年深度学习的引入,是语音识别领域上一次范式转换的起点,那么从 2017 年开始,基于注意力机制和 Transformer 新型神经网络结构的语音识别研究,无疑标志着语音识别的新范式正在形成。

 

传统的语音识别主要框架包括:声学模型和语言模型。2011 年前后引入深度神经网络(DNN),主要目标是改进传统语音识别框架中的声学模型算法。2014年前后引入LSTM+CTC的方案,理论上实现了端到端,但因为效果不好,实际使用中仍然会加上语言模型。

而 2017 年之后基于自注意力机制的完全端到端模型,才真正突破了“传统框架”的限制,去除所有中间步骤和独立子任务,充分利用深层神经网络和并行计算的优势,取得最优结果。在 2019 年秋天的语音领域顶会 Interspeech 上,基于自注意力机制和Transformer神经网络结构的算法,几乎出现在了所有语音识别相关的研究中。

基于Transformer的完全端到端模型主要优势有三个:

第一,Transformer采用的自注意力机制是一种通过其上下文来理解当前词的创新方法,语义特征的提取能力更强。在实际应用中,这个特性意味着对于句子中的同音字或词,新的算法能根据它周围的词和前后的句子来判断究竟应该是哪个(比如洗澡和洗枣),从而得到更准确的结果。

第二,解决了传统的语音识别方案中各部分任务独立,无法联合优化的问题。单一神经网络的框架变得更简单,随着模型层数更深,训练数据越大,准确率越高。因此企业可以使用更大量的专有数据集来训练模型,得到相应场景下更准确的识别结果。

第三,新的神经网络结构可以更好地利用和适应新的硬件(比如GPU)并行计算能力,运算速度更快。这意味着转写同样时长的语音,基于新网络结构的算法模型可以在更短的时间内完成,也更能满足实时转写的需求。

Transformer-XL进一步释放注意力模型的优势

Transformer-XL神经网络结构是由循环智能联合创始人杨植麟博士(共同第一作者),与Google AI、卡内基梅隆大学共同推出。在全部 5 个单词和字符级语言建模标准数据集取得 state of the art 结果:WikiText-103 、enwik8、text8、One Billion Word和Penn Treebank。

 

从名字也可以看出来,Transformer-XL通过引入循环机制和相对位置编码,主要解决了超长输入的问题。Transformer-XL对长序列建模能力更强,而语音识别的一个重要基础就是对长序列进行建模。序列越长可以考虑的上下文音频信息越丰富,识别越准确。也就是说,即使超长的句子,也能得出更加准确的结果。

在面向企业的商用场景下,语音识别系统的准确率,主要取决于算法模型的先进程度以及特定领域训练数据的规模。2019 年,在循环智能联合创始人、CTO张宇韬博士带领的工程团队努力下,循环智能已经将最前沿的Transformer-XL技术成果落地到实际应用中。经过一年多的积累,循环智能目前在金融、教育和互联网服务领域经过了几十万小时的数据训练。

在一家市值百亿美金互联网服务公司的实际测试中,循环智能针对电话录音的自动语音识别(ASR)效果超过国内公认的语音巨头和互联网巨头。

 

从学术前沿到商业落地

虽然学术的前沿、顶尖研究人员的重心已经转到基于 Transformer 的研究,那些曾经辉煌的神经网络结构,很难再取得技术突破,也不符合技术发展的方向。但是,很多从事自动语音识别(ASR)业务的公司,依然不得不固守“传统”的神经网络结构。

原因有二。首先,通常将前沿学术成果落地到商业场景,本身就需要很长时间;其次对于普通公司而言,采用前沿学术成果意味着需要从一项熟悉的旧技术组合切换到另一套,甚至意味着人员的更新迭代,需要的时间更长。

工程能力世界顶级的 Google,从学术前沿的成果到大规模商业落地,大概花了两年多的时间,终于成功将基于Transformer的算法引入其核心搜索产品中:

2017 年 6 月,“Attention is all you need”论文发表 ,Google 在这篇论文中介绍了 Transformer,一种基于自注意力机制(self-attention mechanism)的全新神经网络结构。短短两年多时间,该论文在 Google 学术中的引用量达 5956 次,毫无疑问是近几年自然语言理解领域影响力最大的论文之一。 2018 年 6 月,Google 发布了基于 Transformer 的 BERT 模型,被称为近几年 NLP 领域最具里程碑意义的进展。

2019 年 10 月,Google 在官方博客中宣布,已经将这项技术应用于搜索中,增强了对用户搜索意图的理解。

新算法模型带来的效果提升非常显著。过去一直以来,当我们向 Google 的搜索框中输入一个完整句子的时候,Google 的做法是用句子中的关键词去匹配相应的搜索结果,并不关心句子的实际含义。正因为如此,早年的“搜索高手”都知道一些搜索技巧,比如搜索引擎会自动忽略句子或短语中的“的”、“是”等虚词,所以他们通常不会输入一个自然句子,而是自己拆成关键词组合,这样对机器更加友好,也更有可能得到更好的答案。而现在,Google 搜索引擎对于长句子的理解更加深入,更懂用户想搜索什么,因此就能匹配更好的结果。

 

Google 搜索“可以帮人取药吗”的结果对比,新算法更准确地理解了用户的搜索意图,是想问能否帮人取处方药。

对于循环智能而言,商业落地的规模要比 Google 全球搜索的规模小很多,我们在三个月之内完成了基于原创Transformer-XL算法模型的完全“端到端”语音识别引擎部署,针对销售、客服电话录音场景的语音识别准确率同样得到大幅提升。

依靠在金融、教育和互联网服务等领域不断积累行业训练数据,循环智能持续优化算法模型的准确率,赢得了很多大家耳熟能详的上市公司和标杆企业的青睐,包括众安保险、玖富、VIPKID、新东方在线、58同城、猎聘等。

来源:IT168

经过审查谷歌加强了对助理语音记录的隐私控制

谷歌有限责任公司今天预览了一系列即将到来的谷歌助理隐私变化,旨在缓解最近对该服务如何处理用户数据的担忧。

 

这家搜索巨头雇佣承包商倾听消费者与语音助手的部分对话,并标记音频问题,如误解的命令。该节目在7月份成为焦点,当时一名工作人员向一家比利时广播公司泄露了超过1000段谷歌助理录音。此后不久,监管机构对这一做法展开了调查,迫使这家搜索巨头暂停对人类音频的审查。

谷歌将做出的最大改变是为数据收集提供更多的透明度。该公司只存储消费者在安装GoogleAssistant时选择“Voice&;AudioActivity”选项的音频,但到目前为止,该设置并没有使人类清楚地获得录音。谷歌将更新界面,以纠正这一问题,并要求现有用户再次确认他们同意音频评论。

这家搜索巨头还将减少它从消费者那里收集到多少数据。谷歌助理集团(Google Assistant Group)高级产品经理尼诺?塔斯卡(Nino Tasca)在博客中宣布了这些变化。

其他改进侧重于降低意外音频捕获的风险。谷歌计划增加一个设置,使它能够拨号助理对激活短语的敏感性,如“嘿,谷歌”上或下,从而减少了启动服务的机会,当它不应该。本着同样的精神,这家搜索巨头将添加新的语音过滤器,以防止敏感对话在其服务器上结束。

谷歌没有说明这些过滤器将如何工作。他们可能会专注于删除可以用来识别用户的社会保障号码等数据,这将是一个自然的起点,因为搜索巨头已经有了匿名录音的政策。

谷歌将在未来几个月推出这些更新。就在几周前,苹果公司(AppleInc.)就其为Siri推出的一个类似的音频审查程序道歉,并承诺增加更多的隐私控制,最主要的是一个选择退出选项。

语音识别竞争激烈超乎想象!亚马逊崛起与微软衰落形成巨大反差

语音识别是一种可以识别口语单词的技术,然后可以将其转换为文本。语音识别的一个子集是语音识别,这是一种基于语音识别人的技术。全球五家顶尖科技公司Amazon,Microsoft,Google和Apple已通过Google Home,Amazon Echo和Siri等服务在各种设备上提供此功能。

 

随着市场上许多语音识别产品的推出,我们决定研究语音识别的业务含义。通过研究这些公司的语音识别技术,我们尝试为读者解答以下问题:

语音识别如何驱动这些公司的商业价值?

他们为什么要投资语音识别?

几年后这项技术会是什么样?

我们从一些背景开始,探讨技术巨头如何以及为何开发语音识别技术。其次是来自亚马逊,微软,谷歌和苹果的语音识别技术的衰落。

 

发展语音识别技术的潜在原因

技术公司正在意识到对语音识别技术的兴趣,并正在努力使语音识别成为大多数产品的标准。这些公司的目标之一可能是使语音助手围绕上下文和内容更加准确地讲话和答复。研究表明,具有语音识别功能的虚拟助手的使用量预计将在明年继续增长,从2017年的6050万在美国增加到2018年的6240万。到2019年,有6660万美国人使用语音或语音识别技术。

为了建立强大的语音识别体验,其背后的人工智能必须变得更好,以应对口音和背景噪音等挑战。如今,自然语言处理和神经网络技术的发展极大地改善了语音和语音技术,以至于今天据说与人类同等。例如,在2017年,该公司记录的Microsoft语音技术的单词错误率达到5.1%,而Google报告说它已将其错误率降低到4.9%。

研究公司Research and Markets报告说,到2023年,语音识别市场的价值将达到180亿美元。随着语音识别技术变得越来越大,该研究估计它可以应用于从电话到冰箱再到汽车的所有领域。在拉斯维加斯举行的CES 2017年度展会上可以看到其中的一瞥,那里推出或宣布了带有语音的新设备。

尽管所有应用程序都具有非常相似的功能和集成机会,但我们已根据我们研究的重点将它们归类为每个应用程序的主要关注领域。

亚马逊Echo和Alexa

直到最近,亚马逊的语音虚拟助手Alexa仅在亚马逊生产的商业产品上可用。但是,Amazon Web Services已将语音助手提供给其他公司。亚马逊与英特尔合作推出了Alexa语音服务设备软件开发套件,该套件可允许第三方公司将Alexa功能嵌入其设备。此次合作是亚马逊“ Alexa Everywhere”战略的结果,该公司表示,该战略旨在使各种智能和可穿戴设备的制造商都能普遍使用Alexa背后的技术。

 

在拉斯维加斯举行的CES 2018上,索尼,TiVo和海信发布了集成Alexa的智能家居技术,使客户能够通过语音控制电视。惠而浦,三角洲,LG和海尔等家用电器制造商还增加了Alexa的语音识别技能,以帮助人们控制房屋的各个方面,从电视,微波炉到空调装置和水龙头。根据Amazon Alexa网站的数据,Alexa可以控制来自2500多个品牌的13,000多种智能家居设备。

包括其他公司的产品在内,Alexa现在拥有30,000种技能。尽管苹果拥有Siri,谷歌将其未命名的虚拟助手内置在智能手机和扬声器中,但亚马逊将Alexa集成到了智能扬声器Echo中。亚马逊没有透露最终的销售数字,Forrester预测到2017年底将售出2200万个Echo单元。Forrester称,达到这个销售数字将使Echo成为美国最大的语音助手。

 

作为虚拟助手,亚马逊声称亚马逊提供的Alexa for Business可以帮助专业人士管理日程安排,跟踪任务并设置提醒。当集成到会议控制台等设备中时,该应用程序可以通过发言人的声音控制会议室设置。支持Alexa的设备还可以在较小的会议室中充当音频会议设备,或者在较大的会议室中充当控制设备。

罗技将Alexa内置到其Harmony远程装置中,以控制家庭娱乐系统和智能家居设备。当客户说出简单的命令(例如“ Alexa,打开电视”或“ Alexa,播放DVD”)时,将激活远程单元。然后,Alexa将请求发送给Harmony,后者通过红外将请求中继到家用设备,蓝牙或IP。

据亚马逊称,原型团队由罗技公司的一名高级软件架构师组成,他花了两个小时将Alexa集成到Harmony中。一旦原型准备就绪,罗技(Logitech)的团队就准备了发射所需的技能。根据罗技(Logitech)的数据,亚马逊报告说,从原型开发到生产级技能的过程不到两周。在此案例研究中未提供其他详细信息或编号。

在更基本的层面上,亚马逊还提供自动语音识别(ASR)服务Transcribe,使开发人员能够向其应用程序添加语音到文本功能。一旦语音功能集成到应用程序中,最终用户就可以分析音频文件,然后接收转录语音的文本文件。

谷歌Home and Assistant

Google Assistant是谷歌的语音虚拟助手,其技能包括诸如通过Google Pay发送和请求付款或对Pixel 手机进行故障排除之类的任务。

 

在Android或iOS手机,智能手表,Pixelbook笔记本电脑,Android智能电视/显示器和Android自动启用的汽车等设备上都可以使用Assistant。当需要在诸如库之类的地方保持安静时,用户还可以在Assistant中键入命令。Google Assistant为儿童和家庭提供了50种与语音相关的游戏。

随身携带的Google智能扬声器包括Home。谷歌声称该扬声器可与来自150多个品牌的5,000多个智能家居设备配合使用,例如咖啡机,电灯和恒温器,其中包括索尼,飞利浦,LG和东芝。据报道,在2018年第一季度,谷歌售出了320万台其Home和Home Mini设备,超过了Alexa支持的Echo设备(250万台)。两家公司都没有发布官方数据。

为了使Assistant更加普及,Google通过Actions打开了软件开发工具包,该工具包允许开发人员在支持人工智能的自己的产品中建立声音。谷歌最近还启动了Assistant Investments计划,该计划投资于致力于提高语音和辅助技术(无论是硬件还是软件)的初创公司,并专注于旅游,游戏或酒店业。

 

根据该计划,谷歌将在技术,业务开发和产品潜在客户方面提供支持。初创公司还将获得对Assistant的新功能和计划的首次访问; Google产品(包括Google Cloud)的信用; 以及潜在的联合营销机会。

Google的另一种语音识别产品是由AI驱动的云语音到文本工具,开发人员可以通过深度学习神经网络算法将音频转换为文本。该工具可使用120种语言,支持语音命令和控制,转录来自呼叫中心的音频,处理实时流或预先录制的音频。

微软Cortana

微软于2017年10月发布了自己的语音虚拟助手Cortana。

Cortana家庭扬声器和移动设备应用程序可为用户提供提醒;保留笔记和清单;据微软称,它可以帮助管理日历。它可以从Apple Store和Google Play下载,并且可以在个人计算机,智能扬声器和手机上运行。

 

在名为Invoke的Microsoft家庭扬声器上,Cortana进行了编程,以帮助用户语音控制音乐,将播放列表排队,调高或调低音量。并停止或开始曲目。但是,它不支持Spotify之外的主要音乐流服务。微软表示,智能扬声器还可以回答各种问题。拨打和接听Skype电话;并查看最新新闻和天气。

微软声称,在PC上,Cortana可以跨Office 365,Outlook和Gmail帐户管理用户的电子邮件。微软表示,Cortana的客户或技术合作伙伴包括Domino,Spotify,Capital One,Philips和FitBit。

 

微软语音识别技术的核心是“语音转文本”界面,该界面可将音频流转录为文本。这与创建Cortana,Office和其他Microsoft产品的技术相同。微软表示,该服务可以识别语音的结尾,并提供格式化选项,包括大写和标点符号以及语言翻译。

苹果的Siri

当Apple在2011年将Siri首次集成到iPhone 4时,虚拟助手连接到了许多Web服务,并提供了语音驱动功能,例如通过TaxiMagic订购出租车,从StubHub提取音乐会细节,从Rotten Tomatoes中查找电影评论,或筛选Yelp中的餐厅数据。

 

如今,Siri的功能包括翻译,播放歌曲,预订游乐设施以及在银行帐户之间转移资金。据Apple称,由于其具有机器学习功能,因此可以使用新命令对其进行编程。

虽然Siri在Google Assistant和Amazon Alexa之前发布,但与其他市场上的技术相比,它在响应命令或问题时的准确性仍然令人担忧。

记者将Siri与Google Assistant和亚马逊的Alexa进行了对比。一方面,Alexa更准确地响应命令。在我们的研究中,我们还发现了更长的视频评论,这些评论表明Siri在对所有三种语音技术提出的问题的准确回答上均落在后面。

据预测,从2016年到2024年,价值550亿美元的语音识别行业将以11%的速度增长。 该技术已经以转录应用的形式在规模较小,鲜为人知的公司中的其他行业中得到很好的使用。当前在医疗保健中,医疗专业人员使用语音来进行文本转录应用程序(例如Dolbey)来为患者创建电子病历。

在执法和法律部门,诸如Nuance之类的公司提供了转录应用程序,以便准确,快速地记录文档是至关重要的,转录也用于记录事件报告。在媒体中,记者使用Recordly等转录应用程序作为记录和转录信息的工具,以帮助获得更准确的新闻报道。在教育方面,Sonix帮助研究人员记录定性访谈的内容。

在提供语音和语音识别功能的五家领先的技术公司中,谷歌,亚马逊,微软,苹果都具有类似的功能,围绕日程安排,提醒,播放列表管理,与零售商联系,管理电子邮件,下订单和在线搜索。

 

这些都是在移动,个人计算机上提供的,并且大多数以自己的品牌家用扬声器提供。亚马逊的Alexa在Echo上,苹果的Siri在HomePod上,谷歌助手在Google Home上,微软的Cortana在Invoke上。

尽管苹果在这方面是开拓者,但事实证明,Siri比亚马逊的Alexa和Google助手要“笨”得多,与其他产品相比功能有限。一项由近5,000个问题组成的研究表明,Google助手是这四个应用程序中最智能的。

但是,就技能而言,另一份报告显示Alexa的技能最多,为25,785,Google Assistant为1719,Cortana为235。Siri未包含在此报告中。这些公司提供这些应用程序的商业版本的原因是技能的增长。软件开发工具包(SDK)已提供给开发人员,使初创公司和小型企业能够为其客户建立定制的技能。

钛灵AIX是一款集计算机视觉与智能语音交互两大核心功能为一体的迷你人工智能计算机,搭载了专业AI边缘计算芯片与多种传感器。Model Play面向全球开发者的AI模型资源平台,内置多样化AI模型,兼容钛灵AIX,支持谷歌 Edge TPU边缘人工智能计算芯片,加速专业级开发。

此外,Model Play提供完整易用的迁移学习模型训练工具及丰富模型实例,可与钛灵AIX完美搭配结合,实现各类人工智能应用的快速开发。基于Google开源神经网络架构及算法,构建自主迁移学习功能,用户无需写代码,通过选择图片、定义模型和类别名称即可完成AI模型训练,实现人工智能的易学易开发。

来源:百家号 神小无

精度多高才算是医用级红外测温仪?

新冠肺炎疫情的爆发,使人们对于公共安全的重视程度不断提高。体温是表征人体是否健康的重要指标之一, 通过体温的准确测量能够快速分离出疑似发病人群,避免疫情的大范围爆发。在此次疫情防控工作中使用最广泛的为红外额温计和红外筛检仪,但不少人在使用红外测温仪后,反馈测温不准。

下面针对人们最关心的测温准确度问题,探究精度多高的红外测温仪才是合格的医用级红外测温仪,才能作为医学诊断数据?

 

体温计的分类:接触式和非接触式体温计

常见的人体体温测量方法,主要分为两大类,即接触式和非接触式。

接触式测量常见的有水银体温计、家用电子测温计和医用体温探头测温等,通过与人体相关部位接触来测量人体温度,如腋下、口腔等,接触式测量精度为0.1度左右,精度高,能够满足临床诊断快速准确测量体温的要求。

但是接触式测量由于要跟人体进行直接接触,每次测量都可能被病菌感染,需要经常消毒,且测量速度慢,无法对大量人体进行连续快速测量。比如水银体温计需要放腋下量15分钟,而家用电子测温计和医用体温探头也需要3到5分钟的测量时间。

 

家用电子温度计

非接触式测量最典型的方法是红外测温。自红外辐射原理被发现以来,红外技术被广泛应用在温度测量中。红外测温仪具有测温范围广,响应速度快,灵敏度高等特点。红外耳温枪、红外额温计和红外筛检仪都属于非接触式体温计。

但相比于接触式测温,非接触式测温的精度要低些,精度较高的非接触式体温计在0.2度左右,较差的测温误差在1度甚至1度以上。而测温时间为5秒左右,速度非常快,因此被广泛应用在日常测温和工业测温中。

红外测温误差比接触式测温要大的原因是,红外测温容易受大气状况、环境温度、被测物体表面发射率等环境因素的影响。如空气中的水蒸气、灰尘颗粒等对红外辐射具有强烈的吸收作用;目标物体附近的热辐射源的辐射能量对目标物体的辐射度造成干扰;环境温度对测温器件感测目标物体辐射度将产生影响。另外,随着测温距离的增加,测温器件感测物体辐射度的能力也将受到影响。因此,在被测对象温度一定的情况下,随着测量距离、环境温度等因素的不同,测温器件感测到的物体温度也不同,从而降低了其测量精度。

如今市面上的手持式红外测温仪等测温产品,容易受测量距离和环境温度影响,测量误差往往在1度左右,只能用来大概判断人体状况,不能满足临床诊断快速准确测量体温的要求。

 

手持式红外测温仪

红外测温仪的三大分类

根据用途与精度的不同,红外测温仪可大致分为医用级红外测温仪、消费级红外测温仪和工业级红外测温仪。

严格上来划分,医用级红外测温仪对精度要求最高,精度需要在0.1到0.2度间,高精度的红外耳温计就可达到医用级测温的标准,但为了避免交叉感染,医院使用耳温枪时需要增加一次性护套;消费级次之,精度在0.5左右就能满足我们日常的测温需求,比如宝妈用于测洗澡水温等。目前市面上,大部分手持式红外额温枪,价格在百元至千元之间,精度在大多0.3度左右,属于消费级红外测温计;工业级最低,一般最大允许误差为±1℃以上,且测距较远。

 

各种主流测温仪的区别

(制图:传感器专家网,信息来源:网络)

其实不管是医用,还是工业红外测温仪,他们使用原理都是接收人体发出的红外波,只是物距比做了不同调整,测量的都是表面温度。正常人体额头温度要比腋下温度低2-3℃左右,而且额头受环境影响变化较大,仅供初步排查参考,不能作为医学诊断依据,所以医学临床均参考腋下体温作为医学测温。另外,耳部、颈部的温度也会比额头温度稳定些,受环境干扰更小,这是耳温枪比额温枪更准的原因之一。

 

红外耳温枪

医用测温仪在出厂前通过软件已经修订了差值或限定了相关范围。正常人体发射率为0.98(测温仪默认0.95)所以测量出的结果在34-35℃左右,所有的红外产品包括(红外热像仪)可以通过修改发射率为0.8来修正差值避免非专业人士使用带了的体温不准的情况。而工业级测温仪则更加真实反馈测温情况,显示的是实际检测出的温度。

之前,红外测温仪更多的是用于工业测温,后来因市场需求,才在工业级红外测温仪的基础上发展出测量范围更小、精度更高、更适用于测温人体体温的医用红外测温仪。

在2002年“非典”期间,使用的大多是工业级红外测温仪。因为当时一部工业用便携式测温仪的价格通常在千元左右,低的甚至600元即可买到,而市场上有售的医用测温仪,不仅产品供应量较小,价格还要高得多。调查表明,当时已通过国家标准认证,获准进入市场的医用测温仪,多是价格在万元以上,且需外接电脑的台式设备,市面上真正意义的精准便携式医用红外测温仪还不存在。

近些年,随着技术的进步,红外测温仪在精度、体积和成本上均得到了较大的提升,便携式医用红外测温仪和消费级红外测温仪才得以打破工业级红外测温仪的市场主导地位。在此次疫情中,医用红外测温仪和消费级红外测温仪被广泛应用在在医院、机场车站、农贸商超、住宅小区等公共场所,精度相对低的工业级红外测温仪也随之退出疫情防控的舞台。

来源:百家号 传感器专家网

广州公交使用测温人脸识别仪,无接触测温和乘客信息溯源是关键

虽然疫情有所缓解,但我们依然不能松懈。各地也逐渐开始复工,如何保证复工安全和有效防疫就成了新一轮的挑战。

为了帮助企业正常复工,政府也想出了许多措施,例如发放口罩、消毒物资、测温仪器等,保障上班人员的健康安全。除此之外,上下班交通也是一个大难题,土豪一点的公司可以包车接送员工上下班,但许多员工日常上班的交通工具是公交地铁这些人流密集的地方,容易增加交叉感染的几率。

不少地方现在也在公交地铁这些人流量大的场所使用测温终端,测温终端判定体温正常后再上车。像笔者所在的佛山市,搭乘公交就实现测温+扫码识别的方式,有专门的安保防疫人员用体温枪为每个上车的乘客测温,乘客同时也要扫描公交车上的二维码,填报身份信息,方便疫情范围的锁定,万一车上发现有确诊病例,也可以及时查询同乘人的身份和追溯行动轨迹。

这种方式固然是同时具备了测温和身份核验两种方式,但单靠人工操作费时费力,逐个测温容易造成排队,无形中就增加了时间成本,降低公交运输的速度。而且人工操作始终有人与人接触的机会,增加感染风险。而且要乘客自行扫码,还需要看乘客的配合意愿,这些需要经过人手操作的扫码形式,不够周全。

近日,广州部分公交线路就率先引入了人脸识别测温仪,顾客在上车时经过车门口的人脸识别测温仪,人脸识别测温仪就能自动完成测温,对异常体温发出语音提示, 1秒内完成测温,减少拥挤。

 

公交上的测温人脸识别终端
除了快速测温,人脸识别测温仪还能根据人脸识别技术进行身份核验,记录乘客的乘车信息,对乘车人员行踪进行信息溯源,实时上传体温数据到后台,方便在突发事件中查找车辆、司机和同车同行者的信息。人脸识别测温仪作为智能硬件终端,还能在闲时轮播一些疫情防控信息,方便普及安全意识。

人脸识别应用在交通工具上其实早不鲜见。深圳、西安等地方也引入刷脸乘车的功能,通过人脸识别自动在绑定的账户上扣除车费,减少排队时间。

公交人脸测温仪则是在人脸识别的技术上添加测温功能,在疫情防控时期代替人工操作,进行无接触测温和身份识别,发挥高效强大的科技力量,助力安防防疫和社会运转两不误。

来源:百家号 智能硬件定制

语音识别技术简史

语音识别自半个世纪前诞生以来,一直处于不温不火的状态,直到 2009 年深度学习技术的长足发展才使得语音识别的精度大大提高,虽然还无法进行无限制领域、无限制人群的应用,但也在大多数场景中提供了一种便利高效的沟通方式。本篇文章将从技术和产业两个角度来回顾一下语音识别发展的历程和现状,并分析一些未来趋势,希望能帮助更多年轻技术人员了解语音行业,并能产生兴趣投身于这个行业。

语音识别,通常称为自动语音识别,英文是Automatic Speech Recognition,缩写为 ASR,主要是将人类语音中的词汇内容转换为计算机可读的输入,一般都是可以理解的文本内容,也有可能是二进制编码或者字符序列。但是,我们一般理解的语音识别其实都是狭义的语音转文字的过程,简称语音转文本识别( Speech To Text, STT )更合适,这样就能与语音合成(Text To Speech, TTS )对应起来。

语音识别是一项融合多学科知识的前沿技术,覆盖了数学与统计学、声学与语言学、计算机与人工智能等基础学科和前沿学科,是人机自然交互技术中的关键环节。但是,语音识别自诞生以来的半个多世纪,一直没有在实际应用过程得到普遍认可,一方面这与语音识别的技术缺陷有关,其识别精度和速度都达不到实际应用的要求;另一方面,与业界对语音识别的期望过高有关,实际上语音识别与键盘、鼠标或触摸屏等应是融合关系,而非替代关系。

深度学习技术自 2009 年兴起之后,已经取得了长足进步。语音识别的精度和速度取决于实际应用环境,但在安静环境、标准口音、常见词汇场景下的语音识别率已经超过 95%,意味着具备了与人类相仿的语言识别能力,而这也是语音识别技术当前发展比较火热的原因。

随着技术的发展,现在口音、方言、噪声等场景下的语音识别也达到了可用状态,特别是远场语音识别已经随着智能音箱的兴起成为全球消费电子领域应用最为成功的技术之一。由于语音交互提供了更自然、更便利、更高效的沟通形式,语音必定将成为未来最主要的人机互动接口之一。

当然,当前技术还存在很多不足,如对于强噪声、超远场、强干扰、多语种、大词汇等场景下的语音识别还需要很大的提升;另外,多人语音识别和离线语音识别也是当前需要重点解决的问题。虽然语音识别还无法做到无限制领域、无限制人群的应用,但是至少从应用实践中我们看到了一些希望。

本篇文章将从技术和产业两个角度来回顾一下语音识别发展的历程和现状,并分析一些未来趋势,希望能帮助更多年轻技术人员了解语音行业,并能产生兴趣投身于这个行业。

语音识别的技术历程

现代语音识别可以追溯到 1952 年,Davis 等人研制了世界上第一个能识别 10 个英文数字发音的实验系统,从此正式开启了语音识别的进程。语音识别发展到今天已经有 70 多年,但从技术方向上可以大体分为三个阶段。

下图是从 1993 年到 2017 年在 Switchboard 上语音识别率的进展情况,从图中也可以看出 1993 年到 2009 年,语音识别一直处于 GMM-HMM 时代,语音识别率提升缓慢,尤其是 2000 年到 2009 年语音识别率基本处于停滞状态;2009 年随着深度学习技术,特别是 DNN 的兴起,语音识别框架变为 DNN-HMM,语音识别进入了 DNN 时代,语音识别精准率得到了显著提升;2015 年以后,由于“端到端”技术兴起,语音识别进入了百花齐放时代,语音界都在训练更深、更复杂的网络,同时利用端到端技术进一步大幅提升了语音识别的性能,直到 2017 年微软在 Swichboard 上达到词错误率 5.1%,从而让语音识别的准确性首次超越了人类,当然这是在一定限定条件下的实验结果,还不具有普遍代表性。

 

GMM-HMM时代

70 年代,语音识别主要集中在小词汇量、孤立词识别方面,使用的方法也主要是简单的模板匹配方法,即首先提取语音信号的特征构建参数模板,然后将测试语音与参考模板参数进行一一比较和匹配,取距离最近的样本所对应的词标注为该语音信号的发音。该方法对解决孤立词识别是有效的,但对于大词汇量、非特定人连续语音识别就无能为力。因此,进入 80 年代后,研究思路发生了重大变化,从传统的基于模板匹配的技术思路开始转向基于统计模型(HMM)的技术思路。

HMM 的理论基础在 1970 年前后就已经由 Baum 等人建立起来,随后由 CMU 的 Baker 和 IBM 的 Jelinek 等人将其应用到语音识别当中。HMM 模型假定一个音素含有 3 到 5 个状态,同一状态的发音相对稳定,不同状态间是可以按照一定概率进行跳转;某一状态的特征分布可以用概率模型来描述,使用最广泛的模型是 GMM。因此 GMM-HMM 框架中,HMM 描述的是语音的短时平稳的动态性,GMM 用来描述 HMM 每一状态内部的发音特征。

基于 GMM-HMM 框架,研究者提出各种改进方法,如结合上下文信息的动态贝叶斯方法、区分性训练方法、自适应训练方法、HMM/NN 混合模型方法等。这些方法都对语音识别研究产生了深远影响,并为下一代语音识别技术的产生做好了准备。自上世纪 90 年代语音识别声学模型的区分性训练准则和模型自适应方法被提出以后,在很长一段内语音识别的发展比较缓慢,语音识别错误率那条线一直没有明显下降。

DNN-HMM时代

2006年,Hinton 提出深度置信网络(DBN),促使了深度神经网络(DNN)研究的复苏。2009 年,Hinton 将 DNN 应用于语音的声学建模,在 TIMIT 上获得了当时最好的结果。2011 年底,微软研究院的俞栋、邓力又把 DNN 技术应用在了大词汇量连续语音识别任务上,大大降低了语音识别错误率。从此语音识别进入 DNN-HMM 时代。

DNN-HMM主要是用 DNN 模型代替原来的 GMM 模型,对每一个状态进行建模,DNN 带来的好处是不再需要对语音数据分布进行假设,将相邻的语音帧拼接又包含了语音的时序结构信息,使得对于状态的分类概率有了明显提升,同时DNN还具有强大环境学习能力,可以提升对噪声和口音的鲁棒性。

 

简单来说,DNN 就是给出输入的一串特征所对应的状态概率。由于语音信号是连续的,不仅各个音素、音节以及词之间没有明显的边界,各个发音单位还会受到上下文的影响。虽然拼帧可以增加上下文信息,但对于语音来说还是不够。而递归神经网络(RNN)的出现可以记住更多历史信息,更有利于对语音信号的上下文信息进行建模。

由于简单的 RNN 存在梯度爆炸和梯度消散问题,难以训练,无法直接应用于语音信号建模上,因此学者进一步探索,开发出了很多适合语音建模的 RNN 结构,其中最有名的就是 LSTM 。LSTM 通过输入门、输出门和遗忘门可以更好的控制信息的流动和传递,具有长短时记忆能力。虽然 LSTM 的计算复杂度会比 DNN 增加,但其整体性能比 DNN 有相对 20% 左右稳定提升。

 

BLSTM 是在 LSTM 基础上做的进一步改进,不仅考虑语音信号的历史信息对当前帧的影响,还要考虑未来信息对当前帧的影响,因此其网络中沿时间轴存在正向和反向两个信息传递过程,这样该模型可以更充分考虑上下文对于当前语音帧的影响,能够极大提高语音状态分类的准确率。BLSTM 考虑未来信息的代价是需要进行句子级更新,模型训练的收敛速度比较慢,同时也会带来解码的延迟,对于这些问题,业届都进行了工程优化与改进,即使现在仍然有很多大公司使用的都是该模型结构。

 

图像识别中主流的模型就是 CNN,而语音信号的时频图也可以看作是一幅图像,因此 CNN 也被引入到语音识别中。要想提高语音识别率,就需要克服语音信号所面临的多样性,包括说话人自身、说话人所处的环境、采集设备等,这些多样性都可以等价为各种滤波器与语音信号的卷积。而 CNN 相当于设计了一系列具有局部关注特性的滤波器,并通过训练学习得到滤波器的参数,从而从多样性的语音信号中抽取出不变的部分,CNN 本质上也可以看作是从语音信号中不断抽取特征的一个过程。CNN 相比于传统的 DNN 模型,在相同性能情况下,前者的参数量更少。

综上所述,对于建模能力来说,DNN 适合特征映射到独立空间,LSTM 具有长短时记忆能力,CNN 擅长减少语音信号的多样性,因此一个好的语音识别系统是这些网络的组合。

端到端时代

语音识别的端到端方法主要是代价函数发生了变化,但神经网络的模型结构并没有太大变化。总体来说,端到端技术解决了输入序列的长度远大于输出序列长度的问题。端到端技术主要分成两类:一类是 CTC 方法,另一类是 Sequence-to-Sequence 方法。传统语音识别 DNN-HMM 架构里的声学模型,每一帧输入都对应一个标签类别,标签需要反复的迭代来确保对齐更准确。

采用 CTC 作为损失函数的声学模型序列,不需要预先对数据对齐,只需要一个输入序列和一个输出序列就可以进行训练。CTC 关心的是预测输出的序列是否和真实的序列相近,而不关心预测输出序列中每个结果在时间点上是否和输入的序列正好对齐。CTC 建模单元是音素或者字,因此它引入了 Blank。对于一段语音,CTC 最后输出的是尖峰的序列,尖峰的位置对应建模单元的 Label,其他位置都是 Blank。

Sequence-to-Sequence 方法原来主要应用于机器翻译领域。2017 年,Google 将其应用于语音识别领域,取得了非常好的效果,将词错误率降低至5.6%。如下图所示,Google 提出新系统的框架由三个部分组成:Encoder 编码器组件,它和标准的声学模型相似,输入的是语音信号的时频特征;经过一系列神经网络,映射成高级特征 henc,然后传递给 Attention 组件,其使用 henc 特征学习输入 x 和预测子单元之间的对齐方式,子单元可以是一个音素或一个字。最后,attention 模块的输出传递给 Decoder,生成一系列假设词的概率分布,类似于传统的语言模型。

 

端到端技术的突破,不再需要 HMM 来描述音素内部状态的变化,而是将语音识别的所有模块统一成神经网络模型,使语音识别朝着更简单、更高效、更准确的方向发展。

语音识别的技术现状

目前,主流语音识别框架还是由 3 个部分组成:声学模型、语言模型和解码器,有些框架也包括前端处理和后处理。随着各种深度神经网络以及端到端技术的兴起,声学模型是近几年非常热门的方向,业界都纷纷发布自己新的声学模型结构,刷新各个数据库的识别记录。由于中文语音识别的复杂性,国内在声学模型的研究进展相对更快一些,主流方向是更深更复杂的神经网络技术融合端到端技术。

2018年,科大讯飞提出深度全序列卷积神经网络(DFCNN),DFCNN 使用大量的卷积直接对整句语音信号进行建模,主要借鉴了图像识别的网络配置,每个卷积层使用小卷积核,并在多个卷积层之后再加上池化层,通过累积非常多卷积池化层对,从而可以看到更多的历史信息。

2018年,阿里提出 LFR-DFSMN(Lower Frame Rate-Deep Feedforward Sequential Memory Networks)。该模型将低帧率算法和 DFSMN 算法进行融合,语音识别错误率相比上一代技术降低 20%,解码速度提升 3 倍。FSMN 通过在 FNN 的隐层添加一些可学习的记忆模块,从而可以有效的对语音的长时相关性进行建模。而 DFSMN 是通过跳转避免深层网络的梯度消失问题,可以训练出更深层的网络结构。

2019 年,百度提出了流式多级的截断注意力模型 SMLTA,该模型是在 LSTM 和 CTC 的基础上引入了注意力机制来获取更大范围和更有层次的上下文信息。其中流式表示可以直接对语音进行一个小片段一个小片段的增量解码;多级表示堆叠多层注意力模型;截断则表示利用 CTC 模型的尖峰信息,把语音切割成一个一个小片段,注意力模型和解码可以在这些小片段上展开。在线语音识别率上,该模型比百度上一代 Deep Peak2 模型提升相对 15% 的性能。

开源语音识别 Kaldi 是业界语音识别框架的基石。Kaldi 的作者 Daniel Povey 一直推崇的是 Chain 模型。该模型是一种类似于 CTC 的技术,建模单元相比于传统的状态要更粗颗粒一些,只有两个状态,一个状态是 CD Phone,另一个是 CD Phone 的空白,训练方法采用的是 Lattice-Free MMI 训练。该模型结构可以采用低帧率的方式进行解码,解码帧率为传统神经网络声学模型的三分之一,而准确率相比于传统模型有非常显著的提升。

远场语音识别技术主要解决真实场景下舒适距离内人机任务对话和服务的问题,是 2015 年以后开始兴起的技术。由于远场语音识别解决了复杂环境下的识别问题,在智能家居、智能汽车、智能会议、智能安防等实际场景中获得了广泛应用。目前国内远场语音识别的技术框架以前端信号处理和后端语音识别为主,前端利用麦克风阵列做去混响、波束形成等信号处理,以让语音更清晰,然后送入后端的语音识别引擎进行识别。

语音识别另外两个技术部分:语言模型和解码器,目前来看并没有太大的技术变化。语言模型主流还是基于传统的 N-Gram 方法,虽然目前也有神经网络的语言模型的研究,但在实用中主要还是更多用于后处理纠错。解码器的核心指标是速度,业界大部分都是按照静态解码的方式进行,即将声学模型和语言模型构造成 WFST 网络,该网络包含了所有可能路径,解码就是在该空间进行搜索的过程。由于该理论相对成熟,更多的是工程优化的问题,所以不论是学术还是产业目前关注的较少。

语音识别的技术趋势

语音识别主要趋于远场化和融合化的方向发展,但在远场可靠性还有很多难点没有突破,比如多轮交互、多人噪杂等场景还有待突破,还有需求较为迫切的人声分离等技术。新的技术应该彻底解决这些问题,让机器听觉远超人类的感知能力。这不能仅仅只是算法的进步,需要整个产业链的共同技术升级,包括更为先进的传感器和算力更强的芯片。

单从远场语音识别技术来看,仍然存在很多挑战,包括:

(1)回声消除技术。由于喇叭非线性失真的存在,单纯依靠信号处理手段很难将回声消除干净,这也阻碍了语音交互系统的推广,现有的基于深度学习的回声消除技术都没有考虑相位信息,直接求取的是各个频带上的增益,能否利用深度学习将非线性失真进行拟合,同时结合信号处理手段可能是一个好的方向。

(2)噪声下的语音识别仍有待突破。信号处理擅长处理线性问题,深度学习擅长处理非线性问题,而实际问题一定是线性和非线性的叠加,因此一定是两者融合才有可能更好地解决噪声下的语音识别问题。

(3)上述两个问题的共性是目前的深度学习仅用到了语音信号各个频带的能量信息,而忽略了语音信号的相位信息,尤其是对于多通道而言,如何让深度学习更好的利用相位信息可能是未来的一个方向。

(4)另外,在较少数据量的情况下,如何通过迁移学习得到一个好的声学模型也是研究的热点方向。例如方言识别,若有一个比较好的普通话声学模型,如何利用少量的方言数据得到一个好的方言声学模型,如果做到这点将极大扩展语音识别的应用范畴。这方面已经取得了一些进展,但更多的是一些训练技巧,距离终极目标还有一定差距。

(5)语音识别的目的是让机器可以理解人类,因此转换成文字并不是最终的目的。如何将语音识别和语义理解结合起来可能是未来更为重要的一个方向。语音识别里的 LSTM 已经考虑了语音的历史时刻信息,但语义理解需要更多的历史信息才能有帮助,因此如何将更多上下文会话信息传递给语音识别引擎是一个难题。

(6)让机器听懂人类语言,仅靠声音信息还不够,“声光电热力磁”这些物理传感手段,下一步必然都要融合在一起,只有这样机器才能感知世界的真实信息,这是机器能够学习人类知识的前提条件。而且,机器必然要超越人类的五官,能够看到人类看不到的世界,听到人类听不到的世界。

语音识别的产业历程

语音识别这半个多世纪的产业历程中,其中共有三个关键节点,两个和技术有关,一个和应用有关。第一个关键节点是 1988 年的一篇博士论文,开发了第一个基于隐马尔科夫模型(HMM)的语音识别系统—— Sphinx,当时实现这一系统的正是现在的著名投资人李开复。

从 1986 年到 2010 年,虽然混合高斯模型效果得到持续改善,而被应用到语音识别中,并且确实提升了语音识别的效果,但实际上语音识别已经遭遇了技术天花板,识别的准确率很难超过 90%。很多人可能还记得,在 1998 年前后 IBM、微软都曾经推出和语音识别相关的软件,但最终并未取得成功。

第二个关键节点是 2009 年深度学习被系统应用到语音识别领域中。这导致识别的精度再次大幅提升,最终突破 90%,并且在标准环境下逼近 98%。有意思的是,尽管技术取得了突破,也涌现出了一些与此相关的产品,比如 Siri、Google Assistant 等,但与其引起的关注度相比,这些产品实际取得的成绩则要逊色得多。Siri 刚一面世的时候,时任 Google CEO 的施密特就高呼,这会对 Google 的搜索业务产生根本性威胁,但事实上直到 Amazon Echo 的面世,这种根本性威胁才真的有了具体的载体。

第三个关键点正是 Amazon Echo 的出现,纯粹从语音识别和自然语言理解的技术乃至功能的视角看这款产品,相对于 Siri 等并未有什么本质性改变,核心变化只是把近场语音交互变成了远场语音交互。Echo 正式面世于2015年6月,到 2017 年销量已经超过千万,同时在 Echo 上扮演类似 Siri 角色的 Alexa 渐成生态,其后台的第三方技能已经突破 10000 项。借助落地时从近场到远场的突破,亚马逊一举从这个赛道的落后者变为行业领导者。

但自从远场语音技术规模落地以后,语音识别领域的产业竞争已经开始从研发转为应用。研发比的是标准环境下纯粹的算法谁更有优势,而应用比较的是在真实场景下谁的技术更能产生优异的用户体验,而一旦比拼真实场景下的体验,语音识别便失去独立存在的价值,更多作为产品体验的一个环节而存在。

所以到 2019 年,语音识别似乎进入了一个相对平静期,全球产业界的主要参与者们,包括亚马逊、谷歌、微软、苹果、百度、科大讯飞、阿里、腾讯、云知声、思必驰、声智等公司,在一路狂奔过后纷纷开始反思自己的定位和下一步的打法。

语音赛道里的标志产品——智能音箱,以一种大跃进的姿态出现在大众面前。2016 年以前,智能音箱玩家们对这款产品的认识还都停留在:亚马逊出了一款叫 Echo 的产品,功能和 Siri 类似。先行者科大讯飞叮咚音箱的出师不利,更是加重了其它人的观望心态。真正让众多玩家从观望转为积极参与的转折点是逐步曝光的 Echo 销量,2016 年底,Echo 近千万的美国销量让整个世界震惊。这是智能设备从未达到过的高点,在 Echo 以前除了 Apple Watch 与手环,像恒温器、摄像头这样的产品突破百万销量已是惊人表现。这种销量以及智能音箱的 AI 属性促使 2016 年下半年,国内各大巨头几乎是同时转变态度,积极打造自己的智能音箱。

未来,回看整个发展历程,2019 年是一个明确的分界点。在此之前,全行业是突飞猛进,但 2019 年之后则开始进入对细节领域渗透和打磨的阶段,人们关注的焦点也不再是单纯的技术指标,而是回归到体验,回归到一种“新的交互方式到底能给我们带来什么价值”这样更为一般的、纯粹的商业视角。技术到产品再到是否需要与具体的形象进行交互结合,比如人物形象;流程自动化是否要与语音结合;酒店场景应该如何使用这种技术来提升体验,诸如此类最终都会一一呈现在从业者面前。而此时行业的主角也会从原来的产品方过渡到平台提供方,AIoT 纵深过大,没有任何一个公司可以全线打造所有的产品。

语音识别的产业趋势

当语音产业需求四处开花的同时,行业的发展速度反过来会受限于平台服务商的供给能力。跳出具体案例来看,行业下一步发展的本质逻辑是:在具体每个点的投入产出是否达到一个普遍接受的界限。

离这个界限越近,行业就越会接近滚雪球式发展的临界点,否则整体增速就会相对平缓。不管是家居、酒店、金融、教育或者其他场景,如果解决问题都是非常高投入并且长周期的事情,那对此承担成本的一方就会犹豫,这相当于试错成本过高。如果投入后,没有可感知的新体验或者销量促进,那对此承担成本的一方也会犹豫,显然这会影响值不值得上的判断。而这两个事情,归根结底都必须由平台方解决,产品方或者解决方案方对此无能为力,这是由智能语音交互的基础技术特征所决定。

从核心技术来看,整个语音交互链条有五项单点技术:唤醒、麦克风阵列、语音识别、自然语言处理、语音合成,其它技术点比如声纹识别、哭声检测等数十项技术通用性略弱,但分别出现在不同的场景下,并会在特定场景下成为关键。看起来关联的技术已经相对庞杂,但切换到商业视角我们就会发现,找到这些技术距离打造一款体验上佳的产品仍然有绝大距离。

所有语音交互产品都是端到端打通的产品,如果每家厂商都从这些基础技术来打造产品,那就每家都要建立自己云服务稳定,确保响应速度,适配自己所选择的硬件平台,逐项整合具体的内容(比如音乐、有声读物)。这从产品方或者解决方案商的视角来看是不可接受的。这时候就会催生相应的平台服务商,它要同时解决技术、内容接入和工程细节等问题,最终达成试错成本低、体验却足够好的目标。

平台服务并不需要闭门造车,平台服务的前提是要有能屏蔽产品差异的操作系统,这是 AI+IOT 的特征,也是有所参照的,亚马逊过去近 10 年里是同步着手做两件事:一个是持续推出面向终端用户的产品,比如 Echo,Echo Show等;一个是把所有产品所内置的系统 Alexa 进行平台化,面向设备端和技能端同步开放SDK和调试发布平台。虽然 Google Assistant 号称单点技术更为领先,但从各方面的结果来看 Alexa 是当之无愧的最为领先的系统平台,可惜的是 Alexa 并不支持中文以及相应的后台服务。

国内则缺乏亚马逊这种统治力的系统平台提供商,当前的平台提供商分为两个阵营:一类是以百度、阿里、讯飞、小米、腾讯为代表的传统互联网或者上市公司;一类是以声智等为代表的新兴人工智能公司。新兴的人工智能公司相比传统公司产品和服务上的历史包袱更轻,因此在平台服务上反倒是可以主推一些更为面向未来、有特色的基础服务,比如兼容性方面新兴公司做的会更加彻底,这种兼容性对于一套产品同时覆盖国内国外市场是相当有利的。

类比过去的 Android,语音交互的平台提供商们其实面临更大的挑战,发展过程可能会更加的曲折。过去经常被提到的操作系统的概念在智能语音交互背景下事实上正被赋予新的内涵,它日益被分成两个不同但必须紧密结合的部分。

过去的 Linux 以及各种变种承担的是功能型操作系统的角色,而以 Alexa 为代表的新型系统则承担的则是智能型系统的角色。前者完成完整的硬件和资源的抽象和管理,后者则让这些硬件以及资源得到具体的应用,两者相结合才能输出最终用户可感知的体验。功能型操作系统和智能型操作系统注定是一种一对多的关系,不同的 AIoT 硬件产品在传感器(深度摄像头、雷达等)、显示器上(有屏、无屏、小屏、大屏等)具有巨大差异,这会导致功能型系统的持续分化(可以和 Linux 的分化相对应)。这反过来也就意味着一套智能型系统,必须同时解决与功能型系统的适配以及对不同后端内容以及场景进行支撑的双重责任。

这两边在操作上,属性具有巨大差异。解决前者需要参与到传统的产品生产制造链条中去,而解决后者则更像应用商店的开发者。这里面蕴含着巨大的挑战和机遇。在过去功能型操作系统的打造过程中,国内的程序员们更多的是使用者的角色,但智能型操作系统虽然也可以参照其他,但这次必须自己来从头打造完整的系统。(国外巨头不管在中文相关的技术上还是内容整合上事实上都非常薄弱,不存在侵略国内市场的可能性)

随着平台服务商两边的问题解决的越来越好,基础的计算模式则会逐渐发生改变,人们的数据消费模式会与今天不同。个人的计算设备(当前主要是手机、笔记本、Pad)会根据不同场景进一步分化。比如在车上、家里、酒店、工作场景、路上、业务办理等会根据地点和业务进行分化。但分化的同时背后的服务则是统一的,每个人可以自由的根据场景做设备的迁移,背后的服务虽然会针对不同的场景进行优化,但在个人偏好这样的点上则是统一的。

人与数字世界的接口,在现在越来越统一于具体的产品形态(比如手机),但随着智能型系统的出现,这种统一则会越来越统一于系统本身。作为结果这会带来数据化程度的持续加深,我们越来越接近一个百分百数据化的世界。

总结

从技术进展和产业发展来看,语音识别虽然还不能解决无限制场景、无限制人群的通用识别问题,但是已经能够在各个真实场景中普遍应用并且得到规模验证。更进一步的是,技术和产业之间形成了比较好的正向迭代效应,落地场景越多,得到的真实数据越多,挖掘的用户需求也更准确,这帮助了语音识别技术快速进步,也基本满足了产业需求,解决了很多实际问题,这也是语音识别相对其他 AI 技术最为明显的优势。

不过,我们也要看到,语音识别的内涵必须不断扩展,狭义语音识别必须走向广义语音识别,致力于让机器听懂人类语言,这才能将语音识别研究带到更高维度。我们相信,多技术、多学科、多传感的融合化将是未来人工智能发展的主流趋势。在这种趋势下,我们还有很多未来的问题需要探讨,比如键盘、鼠标、触摸屏和语音交互的关系怎么变化?搜索、电商、社交是否再次重构?硬件是否逆袭变得比软件更加重要?产业链中的传感、芯片、操作系统、产品和内容厂商之间的关系又该如何变化?

本文得到众多语音识别领域专家的指导,并引用了一些参考资料的配图,在此表示感谢,本文中的不足之处还请批评指正。

参考资料:

[1] W. Minhua, K. Kumatani, S. Sundaram, N. Strm and B. Hoffmeister, “Frequency Domain Multi-channel Acoustic Modeling for Distant Speech Recognition,” ICASSP 2019 – 2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Brighton, United Kingdom, 2019, pp. 6640-6644.

[2] Li B, Sainath TN, Narayanan A, Caroselli J, Bacchiani M, Misra A, Shafran I, Sak H, Pundak G, Chin KK, Sim KC. Acoustic Modeling for Google Home. InInterspeech 2017 Aug 20 (pp. 399-403).

[3] Chiu CC, Sainath TN, Wu Y, Prabhavalkar R, Nguyen P, Chen Z, Kannan A, Weiss RJ, Rao K, Gonina E, Jaitly N. State-of-the-art speech recognition with sequence-to-sequence models. In2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) 2018 Apr 15 (pp. 4774-4778). IEEE.

[4] Li J, Deng L, Gong Y, Haeb-Umbach R. An overview of noise-robust automatic speech recognition. IEEE/ACM Transactions on Audio, Speech, and Language Processing. 2014 Feb 5;22(4):745-77.

[5] 俞栋,邓力. 解析深度学习:语音识别实践. 电子工业出版社. 2016年.

[6] 韩纪庆,张磊,郑铁然. 语音信号处理. 清华大学出版社. 2005年.

[7] 王东. 语音识别技术的现状与未来. 2017年.

[8] https://developer.amazon.com/zh/blogs/alexa/post/92bb9391-e930-464b-8ece-1fd8b476702a/amazon-scientist-outlines-multilayer-system-for-smart-speaker-echo-cancellation-and-voice-enhancement

[9] https://venturebeat.com/2019/04/01/alexa-researchers-develop-2-mic-speech-recognition-system-that-beats-a-7-mic-array/

[10] https://yq.aliyun.com/articles/704173

[11] http://azero.soundai.com

[12] http://research.baidu.com/Blog/index-view?id=109

来源:csdn

每天被照射十几次,红外线测温仪会不会伤眼?

近日,许多企业都复工了。许多通勤的人一天要被红外线测温枪频繁照射到眼睛,有人担心频繁照射,测温仪的红外线会不会伤眼?广州中医药大学第一附属医院黄仲委教授进行了解答。
黄仲委教授解答,红外线测温仪的红光是LED灯发出的,正确用法是照射被检者的前额而不是眼睛。如果真的照射到眼睛,尤其是红光亮度特别强、照射眼睛时间又特别长,是有可能损伤晶状体、视网膜,尤其是视网膜黄斑区,引起白内障、黄斑出血、水肿、裂孔等,但这种几率几乎为零。
红外线测温仪工作原理是用来接收被检查者身体体温所发出的红外线,并不是它发射红外线,测温仪的红光主要方便定位而已。至于选择测量的部位是前额还是手部都没有问题,大家可放心配合工作!
不过要提醒的是,这种红外线测温枪不要让小孩子单独拿来玩,万一小朋友拿来比划一通,照射自己的眼睛,也许会惹麻烦。

来源:羊城晚报