我们身边的智能工具和应用场:语音识别与声纹识别

人与人之间进行交流的最自然、最常用的方式是语言,而人与机器的人机交互却不得不靠鼠标、键盘和屏幕。近年来,基于人工智能技术的语音识别、语音生成和声纹识别技术取得重大进展。人机交互正由传统的以机器为中心转向以人为中心的自然交互。

利用语音识别技术将人类语音中的词汇内容转换为计算机可读的输入,在很多人机交互场景中得到广泛应用。例如,听写数据录入、语音拨号、语音导航、室内的设备语音控制、语音文档检索、不同语种语音到语音的互译等等。

近年来,智能语音合成系统几乎与真人声音无法区分。2019年3月3日,全球首位AI合成女主播正式上岗,引起了全球传媒业和人工智能领域的极大关注。新版的AI合成主播可以实现逼真的语音合成效果,让AI的声音更具有真实情感和表现力。在图像生成方面,新版的AI合成主播实现了更加逼真的表情生成、自然的肢体动作以及嘴唇动作预测等能力,完成了站立并可以做出肢体动作的主播形象,进一步提升了合成主播的表现力,保持我国在这一领域的全球领先。

声纹识别技术能够提取每个人独一无二的语音特征,实现“听音辨人”,在涉及说话人身份识别的场景中具有重要应用价值。例如,在公安司法领域,可以用声纹识别技术处理电话骚绑架、诈骗、勒索等声音信息;在门禁和考勤系统中,可以通过提取语音中的声纹特征进行登记和签到;在金融行业,可以采用声纹识别技术对电话银行或远程证券交易中的客户进行身份确认;在刑侦领域,可以通过声纹识别技术判断监听电话中是否有嫌疑人出现。

发表评论

电子邮件地址不会被公开。 必填项已用*标注