人机语音交互涉及多项技术任务。首先需要将人声或声音转换为计算机可以分析的数字信号。下一步,将数字信号转换为词语。第三步是分析,这其中包括理解句子的结构、语法、语境等。

随着深度学习,机器学习芯片和算法取得突破,ASR、NLP 和 TTS 在过去 5 年中迅速进步。语音识别的单词错误率大幅降低,这主要是由于使用了更高效的声学模型,运用深度神经网络(DNN)取代高斯混合模型(GMM,之前多年以来的首选方法)等统计技术。Nuance的研究主管 Nils Lenke 展示数据显示,在将深度神经网络算法成功纳入语音识别系统后,单词错误率从 2010 年左右开始急剧下降,每年降低约 18%。

语音识别和自然语言处理是两个不同的领域。语音识别主要是分析句子、句法(名词、动词、形容词、副词等)以及结构,即语法(主语动词、宾语),以便进行转录或翻译。而自然语言处理的重点在于上下文语境和句子的意图,比如“我想给信用卡还款”,“我如何给信用卡还款”,这两个句子的分析主要在于理解对象(信用卡)和行动(还款)。但它们最开始的过程是类似的,都要识别声音模拟频率,消除背景噪音或多个对话,然后将音频模拟转换为数字格式。


download

声明:本站所有报告及文章,如无特殊说明或标注,均为本站用户发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。