基于语音交互技术智能会议系统的研究与实践

(0 次评价)978 人阅读0 次下载

精益管理 -209- 字结果。系统标配为“定制超极本+单路声卡/全向麦克风” ，其转写服务引擎、客户端软件同时部署在一台移动超极本上，提供实时语音转写和导入音频转写两大核心功能，能够满足不同场景下的文字整理需求。 1、实时转写流程（会场内已有麦克风调音台等设备）针对已有数字发言系统的会场环境，直接通过声卡从调音台取音、完成会议实时发言语音的采集，设备接收到录音服务发送的音频信号后、调取引擎服务开始进行转写，并把转写结果实时发送给客户端软件，进行文字的展示和操作。 2、实时转写流程（会场内无拾音设备）针对没有麦克风的中小型会议或外出交谈场景，可提供圆盘麦克风作为收音设备，其收音范围可达到 3 米，接入主机电脑后可完成对会议发言的实时记录。 3、导入音频转写流程针对通过其他录播系统或录音设备获取的非实时的音频文件，系统支持导入历史录音进行快速转写，1 个小时的音频文件月 6-8 分钟即可完成转写，且转写结果会自动分段、音字对应，提升阅读性和编辑容易度。 2.3 软件应用能力更加强大机器语音识别技术是一种实现从 “声音” 到 “文字”转换的技术，通过将人的语音直接转换成相应的文本。语音识别技术的研究工作开始于上世纪五十年代。Bell 实验室的研究人员利用模拟元器件提取了语音信号元音共振峰频率变化的信息，有史以来第一次实现了识别十个英文数字的语音识别系统 -Audry 系统。八十年代，Bell 实验室的 Rabiner 等科学家将原本艰涩难懂的隐马尔科夫模型（Hidden Markov Model-HMM）理论工程化，形成了较为完善的概率统计模型体系，识别性能也得到了很大的提高。2006 年以来 Deep Learning 理论和技术成为了模式识别领域的一个热门研究方向，G. E. Hinton 等深入研究了深度置信网络（ Deep Belief Network-DBN）以及深度神经网络（Deep Neural Network-DNN）等模型结构，微软通过与 Hinton 合作率先将 DNN 应用于语音识别任务，识别性能取得了显著提升。此后谷歌、蒙特利尔，以及 IBM 又将循环神经网络（Recurrent Neural Netwok-RNN）成功应用于语音识别领域，特别是长短时记忆（Long-Short Term Memory）神经网络结构，取得非常出色的语音识别性能。加上目前图形处理器（GPU）计算能力的提升，以及互联网时代大规模标注数据获取成为可能，基于深度学习的语音识别技术已经在多个领域达到实用水平。传统的语音识别技术主要用于解决人与机器的交互问题。而在会议场景需要转成文字的音频内容是人与人之间交互，智能会议系统需要基于机器语音识别技术构建语音转写引擎。智能会议系统构建的语音转写引擎需要能够实时、高效的把人与人之间交流的语音转换为文字的能力，具体包括中文语音转写引擎与英文语音转写引擎，本系统需要完成中文连续语音识别转写引擎的建设。系统应用的“中文连续语音识别转写引擎”为科大讯飞最新版本，采用 13000 小时以上的连续语流数据训练而成的声学模型及先进的二遍解码技术，另外独有文本顺滑、标点识别、英文数字后处