全国电力技术协作网首页
CopyRight 2012-2014 DS文库版权所有
基于语音交互技术智能会议系统的研究与实践
(0 次评价)978 人阅读0 次下载
精益管理 -209- 字结果。 系统标配为“定制超极本+单路声卡/全向麦克 风” ,其转写服务引擎、客户端软件同时部署在一台 移动超极本上,提供实时语音转写和导入音频转写 两大核心功能,能够满足不同场景下的文字整理需求。 1、实时转写流程(会场内已有麦克风调音台等 设备) 针对已有数字发言系统的会场环境,直接通过 声卡从调音台取音、完成会议实时发言语音的采集, 设备接收到录音服务发送的音频信号后、调取引擎 服务开始进行转写,并把转写结果实时发送给客户 端软件,进行文字的展示和操作。 2、实时转写流程(会场内无拾音设备) 针对没有麦克风的中小型会议或外出交谈场 景,可提供圆盘麦克风作为收音设备,其收音范围 可达到 3 米,接入主机电脑后可完成对会议发言的 实时记录。 3、导入音频转写流程 针对通过其他录播系统或录音设备获取的非实 时的音频文件,系统支持导入历史录音进行快速转 写,1 个小时的音频文件月 6-8 分钟即可完成转写, 且转写结果会自动分段、音字对应,提升阅读性和 编辑容易度。 2.3 软件应用能力更加强大 机器语音识别技术是一种实现从 “声音” 到 “文 字”转换的技术,通过将人的语音直接转换成相应 的文本。语音识别技术的研究工作开始于上世纪五 十年代。Bell 实验室的研究人员利用模拟元器件提 取了语音信号元音共振峰频率变化的信息,有史以 来第一次实现了识别十个英文数字的语音识别系统 -Audry 系统。八十年代,Bell 实验室的 Rabiner 等 科学家将原本艰涩难懂的隐马尔科夫模型(Hidden Markov Model-HMM)理论工程化,形成了较为完善 的概率统计模型体系,识别性能也得到了很大的提 高。2006 年以来 Deep Learning 理论和技术成为了 模式识别领域的一个热门研究方向,G. E. Hinton 等 深 入 研 究 了 深 度 置 信 网 络 ( Deep Belief Network-DBN)以及深度神经网络(Deep Neural Network-DNN)等模型结构,微软通过与 Hinton 合 作率先将 DNN 应用于语音识别任务,识别性能取得 了显著提升。此后谷歌、蒙特利尔,以及 IBM 又将 循环神经网络(Recurrent Neural Netwok-RNN)成 功 应 用 于 语 音 识 别 领 域 , 特 别 是 长 短 时 记 忆 (Long-Short Term Memory)神经网络结构,取得 非常出色的语音识别性能。加上目前图形处理器 (GPU)计算能力的提升,以及互联网时代大规模标 注数据获取成为可能,基于深度学习的语音识别技 术已经在多个领域达到实用水平。 传统的语音识别技术主要用于解决人与机器的 交互问题。而在会议场景需要转成文字的音频内容 是人与人之间交互,智能会议系统需要基于机器语 音识别技术构建语音转写引擎。智能会议系统构建 的语音转写引擎需要能够实时、高效的把人与人之 间交流的语音转换为文字的能力,具体包括中文语 音转写引擎与英文语音转写引擎,本系统需要完成 中文连续语音识别转写引擎的建设。 系统应用的“中文连续语音识别转写引擎”为 科大讯飞最新版本,采用 13000 小时以上的连续语 流数据训练而成的声学模型及先进的二遍解码技 术,另外独有文本顺滑、标点识别、英文数字后处

打分:

0 星

用户评论:

关于我们 | 联系我们 | 版权声明 | 企业服务 | 媒体合作
备案号:京ICP备13025456号-2 | 客服电话:010-88892009 | 反馈建议:1565227076@qq.com