精益管理
-209-
字结果。
系统标配为“定制超极本+单路声卡/全向麦克
风”
,其转写服务引擎、客户端软件同时部署在一台
移动超极本上,提供实时语音转写和导入音频转写
两大核心功能,能够满足不同场景下的文字整理需求。
1、实时转写流程(会场内已有麦克风调音台等
设备)
针对已有数字发言系统的会场环境,直接通过
声卡从调音台取音、完成会议实时发言语音的采集,
设备接收到录音服务发送的音频信号后、调取引擎
服务开始进行转写,并把转写结果实时发送给客户
端软件,进行文字的展示和操作。
2、实时转写流程(会场内无拾音设备)
针对没有麦克风的中小型会议或外出交谈场
景,可提供圆盘麦克风作为收音设备,其收音范围
可达到 3 米,接入主机电脑后可完成对会议发言的
实时记录。
3、导入音频转写流程
针对通过其他录播系统或录音设备获取的非实
时的音频文件,系统支持导入历史录音进行快速转
写,1 个小时的音频文件月 6-8 分钟即可完成转写,
且转写结果会自动分段、音字对应,提升阅读性和
编辑容易度。
2.3 软件应用能力更加强大
机器语音识别技术是一种实现从
“声音”
到
“文
字”转换的技术,通过将人的语音直接转换成相应
的文本。语音识别技术的研究工作开始于上世纪五
十年代。Bell 实验室的研究人员利用模拟元器件提
取了语音信号元音共振峰频率变化的信息,有史以
来第一次实现了识别十个英文数字的语音识别系统
-Audry 系统。八十年代,Bell 实验室的 Rabiner 等
科学家将原本艰涩难懂的隐马尔科夫模型(Hidden
Markov Model-HMM)理论工程化,形成了较为完善
的概率统计模型体系,识别性能也得到了很大的提
高。2006 年以来 Deep Learning 理论和技术成为了
模式识别领域的一个热门研究方向,G. E. Hinton
等 深 入 研 究 了 深 度 置 信 网 络 ( Deep Belief
Network-DBN)以及深度神经网络(Deep Neural
Network-DNN)等模型结构,微软通过与 Hinton 合
作率先将 DNN 应用于语音识别任务,识别性能取得
了显著提升。此后谷歌、蒙特利尔,以及 IBM 又将
循环神经网络(Recurrent Neural Netwok-RNN)成
功 应 用 于 语 音 识 别 领 域 , 特 别 是 长 短 时 记 忆
(Long-Short Term Memory)神经网络结构,取得
非常出色的语音识别性能。加上目前图形处理器
(GPU)计算能力的提升,以及互联网时代大规模标
注数据获取成为可能,基于深度学习的语音识别技
术已经在多个领域达到实用水平。
传统的语音识别技术主要用于解决人与机器的
交互问题。而在会议场景需要转成文字的音频内容
是人与人之间交互,智能会议系统需要基于机器语
音识别技术构建语音转写引擎。智能会议系统构建
的语音转写引擎需要能够实时、高效的把人与人之
间交流的语音转换为文字的能力,具体包括中文语
音转写引擎与英文语音转写引擎,本系统需要完成
中文连续语音识别转写引擎的建设。
系统应用的“中文连续语音识别转写引擎”为
科大讯飞最新版本,采用 13000 小时以上的连续语
流数据训练而成的声学模型及先进的二遍解码技
术,另外独有文本顺滑、标点识别、英文数字后处
打分:
0 星