售前电话
135-3656-7657
售前电话 : 135-3656-7657
自动语音识别,称为ASR,英文全称Automatic Speech Recognition。是指人工智能 (AI) 技术将人类语音转换为文本的过程。最终目标是通过将声波正确转换为字母和句子字符串来提供音频的转录。这要求 自动语音识别 系统通过识别语音和解释对话上下文来在一定程度上学习语言,以提供最准确的转录。多年来,自动语音识别系统已经走了很长一段路,近年来变得更加普遍,被集成到Instagram和Tik Tok等流行应用程序中。自动语音识别 取得的进展继续为那些受益者提供更易于访问和负担得起的音频和视频数据打开大门。在本文中,我们将探讨 自动语音识别 的发展、该技术的现代应用以及 自动语音识别 如何提高可访问性。
自动语音识别的历史
我们今天所知的自动语音识别的起源可以追溯到1952年,当时发明了一种名为“奥黛丽”的数字识别系统。由贝尔实验室创建,最初奥黛丽只能将口语数字转录为可读的文本,但经过改进,它最终也能够转录基本单词。后来在1960年代,IBM开发了一个名为“鞋盒”的系统,它能够识别数字以及理解数学命令并计算答案。然而,直到大约十年后,自动语音识别技术才得到更认真的研究。这最终导致了 自动语音识别 更准确的商业使用,并且在 1990 年代以高成本出售 自动语音识别 技术和 API。 自动语音识别在 2000 年代的技术繁荣中真正获得了动力,如今 自动语音识别 现在已达到接近人类的准确性。随着购买 自动语音识别 系统的成本变得更加实惠和可访问性不断增长,现在可以在许多流行的移动应用程序中找到 自动语音识别 技术的形式,变得越来越普遍和广泛。
自动语音识别如何工作?
人在笔记本电脑上,双手放在键盘上,屏幕上有多种语言的语音识别词。
为了使自动语音识别能够准确地将一系列声波转换为书面文本,自动语音识别系统必须学习该语言。就像一个人学习一门新语言一样,自动语音识别 系统分步学习,并利用这些技能来转换和正确解释所说的内容。此过程的第一步从自动语音识别系统理解音素开始。音素是语言中声音的最小单位。此步骤使系统能够理解和识别每个字母发出的声音。一旦音素能够被理解,这项基础技能允许系统组合不同的字母并将它们发音以创建单词。
从那里,自动语音识别系统能够从串在一起的单词构建句子。然而,自动语音识别 系统的学习和基础理解并不止于此。为了确保准确性,自动语音识别系统还必须了解如何正确区分发音相似的单词和短语,并选择正确的解释。在处理书面文本中的声音时,重要的是 自动语音识别 还能够理解和区分哪些单词重要,哪些不重要。例如,系统必须能够理解和解释不流畅和填充词等话语。不流畅包括自然言语中出现的言语,如停顿或犹豫和口吃。填充词包括像“嗯”这样的词,它们填充空间但在对话上下文中没有意义。
训练 自动语音识别 系统的方法
训练自动语音识别系统有多种方法和方法。在当今世界,训练自动语音识别系统的两种主要方法是传统的混合方法和所谓的端到端深度学习方法。这些各自的方法中的每一种都在每个系统中包含多个模型。
传统的混合方法
传统的混合方法是自动语音识别的传统方法,今天许多公司仍在使用。尽管现在有更准确的训练方法,但仍然依赖传统的混合方法,因为对于如何基于这种方法创建强大的模型有更多的知识和专有技术。由于传统的混合方法是15年来的主要方法,因此有更多的可用数据和已经完成的研究,使得构建系统变得更加容易。传统的混合方法使用传统的HMM(隐马尔可夫模型)和GMM(高斯混合模型),两者都需要使用数据的力对齐。强制对齐是指语音识别系统获得所讲内容的精确转录的过程,然后它必须确定语音片段中单词所属的时间顺序。在传统的HMM和GMM方法中,有三种模型是变体,在自动语音识别过程中起着重要作用。
在使用传统的混合语音识别方法中发挥作用的三种模型是:声学模型、词典模型和语言模型。声学模型通常是HMM或GMM方法的变体,用于复制语音的声学模式。这允许它根据输入的强制对齐数据预测在什么时间发生什么声音。另一个模型是词典模型,它被编程为告诉自动语音识别系统单词是如何发音的。语言模型还有助于正确确定句子中单词的正确顺序。它使用语言统计作为资源和指导,使用概率根据概率和数据预测哪些单词相互跟随。最后是解码过程。解码综合这些模型,以产生所说的文字记录。
尽管长期使用传统的混合方法,但它并非没有局限性或缺点。与其他方法相比,这种方法的最大缺点之一是精度较低。使用传统的混合方法效率也较低,因为每个系统都必须单独训练,这使得它比其他方法更加劳动密集和耗时。准确性不那么可靠,因为每个系统都利用自定义语音集来提供转录,这取决于它是由谁设计或编程的。 端到端学习方法 提供自动语音识别的更现代方法是端到端学习方法。端到端学习能够将接收到的声学信号映射到一系列单词中,而无需依赖力对齐数据。与传统的混合方法相比,利用端到端学习方法可提供更准确的转录。与传统的混合方法不同,端到端学习还能够在不使用词典模型或语言模型的情况下创建成绩单。三个突出的端到端架构是CTC,LAS和RNNT。所有这些端到端深度学习架构都可用于创建高度准确的转录,而无需使用强制对齐的数据、语言模型或词典模型。但是,在此过程中使用语言模型有助于进一步提高准确性。与传统的混合方法相比,端到端学习方法不仅需要更少的人力,而且更容易培训和编程。 自动语音识别准确吗? 如今,自动语音识别比以往任何时候都更加准确,甚至达到了接近人类水平的准确性。然而,随着人工智能系统的不断学习和新的学习方法的发展,自动语音识别一直在改进。自动语音识别的准确性可能受到不同变量的影响,例如使用哪种方法或方法对系统进行编程。衡量自动语音识别准确性的一个常用指标是单词错误率 (WER)。单词错误率的计算方法是将错误数除以转录语音片段中的单词数。虽然自动语音识别的准确性受所用方法的影响,但无论使用哪种方法,WER也受到外部因素的影响。音频质量、重音、串扰和同音字等变量都会影响 自动语音识别 的准确性。尽管 自动语音识别 并非没有局限性并且仍在改进,但目前的 自动语音识别 系统几乎接近人类转录的准确性。为了证明这种比较,像微软这样的流行自动语音识别系统的WER为5.1%,而谷歌的单词错误率为4.9%。人类转录员的平均单词错误率为 4%;仍然比 自动语音识别 更准确,并且能够更好地解释上下文。尽管自动语音识别的准确性不断提高,但仅靠自动语音识别系统并不完美,这表明仍然需要人类转录员来获得最可靠的转录或字幕。 自动语音识别的应用 自动语音识别的应用在当今的现代世界中无处不在。尽管当大多数人想到自动语音识别时,第一个联想可能是想到视频和电视或其他形式的转录的字幕,但它远远不止于此。自动语音识别的常见应用无处不在,从手机到许多人在家中拥有的数字和虚拟助手。自动语音识别是日常生活的重要组成部分,比许多人意识到的要多。如今,自动语音识别 的应用以某种形式简化了大多数人的任务,无论是转录和发送短信的智能手机、遵循命令的虚拟助手还是其他方式。 应用 1 可以在大多数家庭和许多工作场所中找到的自动语音识别的日常应用在于虚拟和数字助理。也许这些虚拟助手中最著名的是:亚马逊的Alexa,谷歌的谷歌助手,苹果的Siri和微软的Cortana。这些数字助理和其他数字助理旨在能够执行基本任务并回答和回答问题。这样的人工智能系统能够访问广泛的信息和知识数据库,使他们能够找到各种问题的答案,计算计算,并执行打开和关闭电器等命令。在商业和工作场所,这些数字助理可以通过安排和启动视频会议和会议、搜索文档,甚至创建图表并将数据输入报告来加快办公任务并减轻工作量。聊天机器人是另一种常见的用途,可帮助客户服务人员解决常见问题和其他基本客户需求。 应用 2 除了Siri等数字助理之外,智能手机还在各种应用程序中利用自动语音识别和语音转文本功能。像Instagram这样的流行应用程序通过允许用户通过语音命令更改或激活过滤器来整合自动语音识别。自动语音识别是智能手机上每次使用语音转文本不可或缺的一部分,无论是说出您希望短信说出的内容,还是告诉浏览器或应用程序要搜索的内容。Instagram和Youtube等社交媒体和内容平台上的字幕也使用自动语音识别为视频提供自动生成的字幕。 自动语音识别 如何使可访问性受益? 女人拿着电话与现在说话和手机屏幕上的麦克风图像。