[具身智能-296]:什么是语音识别,其输入、处理、输出

张开发
2026/4/9 2:53:08 15 分钟阅读

分享文章

[具身智能-296]:什么是语音识别,其输入、处理、输出
语音识别Automatic Speech Recognition, ASR也称为语音转文本Speech-to-Text是一种将人类的语音信号转换为相应文本或指令的技术。其核心目标是让机器能够“听懂”人类语言实现更自然的人机交互。整个语音识别过程可以清晰地分为输入、处理、输出三个阶段。️ 输入声音信号的捕获输入阶段的核心任务是捕获声音并将其数字化。声波转换当你对着麦克风说话时麦克风会将声波模拟信号转换成连续的电信号。数字化系统以极高的频率例如每秒16000次对这个电信号进行采样将每个采样点的振幅值记录下来形成一串离散的数字序列。这个过程将连续的模拟信号转换成了计算机可以处理的数字信号。⚙️ 处理从数字信号到文本的解码这是语音识别最核心、最复杂的环节通常包含以下几个步骤信号预处理原始的音频数字信号包含大量噪声和无效信息。预处理旨在提升信号质量为后续分析做准备。降噪滤除背景噪音如发动机声、环境杂音等。分帧将连续的音频流切割成许多微小的片段帧每帧时长通常为20-30毫秒。预加重与加窗通过特定算法提升信号中的高频部分并减少因信号截断带来的频谱泄漏使特征更突出。特征提取原始的模拟信号中的语言特征向量这是关键并没有把原始的模拟的语音时序信号直接放到模型中翻译成单词这一步的目标是提取出能代表语音本质特征的信息舍弃无关细节。最常用的技术是梅尔频率倒谱系数MFCC。模拟人耳MFCC通过一系列处理如傅里叶变换、梅尔滤波器组模拟人耳对不同频率声音的非线性感知特性最终将每一帧音频信号压缩成一组通常是13个能代表其声学特征的系数。特征向量经过提取一段语音就变成了一系列随时间变化的特征向量它们是后续模型识别的“原料”。声学模型特性向量与音素的对应关系声学模型是声音与语言基本单元音素之间的“翻译官”。它通过学习海量的语音数据计算出输入的特征向量最可能对应哪个音素。音素识别音素是区分词义的最小声音单位。例如英文单词“cat”由/k/、/æ/、/t/三个音素构成。深度学习现代声学模型主要采用深度学习技术如Transformer、RNN-T等架构。这些模型能够非常精准地捕捉声音特征与音素之间的复杂关系并输出每个音素出现的概率。语言模型音素与单词或字的对应关系仅靠声学模型可能会混淆发音相似的词如“公式”和“公事”。语言模型的作用就是利用上下文信息来解决这类歧义确保输出的文本通顺、合理。预测词序语言模型基于海量文本数据训练学习了词汇、语法和常见的词语搭配模式。它能判断在特定语境下哪个词或词序列出现的可能性更高。解码解码器是整个系统的“决策者”。它结合声学模型和语言模型的预测结果通过复杂的搜索算法如束搜索从所有可能的词序列中找出概率最高、最匹配当前语音的那一个作为最终结果。 输出结构化的文本处理阶段的最终结果会被转化为结构化的文本输出。文本生成解码器输出的词序列被组合成完整的句子。后处理系统可能会进行一些优化例如智能添加标点符号、将数字和日期格式规范化如将“五点三十”转换为“5:30”最终生成易于阅读的文本。

更多文章