[MediaForge] 音频技术深度解析（三）：音频编码

张开发

• 2026/4/3 10:36:27 • 15 分钟阅读

分享文章

目录什么是音频编码为什么要音频编码音频编码的基本原理常见音频编码器类型AAC 编码器深度解析编码器参数详解音频格式详解本项目音频编码实现分析常见问题与快速定位1. 什么是音频编码1.1 音频编码的定义音频编码（Audio Encoding）是将原始的 PCM（脉冲编码调制）音频数据通过压缩算法转换为更小体积的编码格式的过程。┌─────────────────────────────────────────────────────────────┐ │ 原始 PCM 音频 │ │ 采样率: 48000 Hz, 声道: 2, 位深: 16 位 │ │ 比特率: 48000 × 2 × 16 = 1,536,000 bps (1.5 Mbps) │ └──────────────────────┬──────────────────────────────────────┘ │ ▼ ┌─────────────────────────────────────────────────────────────┐ │ 音频编码器 │ │ ┌───────────────────────────────────────────────────────┐ │ │ │ 1. 心理声学模型分析 (Psychoacoustic Model) │ │ │ │ 2. 时域到频域转换 (MDCT) │ │ │ │ 3. 量化 (Quantization) │ │ │ │ 4. 熵编码 (Entropy Coding) │ │ │ └───────────────────────────────────────────────────────┘ │ └──────────────────────┬──────────────────────────────────────┘ │ ▼ ┌─────────────────────────────────────────────────────────────┐ │ 编码后的音频 (AAC) │ │ 比特率: 128,000 bps (128 kbps) → 压缩比约 12:1 │ └─────────────────────────────────────────────────────────────┘1.2 关键概念对比概念说明示例PCM原始未压缩的音频数据麦克风采集的原始数据编码器 (Codec)压缩/解压缩算法AAC、MP3、Opus比特率 (Bitrate)每秒数据量128 kbps、320 kbps采样率 (Sample Rate)每秒采样次数44100 Hz、48000 Hz声道 (Channels)独立音频通道数1 (单声道)、2 (立体声)2. 为什么要音频编码2.1 存储和传输成本原始 PCM vs 编码音频存储对比： ┌─────────────────────────────────────────────────────────────┐ │ 原始 PCM (立体声, 16位, 48000 Hz): │ │ 1 秒 = 48000 × 2 × 2 = 192,000 字节 ≈ 192 KB │ │ 1 分钟 = 192 KB × 60 = 11,520 KB ≈ 11.25 MB │ │ 1 小时 = 11.25 MB × 60 = 675 MB │ └─────────────────────────────────────────────────────────────┘ ↓ 编码 (AAC 128 kbps) ┌─────────────────────────────────────────────────────────────┐ │ 编码后 AAC (128 kbps): │ │ 1 秒 = 128,000 ÷ 8 = 16,000 字节 ≈ 16 KB │ │ 1 分钟 = 16 KB × 60 = 960 KB ≈ 0.94 MB │ │ 1 小时 = 0.94 MB × 60 ≈ 56.4 MB │ │ │ │ 压缩比: 675 ÷ 56.4 ≈ 12:1 (节省 92% 空间!) │ └─────────────────────────────────────────────────────────────┘2.2 为什么需要压缩原因说明存储空间减小文件大小，节省磁盘/存储空间网络传输降低带宽需求，实现实时流媒体播放设备移动设备存储和带宽有限商业需求音乐/视频平台降低运营成本3. 音频编码的基本原理3.1 心理声学模型音频编码的核心是心理声学模型，利用人耳的听觉特性丢弃不可感知的信息。人耳听觉特性： ┌─────────────────────────────────────────────────────────────┐ │ 1. 频率掩蔽 (Frequency Masking) │ │ 强信号可以掩蔽附近频率的弱信号 │ │ │ │ 强信号 [2 kHz] │ │ ↓ │ │ 掩蔽范围 [1.5 kHz - 2.5 kHz] │ │ ↓ │ │ 此范围内的弱信号可以丢弃 │ └─────────────────────────────────────────────────────────────┘ ┌─────────────────────────────────────────────────────────────┐ │ 2. 时间掩蔽 (Temporal Masking) │ │ 强信号前后的弱信号不可感知 │ │ │ │ 时间线: [前掩蔽] → 强信号 → [后掩蔽] │ │ ↓ ↓ │ │ 可丢弃可丢弃 │ └─────────────────────────────────────────────────────────────┘ ┌─────────────────────────────────────────────────────────────┐ │ 3. 绝对听阈 (Absolute Threshold of Hearing) │ │ 不同频率的最小可听音量不同 │ │ │ │ 20 Hz - 20 kHz 人耳可听范围 │ │ 1 kHz - 4 kHz 最敏感 │ │ 低于听阈的信号可以丢弃 │ └─────────────────────────────────────────────────────────────┘3.2 音频编码流程图┌─────────────────────────────────────────────────────────────┐ │ 完整编码流程 │ └─────────────────────────────────────────────────────────────┘ │ ▼ ┌─────────────────────────────────────────────────────────────┐ │ 输入: PCM 音频帧 (1024/2048 采样) │ └──────────────────────┬──────────────────────────────────────┘ │ ▼ ┌─────────────────────────────────────────────────────────────┐ │ 步骤 1: 分析滤波器组 (Analysis Filter Bank) │ │ 将时域信号分解为多个子带 │ │ → MDCT (修正离散余弦变换) │ └──────────────────────┬──────────────────────────────────────┘ │ ▼ ┌─────────────────────────────────────────────────────────────┐ │ 步骤 2: 心理声学模型分析 │ │ 计算每个子带的掩蔽阈值 │ │ 确定哪些信息可以丢弃 │ └──────────────────────┬──────────────────────────────────────┘ │ ▼ ┌─────────────────────────────────────────────────────────────┐ │ 步骤 3: 量化 (Quantization) │ │ 根据掩蔽阈值减少精度

[MediaForge] 音频技术深度解析（三）：音频编码

最新文章

数组去重方法

论文降AI率全流程实操指南：从检测到过审一步到位

如何在3分钟内搭建你的浏览器Markdown阅读工作站

ObsPy终极指南：快速上手Python地震数据处理与分析

清明假期3天背完Web前端面试题，通过率99%

不小心提交到 Git 的敏感文件，怎么完全从仓库中清除

推荐文章

相关文章

高效掌握多步提示工程：进阶AI任务处理的系统方法论

浏览器资源嗅探终极指南：如何轻松下载网页视频与音频

OPEN实战：基于深度强化学习的多无人机追逃在线规划，如何跨越仿真到现实的鸿沟？

从Depth Anything到Video版本：揭秘字节跳动如何用时空注意力突破视频深度估计瓶颈

终极指南：如何使用ChampR构建高性能英雄联盟游戏助手

GLM-4.1V-9B-Base效果展示：中文手绘草图→功能描述→技术实现建议生成

分享文章

更多文章

30分钟搭建你的AI视觉导师：零代码部署交互式CNN学习平台

使用小技巧：小程序条码打印、蓝牙设备连接全解析

告别重复造轮子：用快马免费token高效生成表单验证工具函数

2026年上海网站建设进入“转化时代”：企业如何应对

解决 Oracle ORA-28002 密码过期提醒：从配置到彻底消除

6个效率倍增技巧：D3keyHelper暗黑3自动化辅助全解析

OpenClaw+百川2-13B-4bits：自动化代码审查助手搭建指南

如何借助League-Toolkit提升英雄联盟对局表现？全功能使用指南

Python调用C函数的5种方式总结大比拼

OpenClaw 完整安装教程（2026版，全平台通用）

OmniGen一键整合包完整使用教程｜8G显存可跑，一个模型搞定文生图、图片编辑、人物迁移、虚拟试衣全部任务，附下载方式和详细安装步骤

Seed-Coder-8B-Base应用案例：快速生成Pandas数据处理代码片段