语音指令分类模型训练（基于机器学习方法）

张开发

• 2026/4/14 11:08:29 • 15 分钟阅读

分享文章

1、统计音频长度信息便于后续参数的设定import os import librosa import numpy as np # 配置参数 DATA_PATH data4c # 数据集根目录 FIXED_SAMPLE_RATE 16000 def stat_audio_lengths(): # 存储所有音频的长度采样点数和时长秒 all_lengths [] all_durations [] # 遍历所有类别文件夹 labels os.listdir(DATA_PATH) for label in labels: label_path os.path.join(DATA_PATH, label) if not os.path.isdir(label_path): continue # 遍历文件夹下所有音频文件 for fname in os.listdir(label_path): fpath os.path.join(label_path, fname) try: # 读取音频 y, sr librosa.load(fpath, srFIXED_SAMPLE_RATE) length len(y) # 长度采样点数 duration length / sr # 时长秒 all_lengths.append(length) all_durations.append(duration) # 打印单个文件信息 print(f{fpath} - 采样点数: {length}, 时长: {duration:.2f}s) except Exception as e: print(f读取失败: {fpath} - {e}) # 计算统计指标 if all_lengths: print(f总文件数: {len(all_lengths)}) print( f采样点数 - 最大值: {np.max(all_lengths)}, 最小值: {np.min(all_lengths)}, 平均值: {np.mean(all_lengths):.0f}) print( f时长 - 最大值: {np.max(all_durations):.2f}s, 最小值: {np.min(all_durations):.2f}s, 平均值: {np.mean(all_durations):.2f}s) else: print(没有读取任何音频文件) # 运行统计 if __name__ __main__: stat_audio_lengths()2、加载数据集提取mfcc特征并特征对齐import os import librosa import numpy as np from sklearn.model_selection import train_test_split FIXED_SAMPLE_RATE 16000 # 统一采样率16000Hz语音标准 MAX_LEN 36000 # 采样点 N_MFCC 13 # 特征数,通常取13维 # 加载数据集(用于机器学习模型分类) # X_2d:(samples, n_mfcc_feature), y_1d:(samples,) def load_data4ml(data_pt): X, y [], [] labels os.listdir(data_pt) f open(result/label.txt, w) for label in labels: folder os.path.join(data_pt, label) f.write(str(label) label \n) for fname in os.listdir(folder): fpath os.path.join(folder, fname) # y音频时域信号 sr采样率 y_audio, sr librosa.load(fpath, srFIXED_SAMPLE_RATE) # 提取MFCC特征 mfccs librosa.feature.mfcc( yy_audio, srsr, n_mfccN_MFCC, # 提取13维MFCC n_fft512, # FFT窗长 hop_length256, # 帧移 n_mels 40 # 梅尔滤波器组数量 ) # 统一帧数,末尾补零 / 截断尾部 n_mfcc, current_frames mfccs.shape if current_frames MAX_LEN: # 过长: 截断尾部 mfccs_fixed mfccs[:, :MAX_LEN] else: # 过短: 在末尾补零 pad_length MAX_LEN - current_frames mfccs_fixed np.pad(mfccs, ((0, 0), (0, pad_length)), modeconstant) # 特征归一化(特征维度N_MFCC, 帧数MAX_LEN) mfcc (mfccs_fixed - np.mean(mfccs_fixed,axis1,keepdimsTrue))/(np.std(mfccs_fixed,axis1,keepdimsTrue)1e-8) # 一阶差分二阶差分, 拼接成 39 维特征 delta_mfcc librosa.feature.delta(mfcc) delta2_mfcc librosa.feature.delta(mfcc, order2) mfcc_39d np.concatenate([mfcc, delta_mfcc, delta2_mfcc], axis0) feature mfcc_39d.flatten() # 2d特征--1d特征 X.append(feature) y.append(label) X np.array(X) y np.array(y) X_train, X_test, y_train, y_test train_test_split(X, y) print(训练样本及标签:,X_train.shape,y_train.shape) print(测试样本及标签:,X_test.shape,y_test.shape) return X_train, X_test, y_train, y_test3、使用机器学习算法训练语音分类模型import joblib from sklearn.svm import SVC from sklearn.neighbors import KNeighborsClassifier from sklearn.neural_network import MLPClassifier from read_data import load_data4ml def train(data_path): X_train, X_test, y_train, y_test load_data4ml(data_path) print(X_train.shape, X_test.shape, y_train.shape, y_test.shape) # 训练KNN模型,适合指令识别 # model KNeighborsClassifier(n_neighbors5) # 支持向量机 # model SVC() # 多层感知机 model MLPClassifier(hidden_layer_sizes(200,100),activationrelu) model.fit(X_train, y_train) # 测试准确率 acc model.score(X_test, y_test) print(f训练完成\n测试准确率{acc * 100:.2f}%) # 保存模型 if acc0.85: joblib.dump(model, result/mlp_model.pkl) print(模型已保存result/mlp_model.pkl) if __name__ __main__: train(data_pathdata4c)4、使用训练好的模型进行测试import joblib import librosa import numpy as np from read_data import FIXED_SAMPLE_RATE, MAX_LEN, N_MFCC def process_data(fpt): # y音频时域信号 sr采样率 y_audio, sr librosa.load(fpt, srFIXED_SAMPLE_RATE) # 提取MFCC特征 mfccs librosa.feature.mfcc( yy_audio, srsr, n_mfccN_MFCC, # 提取13维MFCC n_fft512, # FFT窗长 hop_length256, # 帧移 n_mels40 # 梅尔滤波器组数量 ) # 统一帧数,末尾补零 / 截断尾部 n_mfcc, current_frames mfccs.shape if current_frames MAX_LEN: mfccs_fixed mfccs[:, :MAX_LEN] else: pad_length MAX_LEN - current_frames mfccs_fixed np.pad(mfccs, ((0, 0), (0, pad_length)), modeconstant) # 特征归一化(特征维度N_MFCC, 帧数MAX_LEN) mfcc (mfccs_fixed - np.mean(mfccs_fixed, axis1, keepdimsTrue)) / ( np.std(mfccs_fixed, axis1, keepdimsTrue) 1e-8) # 一阶差分二阶差分, 拼接成 39 维特征 delta_mfcc librosa.feature.delta(mfcc) delta2_mfcc librosa.feature.delta(mfcc, order2) mfcc_39d np.concatenate([mfcc, delta_mfcc, delta2_mfcc], axis0) feature mfcc_39d.flatten() # 2d特征--1d特征 X np.array([feature]) return X def predict(file): model joblib.load(result/mlp_model.pkl) X process_data(file) lb file.split(/)[-1].split(_)[0] pred model.predict(X) print(pred) flg 正确 if pred[0]lb else 错误 print(f识别{flg}\t真实标签:{lb}\t识别结果{pred[0]}\t) return pred[0] if __name__ __main__: # 测试样本 file test_data/3_1774506934932.wav predict(file)

更多文章

前端开发 2026/4/14 11:07:59

Blender 3MF插件深度解析：打造专业级3D打印工作流

Blender 3MF插件深度解析：打造专业级3D打印工作流【免费下载链接】Blender3mfFormat Blender add-on to import/export 3MF files 项目地址: https://gitcode.com/gh_mirrors/bl/Blender3mfFormat 在3D打印领域，3MF（3D Manufacturing…

YOLO12性能展示：RTX 4090 D加持，实时推理流畅无压力当目标检测遇上RTX 4090 D，会碰撞出怎样的火花？今天，我们就来实测一下YOLO12这款2025年最新发布的目标检测模型，看看它在顶级硬件加持下的真实表现。 …

张开发

前端开发 2026/4/14 10:50:30

【Neural Whole-Body Control: HOVER ExBody2 神经】第四部分：代码实战：PyTorch + IsaacLab 4.2 数据准备：从MoCap到IsaacLab

目录关键实现细节与技术要点 1. SMPL+H 到机器人的映射策略 2. 关节限制不匹配处理 (IK-based Fixing) 3. IsaacLab兼容的数据格式 4. 后处理优化 5. 针对舞蹈视频的特殊处理使用示例与下一步生产级数据准备实战脚本。该实现涵盖了从SMPL+H到G1/傅利叶GR-1的完整重定…

张开发

语音指令分类模型训练（基于机器学习方法）

最新文章

实战HI3516A：基于Cadence Sigrity的PCB电源树(PowerTree)自动化提取与优化

MBD实战：构建基于Simulink与Jenkins的嵌入式CI/CD流水线

Cursor AI编程助手破解工具：三步实现免费无限使用的终极指南

别再只用NDVI了！用Python+Sentinel-2数据实战对比5种常用植被指数（附代码）

Gazebo中高效加载DEM高程图的实用技巧与常见问题解决

cv_unet_image-colorization老照片修复案例：ResNet+UNet架构如何让历史影像重现光彩

推荐文章

⑩【从0制作自己的ros导航小车：上位机篇】05、导航！

从NUSTCTF Ezjava1看Java Web参数绑定与条件竞争漏洞挖掘

SITS2026现场直击：LLM-native NLP架构设计原则（含可复用的5层抽象模型图谱）

AHT20温湿度传感器库深度解析与工业级应用实践

Rust的引用计数智能指针Rc与Arc在线程共享中的内部可变性

libhv实战：从零构建一个功能完备的HTTP客户端

相关文章

高效掌握多步提示工程：进阶AI任务处理的系统方法论

浏览器资源嗅探终极指南：如何轻松下载网页视频与音频

OPEN实战：基于深度强化学习的多无人机追逃在线规划，如何跨越仿真到现实的鸿沟？

从Depth Anything到Video版本：揭秘字节跳动如何用时空注意力突破视频深度估计瓶颈

终极指南：如何使用ChampR构建高性能英雄联盟游戏助手

GLM-4.1V-9B-Base效果展示：中文手绘草图→功能描述→技术实现建议生成

分享文章

更多文章

Blender 3MF插件深度解析：打造专业级3D打印工作流

【CTFshow-pwn系列】03_栈溢出【pwn 065】详解：可见字符Shellcode绕过字符校验完整解题复盘

RK3576 Android开机时间优化实战：从14.8秒到10秒内，我都改了哪些配置？

别再被查重降重虐哭！PaperXie：手把手教你拿捏论文重复率 + AIGC 率双达标

Adobe-GenP 3.0终极指南：如何快速解锁Adobe CC全系列软件

FRCRN在无障碍技术中的价值：为听障用户提供高保真人声增强方案

打造无人机实时图传系统：ZLMediaKit 高性能部署全流程详解

Pandas数据行间运算实战：diff与shift的高效应用

像素到路径的数学魔法：Vectorizer 实现多色图像矢量化的技术解析

软考系统架构设计师历年真题集萃（241）

YOLO12性能展示：RTX 4090 D加持，实时推理流畅无压力

【Neural Whole-Body Control: HOVER ExBody2 神经】第四部分：代码实战：PyTorch + IsaacLab 4.2 数据准备：从MoCap到IsaacLab