1项目介绍
本项目致力于打造一个智能又便携的语音识鸟设备,灵感来源于自然爱好者的户外观鸟需求和生态保护中的鸟类声学监测场景。我们通过模型训练中的语音分类技术,让Mind+ V2.0舞台中的主角化身成为“鸟类声音侦探”——它能够通过麦克风实时捕捉野外的鸟类鸣叫,自动识别声音对应的鸟类种类、标注鸣叫特征,并同步显示鸟类的基础信息。
你可以用它来记录公园中鸟类的“声音足迹”、开展校园自然课的鸟类声音辨识游戏,甚至辅助户外生态调查中的鸟类种群声学监测。从鸟类鸣声音频收集、专属语音分类模型训练到实时声音推理与信息反馈,完整呈现人工智能技术在自然观察领域的轻松实践,让语音分类技术帮助我们更了解自然和自然中的生物!
2.项目实现原理
本项目基于模型训练中的语音分类技术实现鸟类识别功能,整个实现过程涵盖从音频数据准备到模型推理与现场应用的全流程。具体而言,首先通过录音设备采集不同鸟类的鸣声音频,标注对应鸟类种类,构建专属音频数据集,并在Mind+ V2.0模型训练平台训练鸟类名叫语音分类模型;训练完成后,将模型导出。在实时模式下初始化语音分类并加载模型,利用设备麦克风捕获实时鸟类鸣叫,由模型提取音频特征并完成分类推理,输出鸟类种类和对应图片。

3.软硬件环境准备
3.1软硬件器材清单

注意:Mind + 编程软件版本需为 V2.0.4及以上。
3.2软件平台准备
官网下载安装Mind+ V2.0.4及以上版本安装包,安装完成后,双击打开。

4. 项目制作
我们使用Mind+ V2.0中的模型训练来完成语音分类模型的训练。
首先,打开Mind+ V2.0软件,选择“模型训练”并打开“语音分类”(注意:只有Mind+ V2.0及以上才有模型训练功能)。

打开初始界面如下:

页面分为三部分,从左至右依次为:数据采集、模型训练、模型校验与导出(后面会详细说明各部分的使用方法)。
4.1数据采集
模型训练的第一步是准备鸟鸣语音的数据集。本项目中使用的为珠颈斑鸠、红尾伯劳和白头鹎这三个品种的鸟鸣。
请根据下面的步骤,使用麦克风采集数据。
首先我们进行背景噪声的音频数据采集,在“背景噪声”类别下点击“麦克风” 按钮。

点击 “录制20秒” 按钮进行时长为20秒的录制。

点击“录制20秒”按钮开始数据采集。可根据需求在设置中调整录音时长等。

点击“提取样本”将音频文件划分为对应的样本。

编辑该类别名称为“背景噪声”。


该类别的音频数据采集结束后,返回并按照相同的步骤完成所有音频数据的采集。

本项目共采集四类音频数据,分别为:背景噪声、珠颈斑鸠、白头鹎和红尾伯劳。本项目所用鸟鸣数据非现场实际录制,音频来源为“懂鸟”平台(合规获取)
4.2模型训练
在训练模型前,我们需要根据数据集特点修改模型训练参数。
展开“高级设置”以调整参数。

本项目使用的数据量约为110个音频样本,训练模型的参数如下:

参数设置完成后,只需点击 “训练模型” 按钮,即可开始模型训练(训练过程中请保持该页面开启,确保训练不中断)。

4.3模型校验与导出
模型训练结束后,可以通过模型校验来验证模型效果。
打开输入→播放音频文件→观察输出结果

可调节“重叠系数”以获得更好的识别效果。

校验结果符合预期后,即可导出模型文件。
点击“导出模型”将模型导出为ZIP文件。

选择位置保存模型文件(ZIP格式)。

建议将该模型训练项目保存为项目文件,以便后期优化和调整模型。操作步骤如下:
展开 “快速体验” 菜单,选择 “保存项目”;
选择保存路径,点击 “确认” 完成保存;
后续可通过 “快速体验” 菜单中的 “打开项目”,打开已保存的项目文件。

模型训练和导出到这一步就结束了,之后就是模型的推理和应用了。
4.4模型推理与应用
打开Mind+ V2.0编程软件并进入实时模式。
在扩展中加载模型推理用户库。

通过“上传角色”添加五个角色(素材见附件):

编写程序如下:


核心代码解析如下:


运行并验证,点击“绿旗”图标运行程序。

实现效果图片如下:

资料附录中附有完整程序文件,可通过下面的步骤直接运行:
点击顶部“+”→打开项目→打开本地文件。



打开附录中的项目,并点击“绿旗”即可实现程序效果。

5. 附件清单

项目文件链接: https://pan.baidu.com/s/1oeFKWdedZjR3F64vt4co8g?pwd=bpwq

返回首页
回到顶部


评论