【创意智造组】手势控音・光影街舞——基于Mind+ V2 图像分类- Makelog(造物记)

1.项目说明

1.1创作背景

创作灵感源于自身喜好，平时喜欢听一些节奏感强的音乐，这类音乐动感且充满活力。基于此，结合图像分类技术，设计手势控制音乐项目，用简单手势实现操控，搭配彩灯和街舞动画，提升项目的观赏性和体验感，打造低成本、易实现的入门级智能交互创客小制作。

1.2功能说明

本项目核心通过图像分类技术识别两类手势，整体实现“手势操控+视觉反馈+听觉体验”的一体化，操作便捷且富有趣味性。

（1）手掌张开触发音乐播放，彩灯同步亮起，营造氛围，同时行空板M10屏幕显示跳街舞的小女生动画，与音乐节奏呼应；

（2）握拳触发音乐暂停，彩灯熄灭，动画定格

1.3演示视频

2 .项目实现原理

本项目基于图像分类技术实现手势识别与互动功能，整个实现过程涵盖从数据准备到模型推理与应用的全流程。

（1）通过Mind+ V2 进行图像分类模型的图像采集与模型训练；

（2）训练完成后，对模型进行校验与优化，并导出为适用于行空板M10的格式；

（3）将模型部署至行空板M10进行推理应用，利用其摄像头捕获实时画面，由模型进行推理识别，输出手势类别，并执行对应的操作。

图片1.png

Mind+ V2图像分类

功能简介

图像分类是人工智能中的基础任务之一，它可以让计算机自动识别图片所属类别。通过分析图片的内容，计算机能够判断图中对象是猫、狗、交通标志，或者其他指定类别。

它不仅能对静态图片进行识别，还能实时分析摄像头采集的画面，快速判断当前场景中出现的物体类别，实现动态识别和监控。这让图像分类不仅适用于照片整理和教学演示，也能应用于安防、智能驾驶、宠物识别等多种场景。

应用场景

物体识别：识别动物、植物、交通标志等，实现计算机对图片内容的自动识别分类。
工业检测：检查产品外观或发现缺陷，提高生产效率和质量控制水平。
教育与科研：用于快速实验、教学演示或科研数据分析，帮助理解人工智能的应用原理。

3.软硬件环境准备

3.1软硬件器材清单

注意：行空板系统版本在 v0.4.1 及以上均适用于本项目制作，行空板的 Python 环境版本为 3.12，Mind + 编程软件版本为 v2.0。

3.2硬件连接准备

本项目需在行空板上实现图像 “输入 - 推理与计算 - 输出” 流程：通过 USB 摄像头拍摄图像，在行空板部署图像分类模型完成推理与结果输出。

3.3软件平台准备

官网下载安装Mind+ 2.0及以上版本安装包，安装完成后，双击打开。

Mind+官方下载 - 一站式满足程序设计、模型训练、界面设计。

4.模型训练

我们使用Mind+中的模型训练来完成手势的采集、模型训练和导出。

首先，打开Mind+软件，选择“模型训练”并打开“图像分类”（注意：只有Mind+2.0及以上版本才有模型训练功能）。

打开初始界面如下：

页面分为三部分，从左至右依次为：数据采集、模型训练、模型校验与导出（后面会详细说明各部分的使用方法）。

4.1数据采集

·标签设置

类别1可修改名称，改成自己需要的类别名称

本项目中使用了背景、手掌、拳头三个类别图片，所以需要添加三个类别，设置好的类别如下：

·数据采集

数据的采集可以通过摄像头采集也可以通过本地上传数据。

本作品每个类别50张图片样本，每个类别建议100-200图片样本。

4.2模型训练

·训练模型

点击“训练模型”按钮，即可开始训练模型。

·点击“高级设置”按钮，可进行参数设置。

·训练过程与结果观察

4.3模型校验

·单张图片测试

选择“文件”，点击“点击上传文件”，选择一张没有训练过的图片进行校验。

·实时测试

选择“摄像头”，进行实时目标检测。

·模型优化与再训练

当模型校验结果不理想时，我们可以通过数据质量优化，模型参数调整等方法，再次训练模型。

4.4模型导出

5.环境和扩展准备

本项目需要行空板的Python环境的版本为3.12.7，请根据下面的步骤将其切换到指定版本。

打开编程软件Mind+，选择“程序设计”中的“Python模式”。

进入 “扩展” 页面并搜索 “行空板”，点击扩展包上的 “下载” 按钮。

下载完成后点击该扩展包完成加载，再点击 “返回” 按钮返回编程界面。

在终端连接选项中中选择“默认-10.1.2.3”以连接行空板M10。

行空板的环境和网络都设置成功了，接下来需要加载模型推理相关的扩展。

在扩展中搜索“模型训练”点击下载并添加该用户库。

6.模型部署

6.1模型部署

打开Mind+编程软件并进入python模式。

将导出的模型解压，上传模型文件。

点击“资源文件”->选择“上传文件”->选择模型(.onnx)及其配置文件(.yaml)->点击“打开”

6.2程序编辑

7.项目总结

本项目已顺利完成，核心实现了手势控制音乐播放/暂停、彩灯联动及动画同步的功能，依托图像分类技术，确保手势识别精准、操作流畅，既满足了自身听动感音乐的便捷操控需求，也完成了一款低成本、易复刻的入门创客作品，兼顾实用性与趣味性，达成了初始创作目标。

7.1素材采集

·项目角色由AI生成（豆包平台生成，做了好几版，选了女生版街舞者）

·声音素材录音获取

7.2项目反思

（1）手势识别场景适配性有限，仅能在光线充足、手势角度规范的环境下精准识别，复杂光线、遮挡或手势不标准时易出现识别误差；

（2）功能较为单一，仅支持播放与暂停两种操控，无法满足更多样化的使用需求；

（3）联动效果较基础，彩灯闪烁、动画动作与音乐节奏的契合度不高，沉浸感不足。

7.3拓展展望

基于这些不足，项目泛化空间广阔，可从多方面拓展：一是手势拓展，新增不同类型手势，对应音乐切歌、调音量等功能，适配更多操控需求；二是功能延伸，结合音乐节奏，让彩灯闪烁、动画动作与节奏同步，增强沉浸感；四是技术优化，提升复杂环境下手势识别的稳定性，适配不同光线、角度，降低复刻门槛，同时补充教学指导，让更多学习者可参考实现。

附件

Experience_model.zip

附件

角色素材.zip

附件

music.zip

附件

程序.zip

【创意智造组】手势控音・光影街舞——基于Mind+ V2 图像分类 简单