本项目源自于PaddleX的Restful项目,依托国产深度学习框架PaddlePaddle打造的图形化深度学习开发平台,旨在让非AI开发者以最便捷的方式完成AI模型研发。目前平台功能涵盖图像分类、目标检测、实例分割、语义分割等常规CV训练任务,未来将逐步打通数据标注、算法研发两大模块,真正的让用户可以感受到"无代码"化的便捷。
由于PaddleX项目官方已停止更新,本项目将PaddleX的GUI部分独立出来并且进行了重组,由飞桨社区开发者共同维护,遵循Apache License 2.0开源协议,欢迎各位小伙伴前来体验和参与,多多提出您的宝贵意见。
PaddleStudio依赖PaddlePaddle框架执行训练,因此首先要安装PaddlePaddle。
参照PaddlePaddle官网进行安装,安装时需要注意CUDA版本的一致性。例如,对于已经安装CUDA11.6的Windows操作系统,可以使用下面的命令安装PaddlePaddle2.4:
python -m pip install paddlepaddle-gpu==2.4.1.post116 -f https://www.paddlepaddle.org.cn/whl/windows/mkl/avx/stable.html
安装完成后可以使用python命令进入python解释器,输入下面的命令:
import paddle paddle.utils.run_check()
如果出现PaddlePaddle is installed successfully!,说明您已成功安装PaddlePaddle。
首先下载PaddleStudio项目:
git clone https://github.com/PuhuaCloud/PaddleStudio.git
然后进入项目根目录并安装相关依赖库:
cd PaddleStudio
pip install -r requirements.txt -i https://mirror.baidu.com/pypi/simple到这里,PaddleStudio所需要的环境就已经全部准备好了。下面介绍如何启动并使用PaddleStudio。
进入PaddleStudio项目根目录后使用下面的命令进行启动:
python app.py
正常情况下输出如下:
2023年01月31日 16:38:25,616 app.py[line:1045] INFO:PaddleStudio服务启动成功后,您可以在浏览器打开网址 192.168.8.113:5000 进行界面操作
* Serving Flask app 'app' (lazy loading)
* Environment: production
WARNING: This is a development server. Do not use it in a production deployment.
Use a production WSGI server instead.
* Debug mode: on
2023年01月31日 16:38:25,664 _internal.py[line:224] INFO: * Running on all addresses (0.0.0.0)
WARNING: This is a development server. Do not use it in a production deployment.
* Running on http://127.0.0.1:5000
* Running on http://192.168.8.113:5000 (Press CTRL+C to quit)
2023年01月31日 16:38:25,667 _internal.py[line:224] INFO: * Restarting with stat
2023年01月31日 16:38:26,305 app.py[line:1045] INFO:PaddleStudio服务启动成功后,您可以在浏览器打开网址 192.168.8.113:5000 进行界面操作
2023年01月31日 16:38:26,323 _internal.py[line:224] WARNING: * Debugger is active!
2023年01月31日 16:38:26,331 _internal.py[line:224] INFO: * Debugger PIN: 339-955-950
2023年01月31日 16:38:30,447 _internal.py[line:224] INFO:192.168.8.113 - - [31/Jan/2023 16:38:30] "GET / HTTP/1.1" 200 -
2023年01月31日 16:38:30,756 _internal.py[line:224] INFO:192.168.8.113 - - [31/Jan/2023 16:38:30] "GET /project HTTP/1.1" 200 -
2023年01月31日 16:38:30,764 _internal.py[line:224] INFO:192.168.8.113 - - [31/Jan/2023 16:38:30] "GET /favicon.ico HTTP/1.1" 200 -
成功启动后系统会默认给出PaddleStudio的访问路径,如下例所示:
http://192.168.8.113:5000
此时可以通过浏览器访问该网址打开PaddleStudio平台首页,如下图所示: 在这里插入图片描述 需要注意,首次打开时会在当前服务器的PaddleStudio根目录下创建一个名为workspace的文件夹作为工作区,用来存放数据集和模型训练的相关信息。
下面针对常见的图像分类任务讲解如何快速使用PaddleStudio。
PaddleStudio提供了每种任务对应的示例项目,方便用户快速了解每种任务的完整操作流程。下面以图像分类项目为例进行讲解。
首先,单击中间提示框"暂无项目,点击下载示例项目",出现下图所示界面: 在这里插入图片描述 接下来勾选"下载图像分类示例项目"并单击"开始下载"按钮进行下载,如下图所示: 在这里插入图片描述 下载结束后单击"关闭窗口"按钮,在主界面上会出现对应的项目信息,是一个果蔬图像分类任务,如下图所示: 在这里插入图片描述 我们可以打开工作区文件夹PaddleStudio/workspace,其中有一个projects文件夹,该文件夹存放了所有项目信息。刚下载的项目其项目号为P0001,因此,对应工作区文件夹路径为PaddleStudio/workspace/projects/P0001。与此同时,在PaddleStudio/workspace/datasets存放着刚下载的数据集,位于D0001子文件夹下面,其内容如下图所示: 在这里插入图片描述 其中bocai、changqiezi、hongxiancai、huluobo、xihongshi、xilanhua这几个文件夹下面各自存放着不同品种的果蔬图片。labels.txt存放着对应的类别标签。train_list.txt、val_list.txt和test_list.txt分别存放着训练集、验证集、测试集的图片路径列表,形式如下所示:
./bocai/142.jpg 0 ./bocai/149.jpg 0 ./changqiezi/57.jpg 1 ./changqiezi/191.jpg 1
每行表示一个样本图片,分成前后两部分,中间用空格分隔,前半部分为图片相对路径,后半部分为对应的类别数字标签。
可以看到,为了尽可能方便PaddlePaddle用户,PaddleStudio沿用了PaddleClas套件的数据集格式基本规则,对于图像分类任务,只需要按照上述格式进行数据集组织即可。
单击下载的项目,然后单击项目窗口打开任务配置属性窗口,如下图所示: 在这里插入图片描述 在该任务所列属性参数中列出了训练所需的重要配置参数,例如模型、骨干网络、迭代轮数等,用户可以根据自己数据集的实际情况进行调整,调整完成后单击"启动训练"按钮开始训练,此时项目的任务状态会显示"训练中",如下图所示: 在这里插入图片描述 可以继续单击主界面上的项目查看训练日志,如下图所示: 在这里插入图片描述 训练完成后可以单击"评估和导出模型"按钮,进入"模型评估&导出"模块,如下图所示: 在这里插入图片描述
在"模型评估&导出"界面上,单击启动评估按钮,可以快速进行模型精度验证,结果如下图所示: 在这里插入图片描述 可以看到,当前训练的模型Top1分类准确率Acc1=0.6,Topk分类准确率Acck=1.0。如果想要进一步提高精度,可以在模型训练过程中修改迭代轮数属性,增加训练迭代次数,也可以选用更重量级的分类模型。
训练好模型以后,PaddleStudio还提供了在线预测功能。单击"模型测试"按钮,然后进入"模型测试"界面,选择一张图片并单击预测按钮,效果如下图所示: 在这里插入图片描述 针对上述图像分类任务,预测结果会给出预测类别和对应的置信度。
前面训练好的模型是PaddlePaddle的动态图模型,为了方便部署应用,需要将动态图模型转换成静态图模型,PaddleStudio提供了现成的转换办法。
在下图所示界面上单击"导出"按钮: 在这里插入图片描述 导出完成后会有相应的提示信息并且会给出导出后的静态图模型路径以及对应的推理代码,如下图所示: 在这里插入图片描述
到这里,一个相对完整的图像分类算法模型就已经研发完毕了。读者如果想要本地推理,可以切换到到处的路径下面,运行下述代码:
python infer.py
即可完成推理。目前仅支持自动生成基于Paddle Inference的python版推理代码,后续会逐步支持生成基于c++的推理代码。
本小节内容主要讲解了如何使用PaddleStudio进行图像分类算法开发,如果想要自行开发类似的图像分类、目标检测、语义分割、实例分割等算法模型,可以参照PaddleStudio官网说明并结合相应的示例工程进行开发。从整个使用体验上来看,只要按照PaddleStudio的各个任务准备好对应的数据集,就可以直接使用图形化操作界面"傻瓜式"完成整个算法研发任务。
下面讲解如何按照PaddleStudio的方式组织相应任务的数据集。
数据集组织格式如下图所示: 在这里插入图片描述
- 类别文件夹命名:每个子文件夹名为需要分类的类名,子文件夹名称可以使英文字符和数字,不可包含:空格、中文或特殊字符;
- 图片格式:支持png,jpg,jpeg,bmp格式;
数据集组织格式如下图所示: 在这里插入图片描述
- 文件夹命名:图片文件夹需要命名为"JPEGImages",标签文件夹需要命名为"Annotations";
- 图片格式:支持png,jpg,jpeg,bmp格式;标签文件格式为.xml;
数据集组织格式如下图所示: 在这里插入图片描述
- 文件夹命名:图片文件名需要为"JPEGImages",标签文件夹命名需要为"Annotations";
- 图片格式:支持png,jpg,jpeg,bmp格式;
- 标注掩码图:Annotations中存放的标注掩码图片需要与JPEGImages中的原始图片像素严格保持一一对应,格式只可为png。每个像素值需标注为[0,255]区间,从0开始依序递增,其中255表示模型中需忽略的像素,0为背景类;
- 可选文件label.txt:可以提供一份命名为"labels.txt"的包含所有标注名的清单;
数据集组织格式如下图所示: 在这里插入图片描述
- 文件夹命名:图片文件名需要为"JPEGImages",标签文件名需要为"annotations.json";
- 图片格式:支持png,jpg,jpeg,bmp格式;标签文件格式为.json;
下面我们给出一个全流程的趣味实战项目,利用PaddleStudio研发一款游戏动捕装置,通过摄像头实时识别手势动作,操控"超级玛丽"小游戏。
实现思路:定义四种不同的手势,分别对应左移、右移、停止、跳跃,通过摄像头实时捕获手部图片,然后利用深度学习模型进行实时手部图像分类,根据分类结果模拟键盘按键操作,进而操控游戏。需要注意的是,考虑到实现简单以及实时性,本项目采用逐帧图像识别方案,而不是基于逐段视频识别的方案。
具体实现效果如下所示: [video(video-oYU7cC6E-1675945416387)(type-csdn)(url-https://live.csdn.net/v/embed/274367)(image-https://video-community.csdnimg.cn/vod-84deb4/1cdb0540a87171ed8c3f6732b78e0102/snapshots/6373a931ed7343bdb6f62fd240828677-00004.jpg?auth_key=4829543947-0-0-d4c940babe32bd69b37c836e1efe9a65)(title-动作识别游戏动作捕捉)] 如果看不了上述视频那么也可以访问哔哩哔哩上的视频进行查看。
本趣味实战项目完整数据和代码下载链接如下(包含所有训练数据、训练结果、静态图模型和超级玛丽游戏模拟器): 链接:https://pan.baidu.com/s/1ZPSW_spmN_G6ZAk154-VBg?pwd=sfyw 提取码:sfyw
下载的代码资料包中提供了数据采集的脚本get_samples.py,代码如下:
import os import cv2 import time if __name__ == '__main__': # 手势名称 gestname = "stop" # 创建图像文件存储目录 data_root = 'gestdata' if not os.path.exists(data_root): os.makedirs(data_root) img_folder = os.path.join(data_root,gestname) if not os.path.exists(img_folder): os.makedirs(img_folder) pic_index = len(os.listdir(img_folder)) # 识别框位置 x0 = 300 y0 = 150 height = 300 width = 300 # 打开摄像头并设置采集分辨率 cap = cv2.VideoCapture(0) cap.set(cv2.CAP_PROP_FRAME_WIDTH, 640) cap.set(cv2.CAP_PROP_FRAME_HEIGHT, 480) # 保存图片开关 saveimg = False # 循环采集 while (True): ret, frame = cap.read() if ret == True: frame = cv2.flip(frame, 1) roi = frame[y0:y0+height, x0:x0+width] cv2.rectangle(frame, (x0, y0), (x0+width, y0+height), (0, 255, 0), 1) if saveimg: savepath = os.path.join(img_folder, str(pic_index)+'.jpg') print(savepath) cv2.imwrite(savepath, roi) pic_index = pic_index + 1 time.sleep(0.3) # 相关操作提示 cv2.putText(frame, 'push key s to save samples', (10, 35), cv2.FONT_HERSHEY_SIMPLEX, 0.7, (0, 255, 0), 2, 1) cv2.putText(frame, 'push key q to stop saving', (10, 55), cv2.FONT_HERSHEY_SIMPLEX, 0.7, (0, 255, 0), 2, 1) cv2.putText(frame, 'push key Esc to equit', (10, 75), cv2.FONT_HERSHEY_SIMPLEX, 0.7, (0, 255, 0), 2, 1) # 显示摄像头内容 cv2.imshow('Original', frame) key = cv2.waitKey(5) & 0xff # Esc键退出 if key == 27: print('正常退出') cap.release() cv2.destroyAllWindows() elif key == ord('s'): saveimg = True elif key == ord('q'): saveimg = False
上述代码会自动在当前项目目录下创建一个名为gestdata的文件夹用来收集手部动作图片。其中,初始时定义的gestname变量表明当前要采集的动作类型,例如gestdata='stop',相应的图像数据会保存在gestdata/stop文件夹下面。如果要采集其他动作图片,那么可以修改这个变量名称,依次修改为stop、jump、left、right等,对应动作含义是停止、跳跃、向左走、向右走。
运行后效果如下图所示: 在这里插入图片描述 采集的时候,将手部放在绿色框内,然后按s键开始采集,程序会裁剪出绿色框内的图片进行保存。每秒大概采集3张图片,每张图片大小为300x300像素。在采集的过程中可以稍微改变一点手部动作,或者也可以在采集时适当的移动摄像头和手部,切换不同的背景,这样就可以尽可能采集到不同的图片。按q键可以停止采集,按Esc键退出程序。
完成一轮采集后改变gestname名称,重新开始下一种动作采集。每种动作采集500张左右图片即可。
最后采集的所有数据都位于名为gestdata的文件夹下面,该文件夹下的每个子文件夹都存放着对应手势动作的图片,如下图所示: 在这里插入图片描述 到这里,项目所需要的数据集就准备完毕了。
本节内容我们将使用前面介绍的PaddleStudio来完成深度学习算法研发。使用前首先请按照第二章内容完成环境准备,然后使用命令python app.py启动PaddleStudio。
首先单击顶部菜单栏"数据集管理"—>"新建数据集",然后填入相关数据集描述信息,在数据集类型上选择图像分类(本趣味实战项目采用图像分类方法实现),如下图所示: 在这里插入图片描述 创建成功后如下图所示,在数据集管理界面上多出现了一个状态为"未导入"的空数据集,如下图所示: 在这里插入图片描述 接下来我们就需要将前面采集好的数据集导入到这个新创建的数据集中,并且完成数据切分(分为训练集、验证集、测试集)和校验。
单击创建的数据集,弹出导入数据集界面,输入对应的数据集地址即可,如下图所示: 在这里插入图片描述 然后单击导入按钮进行导入。稍等几秒钟时间,然后刷新页面,可以看到数据集已经完成了导入和校验,如下图所示效果: 在这里插入图片描述 接下来,我们对数据集进行切分,单击该数据集,按照下图所示进行切分: 在这里插入图片描述 整个训练集、验证集、测试集的比例加起来保证100%即可。最后单击"切分"按钮完成数据集切分,效果如下图所示: 在这里插入图片描述 到这里,一个符合PaddleStudio要求的图像分类数据集就完全准备好了。
接下来,我们单击菜单栏"项目管理"—>"创建项目"按钮,在弹出的新建项目界面上,输入项目名称,在项目类型上选择图像分类,在数据集上选择刚才创建并导入成功的手势识别数据集,这里需要注意的是,如果想要使用的数据集状态不是"已校验&已切分",那么这里在选择数据集的时候对应的数据集名称是不会显示的。最后输入项目描述即可。 在这里插入图片描述 最后,单击创建按钮完成项目创建。
PaddleStudio是以"项目—任务"这样两个级别进行使用的,一个项目下面可以挂载多个任务,每个任务对应一种环境配置及训练结果。在项目主界面上单击刚才创建的项目进入任务界面,然后单击"新建任务"按钮,打开任务配置界面,如下图所示: 在这里插入图片描述 默认首选分类模型为MobileNetV2,这是一个轻量级的图像分类模型,适合对推理速度要求比较高的场景,本项目就采用这个模型来实现。需要注意的是,对于数据增强策略的几个选项,默认开启了随机水平翻转、随机垂直翻转和随机旋转的增强,由于这个手势识别数据集对于方向是敏感的,所以这几个增强策略需要关闭,如下图所示: 在这里插入图片描述 修改完成后,单击"创建并启动训练"按钮,进行训练。效果如下所示: 在这里插入图片描述 单击该任务,可以查看具体的训练进度及训练信息,如下图所示: 在这里插入图片描述 等待训练完成即可。
训练完成后,可以使用训练好的动态图模型进行测试。单击"评估和导出模型"按钮,然后再单击"模型测试"按钮进入模型测试界面。选择一张图片,然后单击预测,效果如下图所示: 在这里插入图片描述 可以看到,对于向左的手势,预测结果是left,置信度是1.0,由此可见训练的模型是有效的。
为了方便后面部署,可以使用PaddleStudio的静态图导出功能,生成静态图模型文件同时生成python版的推理代码。单击"导出"按钮即可完成,效果如下图所示: 在这里插入图片描述 用户可以根据对应的导出路径去获取最终的静态图模型及推理文件,其内容如下:
inference_model ├─.success ├─model.pdiparams ├─model.pdiparams.info ├─model.pdmodel ├─model.yml infer.py tools.py xxx.jpg
各文件说明如下:
- .success:PaddleStudio生成的导出成功标志文件,实际部署时不需要; - model.pdiparams:模型参数文件; - model.pdiparams.info:模型参数信息文件,实际部署时不需要; - model.pdmodel:模型结构文件; - model.yml:模型配置文件,实际部署时不需要; - infer.py:自动生成的基于Paddle Inference的python推理文件; - tools.py:自动生成的python预处理函数; - xxx.jpg:从验证集中自动拷贝出来的一张测试图片;
下面,我们通过cd命令切换到模型的导出路径下面(export_model文件夹下面),然后使用下面的命令执行推理:
python infer.py
这个自动生成的infer.py推理脚本会读取测试图片,然后调用静态图模型完成推理。
预测结果如下图所示: 请添加图片描述
class index: 3 score: 0.999998
到这里,通过PaddleStudio完成了算法研发,得到了我们想要的手势识别模型,整个训练和部署过程没有写一行代码,只需要使用图形界面进行操作即可。
接下来我们将自动生成的模型预测脚本文件infer.py集成到最终的游戏控制逻辑脚本playgame.py中去。
新建游戏逻辑控制脚本playgame.py,完整代码如下:
import numpy as np import cv2 import win32api import win32con from tools import * def keybd_event(VK_CODE): '''按下按键''' VK_CODE = int(VK_CODE) #按键按下 win32api.keybd_event(VK_CODE, 0, 0, 0) if __name__ == '__main__': # 定义手势识别框位置 x0 = 300 y0 = 150 height = 300 width = 300 # 打开摄像头并设置采集分辨率 cap = cv2.VideoCapture(0) cap.set(cv2.CAP_PROP_FRAME_WIDTH, 640) cap.set(cv2.CAP_PROP_FRAME_HEIGHT, 480) # 加载神经网络 model = init_predictor() # 逐帧处理 gesture = 'stop' pre_gesture = 'stop' while(True): ret, frame = cap.read() if ret == True: frame = cv2.flip(frame, 1) roi = frame[y0:y0+height, x0:x0+width] cv2.rectangle(frame, (x0, y0), (x0+width, y0+height), (0, 255, 0), 1) # 预处理 roi = preprocess(roi) # 执行预测 result = run(model, [roi]) label = np.argmax(result[0][0]) score = result[0][0][label] print(label,score) # 解析手势 thr = 0.9 if label==0 and score>thr: gesture = 'jump' elif label==1 and score>thr: gesture = 'left' elif label==2 and score>thr: gesture = 'right' else: gesture = 'stop' #显示摄像头内容和处理后手势的图像内容 cv2.imshow('Original',frame) if gesture=='left': win32api.keybd_event(68, 0, win32con.KEYEVENTF_KEYUP, 0) keybd_event(65) #键盘按下左 pre_gesture = gesture elif gesture=='right': win32api.keybd_event(65, 0, win32con.KEYEVENTF_KEYUP, 0) keybd_event(68) #键盘按下右 pre_gesture = gesture elif gesture=='jump': keybd_event(87)# X键 if pre_gesture=='left': keybd_event(65) elif pre_gesture=='right': keybd_event(68) else: win32api.keybd_event(65, 0, win32con.KEYEVENTF_KEYUP, 0) win32api.keybd_event(68, 0, win32con.KEYEVENTF_KEYUP, 0) win32api.keybd_event(87, 0, win32con.KEYEVENTF_KEYUP, 0) key = cv2.waitKey(5) & 0xff #Esc键退出 if key == 27: cap.release() cv2.destroyAllWindows() break
脚本启动后,打开游戏模拟器,依次单击"文件"-"打开"按钮,选择游戏文件Super_Mario_Bros.nes,然后就可以打开超级玛丽游戏。这里我们选择单人游戏, 直接按回车就可以进入游戏界面,然后将手部放在摄像头监控画面的绿色框中,按照前面定义的动作摆手势,程序会自动检测手势并模拟按键。
该模拟器默认使用WAD键,W表示跳跃,A表示向左,D表示向右。如果发现键盘按键不对,可以单击顶部菜单栏"选项"-"控制器"按钮,进入按键配置界面,重新进行配置即可,如下图所示: 在这里插入图片描述 最终效果如下图所示:
PaddleStudio目前处在快速更新迭代中,相关功能模块也在不断丰富和完善。如果在使用过程中遇到问题或者有相关好的建议,可以在PaddleStudio官网上提issue,或者也可以加入飞桨PaddleX的qq群提意见,群号:957286141。
为了更准确快速的定位所出现的异常问题,可以在使用过程中将遇到的问题通过截图形式给出,尤其是PaddleStudio后台的报错信息,建议截取出关键的Python异常代码报错提示。
如果对PaddleStudio项目感兴趣,欢迎加入我们,跟我们一起开发,一起打造国产的深度学习Matlab,让全国乃至全世界的用户都用上你开发的产品。
如果对PaddlePaddle感兴趣,想要系统学习深度学习技术或者想要系统学习PaddlePaddle框架,可以选择官方推荐的教学书籍《深度学习与图像处理PaddlePaddle》,由清华大学出版社出版,钱彬和朱会杰著(预计2023年8月出版)。除了本篇博客涉及到的PaddleStudio内容以外,书中还会详细讲解图像分类、目标检测、语义分割、实例分割、GAN图像变换等算法原理,并结合真实的项目实战案例使用PaddlePaddle全流程讲解算法研发和部署。
如果用户身边暂时没有GPU机器,那么可以使用免费的GPU云平台完成开发,例如AI Studio、Kaggle、Google Colaboratory等。考虑到平台的稳定性以及额外的增值服务优势,也可以使用一些付费云平台,这里推荐使用普华云,整体价格较低,并且可以提供一对一的个性化服务需求,另外,平台上有现成的PaddleStudio镜像可以直接使用,不需要再安装相关环境或依赖库。