本仓库项目是个人总结的深度学习炼丹、优化及部署落地笔记,包含深度学习数学基础知识、深度学习基础知识、神经网络基础部件详解、构建 CNN 网络总结、深度学习炼丹策略、深度学习模型压缩算法、以及深度学习推理框架代码解析及动手实战。
1,神经网络基础部件:
2,深度学习基础:
1,模型部署:
2,模型推理:
3,ncnn 框架源码解析:
- 移动端异构计算:
neon编程 - GPU 端异构计算:
cuda编程
通用矩阵乘法 gemm 算法解析与优化、neon、cuda 编程等内容,以及 ncnn 框架代码解析总结。
1,推荐几个比较好的深度学习模型压缩与加速的仓库和课程资料:
- awesome-emdl: 嵌入式与移动端深度学习研究资料合集。
- AI-System: 深度学习系统。
- pytorch-deep-learning
2,一些笔记好的博客链接:
- The Illustrated Transformer: 国内比较好的博客大都参考这篇文章。
- C++ 并发编程(从C++11到C++17): 不错的 C++ 并发编程教程。
- What are Diffusion Models?
- annotated_deep_learning_paper_implementations
- 《深度学习》
- 《机器学习》
- 《动手学深度学习》
- 《AI-EDU》
- 《AI-System》
- 《PyTorch_tutorial_0.0.5_余霆嵩》
- 《动手编写深度学习推理框架 Planer》
chatglm-6b 模型
- 单机单卡
- 测试设备 T4
- 测试 promot:
- 你是现代诗人,用'红包、美好、表白、夕阳、月光、慢慢'关键词生成2首表白唯美打油诗
- 写一篇500字的武侠小说,主角名字为李纯白
测试框架:HuggingFace + Transformers + DeepSpeed
| Batch_size | 数据类型 | 显存占用 | GPU使用率 | 性能(tokens per second) |
|---|---|---|---|---|
| 1 | FP16 |
13046MiB | 83% | 14.0~14.7 |
测试框架:HuggingFace + Transformers
使用 chatglm 自带的量化函数进行量化,虽然对显存的要求低了,但是性能 tps 下降了很多,原因还在分析。
| Batch_size | 数据类型 | 显存占用 | GPU使用率 | 性能(tokens per second) |
|---|---|---|---|---|
| 1 | FP16 |
13027MiB | 82% | 13.23~14.25 |
| 1 | INT8 |
7008MiB | 89% | 14.02 |