发表于
字数统计: 1.4k字 | 阅读时长 ≈ 4分钟
数据并行(DP )1、概念:相同的模型分布在不同的GPU上,在不同的GPU上使用不同的数据。每一张GPU上有相同的参数,在训练的时候每一个GPU训练不同的数据,相当于增大了训练时候的batch_size。数据并行基于一个假设:所有节点都可以放下整个模型。这个假设在某些模型上(如GPT3)是不合理的,因此我们还需要模型并行。 2、并行方式:2.1 同步训练:每个前向、反向结束后显示同步(把每一个GPU上的梯度进行汇总,再在GPU上进行相同的参数更新。) 实现简单,适合同构场景;一个节点出现故 ...
(追記) (追記ここまで)

发表于
字数统计: 7k字 | 阅读时长 ≈ 24分钟
1. AI算力发展趋势1.1 人工智能理论:深度学习人工智能发展至今并非一帆风顺, 从起步阶段到现今的深度学习阶段,数据、算法和算力构成了人工智能三大基本要素,共同推动人工智能向更高层次的感知、认知发展。 1.2 第三次人工智能浪潮代表人物如前所述,当前人工智能繁荣离不开数据、算法和算力的共同发展,在算法层面,深度学习三巨头Geoffrey Hinton、Yann LeCun和Yoshua Bengio对AI领域的贡献无人不知、无人不晓,他们围绕神经网络重塑了AI; 数据层面,2007年李飞飞 ...
(追記) (追記ここまで)

发表于
字数统计: 824字 | 阅读时长 ≈ 3分钟
在AI中常提32位浮点数、16位浮点数,混合精度。。这里重点说一下32位浮点数的表示先来一张图 浮点数的计算方式其中s是符号位,e是指数位,m是有效数位组成的数。m的计算方式是 所以上图表示的数字就是 采用这种表示方式的结果是,两个浮点数之间的"间隔"是均匀的。什么意思? 比如说,我想表示浮点数1的话,那么我的二进制位就是: 0 01111111 00000000000000000000000 我想表示2的话,二进制位就是 0 10000000 0000000000000000000000 ...
(追記) (追記ここまで)

发表于
字数统计: 1.5k字 | 阅读时长 ≈ 5分钟
问题详情深度学习中常常需要多GPU并行训练,而Nvidia的NCCL库NVIDIA/nccl(https://github.com/NVIDIA/nccl)在各大深度学习框架(Caffe/Tensorflow/Torch/Theano)的多卡并行中经常被使用,请问如何理解NCCL的原理以及特点? 回答NCCL是Nvidia Collective multi-GPU Communication Library的简称,它是一个实现多GPU的collective communication通信(all ...
(追記) (追記ここまで)

发表于
字数统计: 449字 | 阅读时长 ≈ 1分钟
啥是MMIO啊MMIO(内存映射IO),是PCI规范的一部分,IO设备被在内存空间,而不是放在IO空间,处理器的角度看,内存映射I/O后系统设备访问起来和内存一样。这样访问AGP/PCI-E显卡上的帧缓存,BIOS,PCI设备就可以使用读写内存一样的汇编指令完成,简化了程序设计的难度和接口的复杂性。I/O作为CPU和外设交流的一个渠道,主要分为两种,一种是Port I/O,一种是MMIO(Memory mapping I/O),MMIO就是通过外围设备映射到内存空间,便于CPU的访问。I/O作为 ...
(追記) (追記ここまで)

发表于
字数统计: 7.3k字 | 阅读时长 ≈ 45分钟
==============================================================================irdma - Linux* RDMA Driver for the E800 Series and X722 Intel(R) Ethernet Controllers============================================================================== Content ...
(追記) (追記ここまで)

发表于
字数统计: 169字 | 阅读时长 ≈ 1分钟
在使用nccl 2.8.4版本进行训练时,偶尔会出现训练任务卡主的问题,官方建议升级到nccl2.12版本,升级后确实训练任务能够正常运行了 升级nccl 流程: 123456789101112apt install build-essential fakeroot devscripts lintian debhelpergit clone -b v2.12 https://github.com/NVIDIA/nccl.gitcd ncclmake -j ...
(追記) (追記ここまで)

AltStyle によって変換されたページ (->オリジナル) /