Skip to content

Navigation Menu

Sign in
Appearance settings

Search code, repositories, users, issues, pull requests...

Provide feedback

We read every piece of feedback, and take your input very seriously.

Saved searches

Use saved searches to filter your results more quickly

Sign up
Appearance settings

🔨 使用Spark/Pytorch实现分布式算法,包括图/矩阵计算(graph/matrix computation)、随机算法、优化(optimization)和机器学习。参考刘铁岩《分布式机器学习》和CME 323课程

License

Notifications You must be signed in to change notification settings

orion-orion/Distributed-ML-PySpark

Repository files navigation

分布式机器学习

📚 如果船长的最高目标是保住他的船,那么他只能永远待在港口。

Open Source Love

1 简介

本项目为经典分布式机器学习算法的的PySpark/Pytorch实现, 主要参考了刘铁岩的《分布式机器学习》和CME 323: Distributed Algorithms and Optimization课程。主要内容包括图/矩阵计算(graph/matrix computation)、随机算法、优化(optimization)和机器学习。

2 环境依赖

运行以下命令安装环境依赖:

pip install -r requirements.txt

注意我的Python版本是3.8.13,Java版本11.0.15。注意PySpark是运行与Java虚拟机上的,且只支持Java 8/11,请勿使用更高级的版本。这里我使用的是Java 11。运行java -version可查看本机Java版本。

(base) ➜ ~ java -version 
java version "11.0.15" 2022年04月19日 LTS
Java(TM) SE Runtime Environment 18.9 (build 11.0.15+8-LTS-149)
Java HotSpot(TM) 64-Bit Server VM 18.9 (build 11.0.15+8-LTS-149, mixed mode)

最后,Pytorch的torch.distributed.rpc模块只支持Linux操作系统,故务必保证您在Linux操作系统上运行相关代码,否则会报错(参见GitHub issues: torch.distributed.rpc)。

3 目录

About

🔨 使用Spark/Pytorch实现分布式算法,包括图/矩阵计算(graph/matrix computation)、随机算法、优化(optimization)和机器学习。参考刘铁岩《分布式机器学习》和CME 323课程

Topics

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages

AltStyle によって変換されたページ (->オリジナル) /