spmm

Star

Here are 11 public repositories matching this topic...

Language: All

Filter by language

All 11 C++ 4 Cuda 3 Python 2 C# 1 Chapel 1

Sort: Most stars

Sort options

Most stars Fewest stars Most forks Fewest forks Recently updated Least recently updated

loveSunning / FastCuda

Star 15

FastCuda is a handwritten CUDA operator library featuring progressive GEMM and Reduce kernels, cuBLAS benchmarking, and C/C++/Python interfaces for learning, profiling, and performance optimization.

reduce spmv sgemm spmm cudac sgemv tensor-core hgemm flash-attention wmma

Updated Mar 18, 2026
Cuda

fan1997 / HP-SpMM-SDDMM

Star 8

Fast SpMM implementation on GPUs for GNN (IPDPS'23)

hopper cuda-kernels sparse-matrix gemm-optimization spmm

Updated Dec 31, 2023
C++

mabdullahsoyturk / Torch-Sputnik

Star 4

PyTorch bindings for SpMM and SDDMM operations in Sputnik library.

deep-learning pytorch sparse sputnik spmm sddmm

Updated Jan 29, 2023
Python

jhson989 / SpMM

Star 3

Parallel Sparse Matrix Multiplication via CUDA

cuda sparse-matrix spmm

Updated Mar 30, 2022
Cuda

fan1997 / DTC-SpMM-ASPLOS24

Star 3

Codes for DTC-SpMM (ASPLOS'24)

reordering sparse-matrix nvidia-gpu spmm tensor-core

Updated Jun 2, 2024
C++

arthureleven / axn

Star 2

Native PGAS-Based GCN Training

pgas arxiv gcn spmm tmlr

Updated Mar 7, 2026
Chapel

liblaf / hpc

Star 2

📚 Coursework for "Introduction to High Performance Computing" (30240192)

hpc homework cuda high-performance-computing coursework tsinghua tsinghua-university thu spmm thu-learn

Updated Jun 21, 2022
C++

hgb-bin-proteomics / CandidateSearch

Star 1

Proof-of-concept implementation of a search engine that uses sparse matrix multiplication to identify the best peptide candidates for a given mass spectrum.

search search-engine gpu engine eigen cuda psm sparse identification proteomics mass-spectrometry spectrometry spmv peptide-identification mass spgemm peptide spmm

Updated Dec 19, 2024
C#

tariqaf / RA-SpMM

Star 1

RA-SpMM: Regime-Aware Sparse Matrix Multiplication for GNN Workloads on GPUs. 8-rule router, 6 preprocessing-free kernels, 3.25x over cuSPARSE (FGCS 2026).

cuda benchmarks gpu-computing graph-neural-networks gnn spmm tensor-cores sparse-matrix-multiplication sparse-linear-algebra