legendlc / cuda_hgemm Public

forked from Bruce-Lee-LY/cuda_hgemm

Notifications You must be signed in to change notification settings
Fork 0
Star 0

Several optimization methods of half-precision general matrix multiplication (HGEMM) using tensor core with WMMA API and MMA PTX instruction.

0 stars 63 forks Branches Tags Activity

Name		Name	Last commit message	Last commit date
Latest commit History 3 Commits
src		src
.gitignore		.gitignore
README.md		README.md

Repository files navigation

HGEMM implementation and optimization on Windows/Nvidia RTX 2070