#

post-training-quantization

Here are 33 public repositories matching this topic...

666DZY666 / micronet

micronet, a model compression and deploy lib. compression: 1、quantization: quantization-aware-training(QAT), High-Bit(>2b)(DoReFa/Quantization and Training of Neural Networks for Efficient Integer-Arithmetic-Only Inference)、Low-Bit(≤2b)/Ternary and Binary(TWN/BNN/XNOR-Net); post-training-quantization(PTQ), 8-bit(tensorrt); 2、 pruning: normal、reg…

Updated Oct 6, 2021
Python

intel / neural-compressor

SOTA low-bit LLM quantization (INT8/FP8/INT4/FP4/NF4) & sparsity; leading model compression techniques on TensorFlow, PyTorch, and ONNX Runtime

sparsity pruning quantization knowledge-distillation auto-tuning int8 low-precision quantization-aware-training post-training-quantization awq int4 large-language-models gptq smoothquant sparsegpt fp4 mxformat

Updated Aug 16, 2024
Python

alibaba / TinyNeuralNetwork

TinyNeuralNetwork is an efficient and easy-to-use deep learning model compression framework.

deep-neural-networks deep-learning pytorch pruning model-compression model-converter quantization-aware-training post-training-quantization

Updated Aug 12, 2024
Python

megvii-research / FQ-ViT

[IJCAI 2022] FQ-ViT: Post-Training Quantization for Fully Quantized Vision Transformer

pytorch imagenet quantization post-training-quantization vision-transformer

Updated Apr 11, 2023
Python

SqueezeAILab / SqueezeLLM

[ICML 2024] SqueezeLLM: Dense-and-Sparse Quantization

natural-language-processing text-generation transformer llama quantization model-compression efficient-inference post-training-quantization large-language-models llm small-models localllm

Updated Aug 13, 2024
Python

megvii-research / Sparsebit

A model compression and acceleration toolbox based on pytorch.

deep-learning sparse pruning quantization tensorrt quantization-aware-training post-training-quantization

Updated Jan 12, 2024
Python

sayakpaul / Adventures-in-TensorFlow-Lite

This repository contains notebooks that show the usage of TensorFlow Lite for quantizing deep neural networks.

inference pruning tensorflow-lite tensorflow-2 on-device-ml tf-hub model-quantization model-optimization quantization-aware-training post-training-quantization tf-lite-model

Updated Jan 23, 2023
Jupyter Notebook

ModelTC / llmc

This is the official PyTorch implementation of "LLMC: Benchmarking Large Language Model Quantization with a Versatile Compression Toolkit".

Updated Aug 16, 2024
Python

Xiuyu-Li / q-diffusion

[ICCV 2023] Q-Diffusion: Quantizing Diffusion Models.

pytorch quantization model-compression diffusion-models post-training-quantization ddim stable-diffusion

Updated Mar 21, 2024
Python

hkproj / quantization-notes

Notes on quantization in neural networks

deep-learning pytorch neural-networks quantization quantization-aware-training post-training-quantization

Updated Dec 14, 2023
Jupyter Notebook

Sanjana7395 / static_quantization

Post-training static quantization using ResNet18 architecture

pytorch mnist-classification quantization resnet-18 post-training-quantization floatfunctional fbgemm float32-to-int8 reduce-inference-time reduce-memory-storage

Updated Aug 1, 2020
Jupyter Notebook

KwangHoonAn / Quantizations

quantization dfq post-training-quantization data-free-quantization

Updated Apr 6, 2021
Python

ModelTC / TFMQ-DM

[CVPR 2024 Highlight] This is the official PyTorch implementation of "TFMQ-DM: Temporal Feature Maintenance Quantization for Diffusion Models".

highlight quantization cvpr ldm diffusion-models post-training-quantization ddim stable-diffusion cvpr2024

Updated Aug 1, 2024
Jupyter Notebook

yester31 / Quantization_EX

quantization example for pqt & qat

quantization tensorrt int8 qat model-optimization quantization-aware-training post-training-quantization pytorch-quantization ptq

Updated Jul 24, 2023
Python

satya15july / quantization

Model Quantization with Pytorch, Tensorflow & Larq

quantization binarization quantization-aware-training post-training-quantization binarymodel-with-larq

Updated Apr 1, 2023
C++

yester31 / TensorRT_ONNX

Generating tensorrt model using onnx

pytorch quantization tensorrt onnx int8-inference onnxruntime post-training-quantization int8-quantization tensorrt-inference ptq

Updated Jun 22, 2023
C++

zysxmu / FDDA

Pytorch implementation of our paper accepted by ECCV 2022-- Fine-grained Data Distribution Alignment for Post-Training Quantization

acceleration compression post-training-quantization

Updated Sep 13, 2022
Python

ModelTC / QLLM

[ICLR 2024] This is the official PyTorch implementation of "QLLM: Accurate and Efficient Low-Bitwidth Quantization for Large Language Models"

transformers pytorch llama quantization post-training-quantization llm llama2

Updated Mar 11, 2024
Python

smpanaro / norm-tweaking

Post post-training-quantization (PTQ) method for improving LLMs. Unofficial implementation of https://arxiv.org/abs/2309.02784

quantization post-training-quantization ptq llms

Updated Feb 21, 2024
Python

andrea-zanette / HippoScan

A framework to train a ResUNet architecture, quantize, compile and execute it on an FPGA.

fpga keras segmentation pynq alveo tensorflow2 resunet post-training-quantization vitis-ai ultra96v2

Updated Jun 23, 2023
Jupyter Notebook

Improve this page

Add a description, image, and links to the post-training-quantization topic page so that developers can more easily learn about it.

Curate this topic

Add this topic to your repo

To associate your repository with the post-training-quantization topic, visit your repo's landing page and select "manage topics."