LLMC: 正確で効率的なLLM圧縮に向けて

LLMC は、大規模言語モデル（LLM）の圧縮を目的とした、最新の圧縮アルゴリズムを活用して、パフォーマンスを損なうことなく効率を向上させ、モデルサイズを削減するためのツールです。

英語のドキュメントはこちら。

中国語のドキュメントはこちら。

Docker Hubはこちら。

aliyun docker: registry.cn-hangzhou.aliyuncs.com/yongyang/llmcompression:[tag]

以下のコマンドを使用して、llmcを実行できるDockerイメージをダウンロードできます。中国大陸のユーザーは、阿里云Dockerを使用することを推奨します。

docker hub

docker pull llmcompression/llmc:pure-latest

阿里云Docker

docker pull registry.cn-hangzhou.aliyuncs.com/yongyang/llmcompression:pure-latest

コミュニティ:

Discordサーバー
Tencent QQグループ

主要機能

💥包括的なアルゴリズムサポート: 広範な ✨SOTA圧縮アルゴリズム をサポートし、✅量子化、✅混合精度量子化、✅疎性を含み、元のリポジトリと同じ精度を維持します。✨量子化ベストプラクティス（ベストプラクティスはこちらをご覧ください）も提供されており、最適なパフォーマンスと効率を確保します。
💥サポートされているフォーマット: ✨量子化（整数および浮動小数点）と ✨疎性 の両方をサポートし、具体的には ✅重量-活性化、✅重量のみ、✅混合精度量子化、および ✅構造化疎性と ✅非構造化疎性を含みます。
💥広範なモデルサポート: 多様な ✨LLMモデル をサポートしており、✅LLama、✅Mistral、✅InternLM2、✅Qwen2 など、さらに ✅MOE モデルや ✅VLM モデルもサポートしています（サポートされているモデルリストを参照してください）。
💥マルチバックエンドの互換性: 複数のバックエンドとシームレスに統合し、展開の柔軟性を強化します。さまざまな量子化設定およびモデルフォーマットが、✅VLLM、✅Sglang、✅LightLLM、✅MLC-LLM、✅AutoAWQ など、幅広いバックエンドおよびハードウェアプラットフォームと互換性があり、高い柔軟性を実現しています（Backendセクションはこちらをご覧ください）。
💥パフォーマンス効率: ✨Llama3.1-405B や ✨OPT-175B などの大規模LLMの量子化をサポートし、単一の A100/H100/H800 GPU でPPL評価を可能にします。

使用方法

使用ガイドは 🚀Quick Startセクションこちらをご覧ください。

サポートされているモデルリスト

✅ BLOOM

✅ LLaMA

✅ LLaMA V2

✅ StarCoder

✅ OPT

✅ Falcon

✅ InternLM2

✅ Mistral

✅ LLaMA V3

✅ Mixtral

✅ Qwen V2

✅ LLaVA

✅ InternLM2.5

✅ StableLM

✅ Gemma2

✅ Phi2

✅ Phi 1.5

✅ MiniCPM

✅ SmolLM

独自のモデルタイプを追加するには、llmc/models/*.py ファイルを参照してください。

サポートされているバックエンドリスト

✅ VLLM

✅ LightLLM

✅ Sglang

✅ MLC-LLM

✅ AutoAWQ

サポートされているアルゴリズムリスト

量子化

✅ Naive

✅ AWQ

✅ GPTQ

✅ SmoothQuant

✅ OS+

✅ OmniQuant

✅ NormTweaking

✅ AdaDim

✅ QUIK

✅ SpQR

✅ DGQ

✅ OWQ

✅ LLM.int8()

✅ HQQ

✅ QuaRot

プルーニング（剪定）

✅ Naive（マグニチュード）

✅ Wanda

✅ ShortGPT

謝辞

以下のリポジトリを参考にしてコードを開発しました：

https://github.com/mit-han-lab/llm-awq
https://github.com/mit-han-lab/smoothquant
https://github.com/OpenGVLab/OmniQuant
https://github.com/IST-DASLab/gptq
https://github.com/ModelTC/Outlier_Suppression_Plus
https://github.com/IST-DASLab/QUIK
https://github.com/Vahe1994/SpQR
https://github.com/ilur98/DGQ
https://github.com/xvyaward/owq
https://github.com/TimDettmers/bitsandbytes
https://github.com/mobiusml/hqq
https://github.com/spcl/QuaRot
https://github.com/locuslab/wanda
https://github.com/EleutherAI/lm-evaluation-harness

スター履歴

引用

LLM-QBench論文/llmcツールキットが研究に役立つまたは関連している場合は、論文を引用してください：

@misc{llmc,
   author = {llmc contributors},
   title = {llmc: Towards Accurate and Efficient LLM Compression},
   year = {2024},
   publisher = {GitHub},
   journal = {GitHub repository},
   howpublished = {\url{https://github.com/ModelTC/llmc}},
}

@misc{gong2024llmqbench,
      title={LLM-QBench: A Benchmark Towards the Best Practice for Post-training Quantization of Large Language Models},
      author={Ruihao Gong and Yang Yong and Shiqiao Gu and Yushi Huang and Yunchen Zhang and Xianglong Liu and Dacheng Tao},
      year={2024},
      eprint={2405.06001},
      archivePrefix={arXiv},
      primaryClass={cs.LG}
}

@misc{gong2024llmcbenchmarkinglargelanguage,
      title={LLMC: Benchmarking Large Language Model Quantization with a Versatile Compression Toolkit},
      author={Ruihao Gong and Yang Yong and Shiqiao Gu and Yushi Huang and Chentao Lv and Yunchen Zhang and Xianglong Liu and Dacheng Tao},
      year={2024},
      eprint={2405.06001},
      archivePrefix={arXiv},
      primaryClass={cs.LG},
      url={https://arxiv.org/abs/2405.06001},
}

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

README_ja.md

README_ja.md

LLMC: 正確で効率的なLLM圧縮に向けて

最新情報

主要機能

使用方法

サポートされているモデルリスト

サポートされているバックエンドリスト

サポートされているアルゴリズムリスト

量子化

プルーニング（剪定）

謝辞

スター履歴

引用

Files

README_ja.md

Latest commit

History

README_ja.md

File metadata and controls

LLMC: 正確で効率的なLLM圧縮に向けて

最新情報

主要機能

使用方法

サポートされているモデルリスト

サポートされているバックエンドリスト

サポートされているアルゴリズムリスト

量子化

プルーニング（剪定）

謝辞

スター履歴

引用