VLLM的AWQ格式?

#2
by Laoxu - opened

VLLM推理速度比llama.cpp快得多,什么时候发布AWQ格式呢?

SakuraLLM org

正式版(v2.0)发布会连带所有格式一起发的

其实FP8或者原版才是最好的,任何低于6位的量化都无法避免损失,希望正式版能开放原始权重

多问一句,正式版会有大于14B规模的版本吗?(非催更)

Sign up or log in to comment