VLLM的AWQ格式?
#2
by Laoxu - opened
VLLM推理速度比llama.cpp快得多,什么时候发布AWQ格式呢?
正式版(v2.0)发布会连带所有格式一起发的
其实FP8或者原版才是最好的,任何低于6位的量化都无法避免损失,希望正式版能开放原始权重
多问一句,正式版会有大于14B规模的版本吗?(非催更)
VLLM推理速度比llama.cpp快得多,什么时候发布AWQ格式呢?
正式版(v2.0)发布会连带所有格式一起发的
其实FP8或者原版才是最好的,任何低于6位的量化都无法避免损失,希望正式版能开放原始权重
多问一句,正式版会有大于14B规模的版本吗?(非催更)