Sem descrição.
30/03/2024
Publico
GGUF | GPTQ | AWQ |
---|---|---|
Executa primariamente na CPU, mas pode se ofloaded para a GPU com interfaces como o llamacpp | Executa exclusivamente na GPU, é importante que haja recursos para alocar todo o modelo. | Mesmo que o GPTQ |
Ideal para modelos pequenos 7b | Oferece uma performance estremamente boa se o modelo couber inteiro na GPU | Mesmo que o GPTQ |
A quantização é menos impactante (Respostas melhores) | Para fazer o modelo ficar menor é aplicado uma quantização relativamente pesada, o que pode reduzir a acurácia das respostas | O modelo é quantizado porem com um algoritmo que é supostamente superior ao GPTQ |
Se você tem os recursos prefira o modelo sem quantização.
Se o modelo quantizado cabe em sua GPU e você aceita um pouco de inacurácia va com GPTQ ou AWQ.
AWQ tende a ser melhor
Se seu modelo não cabe inteiramente na GPU ou se você quer uma acurácia um puco melhor que GPTQ e AWQ escolha *GGUF
GPTQ tende a equiparar com um GGUF de 4bits.
Se sua GPU consegue arma
Se você não possui GPU suficiênte para armazenar um modelo maior e seu caso de uso necessida de respostas extremamente rápidas ao cuso de um pouco de qualidade vá com GPTQ ou AWQ.
Em contra partida o GGUF oferece uma utilização mais uniforme dos recursos, entretanto costuma ser mais lento.
GGUF é um novo formato introduzido pela equipe llama.cpp em 21 de agosto de 2023. É um substituto do GGML, que não é mais compatível com llama.cpp.
Executa na CPU e pode ter sua carga de trabalho dividida com a GPU.
Normalente é disponibilizada com diferentes niveis de quantização 2,3,4,5,6
e 8bits
são os comuns.
Como exemplo você pode acessar os repositórios do nosso querido TheBloke ele costuma disponibilizar ótimas quantizações de modelos populares.
Não necessáriamente indico a utilização do CapybaraHermes, foi apenas para você ter por onde começar.