TLDR

GGUF	GPTQ	AWQ
Executa primariamente na CPU, mas pode se ofloaded para a GPU com interfaces como o llamacpp	Executa exclusivamente na GPU, é importante que haja recursos para alocar todo o modelo.	Mesmo que o GPTQ
Ideal para modelos pequenos 7b	Oferece uma performance estremamente boa se o modelo couber inteiro na GPU	Mesmo que o GPTQ
A quantização é menos impactante (Respostas melhores)	Para fazer o modelo ficar menor é aplicado uma quantização relativamente pesada, o que pode reduzir a acurácia das respostas	O modelo é quantizado porem com um algoritmo que é supostamente superior ao GPTQ

Se você tem os recursos prefira o modelo sem quantização.

Se o modelo quantizado cabe em sua GPU e você aceita um pouco de inacurácia va com GPTQ ou AWQ.

AWQ tende a ser melhor

Se seu modelo não cabe inteiramente na GPU ou se você quer uma acurácia um puco melhor que GPTQ e AWQ escolha *GGUF

GPTQ tende a equiparar com um GGUF de 4bits.

Se sua GPU consegue arma

Se você não possui GPU suficiênte para armazenar um modelo maior e seu caso de uso necessida de respostas extremamente rápidas ao cuso de um pouco de qualidade vá com GPTQ ou AWQ.

Em contra partida o GGUF oferece uma utilização mais uniforme dos recursos, entretanto costuma ser mais lento.

Metodos de quantização

GGUF

GGUF é um novo formato introduzido pela equipe llama.cpp em 21 de agosto de 2023. É um substituto do GGML, que não é mais compatível com llama.cpp.

Executa na CPU e pode ter sua carga de trabalho dividida com a GPU.

Normalente é disponibilizada com diferentes niveis de quantização 2,3,4,5,6 e 8bits são os comuns.

GPTQ

AWQ

Modelos

Como exemplo você pode acessar os repositórios do nosso querido TheBloke ele costuma disponibilizar ótimas quantizações de modelos populares.

Não necessáriamente indico a utilização do CapybaraHermes, foi apenas para você ter por onde começar.

Recursos auxiliáres

https://www.youtube.com/watch?v=mNE_d-C82lI

Descubra algo novo

Logica reprogramável

IVAO ATC

Tutorial EducaUTF

Tutoriais

Inteligência artificial

Os melhores artigos do mês