오늘은 거대한 언어 모델을 나의 PC(CPU든 GPU든!)에서 효율적으로 돌리고 싶을 때 반드시 알아야 할 기술, 바로 '양자화(Quantization)'를 직접 해보았다. GGUF: LLM의 새로운 표준 컨테이너GGUF는 llama.cpp 프로젝트에서 개발한 LLM을 위한 새로운 파일 형식이다. 이 형식은 CPU, NVIDIA GPU, AMD GPU 등 다양한 하드웨어에서 LLM을 효율적으로 로드하고 실행할 수 있도록 설계된 범용적인 컨테이너 형식이다. GGUF는 양자화된 가중치를 담는 데 최적화되어 있다. GGUF는 llama.cpp 생태계의 전용 형식이면서 마치 .exe 파일이 윈도우 운영체제에서 실행되는 것처럼, GGUF 파일은 llama.cpp (또는 GGUF를 지원하는 다른 특수 클라이언트)에..