qa-lora (1) 썸네일형 리스트형 QA-LoRA: Quantization-Aware Low-Rank Adaptation of Large Language Models AI Summary ChatGPT LLM의 계산 부담을 줄이고 엣지 장치에 효과적으로 배치하기 위해 개발된 새로운 알고리즘입니다. 이 연구는 기존의 파라미터 효율적 미세 조정(PEFT)과 매개변수 양자화 방법의 한계를 극복하고자 QA-LoRA를 도입합니다. QA-LoRA는 기존 LoRA 방식에 양자화를 인지한 적응을 더해, LLM의 가중치를 효율적으로 양자화(INT4 등)하고, 미세 조정 이후에도 모델의 정확도를 유지합니다. QA-LoRA는 LLaMA 및 LLaMA2 모델군에 적용되어 여러 언어 이해 벤치마크에서 그 효과가 입증되었습니다. 이 방법은 LoRA와 비교하여 계산 비용이 낮으면서도 미세 조정 및 추론 단계에서 높은 성능을 제공합니다. 특히 양자화 비트 폭이 낮을 때 이점이 두드러지며, QLoR.. 이전 1 다음