MiniLLM (1) 썸네일형 리스트형 Knowledge Distillation of Large Language Models Paper: https://arxiv.org/abs/2306.08543v1 AI-generated Summary 지식 증류(KD)는 대규모 언어 모델(LLM)의 계산 수요를 줄이기 위해 사용되는 기법입니다. 이전의 KD 방법은 주로 화이트박스 분류 모델이나 ChatGPT와 같은 블랙박스 모델 API를 모방하기 위한 소규모 모델 훈련에 중점을 두었지만, 화이트박스 생성 LLM에서 지식을 효과적으로 증류하는 방법에 대한 탐색은 여전히 제한적입니다. 이는 LLM이 계속 발전함에 따라 점점 더 중요해지고 있습니다. 이 연구에서 저자들은 대규모 생성 언어 모델에서 더 작은 언어 모델을 추출하는 방법인 MiniLLM을 제안합니다. 생성 언어 모델과 관련된 문제를 해결하기 위해 저자는 표준 KD 접근법의 순방향 쿨백.. 이전 1 다음