transformers (1) 썸네일형 리스트형 Teaching Arithmetic to Small Transformers Paper: https://arxiv.org/abs/2307.03381 AI-generated Summary 이 논문은 작은 트랜스포머가 next token prediction objective를 사용하여 덧셈, 곱셈, 제곱근과 같은 산술 연산을 어떻게 학습할 수 있는지 탐구합니다. 이들은 GPT-4와 같은 LLM이 광범위한 텍스트 데이터로 학습할 때 기본 산술과 같은 범용 작업에서 새로운 능력을 발휘할 수 있다는 사실을 발견했습니다. 그러나 이러한 작업은 next token prediction이라는 비지도 목표에 의해 명시적으로 인코딩되지 않습니다. 저자들은 기존의 훈련 데이터가 산술 학습에 가장 효과적이지 않다는 것을 입증하는 것으로 시작합니다. 간단한 형식 변경만으로도 정확도가 크게 향상되고 학습 .. 이전 1 다음