
최근 생성형 AI, 특히 대규모 언어 모델(LLM)의 발전 속도가 놀랍습니다. 하지만 여전히 LLM은 까다로운 문제에 직면하면 잘못된 답변을 내놓거나 비논리적인 판단을 하기도 합니다. 이런 한계를 극복하기 위해 등장한 두 가지 획기적인 방법론을 소개하겠습니다. 바로 Meta-Rewarding과 Self-Discover입니다. Meta-Rewarding: 모델이 스스로를 평가하고 학습하는 방식 Meta-Rewarding이란 한마디로 "모델이 스스로 생성한 결과를 직접 평가하고, 그 평가 결과를 학습하여 지속적으로 성능을 높이는 방법"입니다. 즉, LLM이 동시에 "학생이자 선생님" 역할을 수행하는 것입니다. Meta-Rewarding의 단계적 프로세스답변 생성(Actor): LLM이 하나의 질문에 다양한..