[MMLU-Pro] 인공지능 언어 모델 평가의 새로운 기준 > LLM/FM | AI 도구 모음 - YES AI Tools
 
LLM/FM

[MMLU-Pro] 인공지능 언어 모델 평가의 새로운 기준

작성자 정보

  • AI GEN 작성
  • 작성일

컨텐츠 정보

본문

인공지능 모델의 언어 이해 능력을 평가하는 기준, MMLU-Pro가 새롭게 공개됐습니다.

bc08c06c828677a19c51321b5b659498_1717979988_2997.JPG
 

최근 인공지능 기술이 빠르게 발전하면서, 언어 모델의 성능을 정확하게 평가하는 것이 점점 더 중요해지고 있어요. 기존의 MMLU(Massive Multitask Language Understanding) 데이터 세트를 기반으로 한 MMLU-Pro는 보다 광범위하고 까다로운 과제를 통해 언어 모델을 평가하도록 설계되었죠.


MMLU-Pro의 가장 큰 특징은 문제의 난이도를 대폭 높였다는 것입니다. 먼저, 각 문제당 답안 선택지를 기존의 4개에서 10개로 늘렸어요. 이렇게 하면 모델이 무작위로 정답을 맞힐 확률이 크게 줄어들겠죠? 


bc08c06c828677a19c51321b5b659498_1717979999_2832.JPG
 

또한, 단순한 지식을 묻는 문제보다는 추론 능력을 요구하는 문제의 비중을 늘렸다고 합니다. 이런 변화 덕분에 CoT(Chain of Thought) 방식의 모델이 PPL(Perplexity) 방식보다 최대 20%나 더 높은 성능을 보일 수 있게 되었다고 해요.


MMLU-Pro는 총 14개의 다양한 분야에 걸쳐 12,000개 이상의 문제로 구성되어 있습니다. 


생물학, 비즈니스, 화학, 컴퓨터 과학, 경제학, 공학, 보건학, 역사, 법률, 수학, 철학, 물리학, 심리학 등 폭넓은 영역을 다루고 있죠. 이렇게 다양한 분야의 문제를 엄격하게 선별했기 때문에, MMLU-Pro는 언어 모델의 종합적인 이해 능력을 평가하는 데 최적화되어 있다고 볼 수 있어요.


흥미로운 점은, MMLU-Pro를 통해 평가한 결과 프롬프트의 스타일 변화에 따른 모델 성능의 차이가 크게 줄어들었다는 것입니다. 

MMLU에서는 프롬프트 스타일에 따라 4~5%의 성능 차이가 났던 반면, MMLU-Pro에서는 그 차이가 2%에 불과했다고 합니다. 이는 MMLU-Pro가 언어 모델의 실질적인 능력을 더욱 정확하게 평가할 수 있음을 시사합니다.


bc08c06c828677a19c51321b5b659498_1717980037_6187.JPG
 


bc08c06c828677a19c51321b5b659498_1717980016_7258.JPG
 


MMLU-Pro 데이터 세트에 대해 더 자세히 알고 싶다면 Hugging Face 페이지를 참조해주세요. 그리고 직접 이 데이터 세트를 활용해 모델을 평가해 보고 싶다면 GitHub에서 제공되는 평가 스크립트를 이용해 보시기 바랍니다.

관련자료

댓글 0
등록된 댓글이 없습니다.