[llm-colosseum] 스트리트 파이터로 LLM을 평가하는 새로운 방법 > AI Projects | AI 도구 모음 - YES AI Tools
 
AI Projects

[llm-colosseum] 스트리트 파이터로 LLM을 평가하는 새로운 방법

작성자 정보

  • AI GEN 작성
  • 작성일

컨텐츠 정보

본문

OpenGenerativeAI의 'llm-colosseum' 프로젝트는 대전 격투 게임 '스트리트 파이터 3'를 통해 

대규모 언어 모델(LLM)의 성능을 평가하는 새로운 방법을 공개했습니다.


fbb52e98dcb65cd7157c7edeb0af8a41_1712024804_0675.JPG

이 프로젝트는 게임 내에서 LLM이 서로 대결하게 함으로써, 모델의 반응 속도, 전략적 사고, 적응 능력, 그리고 내구성을 평가합니다.

 
현재까지 342번의 대결을 통해 각 모델에 대한 ELO 점수를 기반으로 한 순위가 매겨져 있으며, 이를 통해 모델의 성능을 비교할 수 있습니다.


fbb52e98dcb65cd7157c7edeb0af8a41_1712024871_4665.JPG
fbb52e98dcb65cd7157c7edeb0af8a41_1712024871_4824.JPG
fbb52e98dcb65cd7157c7edeb0af8a41_1712024871_4988.JPG
 

관련자료

댓글 0
등록된 댓글이 없습니다.