TL;DR

  • 새로운 오픈소스 Agent ‘HUSKY’가 공개되었습니다. (메타, 앨런연구소, 워싱턴 대학 공동연구)

Introduction

  • 2024년 6월 10일에 새로운 AI Agent가 발표되었습니다. (Meta AI, Allen Institute for AI, University of Washington)
  • 오픈소스입니다
  • 수치(numerical), 표(tabular), 지식기반추론(knowledge-based reasoning) 등 다양한 작업을 일관된(unified) 방법으로 수행하는 점이 특별하다(distinguished)고 얘기합니다.

Methodology

  • Husky는 두가지의 작업을 반복적으로(iterative) 수행합니다.
    1. 계획(Action Generation) 단계에서는 프롬프트와, 현재까지 만들어진 답(solution)을 가지고 다음 action을 예측
    2. 실행(Action Execution) 단계에서는 계획된 action을 수행하고 solution을 업데이트
  • action은 4가지 전문가 모델을 개별적으로 사용 (code, math, search, commonsense)’
    • 모든 툴은 똑같은 입력 format을 받을 수 있고,
      • math와 common sense는 바로 답변을 내놓으며,
      • code는 코드 인터프리터에 대한 입력자료,
      • search는 검색엔진 입력자료를 만들어냄,
    • code, math, search 모델은 finetuned 모델이고, common sense는 그렇지 않음

Base Model

  • Action Generator: LLaMA 2(7B, 13B), LLaMA 3 8B
  • Code Generator: DEEPSEEKCODER-7B-Instruct-v 1.5
  • Math Reasoner: DEEPSEEKMATH-7B-Instruct-v 1.5
  • Query Generator: LLaMA 2-7B

Evaluation

  • 14개의 평가 데이터셋에서 벤치마크 수행
    • 수치 추론: GSM-8K, MATH, Google DeepMind mathimatics, MathQA 등
    • 표 기반 추론: TabMWP, FinQA, TAT-QA 등
    • 지식추론: HotpotQA, CWQ, Musique, Bamboogle 등
  • 각 수치, 표, 지식 기반 추론은 다양한 오픈소스 에이전트와 비교함
    • Few-shot prompted agents: REACT, REWOO, CHAMELEON
    • Fine-tuned agents: FIREACT, LUMOS
  • 혼합 도구(mixed-tool) 추론은 아래의 모델과 비교함
    • REACT, LUMOS
    • GPT 3.5 (turbo-0125), GPT 4 (0125-preview, turbo-0409, o)

Results

  • 수치, 표, 지식 기반 추론은 모든 open-source 모델보다 성능이 우수함
  • 혼합 도구 추론의 경우에는 OpenAI의 최신 모델인 GPT-4o 성능에 근접하며, IIRC 벤치마크에서는 GPT-4o보다 우수함

Conclusion

  • 벤치마크의 경우 훈련 테크닉을 잘 맞추면 어느정도 성능을 보장할 수 있어서 맹목적으로 극찬하기는 어렵습니다.
  • 하지만, 그리 복잡하지 않은 chain과 각 task별로 통합된(unified) 형태로 AI Agent를 구성했다는 점은 인상깊습니다.

References

Miscellaneous

  • 1저자 김중원 님은 워싱턴대 박사 2년차 학생으로 Meta AI LLaMA 팀에서 근무 중 (https://danieljkim0118.github.io/)
  • 저는 직접 실행해보지 못했습니다 (돌릴 수 있는 머신이…)

Leave a Reply