Beating 에 따르면, 통이첸원(Tongyi Qianwen) 팀은 오늘 Qwen-AgentWorld를 공식 출시했습니다. 이 모델은 범용 모델을 나중에 적용하는 방식이 아니라, 사전 학습 단계부터 환경 모델링을 학습 목표로 설정한 최초의 네이티브 언어 기반 에이전트 모델입니다. 단일 프레임워크 내에서 텍스트 기반 환경(MCP, 검색, 터미널, SWE)과 GUI 기반 환경(웹, OS, 안드로이드) 등 7개 도메인을 지원합니다. 1천만 건 이상의 실제 상호작용 데이터를 기반으로 CPT→SFT→RL의 세 단계 학습을 거쳐 도메인 간 지식 전이를 구현했습니다. AgentWorldBench 벤치마크도 동시에 오픈소스로 공개되었습니다. 각 테스트 샘플에는 실제 실행에서 얻은 관찰 데이터가 포함되어 있습니다. 모델과 벤치마크는 현재 Hugging Face와 ModelScope에서 이용 가능합니다.
AgentWorldBench 벤치마크에서 Qwen-AgentWorld-397B-A17B는 GPT-5.4, Claude Opus 4.8, Gemini 3.1 Pro를 능가하는 최고의 시뮬레이션 품질을 달성했습니다. 연구팀은 또한 에이전트 훈련에서 세계 모델링의 두 가지 응용 경로를 탐구했습니다. 첫째, 분리된 환경 시뮬레이터로서 제어 가능한 시뮬레이션 강화 학습(RL)은 에이전트의 행동을 형성하고 실제 환경에서만 훈련된 RL보다 훨씬 뛰어난 성능을 보일 수 있습니다. 둘째, 통합 에이전트 기반 모델로서 LWM 사전 훈련은 7개의 벤치마크를 포함하는 다중 라운드 에이전트 작업에 적용될 수 있으며, 이 중 3개는 훈련 세트에 전혀 포함되어 있지 않고 에이전트 작업에 대한 RL 미세 조정이 필요하지 않습니다. 이는 언어 세계 모델이 더 강력한 에이전트 기반 모델로서의 잠재력을 가지고 있음을 예비적으로 검증한 것입니다.
---------------------------------
아래의 원본 링크를 클릭하여 Beating·Lark AI 뉴스 채널에 가입하고 전 세계 AI 관련 주요 이슈와 뉴스를 24시간 내내 확인하세요.