연구자 정보
디온 프로필 보기
- 출신대학 : KAIST
- 전공 : 전산학과
- 연구분야 : World Models, AI Safety
1분 요약
지금까지 로봇은 처음 맞닥들이는 상황에선 거의 무조건 실패했습니다. 컵 모양이 조금만 다르거나, 조명이 좀 어둡거나, 책상 위치가 바뀌면 바로 멈춰 버렸죠. 왜냐하면 “이런 화면이 보이면 이렇게 움직여라”라는 외운 패턴밖에 없었기 때문입니다. 월드모델은 로봇이 행동하기 전에 ‘이렇게 움직이면 이렇게 되겠구나’ 하고 머릿속으로 먼저 결과를 그려보게 해 주는 기술입니다. 이렇게 하면 로봇이 보여준 적 없는 상황도 스스로 판단할 수 있게 됩니다. V-JEPA2는 로봇이 처음 보는 상황에서도 바로 판단하도록 만들기 위한 메타의 차세대 월드모델입니다. 메타는 먼저 인터넷 영상으로 사람들이 물건을 어떻게 잡고 움직이는지학습했습니다. 그 다음에는 로봇이 실제로 팔을 움직이는 짧은 영상을 보며, 자기 행동이 장면을 어떻게 바꾸는지 직접 연결해서 배웁니다. 이 둘이 합쳐지면 로봇은 처음 보는 컵이라도 손을 뻗기 전에 “이렇게 하면 잡히겠구나” 하고 예상할 수 있습니다. 로봇이 사람처럼 상황을 이해하는 방향으로 실제로 나아갈 수 있음을 보여준 첫 결과라는 점에서 중요합니다.