마이크로소프트, 로봇 제어 AI ‘마그마’ 공개: 챗GPT가 로봇 팔을 움직이는 미래?

마이크로소프트, 로봇 제어 AI ‘마그마’ 공개

마이크로소프트(Microsoft)가 센서에서 정보를 처리하면서 로봇 전체를 자율적으로 제어할 수 있는 새로운 생성 모델인 마그마(Magma)를 발표했어요. 이는 마치 챗GPT(ChatGPT)와 같은 인공지능이 로봇 팔, 인간형 안드로이드 또는 완전히 새로운 형태의 로봇을 사용하여 현실 세계와 상호 작용할 수 있는 미래로 나아가는 흥미로운 발걸음입니다.

마그마의 능력

마이크로소프트에 따르면, 이 최신 AI는 텍스트, 이미지, 비디오를 포함한 멀티모달 데이터를 처리할 수 있을 뿐만 아니라 “시각-공간 세계에서 계획하고 행동”할 수 있다고 합니다. 즉, 사용자 인터페이스 탐색부터 로봇 조작에 이르기까지 다양한 작업을 수행하는 데 사용될 수 있다는 거죠.

마이크로소프트는 마그마에 대해 “계획을 수립하고 이를 달성하기 위한 행동을 실행할 수 있다”고 설명합니다. 또한 “자유롭게 사용할 수 있는 시각 및 언어 데이터로부터 지식을 효과적으로 전달함으로써 마그마는 언어적 지능과 공간적 지능을 연결하여 복잡한 작업을 탐색한다”고 덧붙였어요.

에이전트 AI로의 전환

마그마는 인간을 대신하여 작업을 수행할 수 있는 “에이전트 AI”로의 광범위한 전환의 일부입니다. 하지만 이 기술에는 여전히 해결해야 할 기술적 한계가 존재합니다. 예를 들어, 최근에 공개된 오픈AI(OpenAI)의 AI 에이전트인 오퍼레이터(Operator)는 인터넷을 탐색하여 “사용자를 위한 작업을 수행”하도록 설계되었지만, 여전히 작업을 완료하는 데 어려움을 겪고 있다고 해요.

물리적 세계를 탐색하고 물체를 조작하는 것은 훨씬 더 어려운 과제일 것입니다.

마그마의 잠재력과 한계

그럼에도 불구하고 마이크로소프트의 테스트에 따르면 마그마 AI는 “사용자 인터페이스 탐색 및 로봇 조작 작업에서 새로운 최첨단 결과를 만들어내며, 이러한 작업에 특화된 이전 모델보다 뛰어난 성능을 보인다”고 합니다.

마이크로소프트가 공개한 비디오 샘플에서는 AI가 플라스틱 버섯을 금속 그릇에 넣고 행주로 조리대 위를 닦는 모습을 보여줍니다.

로봇 팔을 조작하는 것 외에도 마이크로소프트는 마그마가 실시간 비디오 피드를 통해 인간을 돕는 데 어떻게 사용될 수 있는지도 보여줍니다. 예를 들어, 실제 체스 게임을 돕거나 거실에서 “몇 시간 동안 휴식을 취하기 위해” 무엇을 해야 할지 제안하는 것이죠.

하지만 마이크로소프트 연구진은 연구 논문에서 AI가 아직 완벽하지 않다는 점을 인정합니다. 우선, 그들이 고안한 테스트는 매우 구체적이었어요.

연구진은 “교육용 비디오에서 정체성과 활동의 분포가 전 세계 인구와 사회의 다양성을 대표하지 않는다”고 지적합니다.

에이전트 AI의 잠재적 위험

에이전트 AI로의 전환은 또한 사이버 보안 취약점을 야기할 수 있는 잠재적인 위험을 내포하고 있습니다. 악의적인 사용자가 탈옥(jailbreak)을 악용하거나 악성 코드를 삽입할 수 있기 때문이죠.

이러한 시나리오가 물리적 세계에서 로봇을 제어하는 AI에서 어떻게 전개될지는 아직 알 수 없지만, 굳이 알아보고 싶지는 않네요.

위로 스크롤