AI 에이전트 신뢰성 확보를 위한 새로운 접근 방식: AgentSpec

최근 AI 에이전트의 안전성과 신뢰성 문제가 대두되고 있습니다. 기업들은 AI 에이전트를 통해 업무 자동화를 확대하고 싶어 하지만, 에이전트가 의도치 않은 행동을 하거나, 유연성이 부족하고, 제어하기 어렵다는 점을 우려하고 있어요.

실제로 많은 기업들이 에이전트가 지시 사항을 제대로 따르지 않을 가능성에 대해 경고하고 있습니다. 심지어 OpenAI조차도 에이전트 신뢰성을 확보하기 위해 외부 개발자와 협력해야 한다고 인정하며, 이 문제를 해결하기 위해 Agents SDK (Software Development Kit)를 공개하기도 했습니다.

이러한 상황 속에서 싱가포르 경영대학교(Singapore Management University, SMU) 연구진이 에이전트 신뢰성 문제를 해결하기 위한 새로운 접근 방식인 AgentSpec을 개발했습니다. AgentSpec은 특정 도메인에 특화된 프레임워크로, 사용자가 “트리거, 조건, 실행 메커니즘을 포함하는 구조화된 규칙을 정의”할 수 있도록 지원합니다. 연구진은 AgentSpec을 통해 사용자가 원하는 매개변수 내에서만 에이전트가 작동하도록 만들 수 있다고 설명합니다.

AgentSpec: LLM 기반 에이전트 가이드

AgentSpec은 새로운 LLM(Large Language Model)이 아니라, LLM 기반 AI 에이전트를 가이드하는 접근 방식입니다. 연구진은 AgentSpec이 기업 환경뿐만 아니라 자율 주행 애플리케이션에도 유용하게 사용될 수 있다고 믿고 있습니다.

AgentSpec은 LangChain 프레임워크에 통합되어 첫 번째 테스트를 진행했지만, 연구진은 AgentSpec이 프레임워크에 구애받지 않도록 설계했기 때문에 AutoGen 및 Apollo와 같은 생태계에서도 실행할 수 있다고 밝혔습니다.

AgentSpec을 사용한 실험 결과, “안전하지 않은 코드 실행을 90% 이상 방지하고, 자율 주행 법규 위반 시나리오에서 완전한 규정 준수를 보장하며, 임베디드 에이전트 작업에서 위험한 행동을 제거하고, 밀리초 수준의 오버헤드로 작동”하는 것으로 나타났습니다. OpenAI의 o1을 사용한 LLM 기반 AgentSpec 규칙 역시 강력한 성능을 보였으며, 위험한 코드의 87%를 차단하고 “8가지 시나리오 중 5가지에서 법규 위반을 방지”했습니다.

기존 방법의 한계

물론 AgentSpec 외에도 개발자가 에이전트에 대한 제어력과 신뢰성을 높일 수 있도록 돕는 방법들이 존재합니다. ToolEmu 및 GuardAgent와 같은 접근 방식이 있으며, 스타트업 Galileo는 에이전트가 의도한 대로 작동하는지 확인하는 방법인 Agentic Evaluations를 출시했습니다. 오픈 소스 플랫폼 H2O.ai는 예측 모델을 사용하여 금융, 의료, 통신 및 정부 분야의 기업에서 사용하는 에이전트의 정확도를 향상시키고 있습니다.

AgentSpec 연구진은 ToolEmu와 같은 기존의 위험 완화 접근 방식이 위험을 효과적으로 식별하지만, “해석 가능성이 부족하고 안전 실행을 위한 메커니즘을 제공하지 않아 적대적 조작에 취약하다”고 지적했습니다.

AgentSpec 사용법

AgentSpec은 에이전트를 위한 런타임 실행 레이어 역할을 합니다. AgentSpec은 작업 실행 중 에이전트의 동작을 가로채고, 사람이 설정하거나 프롬프트에 의해 생성된 안전 규칙을 추가합니다.

AgentSpec은 사용자 정의 도메인 특정 언어이기 때문에 사용자는 안전 규칙을 정의해야 합니다. 안전 규칙은 트리거, 조건 확인, 규칙 위반 시 수행할 작업을 강제하는 실행의 세 가지 구성 요소로 이루어져 있습니다.

앞서 언급했듯이 AgentSpec은 LangChain을 기반으로 구축되었지만, 연구진은 AgentSpec이 AutoGen 또는 자율 주행 차량 소프트웨어 스택인 Apollo와 같은 다른 프레임워크에도 통합될 수 있다고 밝혔습니다.

이러한 프레임워크는 사용자 입력을 받아 실행 계획을 생성하고, 결과를 관찰한 다음, 작업이 완료되었는지 여부를 판단하고, 완료되지 않은 경우 다음 단계를 계획하여 에이전트가 수행해야 하는 단계를 조정합니다. AgentSpec은 이 흐름에 규칙 실행을 추가합니다.

연구 논문에 따르면 “AgentSpec은 작업이 실행되기 전에 미리 정의된 제약 조건을 평가하여 규정 준수를 보장하고, 필요한 경우 에이전트의 동작을 수정합니다. 특히 AgentSpec은 작업이 실행되기 전(AgentAction), 작업이 관찰 결과를 생성한 후(AgentStep), 에이전트가 작업을 완료했을 때(AgentFinish)의 세 가지 주요 의사 결정 지점에 연결됩니다. 이러한 지점은 에이전트의 핵심 논리를 변경하지 않고 개입할 수 있는 구조화된 방법을 제공합니다.”

더욱 신뢰할 수 있는 에이전트를 향하여

AgentSpec과 같은 접근 방식은 기업 환경에서 신뢰할 수 있는 에이전트의 필요성을 강조합니다. 기업들이 에이전트 전략을 계획하기 시작하면서 기술 의사 결정 리더들은 신뢰성을 보장하는 방법도 모색하고 있습니다.

많은 사람들에게 에이전트는 결국 사용자를 위해 자율적이고 능동적으로 작업을 수행할 것입니다. AI 에이전트와 앱이 백그라운드에서 지속적으로 실행되고 스스로 트리거되어 작업을 실행하는 앰비언트 에이전트(ambient agents)의 개념은 경로에서 벗어나 안전하지 않은 작업을 실수로 도입하지 않는 에이전트를 필요로 합니다.

앰비언트 에이전트가 에이전트 AI의 미래라면, 기업들이 AI 에이전트의 지속적인 신뢰성을 확보하기 위해 노력함에 따라 AgentSpec과 같은 방법이 더욱 확산될 것으로 예상됩니다.