오픈클로: AI 에이전트 보안의 시작된 악몽

오픈소스 AI 비서 ‘오픈클로’의 놀라운 성장과 숨겨진 위험

최근 오픈소스 AI 비서인 오픈클로(OpenClaw)가 엄청난 주목을 받고 있습니다. 이 프로젝트는 이전에 클로드봇(Clawdbot), 몰트봇(Moltbot)이라는 이름으로 알려졌었는데요. 개발자 피터 스타인버거(Peter Steinberger)에 따르면, 오픈클로는 깃허브(GitHub)에서 18만 개 이상의 스타를 기록하고, 단 일주일 만에 2백만 명의 방문자를 끌어모았다고 합니다.

하지만 이러한 폭발적인 성장 뒤에는 심각한 보안 문제가 도사리고 있습니다. 인터넷을 스캔하던 보안 연구원들은 1,800개 이상의 노출된 오픈클로 인스턴스를 발견했습니다. 이 인스턴스들은 API 키, 채팅 기록, 계정 자격 증명 등을 유출하고 있었어요. 게다가 이 프로젝트는 최근 상표권 분쟁으로 인해 두 번이나 리브랜딩을 거쳤다고 합니다.

이처럼 풀뿌리 에이전트형 AI(agentic AI) 운동은 대부분의 보안 도구가 감지할 수 없는 가장 큰 ‘관리되지 않는 공격 표면’이 되고 있습니다. 기업 보안 팀이 직접 배포한 도구도 아니고, 방화벽, EDR(Endpoint Detection and Response), SIEM(Security Information and Event Management) 같은 기존 보안 솔루션으로도 감지하기 어렵습니다. 직원 개인 소유 기기(BYOD)에서 에이전트가 실행될 때, 보안 스택은 사실상 ‘눈뜬장님’이 되는 것이죠. 바로 이 지점이 큰 보안 공백으로 작용하고 있습니다.

기존 보안 시스템이 에이전트형 AI 위협을 놓치는 이유

대부분의 기업 방어 체계는 에이전트형 AI를 표준 접근 제어가 필요한 또 다른 개발 도구로 취급합니다. 하지만 오픈클로의 사례는 이러한 가정이 구조적으로 잘못되었음을 명확히 보여줍니다.

에이전트는 승인된 권한 내에서 작동하고, 공격자가 영향을 미칠 수 있는 소스에서 컨텍스트를 가져오며, 자율적으로 작업을 실행합니다. 이 모든 과정은 기존 보안 경계에서 전혀 보이지 않습니다. 잘못된 위협 모델은 잘못된 제어로 이어지고, 결국 치명적인 사각지대를 만들게 됩니다.

레퓨테이션(Reputation)의 AI 부사장 카터 리스(Carter Rees)는 “AI 런타임 공격은 구문적(syntactic)이 아닌 의미적(semantic)입니다”라고 설명합니다. “‘이전 지침을 무시하세요’와 같은 무해해 보이는 문구도 버퍼 오버플로우(buffer overflow)만큼 치명적인 페이로드(payload)를 전달할 수 있지만, 알려진 악성코드 시그니처와는 아무런 공통점이 없습니다.”

‘프롬프트 인젝션(prompt injection)’이라는 용어를 만든 소프트웨어 개발자이자 AI 연구원인 사이먼 윌리슨(Simon Willison)은 AI 에이전트의 “치명적인 삼중주(lethal trifecta)”를 설명합니다. 여기에는 개인 데이터 접근, 신뢰할 수 없는 콘텐츠 노출, 그리고 외부 통신 능력이 포함됩니다. 이 세 가지 기능이 결합되면 공격자는 에이전트를 속여 개인 정보에 접근하고 이를 자신에게 전송하도록 만들 수 있습니다. 윌리슨은 이 모든 일이 단 하나의 경고도 없이 발생할 수 있다고 경고합니다.

오픈클로는 이 세 가지를 모두 가지고 있습니다. 이메일과 문서를 읽고, 웹사이트나 공유 파일에서 정보를 가져오며, 메시지를 보내거나 자동화된 작업을 트리거하여 행동합니다. 조직의 방화벽은 HTTP 200 응답만 볼 뿐입니다. SOC(Security Operations Center) 팀은 EDR이 프로세스 동작을 모니터링하는 것을 보지만, 의미론적 콘텐츠는 보지 못합니다. 위협은 무단 접근이 아니라 의미론적 조작에 있습니다.

전문가들조차 놀란 에이전트형 AI의 잠재력과 위험

IBM 리서치(IBM Research) 과학자 카우타르 엘 마그라위(Kaoutar El Maghraoui)와 마리나 다니엘레프스키(Marina Danilevsky)는 오픈클로를 분석한 후, 자율적인 AI 에이전트가 수직적으로 통합되어야 한다는 가설에 도전한다고 결론 내렸습니다. 이 도구는 “느슨한 오픈소스 레이어가 전체 시스템 접근 권한을 가질 때 엄청나게 강력할 수 있다”는 것을 보여주며, 진정한 자율성을 가진 에이전트 생성이 “대기업에만 국한되지 않고 커뮤니티 주도로도 가능하다”는 것을 입증합니다.

바로 이 점이 기업 보안에 위험한 요소입니다. 적절한 안전 제어 없이 고성능 에이전트가 작동하면 업무 환경에서 심각한 취약점을 만들 수 있습니다. 엘 마그라위는 이제 질문이 오픈 에이전트 플랫폼이 작동할 수 있는지 여부에서 “어떤 종류의 통합이 가장 중요하며, 어떤 맥락에서 중요한가”로 바뀌었다고 강조합니다. 보안 문제는 더 이상 선택 사항이 아닙니다.

쇼단(Shodan) 스캔으로 드러난 노출된 게이트웨이의 실체

레드팀(red-teaming) 전문 기업 드불른(Dvuln)의 설립자이자 보안 연구원인 제이미슨 오라일리(Jamieson O’Reilly)는 쇼단(Shodan)을 사용하여 노출된 오픈클로 서버를 식별했습니다. 그는 특징적인 HTML 지문을 검색하여 “Clawdbot Control”이라는 간단한 검색만으로 수백 개의 결과를 몇 초 만에 얻었습니다. 그가 수동으로 검토한 인스턴스 중 8개는 인증 없이 완전히 개방되어 있었습니다. 이 인스턴스들은 이를 발견한 누구에게나 명령을 실행하고 구성 데이터를 볼 수 있는 완전한 접근 권한을 제공했습니다.

오라일리는 앤트로픽(Anthropic) API 키, 텔레그램(Telegram) 봇 토큰, 슬랙(Slack) OAuth 자격 증명, 그리고 통합된 모든 채팅 플랫폼의 전체 대화 기록을 발견했습니다. 두 인스턴스는 웹소켓(WebSocket) 핸드셰이크(handshake)가 완료되는 순간 몇 달간의 비공개 대화를 고스란히 노출했습니다. 네트워크는 로컬호스트(localhost) 트래픽만 볼 뿐입니다. 보안 팀은 에이전트가 무엇을 호출하고 어떤 데이터를 반환하는지 전혀 알 수 없습니다.

그 이유는 오픈클로가 기본적으로 로컬호스트를 신뢰하며 인증을 요구하지 않기 때문입니다. 대부분의 배포는 엔진엑스(nginx)나 캐디(Caddy)와 같은 리버스 프록시(reverse proxy) 뒤에 위치하므로, 모든 연결은 127.0.0.1에서 오는 것처럼 보이고 신뢰할 수 있는 로컬 트래픽으로 처리됩니다. 외부 요청도 그대로 들어올 수 있는 것이죠. 오라일리가 발견한 특정 공격 벡터는 패치되었지만, 이를 허용한 아키텍처는 변하지 않았습니다.

시스코(Cisco)가 ‘보안 악몽’이라 부르는 이유

시스코(Cisco)의 AI 위협 및 보안 연구팀은 이번 주에 오픈클로에 대한 평가를 발표하며, 기능적인 관점에서는 “획기적”이지만 보안 관점에서는 “절대적인 악몽”이라고 표현했습니다.

시스코 팀은 정적 분석, 행동 데이터 흐름, LLM(Large Language Model) 의미 분석, 바이러스토탈(VirusTotal) 스캔을 결합하여 악성 에이전트 스킬을 탐지하는 오픈소스 스킬 스캐너(Skill Scanner)를 공개했습니다. 이들은 “일론은 무엇을 할까?(What Would Elon Do?)”라는 서드파티 스킬을 오픈클로에 대해 테스트했습니다. 결과는 결정적인 실패였습니다. 두 개의 치명적인 문제와 다섯 개의 높은 심각도 문제를 포함하여 총 아홉 가지 보안 문제가 발견되었습니다.

해당 스킬은 기능적으로 악성코드와 같았습니다. 봇에게 컬(curl) 명령을 실행하여 스킬 작성자가 제어하는 외부 서버로 데이터를 전송하도록 지시했습니다. 사용자 인지 없이 조용히 실행된 것이죠. 이 스킬은 또한 안전 지침을 우회하기 위해 직접적인 프롬프트 인젝션을 배포했습니다.

리스는 “LLM은 신뢰할 수 있는 사용자 지침과 신뢰할 수 없는 검색된 데이터를 본질적으로 구별할 수 없습니다”라고 말합니다. “임베디드 명령을 실행하여 공격자를 대신하여 행동하는 ‘혼란스러운 대리인(confused deputy)’이 될 수 있습니다.” 시스템 접근 권한을 가진 AI 에이전트는 기존 DLP(Data Loss Prevention), 프록시, 엔드포인트 모니터링을 우회하는 은밀한 데이터 유출 채널이 됩니다.

보안 팀의 가시성이 더욱 악화되는 상황

대부분의 보안 팀이 인식하는 것보다 통제 격차는 더 빠르게 벌어지고 있습니다. 지난 금요일 기준으로, 오픈클로 기반 에이전트들은 자체적인 소셜 네트워크를 형성하고 있습니다. 인간의 시야를 완전히 벗어난 통신 채널이 생겨나고 있는 것이죠.

몰트북(Moltbook)은 스스로를 “AI 에이전트를 위한 소셜 네트워크”라고 칭하며 “인간은 관찰을 환영한다”고 말합니다. 게시물은 API를 통해 이루어지며, 인간이 볼 수 있는 인터페이스를 통하지 않습니다. 아스트랄 코덱스 텐(Astral Codex Ten)의 스콧 알렉산더(Scott Alexander)는 이것이 단순히 조작된 것이 아님을 확인했습니다. 그는 자신의 클로드(Claude)에게 참여를 요청했고, “다른 모든 것과 매우 유사한 댓글을 달았다”고 합니다. 한 인간 사용자는 자신의 에이전트가 “잠자는 동안” 종교 테마 커뮤니티를 시작했다고 확인했습니다.

보안에 미치는 영향은 즉각적입니다. 참여하려면 에이전트가 외부 셸 스크립트(shell script)를 실행하여 구성 파일을 다시 작성해야 합니다. 에이전트들은 자신의 작업, 사용자 습관, 오류에 대해 게시합니다. 참여의 기본 조건으로 컨텍스트 유출이 발생하는 것이죠. 몰트북 게시물에 있는 모든 프롬프트 인젝션은 MCP 연결을 통해 에이전트의 다른 기능으로 연쇄적으로 확산될 수 있습니다.

몰트북은 더 큰 문제의 축소판입니다. 에이전트를 유용하게 만드는 자율성은 동시에 에이전트를 취약하게 만듭니다. 에이전트가 독립적으로 더 많은 일을 할 수록, 손상된 지침 세트가 더 큰 피해를 일으킬 수 있습니다. 기능 곡선은 보안 곡선을 훨씬 앞지르고 있습니다. 그리고 이러한 도구를 만드는 사람들은 종종 무엇이 악용될 수 있는지에 대한 우려보다 무엇이 가능한지에 대한 흥분에 더 사로잡혀 있습니다.

보안 리더들이 당장 조치해야 할 것들

웹 애플리케이션 방화벽(WAF)은 에이전트 트래픽을 일반 HTTPS로 인식합니다. EDR 도구는 프로세스 동작을 모니터링하지만, 의미론적 콘텐츠는 보지 못합니다. 일반적인 기업 네트워크는 에이전트가 MCP 서버를 호출할 때 로컬호스트 트래픽만 보게 됩니다.

프롬프트 시큐리티(Prompt Security)의 설립자이자 현재 센티넬원(SentinelOne)의 일부인 이타마르 골란(Itamar Golan)은 “에이전트를 생산성 앱이 아닌 생산 인프라로 취급해야 합니다. 최소 권한, 범위가 지정된 토큰, 허용 목록에 있는 작업, 모든 통합에 대한 강력한 인증, 그리고 엔드투엔드(end-to-end) 감사 가능성을 적용해야 합니다”라고 조언합니다.

노출된 에이전트형 AI 게이트웨이를 네트워크에서 감사하세요. IP 범위에 대해 오픈클로, 몰트봇, 클로드봇 시그니처를 쇼단 스캔으로 확인해야 합니다. 개발자들이 실험하고 있다면, 공격자들이 알기 전에 먼저 알아야 합니다.
윌리슨의 치명적인 삼중주가 환경 내 어디에 존재하는지 파악하세요. 개인 데이터 접근, 신뢰할 수 없는 콘텐츠 노출, 외부 통신이 결합된 시스템을 식별해야 합니다. 이 세 가지를 모두 가진 에이전트는 다른 것이 입증되기 전까지는 취약하다고 가정해야 합니다.
접근 권한을 공격적으로 분할하세요. 에이전트가 모든 지메일(Gmail), 모든 셰어포인트(SharePoint), 모든 슬랙(Slack), 그리고 모든 데이터베이스에 동시에 접근할 필요는 없습니다. 에이전트를 특권 사용자처럼 취급하고, 사용자 인증뿐만 아니라 에이전트의 행동도 기록해야 합니다.
에이전트 스킬의 악성 행위를 스캔하세요. 시스코는 스킬 스캐너를 오픈소스로 공개했습니다. 이를 활용해야 합니다. 가장 치명적인 행동 중 일부는 파일 자체 내에 숨겨져 있습니다.
사고 대응 플레이북을 업데이트하세요. 프롬프트 인젝션은 기존 공격과는 다르게 보입니다. 악성코드 시그니처도, 네트워크 이상도, 무단 접근도 없습니다. 공격은 모델의 추론 과정 내부에서 발생합니다. SOC는 무엇을 찾아야 할지 알아야 합니다.
금지하기 전에 정책을 수립하세요. 개발자들이 우회할 생산성 저해 요인이 되지 않으려면 실험을 금지할 수 없습니다. 혁신을 막기보다는 혁신을 유도하는 가드레일(guardrail)을 구축해야 합니다. 섀도우 AI(Shadow AI)는 이미 환경 내에 존재합니다. 문제는 이에 대한 가시성을 확보하고 있는지 여부입니다.

결론: 오픈클로는 시작에 불과합니다

오픈클로 자체가 위협은 아닙니다. 그것은 하나의 ‘신호’입니다. 현재 이러한 인스턴스를 노출시키는 보안 격차는 향후 2년 동안 조직이 구축하거나 채택할 모든 에이전트형 AI 배포를 노출시킬 것입니다. 풀뿌리 실험은 이미 시작되었고, 통제 격차는 문서화되었으며, 공격 패턴은 공개되었습니다.

향후 30일 이내에 구축할 에이전트형 AI 보안 모델이 조직이 생산성 향상을 이룰지, 아니면 다음 침해 사고의 대상이 될지를 결정할 것입니다. 지금 바로 통제력을 검증해야 합니다.