OpenClaw의 등장과 Claw-like Agent의 보안 문제
참고 자료
SafeClawBench: An Operating-System Perspective on Evaluating the Security of Claw-like Agent Systems, https://openreview.net/forum?id=pJJLXWy0MC
SafeClawBench: An Operating-System Perspective on Evaluating the...
Claw-like AI agents (e.g., OpenClaw) are always-on processes running inside the user's environment with persistent access to credentials, files, tools, and external services, functioning as a...
openreview.net
1. OpenClaw의 등장

OpenClaw가 센세이션했던 이유는 LLM agent가 진짜 내 일을 대신 한다는 느낌을 처음으로 강하게 보여줬기 때문이 아닐까싶다. 오픈소스이기도 하고 기존 agent 기능을 실시간으로 개인 컴퓨터/메신저 위에서 계속 돌리니까.
기존 AI: “물어보면 답함”
기존 coding agent: “코드 작업 도와줌”
OpenClaw: “내 메신저에 붙어 있고, 내 파일·메일·캘린더·터미널을 써서 실제 업무를 처리함”
2. Claw-like Agent들의 Security
Claw-like agent: OpenClaw 스타일의 개인/업무용 상주형 AI 에이전트
| 이름 | Claw-like? | 설명 |
| OpenClaw | - | 지속 메모리, 커뮤니케이션 통합, heartbeat, 백그라운드 작업 등 상주형 개인 AI 비서 구조 |
| NemoClaw | 상 | SafeClawBench에서 OpenClaw 계열 비교 대상으로 언급된 Claw-like 플랫폼 |
| SecLaw | 상 | OpenClaw 변형에 보안 방어를 추가한 실험 플랫폼으로 언급됨 |
| Claude Code | 일부 유사 | 파일 읽기/수정, 명령 실행, 테스트 수행, 개발 도구 연동 가능. 다만 기본적으로 프로젝트/세션 중심이고 권한 확인 모델이 더 명확함 |
| Cursor Agent / Copilot Coding Agent류 | 일부 유사 | 코드베이스 수정·명령 실행 가능하지만, 보통 IDE/PR/개발 워크플로 중심 |
| AutoGPT류 오래된 autonomous agent | 일부 유사 | 목표 기반 반복 실행은 유사하나, Claw-like의 핵심인 “상주형 로컬 OS 레이어 + 지속 권한”은 약한 경우 많음 |
보안 이슈
| 일반적인 Agent 보안 이슈 | Claw-like Agent의 보안 이슈 |
| 잘못된 답변 잘못된 코드 제안 제한된 tool call 특정 세션 안에서의 실수 |
로컬 파일 접근 API key / token / SSH key 접근 브라우저 세션 접근 GitHub, Slack, Discord, Gmail 등 외부 서비스 접근 명령어 실행 백그라운드 자동 실행 장기 메모리 오염 플러그인/스킬을 통한 권한 확장 |
왜 Claw-like agent는 위험할까?
1) 항상 켜져 있음
일반 챗봇은 사용자가 대화할 때만 동작하지만, Claw-like agent는 heartbeat, cron, webhook, 알림, 백그라운드 작업으로 계속 행동할 수 있음. 그래서 한 번 감염되거나 프롬프트 인젝션을 받으면 영향이 오래감
2) 권한이 넓음
Claude Code 같은 coding agent도 파일 수정과 명령 실행이 가능하지만, Anthropic 문서 기준 기본값은 파일 수정이나 명령 실행 전에 허가를 요구하는 보수적 모델. 반면 Claw-like agent는 개인 비서처럼 쓰기 위해 여러 서비스와 자격증명을 붙이는 경향이 강해서, 권한 경계가 흐려지기 쉬움
3) OS와 비슷한 보안 문제가 생김
운영체제는 파일 권한, 프로세스 격리, 네트워크 접근, 사용자 권한, 비밀정보 보호 같은 보안 invariant가 있음. Claw-like agent도 사실상 “AI가 조작하는 OS 레이어”처럼 움직이므로, 단순히 “모델이 나쁜 답을 안 하게 한다”로는 부족함. SafeClawBench paper에서 이들을 OS 관점에서 평가해야 한다고 주장
4) 플러그인/스킬이 공격면이 됨
SafeClawBench paper에서 malicious plugin은 underlying LLM과 무관하게 100% 성공했다고 보고됨. 즉, 모델이 안전해도 플랫폼/플러그인 레이어가 약하면 뚫릴 수 있다는 뜻.
보안 관점에서 Agent 별 리스크 차이
| Agent 유형 | 권한 | 지속성 | 리스크 |
| ChatGPT 같은 대화형 Agent | 낮음 | 저 | 정보 오류, 프롬프트 인젝션 |
| RAG Agent | 문서 검색 권한 | 중저 | 데이터 유출, 검색 오염 |
| Tool-use Agent | API/tool 권한 | 중 | 잘못된 tool call, 권한 남용 |
| Coding Agent | 파일/터미널 권한 | 중고 | 코드 삭제, secret 노출, supply-chain 공격 |
| Claw-like Agent | 파일·터미널·메신저·브라우저·API·메모리 | 고 | OS 수준 권한 남용, 장기 감염, credential 유출, 자동 확산 |
todos
- Paper review (deep dive)
- Claw-like agent들의 실제 threat modeling 예제