AI 에이전트 보안 가이드

AI 에이전트 특유의 보안 위협과 방어를 정리합니다. 일반 웹/공급망 보안이 아니라 에이전트가 행위자가 되면서 생기는 위협에 한정합니다. 실행 격리(sandbox)·자격증명 프록시의 상세 설계는 AI 코딩 에이전트 운영 가이드 §4를 참조합니다. 빅테크 1차·실측 사례에 한정합니다.

1. 위협 지형

AI 주도 공격 (실측 1호): 공격자가 LLM 에이전트로 marimo CVE(RCE)→AWS 자격증명→Secrets Manager SSH 키→PostgreSQL 덤프를 수 분 만에 4단계 피벗(Sysdig). AI 지문: 존재하지 않는 테이블 덤프 시도, 외국어 내부 독백 주석, AI 특유 명령 포맷, 출력 기반 동적 명령 체이닝. 함의: 공격 속도·자동화가 인간 전제를 깬다 → 탐지·대응도 자동·실시간이어야 한다.
AI 증강 멀웨어: 동적 코드 생성·LLM 난독화·decoy 로직을 쓰는 악성코드, 그리고 LiteLLM 등 AI 인프라 공급망 침해(침해 시 AI 시스템 전반 접근)(GTIG).
에이전트 config 주입: .cursorrules·CLAUDE.md·MCP 설정을 숨은 유니코드 등으로 변조해 에이전트 행동을 탈취. GitHub Actions cache poisoning처럼 권한 워크플로를 오염. 원칙: 에이전트 config·룰 파일을 “실행 코드”로 취급해 리뷰·핀·서명한다.
MCP 서버 취약점: ~300개 MCP 서버 검토에서 SQL injection·미인증 tool 접근·미인증 스키마/RAG 테이블 조회 패턴(Akamai). MCP 서버 = 초기 API처럼 보안 부재의 새 공격면.

2. 방어 — 에이전트를 신뢰 경계로

핵심 전제: 에이전트는 실수하거나 탈취될 수 있다. 권한·자격증명·네트워크를 에이전트 바깥에서 통제한다.

자격증명 프록시 (credential brokering): 에이전트가 secret을 직접 들지 않고, 프록시가 아웃바운드에 인증을 주입하며 에이전트엔 placeholder만 준다. 침해돼도 훔칠 자격증명이 없다. (Agent Vault / Secure MCP Tunnel; 상세 → ops §4 control plane.)
트래픽 통제 (egress firewall): 에이전트↔프로덕션 트래픽을 wire-level로 파싱해 SQL verb·K8s 리소스 등 프로토콜을 추출, 파괴 명령 차단·민감 ops는 인간 승인(Claw Patrol류). guard.py deny-list의 네트워크판.
격리 + 파괴 호출 훅: 샌드박싱 + destructive-call 훅 + 격리 dev 환경으로 데이터 유출·시스템 손상을 막는다. 에이전트는 명령을 주의 깊게 읽도록 강제(수동 승인에만 의존하지 말 것).
최소 권한·감사: 토큰별 scoped 권한, Production·결제·인프라 변경엔 human-in-the-loop, audit log 상시.

3. MCP 서버 보안 체크

직접 MCP 서버를 만들면(니치 MCP·사내 MCP):

모든 tool 호출에 인증 강제(미인증 tool 노출 금지).
DB 접근 tool은 파라미터 검증(db_name·식별자 미검증 SQL injection 차단), 스키마/테이블 구조 조회를 무방비 노출 금지.
인바운드 포트를 열지 말고 아웃바운드 역방향 터널(mTLS)로 노출(Secure MCP Tunnel 패턴).

4. 공격이 아니라 방어에 에이전트 활용

자율 취약점 스캔·수정: 공개 모델 에이전트 파이프라인으로 백엔드 보안 이슈를 자율 발견·검증·수정(Ramp ~100건/1주). 취약점 재현 대신 입증용 통합테스트를 작성하는 방식이 신뢰도 높다.
의존성 PR 트리아지: Renovate 의존성 PR을 에이전트가 read-only로 High/Med/Low 리스크 매트릭스화, High는 실제 import·breaking change 조사 후 PR 코멘트만. 쓰기 권한 없이 사람 판단을 돕는다.

5. 체크리스트

에이전트는 standing credential 0 — 프록시 주입, placeholder만 (ops §4).
에이전트 config·룰 파일(.cursorrules/CLAUDE.md/MCP)을 실행 코드로 취급 — 리뷰·SHA 핀·서명.
egress 통제 — 파괴 명령 차단, 민감 ops 인간 승인.
자체 MCP 서버: tool 인증·파라미터 검증·인바운드 포트 차단.
Production·destructive·결제 변경엔 human-in-the-loop + audit log.
탐지·대응 자동화 — AI 주도 공격의 속도를 인간 속도로 막을 수 없다.

References

AI Agent at the Wheel: CVE → internal DB in 4 pivots — Sysdig (첫 문서화 AI 주도 공격)
AI vulnerability exploitation & initial access — Google GTIG (AI 증강 멀웨어·LiteLLM 침해)
MCP servers SQL injection / unauth access 패턴 — Akamai (~300 서버 검토)
GitHub Actions cache poisoning — config를 실행 코드로
Credential Brokering for AI Agents — Infisical (Agent Vault)
Claw Patrol — denoland (egress 보안 방화벽)
100 vulnerabilities patched with 0 humans — Ramp (자율 보안 수정)

🔥 Austin's Wiki

Explorer