AI 에이전트 특유의 보안 위협과 방어를 정리합니다. 일반 웹/공급망 보안이 아니라 에이전트가 행위자가 되면서 생기는 위협에 한정합니다. 실행 격리(sandbox)·자격증명 프록시의 상세 설계는 AI 코딩 에이전트 운영 가이드 §4를 참조합니다. 빅테크 1차·실측 사례에 한정합니다.

1. 위협 지형

  • AI 주도 공격 (실측 1호): 공격자가 LLM 에이전트로 marimo CVE(RCE)→AWS 자격증명→Secrets Manager SSH 키→PostgreSQL 덤프를 수 분 만에 4단계 피벗(Sysdig). AI 지문: 존재하지 않는 테이블 덤프 시도, 외국어 내부 독백 주석, AI 특유 명령 포맷, 출력 기반 동적 명령 체이닝. 함의: 공격 속도·자동화가 인간 전제를 깬다 → 탐지·대응도 자동·실시간이어야 한다.
  • AI 증강 멀웨어: 동적 코드 생성·LLM 난독화·decoy 로직을 쓰는 악성코드, 그리고 LiteLLM 등 AI 인프라 공급망 침해(침해 시 AI 시스템 전반 접근)(GTIG).
  • 에이전트 config 주입: .cursorrules·CLAUDE.md·MCP 설정을 숨은 유니코드 등으로 변조해 에이전트 행동을 탈취. GitHub Actions cache poisoning처럼 권한 워크플로를 오염. 원칙: 에이전트 config·룰 파일을 “실행 코드”로 취급해 리뷰·핀·서명한다.
  • MCP 서버 취약점: ~300개 MCP 서버 검토에서 SQL injection·미인증 tool 접근·미인증 스키마/RAG 테이블 조회 패턴(Akamai). MCP 서버 = 초기 API처럼 보안 부재의 새 공격면.

2. 방어 — 에이전트를 신뢰 경계로

핵심 전제: 에이전트는 실수하거나 탈취될 수 있다. 권한·자격증명·네트워크를 에이전트 바깥에서 통제한다.

  • 자격증명 프록시 (credential brokering): 에이전트가 secret을 직접 들지 않고, 프록시가 아웃바운드에 인증을 주입하며 에이전트엔 placeholder만 준다. 침해돼도 훔칠 자격증명이 없다. (Agent Vault / Secure MCP Tunnel; 상세 → ops §4 control plane.)
  • 트래픽 통제 (egress firewall): 에이전트↔프로덕션 트래픽을 wire-level로 파싱해 SQL verb·K8s 리소스 등 프로토콜을 추출, 파괴 명령 차단·민감 ops는 인간 승인(Claw Patrol류). guard.py deny-list의 네트워크판.
  • 격리 + 파괴 호출 훅: 샌드박싱 + destructive-call 훅 + 격리 dev 환경으로 데이터 유출·시스템 손상을 막는다. 에이전트는 명령을 주의 깊게 읽도록 강제(수동 승인에만 의존하지 말 것).
  • 최소 권한·감사: 토큰별 scoped 권한, Production·결제·인프라 변경엔 human-in-the-loop, audit log 상시.

3. MCP 서버 보안 체크

직접 MCP 서버를 만들면(니치 MCP·사내 MCP):

  • 모든 tool 호출에 인증 강제(미인증 tool 노출 금지).
  • DB 접근 tool은 파라미터 검증(db_name·식별자 미검증 SQL injection 차단), 스키마/테이블 구조 조회를 무방비 노출 금지.
  • 인바운드 포트를 열지 말고 아웃바운드 역방향 터널(mTLS)로 노출(Secure MCP Tunnel 패턴).

4. 공격이 아니라 방어에 에이전트 활용

  • 자율 취약점 스캔·수정: 공개 모델 에이전트 파이프라인으로 백엔드 보안 이슈를 자율 발견·검증·수정(Ramp ~100건/1주). 취약점 재현 대신 입증용 통합테스트를 작성하는 방식이 신뢰도 높다.
  • 의존성 PR 트리아지: Renovate 의존성 PR을 에이전트가 read-only로 High/Med/Low 리스크 매트릭스화, High는 실제 import·breaking change 조사 후 PR 코멘트만. 쓰기 권한 없이 사람 판단을 돕는다.

5. 체크리스트

  • 에이전트는 standing credential 0 — 프록시 주입, placeholder만 (ops §4).
  • 에이전트 config·룰 파일(.cursorrules/CLAUDE.md/MCP)을 실행 코드로 취급 — 리뷰·SHA 핀·서명.
  • egress 통제 — 파괴 명령 차단, 민감 ops 인간 승인.
  • 자체 MCP 서버: tool 인증·파라미터 검증·인바운드 포트 차단.
  • Production·destructive·결제 변경엔 human-in-the-loop + audit log.
  • 탐지·대응 자동화 — AI 주도 공격의 속도를 인간 속도로 막을 수 없다.

References