에이전트 시스템을 Kubernetes에서 운영하기

이 문서에서는 LLM 에이전트 시스템을 Kubernetes에 배포·운영할 때, 일반 마이크로서비스 운영 가정이 깨지는 지점을 정리합니다. 워크로드 격리·정책 코드화(Kyverno)·네트워크 정책(Cilium)·인증서 관리(cert-manager)·전후처리·모니터링 같은 표준 클라우드네이티브 조합은 그대로 쓰되, 에이전트 특유의 비결정성과 위임 구조 때문에 추가로 신경 써야 하는 4가지와 새 공격면 1가지를 다룹니다.

1. 에이전트 ID는 “파드 신원”이 아니라 “위임된 권한”이다

cert-manager가 발급하는 mTLS 인증서는 서비스(파드) 신원까지만 보장합니다. 에이전트의 진짜 어려운 문제는 *“누구를 대신해, 무슨 권한으로 행동하는가”*입니다.

필요한 것은 human principal에 묶인 위임 체인(human → agent → tool call)이고, hop마다 권한이 좁아져야 합니다.
워크로드 신원 자체는 SPIFFE/SPIRE로 표준화할 수 있으나(table stakes), 그 위에 per-call 단위로 좁혀지는 인가(derived authority, non-exportable key 기반 proof-of-possession)가 프런티어입니다.
안티패턴: 에이전트가 실행 주체(엔지니어)의 full operator 자격증명을 그대로 상속받는 것. 권한 스코핑·승인 게이트 부재 시 단일 실수가 프로덕션 전체 삭제로 번진다(Amazon Kiro 13시간 장애 사례).

2. 비결정성 때문에 static NetworkPolicy로 egress를 “열거”할 수 없다

마이크로서비스는 같은 입력 → 같은 호출이라 “이 서비스가 어디로 나가는지”를 정적으로 적을 수 있습니다. 에이전트는 같은 입력에도 **다른 경로(다른 tool·다른 egress)**를 타서 네트워크 표면이 emergent합니다.

해결: 행동을 예측하는 게 아니라 identity → 허용 MCP 서버 allowlist + deny-by-default egress로 가둔다.
정책 판정의 무게중심이 “이 파드가 OK인가”(인프라 모양)에서 “이 호출의 파라미터가 OK인가”(per-action)로 이동한다. OPA/Kyverno가 보는 대상이 admission이 아니라 제안된 action 자체가 된다.

3. 비싼 비결정 컴포넌트(LLM) 앞에 싸고 결정적인 필터를 둔다

모든 이벤트를 LLM에 그대로 먹이지 말 것.

classical ML / 규칙 기반 pre-filter를 LLM 앞단에 둬서 ① 토큰 비용을 줄이고 ② LLM이 저신호 이벤트를 보지 않게 한다.
운영 비용(헤비 트래픽 시 LLM 호출 폭증)과 안전(판단 표면 축소)을 동시에 잡는 구조적 패턴.

4. human gate는 LLM 바깥에서 deterministic하게 트리거돼야 한다

“고위험이면 사람을 부른다”를 LLM 자기 판단에 맡기면 순환이다 — 신뢰하지 못하는 주체가 언제 도움을 청할지를 스스로 정하게 된다.

에스컬레이션 트리거(confidence 임계·민감 자산 목록·blast-radius)는 LLM 밖의 결정적 규칙으로 둔다.
human 검토로의 에스컬레이션은 에러 경로가 아니라 설계된 정상 종결 상태다.

5. A2A(agent ↔ agent)는 새로운 lateral 공격면이다

MCP(agent ↔ tool, 수직): tool 서버를 내가 통제하므로 경계가 비교적 명확.
A2A(agent ↔ agent, 수평): 에이전트 간 암묵적 신뢰를 악용하는 “agent session smuggling” 표면이 열린다. 통신 자체가 “정상”이라 NetworkPolicy로 안 잡힌다.
A2A 도입 시 에이전트 간 신뢰 관계를 별도로 검증·제약해야 한다.

정리

표준 K8s 보안 primitive(Cilium·OPA·Kyverno·cert-manager·Falco)를 멀티에이전트에 조합하는 것 자체는 신규 기술이 아니다. 실제 난도는 ① 위임 기반 ID(SPIFFE/SPIRE + per-call 인가), ② 비결정성으로 인한 deny-by-default egress + per-action 정책, ③ LLM 앞 결정적 pre-filter, ④ LLM 밖 deterministic human gate, ⑤ A2A lateral 표면 — 즉 에이전트가 마이크로서비스 가정을 깨는 5개 지점에 있다.

참고

일반화 출처 — CNCF: Why cloud native belongs at the heart of agentic AI (Orange Innovation, 멀티에이전트 보안 플랫폼 on K8s)
섹션 1 워크로드 신원 — SPIFFE / Red Hat: SPIFFE and SPIRE
섹션 1 per-call 인가·bearer token 한계 — Anthropic Zero Trust for AI Agents — the bearer token fails it (Dick Hardt)
섹션 5 A2A session smuggling — Unit 42: Agent Session Smuggling in Agent2Agent Systems
안티패턴 사례(Kiro) — Coding Agent Horror Stories: The 13-Hour AWS Outage (Docker)

🔥 Austin's Wiki

Explorer

에이전트 시스템을 Kubernetes에서 운영하기

1. 에이전트 ID는 “파드 신원”이 아니라 “위임된 권한”이다

2. 비결정성 때문에 static NetworkPolicy로 egress를 “열거”할 수 없다

3. 비싼 비결정 컴포넌트(LLM) 앞에 싸고 결정적인 필터를 둔다

4. human gate는 LLM 바깥에서 deterministic하게 트리거돼야 한다

5. A2A(agent ↔ agent)는 새로운 lateral 공격면이다

정리

참고

Graph View

Table of Contents

Backlinks