Monitoring#005

Prometheus 메모리 부족으로 인한 반복 재시작 해결

prometheusoomtsdbcardinalityretention

상황

Kubernetes 클러스터에서 Prometheus가 OOMKilled로 반복 재시작되고 있습니다. 메모리 제한을 4Gi에서 8Gi로 늘렸지만 여전히 문제가 발생합니다. 지난주까지는 4Gi에서 안정적으로 동작했습니다. 제공된 정보를 교차 분석하여 근본 원인을 찾으세요.

제공 데이터

Containers:
  prometheus:
    Image:       prom/prometheus:v2.49.0
    Limits:
      memory: 8Gi
    Requests:
      memory: 4Gi
    State:       Waiting
      Reason:    CrashLoopBackOff
    Last State:  Terminated
      Reason:    OOMKilled
      Exit Code: 137
    Restart Count: 7
해결 노트