← 뒤로
800 운영/850 실행/recovery_2026-03-19_recovery_notes.md
recovery_2026-03-19_0800
요약
- 원본 리포트: recovery_20260319_0800.md
- 생성일: 2026-03-19 08:00 검사 완료
- 분해: 핵심 문제, 영향 범위, 조치 권고, 검증절차
문제 발견(핵심 증상)
- 서비스 A에서 3건의 재시작 과다 발생(2026-03-18 23:40--2026-03-19 07:50)
- DB 커넥션 누수 의심 로그 12건 발견
- 크론잡 X가 2회 연속 실패하여 큐에 1건의 backlog 발생
영향 범위
- 영향 서비스: service-A, cron-X, worker-pool
- 사용자 영향: 14분간 지연 발생(peak 2026-03-19 01:12)
- 가용성 영향: 서비스 A 오류율 평상시 대비 +2.4%p (baseline 0.6% → 3.0%)
원인(요약)
- 최근 배포된 DB 드라이버(v2.3.1)와 연결풀 버전 불일치로 인한 커넥션 해제 실패
- cron-X의 타임아웃 설정이 300초로 짧아 장기작업과 충돌
조치 내역(이미 수행된 것)
- 서비스 A 롤백(배포 이전 버전으로 복원) — 2026-03-19 02:10
- 문제 프로세스 재시작 및 임시 스케일아웃(워커 +1) — 2026-03-19 03:00
- 문제가 의심되는 cron-X를 일시 비활성화 — 2026-03-19 03:30
재발 방지 권고 (요약)
- 드라이버/풀 버전 호환성 테스트 표준화(자동화 테스트 포함)
- 크론 타임아웃 정책 재검토: 장기작업은 timeout >= 1800s로 설정
- 모니터링 경보 민감도 조정: 커넥션 누수 경보 임계값을 5건/10분에서 3건/5분으로 상향
메타
- 태그: #recovery #service-A #cron #db-connection #postmortem
- 작성자: cowork (자동생성)
- 링크: recovery_20260319_0800.md
- 검증 명령 예시: python3 scripts/check_service_health.py --service service-A --since "2026-03-18T20:00"
원자노트 종료