-
Observability는 하나의 플랫폼, 하나의 저장소에서 Log, Metric, Trace를 모두 해결할 수 있는 것을 목표로 하는 Elastic의 기능이다.
- Log, Metric, Trace 관리를 통해 로그를 분석하고, 인프라를 모니터링하고, 애플리케이션 성능 모니터링(APM)과 엔드유저 모니터링(RUM) 등을 수행한다.
-
Observability는 하나의 중앙 Agent(Fleet)을 통해 수천 개의 Agent를 관리하며, 한 번의 클릭으로 Agent설정을 변경하거나 업그레이드 할 수 있다.
-
Observability를 통해 Log, Metric, Trace, Security 등의 핵심 Beats Agent를 개별적으로 설치, 설정, 확장하는 것이 아닌, Elastic Agent for (Log, Metric, Trace, Uptime, Security, Window Data) 를 통해 하나의 관리 포인트로 관리할 수 있다.
-
Observability는 API 키를 사용함으로서, 최소 권한으로 더 나은 제어를 수행할 수 있다.
| BEFORE |
NOW(Observability) |
| Beats에서 아이디/패스워드 입력 |
Fleet 및 Elasticsearch에 대한 API 키 |
| 패스워드 YAML 설정에 저장 |
Fleet에서 자동으로 키 생성 |
| 기본 사용자 슈퍼 유저 권한 |
각 Agent에서 최소한의 권한으로 사용 |
| 하나 또는 몇 개의 비밀번호로 모든 Beats 사용 |
Agent 당 하나의 키로 쉽게 관리 가능 |
-
Fleet을 통해 여러 Agent를 중앙 Agent에서 관리함에 따라 얻을 수 있는 이점은 다음과 같다.
- 여러 Agent를 중앙에서 UI로 관리
- Elastic Agent 상태에 대한 빠른 가시성 확보
- Agent 설정 및 버전을 원격으로 업데이트
- 클릭 한 번으로 모든 Agent에서 Policy 업데이트 가능
Elastic Observability - 주요 기능
로그 분석
- Hybrid Colud를 위한 확장 가능한 중앙 집중식 로그 모니터링
- 로그 분류와 머신 러닝을 기반으로 한 로그 패턴 분석 및 이상 징후 탐지
- 클러스터 통합 검색을 통한 강력한 로그 검색 지원
- 데이터 계층을 통해 성능과 스토리지를 효율적으로 최적화
비용 효율적인 데이터 보관(/w data tiers)

-
데이터 종류별로 사용자 정의가 가능하며, 데이터 계층 이동 시 소스별로 사용자 정의가 가능하다 (계층간 유연한 데이터 이동 가능)
-
보관 주기는 무제한이다.
-
지속적으로 비용이 감소하며 장기 스토리지는 비용이 저렴하다.

끊김 없는 검색
- 전체 데이터에 대한 동일 UX를 지원한다. (복원 불필요)
효율적인 과거 데이터 검색

- 필요한 데이터만 로딩
- 로컬 캐시 사용
- 복원 작업 혹은 수동 개입 불필요
- 다른 접근 방식에 비해 빠른 쿼리 성능
- 하드웨어 비용 감소
- 오브젝트 스토리지 API 비용 감소
- 데이터 전송 비용 감소
APM
- End-to-End 분산 Tracing을 통한 코드 품질 향상
- ML 기반 상태 지표와 이상 징후 탐지 기능을 통해 신속한 문제 해결
- 상관 관계 분석을 통해 속도 저하 및 에러 근본 원인 식별
- OpenTelemetry와 Elastic Agent를 통해 별도의 설정 없이 즉시 사용 가능
분산 Tracing으로 End-to-End 분석
Profiling
- 다양한 언어와 컨테이너화된 환경 등 전반에서 시스템을 가시화 한다.
- Production 환경에서 낮은 오버헤드로 Profiling 사용이 가능하다
- 인프라, App 등 성능이 나오지 않거나 비효율적인 코드 및 함수를 식별 가능하다
- 컴퓨팅 자원 낭비 제거가 가능하다.
통합된 가시성
- On-Premiss/Cloud 인프라와 3-Tier 아키텍처에 대한 인사이트를 제공한다
- AWS, Azure, Google 상에 존재하는 350개 이상의 통합을 제공한다
- Kubernetes (On-Premiss/Cloud 모두 지원) 지원
- 복잡한 환경에서 문제 원인 빠르게 탐색 가능
통합 환경으로 silo 제거
- 모든 비즈니스 및 운영 데이터를 위한 단일 플랫폼
- Metric, Log, Trace를 Context 기반으로 연결해 빠르게 문제를 분석할 수 있다
- 개방형 공통 데이터 모델을 사용한다.
- 다양한 팀이 협업 할 수 있는 환경을 제공한다.
AIOps & ML
- 코딩이 필요하지 않은 빌트인 머신 러닝 기능
- 머신 러닝은 지도, 비지도 학습 모두 가능
- AI를 기반으로 하는 이상 징후 탐지
- 자동화 된 APM 상관 관계 생성으로 편리한 근본 원인 분석 가능
- 강력한 검색 기능을 통한 알려지지 않은 불확실한 일(unknown unknowns) 파악
- MTTD(평균 장애 인지 시간)와 MTTR(평균 복구 시간) 단축
사용자 경험 측정
- 시간의 흐름에 따른 인프라, 애플리케이션 및 비즈니스 동향 추적
- 고객 경험을 측정하고 사용자 여정을 능동적으로 파악 가능
- Frontend에서 Backend까지 한 번에 추적하여 문제 해결
- SLO(서비스 레벨 목표) 설정, SLI(서비스 레벨 지표) 및 SLA(서비스 레벨 계약) 측정
AI assistant
- Incident 관리 및 근본 원인 분석 지원
- 문제를 대화형으로 해결 (생성형 AI)
- LLM에 의존하지 않는 개방형 기능(ESRE)
- Context 기반으로 신뢰할 수 있는 데이터 제공
- 실제 데이터 기반으로 가이드 제공