Cloudera Data Engineering

Iceberg 기반 Apache Spark로 엔터프라이즈급 데이터 파이프라인을 구축, 오케스트레이션, 관리하세요. 클라우드부터 데이터 센터까지 확장 가능한 AI와 다기능 분석을 지원합니다.

개요

엔터프라이즈 데이터 엔지니어링의 개방형 표준

데이터 엔지니어링은 엔터프라이즈 팀이 개방형 레이크하우스를 기반으로 데이터 파이프라인을 안전하게 구축하고, 자동화하며, 확장할 수 있도록 지원합니다. 이를 통해 데이터의 위치에 관계없이 멀티 기능 분석과 AI를 구현할 수 있습니다.

Iceberg 기반 Apache Spark로 정형 및 비정형 데이터를 통합하고, Airflow로 오케스트레이션합니다. 완전한 개방형으로 벤더 종속 없이 사용할 수 있습니다.

컨테이너 기반의 유연성과 통합 거버넌스로 클라우드, 데이터 센터, 하이브리드 환경 등 어디서나 데이터 파이프라인을 구축, 실행 및 관리합니다.

워크로드 수준의 통합 가시성, 자동 확장, 제로 ETL 데이터 공유 등 리소스 최적화를 위한 재무 관리 도구로 비용 효율을 실현합니다.

사용 사례

엔드투엔드 데이터 파이프라인을 구축하여 AI 및 분석 속도를 높입니다.

어디서나 확장 가능한 데이터 파이프라인 구축

클라우드와 온프레미스 전반에서 워크로드 이동성, 오픈 표준, 확장성을 제공합니다.

오케스트레이션으로 DataOps 가속화

워크플로를 자동화하고, 파이프라인을 지속적으로 개선하며, 협업 과정을 간소화합니다.

제로 ETL 데이터 공유

내외부에서 안전하고 신뢰할 수 있는 데이터 액세스를 지원합니다.

파이프라인 비용 모니터링 및 최적화

통합 가시성과 효율적인 컴퓨팅으로 TCO를 절감합니다.

어디서나 확장 가능한 데이터 파이프라인 구축

클라우드와 온프레미스 전반에서 워크로드 이동성, 오픈 표준, 확장성을 제공합니다.

오케스트레이션으로 DataOps 가속화

워크플로를 자동화하고, 파이프라인을 지속적으로 개선하며, 협업 과정을 간소화합니다.

제로 ETL 데이터 공유

내외부에서 안전하고 신뢰할 수 있는 데이터 액세스를 지원합니다.

파이프라인 비용 모니터링 및 최적화

통합 가시성과 효율적인 컴퓨팅으로 TCO를 절감합니다.

20%

데이터 팀 효율성 강화

온프레미스 Cloudera의 이식성, 오케스트레이션, 통합 데이터 액세스로 효율성을 높이세요.

클라우드 네이티브 데이터 엔지니어링 경험으로 어디서나 Spark, Iceberg, Airflow를 실행할 수 있습니다.

웨비나 보기

직관적이고 엔터프라이즈 수준의 보안이 적용된 도구로 실무자 생산성을 높입니다

Sessions와 Apache Airflow로 파이프라인을 구축, 테스트, 오케스트레이션합니다.

고객 사례 읽기

워크로드 수준의 재무 거버넌스로 스마트하게 확장

기본 제공 인사이트와 에너지 효율적인 AWS Graviton 프로세서로 비용을 최적화합니다.

고객 사례 읽기

주요 특징

개방형 데이터 레이크하우스 환경에서 Iceberg 기반 Spark 컨테이너로 확장성과 거버넌스를 갖춘 파이프라인을 실행하세요. Iceberg의 스키마 진화, 타임 트래블, 외부 데이터 공유 기능을 온프레미스와 클라우드 전반에서 활용할 수 있습니다.

복잡한 워크플로를 드래그 앤 드롭 방식으로 오케스트레이션하여 작업 관리, 의존성 제어, 외부 도구 연동을 간소화합니다.

신속한 테스트와 반복 작업을 위해 즉시 실행 가능한 온디맨드 세션을 생성합니다. Spark Connect를 기반으로 VSCode와 Jupyter Notebook 등 어느 IDE에서나 안전한 원격 개발을 지원합니다.

소스 시스템의 행 단위 변경 사항을 캡처해 데이터를 최신 상태로 유지합니다. 지속적인 업데이트를 자동화하여 안정적인 데이터 파이프라인을 구축합니다.

통합된 데이터 계보와 메타데이터 관리 기능으로 파이프라인을 종합적으로 모니터링합니다. Cloudera Shared Data Experience(SDX) 와 Cloudera Octopai Data Lineage 를 기반으로, 하이브리드 환경 전반에서 자동화된 가시성, 거버넌스, 신뢰할 수 있는 인사이트를 제공합니다.

SQL, Java, Scala, Python 등 사용 언어에 관계없이 강력한 API로 모든 서비스에서 파이프라인 워크플로를 자동화합니다. 실시간 시각적 프로파일링으로 성능 문제를 신속하게 진단하고 해결하며, 모든 라이프사이클 단계에서 모니터링 및 알림 기능이 기본 제공됩니다.

Cloudera Data Engineering 클러스터 유형별 주요 기능

		코어 클러스터	범용 클러스터
인프라	자동 확장 클러스터
	스팟 인스턴스
	Cloudera Shared Data Experience
	Iceberg 기반 개방형 레이크하우스
Spark	작업 라이프사이클 관리
	중앙 집중식 모니터링
	워크플로 오케스트레이션(Airflow)
	Spark 스트리밍
개발 엔드포인트	대화형 세션
	외부 IDE 연결
	JDBC 커넥터(지원 예정)

Cloudera Data Engineering 배포 옵션

개방형 하이브리드 데이터 레이크하우스에서 통합 처리 계층을 제공합니다.

클라우드에서의 Cloudera

멀티 클라우드 유연성: 컨테이너화된 API 우선 서비스로 퍼블릭 클라우드 전반에 배포하세요. 종속성 없이 완전한 상호 운용성을 제공합니다.
모듈형 개발자 경험: Apache Airflow, 관리형 Spark, API, IDE를 활용하여 반복적인 협업으로 개발 속도를 높입니다.
탄력적 확장성: Spark 워크로드를 동적으로 자동 확장하고 사용량에 따라 비용을 최적화합니다.

온프레미스에서의 Cloudera

멀티 클라우드 유연성: 컨테이너화된 API 우선 서비스로 퍼블릭 클라우드 전반에 배포하세요. 종속성 없이 완전한 상호 운용성을 제공합니다.
클라우드와 동일한 경험: 클라우드와 동일한 이동성과 확장성을 하이브리드 환경에서도 구현하는 모듈식 컨테이너 서비스를 제공합니다.
엔터프라이즈용 설계: 신속한 온보딩, 외부 IDE 액세스, 세분화된 액세스 제어를 기본으로 제공합니다.