Posts
-
Amazon EMR 6.12와 AWS Java SDK 충돌 문제
운영 중인 Spark 애플리케이션의 성능 향상과 보안 패치를 위해 Amazon EMR 클러스터를 6.2.0에서 6.12.0으로 업그레이드했다. 하지만 업그레이드 직후 예상치 못한 문제가 발생했다. 기존에 정상적으로 동작하던 Spark 애플리케이션이 Amazon Glue 카탈로그에서 메타데이터를 읽어오는 과정에서
NoSuchMethodError를 발생시키며 실패하기 시작한 것이다. -
Zeppelin HDFS 사용자 불일치 Permission Denied 문제
운영 환경에서 Zeppelin을 사용하여 데이터 분석 작업을 수행하던 중, Spark 인터프리터 설정을 변경하고 재시작하자마자 예상치 못한 에러가 발생했다.
-
Airflow Provider 패키지 버전 충돌 문제
Airflow 버전을 업그레이드하는 과정에서 Python Airflow DAG 모듈이 패키지를 import하는 과정에서 다음과 같은 에러가 발생했다.
-
공유 Kubernetes 클러스터에서 Airflow Pod 중복 생성 및 회수 실패 문제
소속팀은 2개의 독립적인 Airflow 클러스터가 1개의 K8s 클러스터를 “공유”한다(불필요한 과금 축소를 위해). 2개의 Airflow 클러스터는 다음의 환경에서 각각 운영된다.
-
Amazon MWAA에서 Kubernetes Pod 회수 실패 문제
운영 환경에서 Amazon MWAA(Managed Workflows for Apache Airflow)를 사용하던 중 심각한 문제가 발생했다.
KubernetesOperator를 통해 생성된 Pod가 작업 완료 후에도 회수되지 않고 계속 실행 중인 상태로 남아있어 클러스터 리소스를 불필요하게 점유하는 문제였다.
subscribe via RSS