Posts

  • Zeppelin HDFS 사용자 불일치 Permission Denied 문제

    운영 환경에서 Zeppelin을 사용하여 데이터 분석 작업을 수행하던 중, Spark 인터프리터 설정을 변경하고 재시작하자마자 예상치 못한 에러가 발생했다.

  • Airflow Provider 패키지 버전 충돌 문제

    Airflow 버전을 업그레이드하는 과정에서 Python Airflow DAG 모듈이 패키지를 import하는 과정에서 다음과 같은 에러가 발생했다.

  • 공유 Kubernetes 클러스터에서 Airflow Pod 중복 생성 및 회수 실패 문제

    소속팀은 2개의 독립적인 Airflow 클러스터가 1개의 K8s 클러스터를 “공유”한다(불필요한 과금 축소를 위해). 2개의 Airflow 클러스터는 다음의 환경에서 각각 운영된다.

  • Amazon MWAA에서 Kubernetes Pod 회수 실패 문제

    운영 환경에서 Amazon MWAA(Managed Workflows for Apache Airflow)를 사용하던 중 심각한 문제가 발생했다. KubernetesOperator를 통해 생성된 Pod가 작업 완료 후에도 회수되지 않고 계속 실행 중인 상태로 남아있어 클러스터 리소스를 불필요하게 점유하는 문제였다.

  • Spark에서 DynamoDB 쓰기 성능 저하 문제

    AWS EMR 환경에서 Spark 클러스터가 DynamoDB에 대용량 데이터를 쓰는 배치 작업 중에 심각한 성능 저하 문제가 발생했다. DynamoDB에 프로비저닝된 쓰기 용량 대비 실제 쓰기 처리량이 현저히 떨어지고, 배치 작업 시간이 5배 이상 증가하는 심각한 문제였다.

subscribe via RSS