Spark saveAsTable() 동작 원리

Spark saveAsTable() 동작 원리 들어가며 Apache Spark에서 saveAsTable() 메소드는 DataFrame을 Hive 테이블로 저장하는 가장 일반적인 방법 중 하나다. 하지만 이 간단해 보이는 API 뒤에는 복잡한 메타데이터 관리와 파일 시스템 연산이...

Amazon EMR 6.12와 AWS Java SDK 충돌 문제 해결기

Amazon EMR 6.12 업그레이드 후 AWS Java SDK 버전 충돌로 인한 NoSuchMethodError 해결기 들어가며 운영 중인 Spark 애플리케이션의 성능 향상과 보안 패치를 위해 Amazon EMR 클러스터를 6.2.0에서 6.12.0으로 업그레이드했다. 하지만...

Zeppelin에서 HDFS 사용자 불일치로 인한 Permission Denied 문제 해결기

Zeppelin에서 HDFS 사용자 불일치로 인한 Permission Denied 문제 해결기 문제 발생 운영 환경에서 Zeppelin을 사용하여 데이터 분석 작업을 수행하던 중, Spark 인터프리터 설정을 변경하고 재시작하자마자 예상치 못한 에러가 발생했다. 에러...

Airflow Provider 패키지 버전 충돌 해결기

Airflow Provider 패키지 버전 충돌 해결기 문제 발생 Airflow 버전을 업그레이드하는 과정에서 Python Airflow DAG 모듈이 패키지를 import하는 과정에서 다음과 같은 에러가 발생했다. Kubernetes Executor는 Airflow 2.7.0 이상에서만 지원된다는 에러...

공유 Kubernetes 클러스터에서 발생한 Airflow Pod 중복 생성 및 회수 실패 해결기

공유 Kubernetes 클러스터에서 발생한 Airflow Pod 중복 생성 및 회수 실패 해결기 문제 상황 소속팀은 2개의 독립적인 Airflow 클러스터가 1개의 K8s 클러스터를 “공유”한다(불필요한 과금 축소를 위해). 2개의 Airflow 클러스터는 다음의...