어느새 4년차가 된 데이터 엔지니어의 2021년 회고
벌써 3년 차가 끝나고 4년 차 데이터 엔지니어가 되었습니다. 올 한 해를 정리하는 글입니다.
벌써 3년 차가 끝나고 4년 차 데이터 엔지니어가 되었습니다. 올 한 해를 정리하는 글입니다.
Airflow 버전에 따라서 의존성 때문에 slack operator 쓰기가 영 불편합니다. 그래서 python slack sdk로 slack operator를 대체하는 방법에 대해 정리해봅니다.
이번에는 콘솔을 통해 클라우드 자원을 관리할 수 있음에도 SDK를 통해 코드로 하는 이유를 정리해봅니다. 마우스 클릭 몇 번으로 제어가 가능한데, 왜 코드로 관리할 수 있도록 지원하는 걸까요?
스파크 클러스터의 아키텍처와 스파크 어플리케이션 작업 흐름에 대해 정리해봅니다. 내가 제출한 작업이 스파크 클러스터에서 어떻게 시작되고 종료되는지 알아보고 싶은 분에게 추천합니다. 이번엔 코드는 없습니다.
데이터 파이프라인(data pipeline)은 말 그대로 파이프처럼 한 데이터 처리 단계의 출력이 다음 단계의 입력이 되는 식으로 데이터의 흐름이 연결되는 구조를 말합니다. 데이터 파이프라인을 구축하는 아키텍처도 시간이 흐르면서 바뀌어왔는데요, 이번에는 원시적인 데이터 처리 아키텍...