Recent posts

Slack SDK로 메세지 보내기 (with Airflow)

1 minute read

Airflow 버전에 따라서 의존성 때문에 slack operator 쓰기가 영 불편합니다. 그래서 python slack sdk로 slack operator를 대체하는 방법에 대해 정리해봅니다.

SDK를 쓰는 이유와 aws boto3

1 minute read

이번에는 콘솔을 통해 클라우드 자원을 관리할 수 있음에도 SDK를 통해 코드로 하는 이유를 정리해봅니다. 마우스 클릭 몇 번으로 제어가 가능한데, 왜 코드로 관리할 수 있도록 지원하는 걸까요?

Spark Cluster Architecture와 Application Lifecycle

2 minute read

스파크 클러스터의 아키텍처와 스파크 어플리케이션 작업 흐름에 대해 정리해봅니다. 내가 제출한 작업이 스파크 클러스터에서 어떻게 시작되고 종료되는지 알아보고 싶은 분에게 추천합니다. 이번엔 코드는 없습니다.

데이터 파이프라인과 아키텍처 변천사

5 minute read

데이터 파이프라인(data pipeline)은 말 그대로 파이프처럼 한 데이터 처리 단계의 출력이 다음 단계의 입력이 되는 식으로 데이터의 흐름이 연결되는 구조를 말합니다. 데이터 파이프라인을 구축하는 아키텍처도 시간이 흐르면서 바뀌어왔는데요, 이번에는 원시적인 데이터 처리 아키텍...