Mk’s Blog

어느새 4년차가 된 데이터 엔지니어의 2021년 회고

3 minute read

벌써 3년 차가 끝나고 4년 차 데이터 엔지니어가 되었습니다. 올 한 해를 정리하는 글입니다.

Slack SDK로 메세지 보내기 (with Airflow)

1 minute read

Airflow 버전에 따라서 의존성 때문에 slack operator 쓰기가 영 불편합니다. 그래서 python slack sdk로 slack operator를 대체하는 방법에 대해 정리해봅니다.

SDK를 쓰는 이유와 aws boto3

1 minute read

이번에는 콘솔을 통해 클라우드 자원을 관리할 수 있음에도 SDK를 통해 코드로 하는 이유를 정리해봅니다. 마우스 클릭 몇 번으로 제어가 가능한데, 왜 코드로 관리할 수 있도록 지원하는 걸까요?

Spark Cluster Architecture와 Application Lifecycle

2 minute read

스파크 클러스터의 아키텍처와 스파크 어플리케이션 작업 흐름에 대해 정리해봅니다. 내가 제출한 작업이 스파크 클러스터에서 어떻게 시작되고 종료되는지 알아보고 싶은 분에게 추천합니다. 이번엔 코드는 없습니다.

데이터 파이프라인과 아키텍처 변천사

5 minute read

데이터 파이프라인(data pipeline)은 말 그대로 파이프처럼 한 데이터 처리 단계의 출력이 다음 단계의 입력이 되는 식으로 데이터의 흐름이 연결되는 구조를 말합니다. 데이터 파이프라인을 구축하는 아키텍처도 시간이 흐르면서 바뀌어왔는데요, 이번에는 원시적인 데이터 처리 아키텍...

Moonsoo Kim

Recent posts

어느새 4년차가 된 데이터 엔지니어의 2021년 회고

Slack SDK로 메세지 보내기 (with Airflow)

SDK를 쓰는 이유와 aws boto3

Spark Cluster Architecture와 Application Lifecycle

데이터 파이프라인과 아키텍처 변천사