Recent posts

[Airflow] 간단 설치

less than 1 minute read

다양한 extra pakages가 존재하나, 일단 기본 airflow를 설치합시다.

Spark SQL - 로우 분리하기

less than 1 minute read

데이터를 다루다보면 하나의 로우를 여러개로 분리해야하는 상황이 온다. 다음은 explode 를 활용한 예

Spark SQL - ROWID 대체

less than 1 minute read

Spark SQL에서 Oracle의 ROWID와 같은 기능을 사용해보자 한다. ROWID는 인덱스의 핵심이라고도 하는데, 이를 활용하여 중복제거, 유일성 부여 등의 작업이 가능하다.

Spark SQL - UPDATE 대체

1 minute read

spark sql에서는 update를 지원하지 않는다. (작성일 기준) RDD의 특성에 대해 생각해 보면 그 이유는 어렵지 않게 떠올릴 수 있지만, UPDATE를 주로 사용하는 오라클 쿼리를 spark버전으로 포팅하려는 입장(필자)에서는 굉장히 아쉬운 부분이다. 그래서 공부도 할 ...