Recent posts

도커와 쿠버네티스를 이해하기 위한 로드맵 & 가이드

2 minute read

도커, 컴포즈까지는 이제 좀 익숙하게 쓰는데, 쿠버네티스는 뭔가 개념도 어렵고 이해가 잘 안 되더라구요. 좋은 공부 자료를 찾아서 조금 숨통이 트이게 되었는데, 같은 어려움을 가진 분들께 공유하고자 합니다.

Spark - 까다로운 텍스트 파일 읽기

1 minute read

구분자 두 개와 함께 들어올 수도 있고 안들어올 수도 있는 형식에 맞지 않는 헤더를 가진 텍스트 파일 처리 - DataFrameAPI로는 조금 까다로운 파일을 textFile 과 rdd의 map 을 이용해서 처리해봅니다.

2020년 회고 및 21년 다짐

2 minute read

상반기 회고를 애매하게 8월에 쓰고, 1월이 되어서야 2020년 회고 및 새해 다짐을 해봅니다.

spark write parquet with null

1 minute read

spark sql로 작업을 하다보면 auto schema 때문에(혹은 연산을 거친 후에) 형식이 바뀌는 경우가 발생하는데, 갑자기 튀어나오는 Null이 종종 문제가 됩니다. 파케이로 저장하면 Null 형식을 지원하지 않는다고 하면서 에러를 뿜거든요.