Recent posts

Hive Partition 다루기

2 minute read

파티셔닝으로 데이터를 분할함으로써 쿼리가 스캔하는 데이터의 양을 제한하여 성능을 향상시킬 수 있습니다. 관리도 훨씬 편해집니다.

Hive Table 다루기

2 minute read

스파크는 하이브 메타스토어를 사용하기 때문에 하이브와 연동이 자연스럽습니다. 이번 포스트에서는 하이브 테이블의 생성, 삭제, 삽입, 변경 등을 알아보겠습니다. 하이브에는 관리형 테이블과 외부 테이블이라는 생소한? 개념이 있습니다.

Little Tips For Spark

less than 1 minute read

스파크를 사용하며 얻은 팁을 정리해보았습니다. 데스크탑 환경에서는 좌측 사이드바에서, 모바일에서는 제목 위의 Toggle Menu를 누르시면 스파크 관련 글을 확인할 수 있습니다.

Spark로 실시간 데이터 처리하기 (Trigger)

1 minute read

구조적 스트리밍은 트리거를 통해 언제 출력할지 결정할 수 있습니다. 기본적으로는 이전 작업이 끝나면 (마이크로 배치) 바로 다음 작업에 들어가지만, 너무 빠른 속도로 끝없이 동작하면 부하가 많이 가기 때문에 인터벌(100초 간격 등)을 설정하거나, 단 한번만 작동하도록 설정할 수 ...

Spark로 실시간 데이터 처리하기 (Intro)

5 minute read

실시간으로 입수되는 데이터를 Spark로 처리하는 방법에 대해 정리합니다. 스파크 2.2버전 기준으로 작성되었습니다. 스파크 3.0의 정식 릴리즈를 기다리며