Recent posts

다중 분류 문제 성능평가 [기본편]

5 minute read

어떤 모델, 혹은 방법을 쓰던 분류 문제는 그 의도에 따라 다양한 성능평가 방식을 사용합니다. 사람, 고양이, 개 3개의 클래스를 분류하는 다중 분류(multi label) 예제를 통해 정리해보겠습니다. 여기에서는 가장 기본이 되는 Accuracy, Recall, Precision...

Machine Learning with Spark (Spark로 머신러닝하기)

8 minute read

스파크의 분산처리 능력을 머신러닝에 사용할 수 있습니다. 간단한 자연어 처리 예제와 함께 알아보겠습니다. 비교적 쉽게 접할 수 있는 scikit-learn, R, tensorflow와 달리 SparkML은 흔치 않지만, 나름대로의 장점이 있습니다.

Data ETL with Spark (Spark로 데이터 처리하기)

8 minute read

모든 데이터 작업의 시작이자 끝인 ETL! 스파크를 이용하여 파일을 읽고, 변형하여 저장하는 방법에 대해 소개합니다. 데이터는 Kaggle의 Suicide Rates Overview 1985 to 2016를 사용했습니다.

글또와 함께 글쓰기 습관들이기

1 minute read

2020년도 벌써 1.8개월이 지났습니다. 최근 급격히 바빠지면서 지난달에 세운 올해 상반기 목표 달성이 꽤 힘겹게 느껴지는데, 그 와중에 새로운 목표가 하나 더 생겼습니다. 일단 저질러놓고 수습하다 보면 무언가는 얻겠죠. 새로운 추가 목표는 글또(글 쓰는 또라이가 세상을 바꾼다)...

선분이력이란 무엇인가

2 minute read

선분이력 테이블은 시작 시점과 종료 시점을 관리함으로써 과거 특정 시점의 데이터 조회를 손쉽게 할 수 있습니다. 또한, 특정 레코드의 상태 변경 이력을 손쉽게 확인 할 수 있습니다.