다중 분류 문제 성능평가 [ROC 곡선과 AUC]
이번 포스트에서는 ROC 곡선과 AUC에 대해 정리합니다. 다중분류문제 성능평가 [기본편]에서 이어집니다.
이번 포스트에서는 ROC 곡선과 AUC에 대해 정리합니다. 다중분류문제 성능평가 [기본편]에서 이어집니다.
어떤 모델, 혹은 방법을 쓰던 분류 문제는 그 의도에 따라 다양한 성능평가 방식을 사용합니다. 사람, 고양이, 개 3개의 클래스를 분류하는 다중 분류(multi label) 예제를 통해 정리해보겠습니다. 여기에서는 가장 기본이 되는 Accuracy, Recall, Precision...
스파크의 분산처리 능력을 머신러닝에 사용할 수 있습니다. 간단한 자연어 처리 예제와 함께 알아보겠습니다. 비교적 쉽게 접할 수 있는 scikit-learn, R, tensorflow와 달리 SparkML은 흔치 않지만, 나름대로의 장점이 있습니다.
모든 데이터 작업의 시작이자 끝인 ETL! 스파크를 이용하여 파일을 읽고, 변형하여 저장하는 방법에 대해 소개합니다. 데이터는 Kaggle의 Suicide Rates Overview 1985 to 2016를 사용했습니다.
2020년도 벌써 1.8개월이 지났습니다. 최근 급격히 바빠지면서 지난달에 세운 올해 상반기 목표 달성이 꽤 힘겹게 느껴지는데, 그 와중에 새로운 목표가 하나 더 생겼습니다. 일단 저질러놓고 수습하다 보면 무언가는 얻겠죠. 새로운 추가 목표는 글또(글 쓰는 또라이가 세상을 바꾼다)...