Chapter_1
-
머신 러닝이란 명시적인 코딩없이 기계가 데이터로부터 학습 후 결과를 도출하는 것
-
사람이 해결하기 어려운 복잡한 문제, 수작업이 많이 필요하는 문제, 유동적인 환경(계속 변화하는)에 따른 문제, 데이터에서 통찰을 요구하는 문제
-
레이블된 훈련 세트란 정답이 있는 데이터 세트를 의미
-
가장 널리 사용되는 지도 학습: Regression, Classificatioin
-
보편적인 비지도 학습: Clustering, Dimensionality Reduction, Visualization, Association Rule Learning
-
사전 정보가 없는 로봇을 여러 지형에 걸어가기 위해 필요한 것은 강화학습 알고리즘
- 고객 여러 그룹으로 분할하기 위해서 비지도 학습 알고리즘 중 하나인 Clustering을 사용한다.
- 추가 내용: 정해진 Class로 분류하기 위해서는 지도 학습 알고리즘인 Classification을 사용해야함.
-
스팸 감지 문제는 지도 학습에 관한 문제이다. 스팸인지 아닌지 Classification을 이용한다.
-
온라인 학습이란 미니 배치를 통해서 점진적 학습을 의미하며, 변화하는 데이터에 빠르게 적응하며 많은 데이터를 훈련 가능하다.
-
외부 메모리 학습이란 컴퓨터의 주메모리에 들어갈 수 없는 큰 데이터를 다룰 경우 미니 배치로 나누어서 점진적 학습을 하는 것
-
예측을 하기위해 유사도 측정에 의존하는 학습 알고리즘은 사례 기반 학습 알고리즘이다. 사례 기반 학습이란 시스템이 사례를 기억함으로써 학습하는 알고리즘이다.
-
모델의 파라미터와 학습 알고리즘의 하이퍼파라미터의 차이 모델의 파라미터는 데이터를 학습하여 새로운 데이터가 주어지면 그것을 예측한다. 학습 알고리즘의 하이퍼파라미터는 학습하는 동안 적용할 규제의 양과 같다.
- 모델 기반 알고리즘은 새로운 데이터에 관한 일반화된 모델의 파라미터 최적 값을 찾는 것이며,
이 알고리즘이 사용하는 가장 일반적인 전략은 훈련 데이터로 학습하며 Test데이터로 모델을 평가한다.
- 추가 내용: 훈련 데이터에서 모델 복잡도에 대한 패널티를 더한 비용 함수를 최소화함으로써 시스템을 학습, 학습 알고리즘이 찾은 파라미터로 예측을 함
-
머신 러닝의 주요 도전 과제는 충분하지 않은 양의 훈련 데이터, 대표성 없는 훈련 데이터, 낮은 품질의 데이터(에러, noise), 관련 없는 특성 Overfitting, Underfitting 문제가 존재한다.
-
Overfitting에 관한 문제이며, 해결하기 위해서는 1. 충분한 데이터 필요 2. feature 수를 줄이기(or 모델 단순화) 3. 훈련 데이터 nosie 감소
-
테스트 세트는 훈련된 모델이 제대로 훈련이 되어 있는지 평가하기 위해 존재하며, 새로운 샘플에 대한 일반화 오차를 측정한다.
-
Validation Set는 모델을 비교하는데 사용하며, 하이퍼파라미터를 튜닝한다.
-
테스트 세트를 이용해서 하이퍼파라미터를 튜닝하면 테스트 세트에 과적합 위험이 있으며, 일반화 오차는 낮게 측정될 위험이 발생한다. 그러므로 Validation 세트를 이용한다.
- 교차 검증이란 훈련 세트를 여러 subset으로 나누고 이 subset 조합으로 학습하며, 나머지 부분으로 검증한다. 훈련 데이터를 최대한 활용할 수 있도록 해준다.
Leave a comment