1. 머신 러닝이란 명시적인 코딩없이 기계가 데이터로부터 학습 후 결과를 도출하는 것

  2. 사람이 해결하기 어려운 복잡한 문제, 수작업이 많이 필요하는 문제, 유동적인 환경(계속 변화하는)에 따른 문제, 데이터에서 통찰을 요구하는 문제

  3. 레이블된 훈련 세트란 정답이 있는 데이터 세트를 의미

  4. 가장 널리 사용되는 지도 학습: Regression, Classificatioin

  5. 보편적인 비지도 학습: Clustering, Dimensionality Reduction, Visualization, Association Rule Learning

  6. 사전 정보가 없는 로봇을 여러 지형에 걸어가기 위해 필요한 것은 강화학습 알고리즘

  7. 고객 여러 그룹으로 분할하기 위해서 비지도 학습 알고리즘 중 하나인 Clustering을 사용한다.
    • 추가 내용: 정해진 Class로 분류하기 위해서는 지도 학습 알고리즘인 Classification을 사용해야함.
  8. 스팸 감지 문제는 지도 학습에 관한 문제이다. 스팸인지 아닌지 Classification을 이용한다.

  9. 온라인 학습이란 미니 배치를 통해서 점진적 학습을 의미하며, 변화하는 데이터에 빠르게 적응하며 많은 데이터를 훈련 가능하다.

  10. 외부 메모리 학습이란 컴퓨터의 주메모리에 들어갈 수 없는 큰 데이터를 다룰 경우 미니 배치로 나누어서 점진적 학습을 하는 것

  11. 예측을 하기위해 유사도 측정에 의존하는 학습 알고리즘은 사례 기반 학습 알고리즘이다. 사례 기반 학습이란 시스템이 사례를 기억함으로써 학습하는 알고리즘이다.

  12. 모델의 파라미터와 학습 알고리즘의 하이퍼파라미터의 차이 모델의 파라미터는 데이터를 학습하여 새로운 데이터가 주어지면 그것을 예측한다. 학습 알고리즘의 하이퍼파라미터는 학습하는 동안 적용할 규제의 양과 같다.

  13. 모델 기반 알고리즘은 새로운 데이터에 관한 일반화된 모델의 파라미터 최적 값을 찾는 것이며, 이 알고리즘이 사용하는 가장 일반적인 전략은 훈련 데이터로 학습하며 Test데이터로 모델을 평가한다.
    • 추가 내용: 훈련 데이터에서 모델 복잡도에 대한 패널티를 더한 비용 함수를 최소화함으로써 시스템을 학습, 학습 알고리즘이 찾은 파라미터로 예측을 함
  14. 머신 러닝의 주요 도전 과제는 충분하지 않은 양의 훈련 데이터, 대표성 없는 훈련 데이터, 낮은 품질의 데이터(에러, noise), 관련 없는 특성 Overfitting, Underfitting 문제가 존재한다.

  15. Overfitting에 관한 문제이며, 해결하기 위해서는 1. 충분한 데이터 필요 2. feature 수를 줄이기(or 모델 단순화) 3. 훈련 데이터 nosie 감소

  16. 테스트 세트는 훈련된 모델이 제대로 훈련이 되어 있는지 평가하기 위해 존재하며, 새로운 샘플에 대한 일반화 오차를 측정한다.

  17. Validation Set는 모델을 비교하는데 사용하며, 하이퍼파라미터를 튜닝한다.

  18. 테스트 세트를 이용해서 하이퍼파라미터를 튜닝하면 테스트 세트에 과적합 위험이 있으며, 일반화 오차는 낮게 측정될 위험이 발생한다. 그러므로 Validation 세트를 이용한다.

  19. 교차 검증이란 훈련 세트를 여러 subset으로 나누고 이 subset 조합으로 학습하며, 나머지 부분으로 검증한다. 훈련 데이터를 최대한 활용할 수 있도록 해준다.