Skip to the content.

원문: A tutorial on statistical-learning for scientific data processing

과학적인 데이터 처리를 위한 통계적 학습 튜토리얼

통계적 학습

기계 학습(machine learning)은 실험 과학이 마주하고 있는 데이터셋(datasets)의 크기가 빠르게 커져감에 따라, 그 중요성이 커지고 있는 기술입니다. 기계 학습이 부딪히는 문제는 서로 다른 관측들을 연결하는 예측 함수를 구축하는 것부터, 관측들을 분류하거나, 레이블되지 않은 데이터셋 속의 구조를 배워가는 것까지 다양합니다.

이 튜토리얼은 통계적 추론(statistical inference)를 목표로 기계 학습 기술들을 사용하는 방법론인 통계적 학습을 탐구할 것입니다: 손에 쥔 데이터에 대한 결론을 만들어가는 것이죠.

사이킷런은 과학 파이썬(Python) 패키지들(넘파이(NumPy), 사이파이(SciPy), 맷플롯립(matplotlib))의 밀도 있게 짜여진 세계에서 고전적인 기계 학습 알고리즘들을 통합한 파이썬 모듈(module)입니다.

- 통계적 학습: 사이킷런에서의 설정과 추정기 객체

- 지도 학습: 고차원 관측으로부터 출력 변수 예측하기

- 모델 선택: 추정기와 매개변수 선택하기

- 비지도 학습: 데이터 표현법 찾기

- 모두 모으기