정리 내용은 [2022 ADsP 데이터 분석 준전문가]책을 기반으로 작성하였습니다.
2022 ADsP 데이터 분석 준전문가 - 교보문고
본 도서는 한국데이터베이스진흥원에서 실시하고 있는 『데이터 분석 전문가(ADP)』 자격증과 『데이터 분석 준전문가(ADsP)』 자격증을 준비하는 수험생들을 위한 도서이다. 2014년 4월 이후 시행
www.kyobobook.co.kr
3. 회귀분석
1. 회귀분석의 개요
하나나 그 이상의 독립변수들이 종속변수에 미치는 영향을 추정할 수 있는 통계기법
변수들 사이의 인과관계를 밝히고 모형을 적합하여 관심 있는 변수를 예측하거나 추론하기 위한 분석 방법
독립변수의 개수가 하나 -> 단순 선형 회귀분석으로 분석
독립변수의 개수가 두 개 이상 -> 다중 선형 회귀분석으로 분석할 수 있다
회귀분석의 변수
변수 | 종류 |
영향받는 변수(y) | 반응변수, 종속변수, 결과변수 |
영향주는 변수(x) | 설명변수, 독립변수, 예측변수 |
선형 회귀분석의 가정
종류 | 내용 |
선형성 | 입력변수와 출력변수의 관게는 선형이다.(가장 중요한 가정 |
등분산성 | 오차의 분산이 입력변수와 무관하게 일정하다. 잔차플롯(산점도)를 잔차와 입력변수간에 아무런 관련성이없게 무작위적으로 골고루 분포되어야 하는 등분산성 가정을 만족하게 된다. |
독립성 | 입력변수와 오차는 관련이 없다. 자기상관(독립성)을 알아보기 위해 Durbin-Waston 통계량을 사용하여 주로 시계열 데이터에 많이 사용된다. |
비상관성 | 오차들끼리는 상관이 없다. |
정상성(정규성) | 오차의 분포는 정규분포를 따른다. Q-Q plot, Kolmogolov-sSmirnov 검정, Shaprio-Wilk 검정 등을 활용하여 정규성을 확인한다. |
그래프를 활용한 선형 회귀 분석의 가정 검토
선형성: 선형 회귀모형에서는 설명변수 x와 반응 변수 y가 선형 관계에 있음을 전재되어야 한다.
등분산성
- 등분산성을 만족: 설명변수 x에 대한 잔차의 산점도를 그렸을 때 설명변수 x값에 관계없이 잔차들의 변동성이 일정한 형태를 보임
- 등분산성을 만족 x: 설명변수 x가 커질수록 잔차의 분사가 줄어드는 이분산 형태 / 2차항 설명변수가 필요 / 새로운 설명변수가 필요
정규성: Q-Q Plot을 출력했을 때, 잔차가 대각선 방향의 직선의 형태를 지니고 있으면 잔차는 정규분포를 따른다고 할 수 있다.
가정에 대한 검증
단순 선형 회귀분석: 입력 변수와 출력 변수 간의 선형성을 점검하기 위해 산점도를 확인
다중 선형 회귀분석: 선형 회귀분석의 가정인 선형성, 등분산성, 독립성, 정상성 이 모두 만족하는지 확인해야 한다.
2. 단순 선형 회귀분석
하나의 독립변수가 종속변수에 미치는 영향을 추정할 수 있는 통계기법
회귀분석에서의 검토사항
1) 회귀 계수들이 유의미한가?: 해당 계수의 t 통계량의 p-값이 0.05보다 작으면 해당 회귀계수가 통계적으로 유의미하다고 볼 수 있다.
2) 모형은 얼마나 설명력을 갖는가?: 결정계수를 확인한다. 결정계수는 0~1 값을 가지며, 높은 값을 가질수록 추정된 회귀식의 설명력을 높인다.
3) 모형이 데이터를 잘 적합하고 있는가?: 잔차를 그래프로 그리고 회귀 진단을 한다.
회귀계수의 추정(최소 제곱 법, 최소 자승 법)
측정값을 기초로 하여 적당한 제곱합을 만들고, 그것을 최소로 하는 값을 구하여 측정값을 처리하는 방법으로 잔차 제곱이 가장 작은 선을 구하는 것을 의미
회귀분석의 검정
1) 회귀계수의 검정
회귀계수 β₁이 0이면 입력 변수 x와 출력 변수 y사이에는 아무런 인과관계가 없다.
회귀계수 β₁이 0이면 적합한 추정식은 아무 의미가 없게 된다.(귀무가설:β₁=0, 대립 가설:β₁≠0)
2) 결정계수
전체 제곱합(SST): 회귀식과 실제값의 차이를 제곱한 값(SST=SSR+SSE)
회귀 제곱합(SSR): 회귀식과 평균값의 차이, 모형이 설명하는 부분
오차 제곱합(SSE): 편차의 제곱합. 모형이 설명하지 부분
결정계수(R²)는 전체 제곱합에서 회귀 제곱 합의 비율(SSR/SST), 0≤R²≤1, 1에 가까울수록 설명력 높음
결정계수(R²)는 전체 데이터의 회귀모형이 설명할 수 있는 설명력을 의미(단순 회귀분석에서 결정계수는 상관계수 r의 제곱을 의미)
3) 회귀 직선의 적합도 검토
결정계수(R²)를 통해 추정된 회귀 식이 얼마나 타당한지 검토(결정계수(R²)가 1에 가까울수록 회귀모형임)
독립변수가 종속변수 변동의 몇 %를 설명하는지 나타내는지 표
다변량 회귀분석에서는 독립변수의 수가 많아지면 결정계수(R²)가 높아지므로 독립변수가 유의하든, 유의하지 않든 독립변수의 수가 많아지면 결정계수가 높아지는 단점이 있다.
이러한 결정계수의 단점을 보완하기 위해 수정된 결정계수(adjusted R²)를 활용한다. 수정된 결정계수는 결정계수보다 작은 값으로 산출된다.
오차와 잔차의 차이
오차: 모집단에서 실제값이 회귀선과 비교해 볼 때 나타나는 차이(정확치와 관측치 차이)
잔차: 표본에서 나온 관측값이 회귀선과 비교해볼 때 나타나는 차이
회귀모형에서 오차항은 측정할 수 없으므로 잔차를 오차항의 관찰 값으로 해석하여 오차항에 대한 가정들의 성립 여부를 조사함
3. 다중 선형 회귀분석
다중회귀식
모형의 통계적 유의성 (F 통계량 확인)
유의 수준 5% 하에 F 통계량의 p-값이 0.05보다 작으면 추정된 회귀식은 통계적으로 유의하다고 볼 수 있다.
F통계량이 크면 p-value가 0.05보다 작아지고, 이렇게 되면 귀무가설을 기각한다. 즉 모형이 유의하다고 결론
제곱합 | 자유도 | 제곱평균 | F-총계량 | |
회차 | 회차제곱합(SSR) | k | MSR=SSR/k | F=MSR/MSE |
오차 | 오차제곱합(SSE) | n-k+1 | MSE=SSE(n-k+1) | |
계 | 전체제곱합(SST) | n-1 |
회귀계수의 유의성 (t 통계량을 통해 확인)
모든 회귀계수의 유의성이 통계적으로 검증되어야 선택된 변수들의 조합으로 모형을 활용할 수 있다.
모형의 설명력
결정계수(R²)나 수정된 결정계수(R²)를 확인한다.
모형의 적합성
모형이 데이터를 적합하고 있는지 잔차와 종속변수의 산점도를 확인
데이터가 전제하는 가정을 만족시키는가?
선형성, 독립성, 등분산성, 빙상관성, 정상성
다중공선성
다중회귀분석에서 설명변수들 사이에 선형관계가 존재하면 회귀계수의 정확한 추정이 곤란하다.
다중공선성 검사방법
1) 분산 팽창 요인: 4보다 크면 다중공선성이 존재한다고 볼 수 있고, 10보다 크면 심각한 문제가 있는 것으로 해석
2) 상태 지수: 10 이상이면 문제가 있다고 보고, 30보다 크면 심각한 문제가 있다고 해석할 수 있다. 다중 선형 회귀분석에서 다중공선성 문제가 발생하면 문제가 있는 변수를 제거하거나 주성분 회귀, 능형회귀 모형을 적용하여 문제를 해결
4. 회귀분석의 종류
종류 | 모형 |
단순회귀 | 독립변수가 1개이며 종속변수와의 관계가 직선 |
다중회귀 | 독립변수가 k개이며 종속변수와의 관계가 선형(1차함수) |
로지스틱회귀 | 종속변수가 범주형(2진변수)인 경우에 적용되며, 단순 로지스틱 회귀 및 다중, 다항 로지스틱 회귀로 확장할 수 있음 |
다항회귀 | 독립변수와 종속변수와의 관계가 1차함수 이상인 관계 (단 k=1이면 2차함수 이상) |
곡선회귀 | 독립변수가 1개이며 종속변수와의 관계가 곡선 |
비선형회귀 | 회귀식의 모양이 미지의 모수들의 선형관계로 이뤄져 있지 않는 모형 |
5. 회귀분석 사례 - PASS
6. 최적 회귀 방식
종속변수에 유의미한 영향을 미칠 것으로 생각되는 독립변수를 찾는 방법
보통 모델의 성능을 향상하기 위해 사용
최적화 회귀 방정식의 선택
1) 설명 변수 선택
필요한 변수만 상황에 따라 타협을 통해 선택
y에 영향을 미칠 수 있는 모든 설명변수 x들은 y의 값을 예측하는데 참여한다.
데이터에 설명변수 x들의 수가 많아지면 관리하는데 많은 노력이 요구 -> 가능한 범위 내에서 적은 수의 설명변수 포함
2) 모형 선택
분석 데이터에 가장 잘 맞는 모형을 찾아내는 방법
모든 가능한 조합의 회귀 분석: 모든 가능한 독립변수들의 조합에 대한 회귀모형을 생성 & 가장 적합한 회귀모형 선택
3) 단계적 변수 선택
종류 | 내용 |
전진선택법 | 절편만 있는 상수모형으로부터 시작해 중요하다고 생각되는 설명변수로부터 차례로 모형에 추가 - 장점: 이해하기 쉽고, 변수의 개수가 많은 경우에도 사용 가능 - 단점: 변수값의 작은 변동에도 그 결과가 크게 달라져 안전성이 부족 |
후진제거법 | 독립변수 후보 모두 포함한 모형에서 출발해 가장 적은 영향을 주는 변수부터 하나씩 제거하면서 더이상 제거할 변수가 없을 때의 모형을 선택함 - 장점: 전체 변수들의 정보를 이용할 수 있음 - 단점: 변수의 개수가 많은 경우 사용하기 어려움 |
단계선택법 | 전진석택법에 의해 변수를 추가하면서 새롭게 추가된 변수에 기인해 기존 변수의 중요도가 약화되면 해당 변수를 제거하는 등 단계별로 추가 또는 제거되는 변수의 여부를 검토해 더 이상 없을 때 중단한다. |
벌점화된 선택 기준
모형의 복잡도에 벌점을 주는 방법. AIC와 BIC방법이 주로 사용
방법: AIC, BIC 방법
설명
모든 후보 모형들에 대해 AIC 또는 BIC를 계산하고 그 값을 최소가 되는 모형을 선택
모형 선택의 일치성: 자료가 늘어날 때 참인 모형이 주어진 모형 선택 기준의 최솟값을 갖게 되는 성질
이론적으로 AIC에 대해 일치성이 성립되지 않지만 BIC는 주요 분포에서 이러한 성질이 성립
AIC를 활용하는 방법이 보편화하는 방법 그 밖의 선택 기준으로 RIC, CIC가 있다.
4. 시계열 분석
1. 시계열 자료
시간의 흐름에 따라 관찰된 값들을 시계열 자료라고 한다.
시계열 데이터의 분석을 통해 미래의 값을 예측하고, 경향, 주기 계절성 등을 파악하여 활용한다.
비정상성 시계열 자료: 시계열 분석을 실시할 때 다루기 어려운 자료로 대부분의 시계열 자료가 이에 해당
정상성 시계열 자료: 비정상 시계열을 핸들링해 다루기 쉬운 시계열 자료로 변현환 자료
2. 정상성
평균이 일정한 경우
모든 시점에 대해 일정한 평균을 가진다.
평균이 일정하지 않은 시계열은 차분(difference)을 통해 정상화할 수 있다.
* 차분: 현시점 자료에서 전 시점 자료를 빼는 것 ( 일반 차분: 바로 전시점의 자료를 빼는 방법 / 계절 차분: 여러 시점 전의 자료를 빼는 것 방법, 주로 계절성을 갖는 자료를 정상화하는 데 사용 )
분산이 일정
분산도 시점에 의존하지 않고 일정해야 한다.
분산이 일정하지 않을 경우 변환(Transformation)을 통해 정상화할 수 있다.
공분산도 단지 시차에만 의존, 실제 특정 시점 t, s에는 의존하지 않는다.
정상 시계열의 모습과 특징
어떤 시점에서 평균과 분산 그리고 특정한 시차의 길이를 갖는 자기 공분산을 측정하더라도 동일 한 값을 갖는다.
항상 그 평균값으로 회귀하려는 경향이 있으며, 그 평균값 주변에서의 변동은 대체로 일정한 폭을 갖는다.
정상 시계열이 아닌 경우 특정 기간의 시계열 자료로부터 얻은 정보를 다른 시기로 일반화할 수 없다.
3. 시계열 분석방법
분석방법
회귀분석방법, Box-Jenkis방법, 지수 평활법, 시계열 분해법 등이 있다.
- 수학적 이론모형: 회귀분석(계량경제) 방법, Box-Jenkins 방법
- 직관적 방법: 지수 평활법, 시계열 분해법으로 시간에 따른 변동이 느린 데이터 분석에 활용
- 장기 예측: 회귀분석방법 활용
- 단기 예측: Box-Jenkins 방법, 지수 평활법, 시계열 분해법 활용
자료 형태에 따른 시계열 자료 분석방법
1) 일반량 시계열 분석:시간(t)을 설명변수로 한 회귀모형 주가, 소매물가지수 등 하나의 변수에 관심을 갖는 경우의 시계열 분석. Box-Jenkins(ARMA), 지수 평활법, 시계열 분해법 등이 있다
2) 다중 시계열 분석: 여러 개의 시간(t)에 따른 변수들을 활용하는 시계열 분석. 계량경제 모형, 전이 함수 모형, 개입 분석, 상태 공간 분석, 다변량 ARIMA 등
- 계량경제(econometrics): 시계열 데이터에 대한 회귀분석(예 : 이자율, 인플레이션이 환율에 미치는 요인)
이동평균법
과거로부터 현재까지의 시계열 자료를 대상으로 일정기간별 이동평균을 계산하고, 이들의 추세를 파악하여 다음 기간을 예측하는 방법.
시계열 자료에서 계절변동과 불규칙 변동을 제거 & 추세 변동과 순환 변동만 가진 시계열로 변환하는 방법으로도 사용
n개의 시계열 데이터를 m기간으로 이동 평균하면 n-m+1개의 이동평균 데이터가 생성된다.
특징
1) 간단하고 쉽게 미래를 예측할 수 있으며, 자료의 수가 많고 안정된 패턴을 보이는 경우 예측의 품질이 높음
2) 특정 기간 안에 속하는 시계열에 대해서는 동일한 가중치를 부여함
3) 일반적으로 시계열 자료에 뚜렷한 추세가 있거나 불규칙 변동이 심하지 않은 경우에는 짧은 기간(m의 개수를 적음)의 평균을 사용, 반대로 불규칙 변동이 심한 경우 긴 기간(m의 개수가 많음)의 평균을 사용함
4) 이동평균 법에서 가장 중요한 것은 적절한 기간을 사용하는 것, 즉, 적절한 n의 개수를 결정하는 것임
지수 평활법
모든 시계열 자료를 사용하여 평균을 구하며, 시간의 흐름에 따라 최근 시계열에 더 많은 가중치를 부여하여 미례 예측하는 방법 지수 평활 계수가 과거로 갈수록 지수 형태로 감소하는 형태인 것을 확인할 수 있다.
특징
1) 단기간에 발생하는 불규칙 변동을 평활하는 방법
2) 자료의 수가 많고, 안정된 패턴을 보이는 경우일수록 예측 품질이 높음
3) 지수 평활법에서 가중치의 역할을 하는 것은 지수 평활 계수이며, 불규칙 변동이 큰 시계열의 경우 지수 평활 계수는 작은 값을, 불규칙 변동이 작은 시계열의 경우 큰 값의 지수 평활 계수를 적용함
4) 지수 평활 계수는 예측 오차(실제 관측치와 예측치 사이의 잔차 제곱합)를 비교하여 예측 오차가 가장 작은 값을 선택하는 것이 바람직함
5) 지수 평활 계수는 과거로 갈수록 지속적으로 감소함
6) 지수 평활법은 불규칙 변동의 영향을 제거하는 효과가 있으며, 중기 예측 이상에 주로 사용됨(단, 단순 지수 평활법의 경우, 장기추세나 계정 변동이 포함된 시계열의 예측에는 적합하지 않음)
4. 시계열 모형
자기 회귀모형(AR 모형)
p 시점 전의 자료가 현재 자료에 영향을 주는 모형. 과거와 현재 자신과의 관계 정의
AR(1) 모형 : 직전 시점 데이터로만 분석
AR(2) 모형 : 연속된 2 시점 정도의 데이터로 분석
자기 상관 함수(ACF)는 빠르게 감소, 부분 자기 함수(PACF)는 어느 시점에서 절단점을 가진다. (ACF가 빠르게 감소하고, PCAF가 3 시점에서 절단점을 갖는 그래프가 있다면, 2 시점 전의 자료까지가 현재에 영향을 미치는 AR(2) 모형이라 볼 수 있다)
이동평균 회귀모형(MA 모형)
과거와 현재 자신의 오차와의 관계를 정의. 유한한 개수의 백색 잡음의 결합이므로 언제나 정상성을 만족
1차 이동평균 모형(MA1 모형)은 이동평균 모형 중에서 가장 간단한 모형으로 시계열이 같은 시점의 백색 잡음과 바로 전 시점의 백색 잡음의 결합으로 이뤄진 모형
2차 이동평균 모형(MA2 모형)은 바로 전 시점의 백색 잡음과 시차가 2인 백색 잡음의 결합으로 이뤄진 모형
자기 회귀 누적 이동평균 모형: (ARIMA(p, d, q) 모형)
비정상 시계열 모형. 현재와 추세 간의 관계를 정의
ARIMA 모형을 차분이나 변환을 통해 AR모형이나 MA 모형, 이 둘을 합친 ARMA모형으로 정상화할 수 있다.
p는 AR모형, q는 MA 모형과 관련이 있는 차수(ARIMA에서 ARMA로 정상화할 때 차분된 횟수 의미)
d=0이면, ARMA(p, q) 모형이라 부르고 정상성 만족함(ARMA(0,0)일 경우 정상화가 불필요)
p=0이면, IMA(d, q) 모형이라 부르고 d번 차분하면 MA(q) 모형을 따른다
q=0이면, IMA(p, d) 모형이라 부르고 d번 차분하면 AR(p) 모형을 따른다.
분해 시계열
시계열에 영향을 주는 일반적인 요인을 시계열에서 분리해 분석하는 방법. 회귀분석적인 방법을 주로 사용함
5. 다차원 척도 법
1. 다차원 척도법
객체 간 근접성을 시각화하는 통계기법
군집분석과 같이 개체들의 대상으로 변수들을 측정한 후에 개체들 사이의 유사성/비유 사성을 측정하여 개체들을 2차원 공간상에 점으로 표현하는 분석방법
개체들을 2차원 또는 3차원 공간상에 점으로 표현하여 개체들 사이의 집단화를 시각적으로 표현하는 분석방법
2. 다차원 척도 법 목적
데이터 속에 잠재해 있는 패턴, 구조를 찾아낸다.
그 구조를 소수 차원 공간에 기하학적으로 표현한다.
데이터 축소의 목적으로 다차원 척도 법을 이용한다. 즉, 데이터에 포함되는 정보를 끄집어내기 위해 다차워척도 법을 탐색 수단으로써 사용한다.
다차원척도법에 의해서 얻은 결과를 데이터가 만들어지는 현상이나 과정에 고유의 구조로서 의미를 부여한다.
3. 다차원 척도법 방법
개체들의 거리 계산에는 유클리드 거리행렬을 활용한다.
관측대상들의 상대적 거리의 정확도를 높이기 위해 적합 정도를 스트레스 값(Stress Value)으로 나타낸다.
각 개체들을 공간상에 표현하기 위한 방법은 부적합도 기준으로 STRESS나 S-STRESS를 사용한다.
최적모형의 적합은 부적합도를 최소로 하는 반복 알고리즘을 이용하며, 이 값이 일정 수준 이하가 될 때 최종적으로 적합된 모형으로 제시한다.
STRESS와 적합도 수준 M은 개체들은 공간상에 표현하기 위한 방법으로 STRESS나 S-STRESS를 부적합도 기준으로 사용한다. 최적모형의 적합은 부적합도를 최소로 하는 방법으로 일정 수준 이하로 될 때까지 반복해서 수행한다.
STRESS | 적합도 수준 |
0 | 완벽 |
0.05 이내 | 매우 좋은 |
0.05~0.10 | 만족 |
0.10~0.15 | 보통 |
0.15 이상 | 나쁨 |
4. 다차원 척도법 종류
계량적 MDS
전통적인 다차원 척도법 데이터의 구간 척도나 비율 척도인 경우 활용한다. N개의 케이스에 대해서 p개의 특성 변수가 있는 경우, 각 개체들 간의 유클리드 거리행렬을 계산하고, 개체들 간의 비유 사성 S(거리 제곱 행렬의 선형 함수)를 공간상에 표현한다.
비계량적 MDS
데이터가 순서 척도인 경우 활용한다. 개체들 간의 거리가 순서로 주어진 경우에는 순서 척도를 거리의 속성과 같도록 변환하여 거리를 생성한다.
6. 주성분 분석
1. 주성분 분석
여러 변수들의 변량을 주성분이라는 서로 상관성 높은 변수들의 선형 결합으로 만들어 기존의 상관성이 높은 변수들을 요약, 축소하는 기법
첫 번째 주성분으로 전체 변동을 가장 많이 설명할 수 있도록 하고, 두 번째 주성분으로는 첫 번째 주성분과는 상관성이 없어서(낮아서) 첫 번째 주성분이 설명하지 못하는 나머지 변동을 정보의 손실 없이 가장 많이 설명할 수 있도록 변수들의 선형 조합을 만든다.
2. 주성분 분석의 목적
여러 변수들 간에 내재하는 상관관계, 연관성을 이용해 소수의 주성분으로 차원을 축소함으로써 데이터를 이해하기 쉽고 관리하기 쉽게 해 준다.
다중공선성이 존재하는 경우, 상관성이 없는(적은) 주성분으로 변수들을 축소하여 모형 개발에 활용된다. 회귀분석 등의 모형 개발 시 입력 변수들 간의 상관관계가 높은 다중공선성이 존재할 경우 모형이 잘못 만들어져 문제가 생김
연관성이 높은 변수를 주성분 분석을 통해 차원을 축소한 후에 군집분석을 수행하면 군집화 결과와 연산속도를 개선할 수 있다.
기계에서 나오는 다수의 센서 데이터를 주성분 분석으로 차원을 축소한 후에 시계열로 분포나 추세의 변화를 분석하면 기계의 고장 징후를 사전에 파악하는데 활용하기도 한다.
3. 주성분 분석 vs 요인 분석
주성분분석 | 요인분석 | |
공통점 | 모든 데이터를 축소하는데 활용된다. 원래 데이터를 활용해서 몇개의 새로운 변수들을 만들 수 있다. | |
생성된 변수의 수 | 제 1주성분, 제 2주성분, 제 3주성분 정도로 활용한다.(대게 4개이상 넘지 않음) | 몇 개라고 지정없이(2 or 3,4,5..) 만들 수 있다. |
생성된 변수 이름 | 제 1주성분, 제 2주성분 등으로 표현 | 요인의 이름으로 명명 |
생성된 변수들 간의 관계 |
제 1주성분이 가장 중요하고, 그 다음 제 2주성분이 중요하게 취급된다. | 새 변수들은 기본적으로 대등한 관계를 갖고, 어떤것이 더 중요하다 라는 의미는 요인분석에서는 없다. 단, 분류/예측에 그 다음 단계로 사용된다면 그 떄 중요성의 의미가 부여된다. |
분석 방법 의미 | 목표변수를 고려하여 목표변수를 잘 예측/분류하기 위하여 원래 변수들의 선형 결합으로 이루어진 몇 개의 주성분(변수)들을 찾아내게 된다. | 목표변수를 고려하지 않고 그냥 데이터가 주어지면 변수들을 비슷한 성격들로 묶어서 새로운 (잠재) 변수들 만든다. |
주성분의 선택법
누적기여율: 85% 이상이면 주성분의 수로 결정할 수 있음
'Study > ADSP' 카테고리의 다른 글
[ADsP] 3과목 데이터 분석 - 5장 정형 데이터 마이닝 (2) (2) | 2022.03.10 |
---|---|
[ADsP] 3과목 데이터 분석 - 5장 정형 데이터 마이닝 (1) (0) | 2022.03.09 |
[ADsP] 3과목 데이터 분석 - 4장 통계분석 (1) (0) | 2022.03.07 |
[ADsP] 3과목 데이터 분석 - 3장 데이터마트 (0) | 2022.03.06 |
[ADsP] 3과목 데이터 분석 - 2장 R 프로그래밍 (0) | 2022.03.05 |