๊ธ๋ก๋ฒ ํ๊ฒฝ์์์ ๋ฐ์ดํฐ ๊ธฐ๋ฐ ์์ฌ๊ฒฐ์ ์ ์ํ ํต๊ณ ๋ถ์์ ํต์ฌ ๊ฐ๋ , ๋ฐฉ๋ฒ, ํ์ฉ๋ฒ์ ๋ค๋ฃจ๋ ์ด๋ณด์์ฉ ์ข ํฉ ์๋ด์.
ํต๊ณ ๋ถ์ ๊ธฐ์ด: ๊ธ๋ก๋ฒ ์ ๋ฌธ๊ฐ๋ฅผ ์ํ ์ข ํฉ ๊ฐ์ด๋
์ค๋๋ ๊ณผ ๊ฐ์ ๋ฐ์ดํฐ ์ค์ฌ์ ์ธ์์์, ์ง์ ์ด๋ ์์น์ ๊ด๊ณ์์ด ์ ๋ณด์ ์ ๊ฐํ ๊ฒฐ์ ์ ๋ด๋ฆฌ๊ธฐ ์ํด์๋ ํต๊ณ ๋ถ์์ ๋ํ ์ดํด๊ฐ ๋งค์ฐ ์ค์ํฉ๋๋ค. ์ด ๊ฐ์ด๋๋ ๋ค์ํ ๋ฐฐ๊ฒฝ์ ๊ฐ์ง ๊ธ๋ก๋ฒ ๋ ์๋ค์ ์ํด ํต๊ณ ๋ถ์์ ๊ธฐ๋ณธ ๊ฐ๋ ๊ณผ ๊ธฐ๋ฒ์ ๋ํ ํฌ๊ด์ ์ธ ๊ฐ์๋ฅผ ์ ๊ณตํฉ๋๋ค. ๊ธฐ์ด๋ฅผ ํ๊ตฌํ๊ณ , ๋ณต์กํ ์ ๋ฌธ ์ฉ์ด๋ฅผ ์ฝ๊ฒ ์ค๋ช ํ๋ฉฐ, ๋ฐ์ดํฐ๋ฅผ ํจ๊ณผ์ ์ผ๋ก ํ์ฉํ ์ ์๋๋ก ์ค์ฉ์ ์ธ ์์๋ฅผ ์ ๊ณตํฉ๋๋ค.
ํต๊ณ ๋ถ์์ด๋ ๋ฌด์์ธ๊ฐ?
ํต๊ณ ๋ถ์์ ํจํด, ์ถ์ธ, ๊ด๊ณ๋ฅผ ํ์ ํ๊ธฐ ์ํด ๋ฐ์ดํฐ๋ฅผ ์์ง, ๊ฒํ , ํด์ํ๋ ๊ณผ์ ์ ๋๋ค. ์ด๋ ํต๊ณ์ ๋ฐฉ๋ฒ์ ์ฌ์ฉํ์ฌ ๋ฐ์ดํฐ๋ฅผ ์์ฝ, ๋ถ์ํ๊ณ ๊ฒฐ๋ก ์ ๋์ถํ์ฌ ์ ๋ณด์ ์ ๊ฐํ ๊ฒฐ์ ๊ณผ ์์ธก์ ๊ฐ๋ฅํ๊ฒ ํฉ๋๋ค. ํต๊ณ ๋ถ์์ ๋น์ฆ๋์ค์ ๊ธ์ต๋ถํฐ ์๋ฃ ๋ฐ ์ฌํ ๊ณผํ์ ์ด๋ฅด๊ธฐ๊น์ง ๊ด๋ฒ์ํ ๋ถ์ผ์์ ํ์์ ์ดํดํ๊ณ , ๊ฐ์ค์ ๊ฒ์ฆํ๋ฉฐ, ๊ฒฐ๊ณผ๋ฅผ ๊ฐ์ ํ๊ธฐ ์ํด ์ฌ์ฉ๋ฉ๋๋ค.
๊ธ๋ก๋ฒ ํ๊ฒฝ์์ ํต๊ณ ๋ถ์์ ์ค์์ฑ
์ ์ ๋ ์ํธ ์ฐ๊ฒฐ๋๋ ์ธ์์์ ํต๊ณ ๋ถ์์ ๊ธ๋ก๋ฒ ํธ๋ ๋๋ฅผ ์ดํดํ๊ณ , ์ฌ๋ฌ ์ง์ญ์ ์ฑ๊ณผ๋ฅผ ๋น๊ตํ๋ฉฐ, ์ฑ์ฅ๊ณผ ๊ฐ์ ์ ๊ธฐํ๋ฅผ ์๋ณํ๋ ๋ฐ ์ค์ํ ์ญํ ์ ํฉ๋๋ค. ์๋ฅผ ๋ค์ด, ๋ค๊ตญ์ ๊ธฐ์ ์ ํต๊ณ ๋ถ์์ ์ฌ์ฉํ์ฌ ์ฌ๋ฌ ๊ตญ๊ฐ์ ํ๋งค ์ค์ ์ ๋น๊ตํ๊ณ , ๊ณ ๊ฐ ๋ง์กฑ๋์ ์ํฅ์ ๋ฏธ์น๋ ์์ธ์ ํ์ ํ๊ฑฐ๋, ๋ค์ํ ๋ฌธํ์ ๋งฅ๋ฝ์ ๊ฑธ์ณ ๋ง์ผํ ์บ ํ์ธ์ ์ต์ ํํ ์ ์์ต๋๋ค. ๋ง์ฐฌ๊ฐ์ง๋ก ์ธ๊ณ๋ณด๊ฑด๊ธฐ๊ตฌ(WHO)๋ ๊ตญ์ ์ฐํฉ(UN)๊ณผ ๊ฐ์ ๊ตญ์ ๊ธฐ๊ตฌ๋ ๊ธ๋ก๋ฒ ๋ณด๊ฑด ๋ํฅ์ ๋ชจ๋ํฐ๋งํ๊ณ , ๊ฐ๋ฐ ํ๋ก๊ทธ๋จ์ ์ํฅ์ ํ๊ฐํ๋ฉฐ, ์ ์ฑ ๊ฒฐ์ ์ ๋ด๋ฆฌ๋ ๋ฐ ํต๊ณ ๋ถ์์ ํฌ๊ฒ ์์กดํฉ๋๋ค.
ํต๊ณ ๋ถ์์ ์ ํ
ํต๊ณ ๋ถ์์ ํฌ๊ฒ ๋ ๊ฐ์ง ์ฃผ์ ๋ฒ์ฃผ๋ก ๋ถ๋ฅํ ์ ์์ต๋๋ค:
- ๊ธฐ์ ํต๊ณ(Descriptive Statistics): ์ด ๋ฐฉ๋ฒ๋ค์ ๋ฐ์ดํฐ์ ์ ์ฃผ์ ํน์ง์ ์์ฝํ๊ณ ์ค๋ช ํ๋ ๋ฐ ์ฌ์ฉ๋ฉ๋๋ค. ๋ฐ์ดํฐ์ ์ค๋ ์ท์ ์ ๊ณตํ์ฌ ์ค์ฌ ๊ฒฝํฅ์ฑ, ๋ณ๋์ฑ ๋ฐ ๋ถํฌ๋ฅผ ์ดํดํ ์ ์๊ฒ ํฉ๋๋ค.
- ์ถ๋ก ํต๊ณ(Inferential Statistics): ์ด ๋ฐฉ๋ฒ๋ค์ ๋ฐ์ดํฐ ํ๋ณธ์ ๊ธฐ๋ฐ์ผ๋ก ๋ ํฐ ๋ชจ์ง๋จ์ ๋ํ ๊ฒฐ๋ก ์ ๋์ถํ๋ ๋ฐ ์ฌ์ฉ๋ฉ๋๋ค. ํต๊ณ์ ๊ธฐ๋ฒ์ ์ฌ์ฉํ์ฌ ๊ฐ์ค์ ๊ฒ์ฆํ๊ณ , ๋ชจ์๋ฅผ ์ถ์ ํ๋ฉฐ, ๋ชจ์ง๋จ์ ๋ํ ์์ธก์ ํฉ๋๋ค.
๊ธฐ์ ํต๊ณ
๊ธฐ์ ํต๊ณ๋ ๋ฐ์ดํฐ์ ๋ํ ๊ฐ๊ฒฐํ ์์ฝ์ ์ ๊ณตํฉ๋๋ค. ์ผ๋ฐ์ ์ธ ๊ธฐ์ ํต๊ณ๋ ๋ค์๊ณผ ๊ฐ์ต๋๋ค:
- ์ค์ฌ ๊ฒฝํฅ ์ธก์ : ์ด ์ธก์ ๊ฐ์ ๋ฐ์ดํฐ์
์ ์ผ๋ฐ์ ์ด๊ฑฐ๋ ํ๊ท ์ ์ธ ๊ฐ์ ์ค๋ช
ํฉ๋๋ค. ๊ฐ์ฅ ์ผ๋ฐ์ ์ธ ์ค์ฌ ๊ฒฝํฅ ์ธก์ ๊ฐ์ ๋ค์๊ณผ ๊ฐ์ต๋๋ค:
- ํ๊ท (Mean): ๋ชจ๋ ๊ฐ์ ๋ํ ํ ๊ฐ์ ๊ฐ์๋ก ๋๋ ํ๊ท ๊ฐ์ ๋๋ค. ์๋ฅผ ๋ค์ด, ํน์ ๋์ ์๋ฏผ์ ํ๊ท ์๋.
- ์ค์๊ฐ(Median): ๋ฐ์ดํฐ๋ฅผ ์์๋๋ก ๋ฐฐ์ดํ์ ๋ ์ค๊ฐ์ ์์นํ๋ ๊ฐ์ ๋๋ค. ๋ฐ์ดํฐ์ ํน์ด์น๊ฐ ์์ ๋ ์ ์ฉํฉ๋๋ค. ์๋ฅผ ๋ค์ด, ํ ๊ตญ๊ฐ์ ์ฃผํ ๊ฐ๊ฒฉ ์ค์๊ฐ.
- ์ต๋น๊ฐ(Mode): ๋ฐ์ดํฐ์ ์์ ๊ฐ์ฅ ์์ฃผ ๋ํ๋๋ ๊ฐ์ ๋๋ค. ์๋ฅผ ๋ค์ด, ์์ ์์ ๊ฐ์ฅ ์ธ๊ธฐ ์๋ ํ๋งค ์ ํ.
- ์ฐํฌ๋ ์ธก์ : ์ด ์ธก์ ๊ฐ์ ๋ฐ์ดํฐ์ ํผ์ง ์ ๋๋ ๋ถ์ฐ์ ์ค๋ช
ํฉ๋๋ค. ๊ฐ์ฅ ์ผ๋ฐ์ ์ธ ์ฐํฌ๋ ์ธก์ ๊ฐ์ ๋ค์๊ณผ ๊ฐ์ต๋๋ค:
- ๋ฒ์(Range): ๊ฐ์ฅ ํฐ ๊ฐ๊ณผ ๊ฐ์ฅ ์์ ๊ฐ์ ์ฐจ์ด์ ๋๋ค. ์๋ฅผ ๋ค์ด, ํ ๋์์ ์ฐ๊ฐ ๊ธฐ์จ ๋ฒ์.
- ๋ถ์ฐ(Variance): ํ๊ท ์ผ๋ก๋ถํฐ์ ์ ๊ณฑ ํธ์ฐจ์ ํ๊ท ์ ๋๋ค.
- ํ์คํธ์ฐจ(Standard Deviation): ๋ถ์ฐ์ ์ ๊ณฑ๊ทผ์ ๋๋ค. ๋ฐ์ดํฐ๊ฐ ํ๊ท ์ฃผ์์ ์ผ๋ง๋ ํผ์ ธ ์๋์ง๋ฅผ ๋ํ๋ด๋ ์ฒ๋์ ๋๋ค. ํ์คํธ์ฐจ๊ฐ ๋ฎ์ผ๋ฉด ๋ฐ์ดํฐ ํฌ์ธํธ๋ค์ด ํ๊ท ์ ๊ฐ๊น๋ค๋ ๊ฒ์ ์๋ฏธํ๊ณ , ํ์คํธ์ฐจ๊ฐ ๋์ผ๋ฉด ๋ฐ์ดํฐ ํฌ์ธํธ๋ค์ด ๋ ๋๊ฒ ํผ์ ธ ์๋ค๋ ๊ฒ์ ์๋ฏธํฉ๋๋ค.
- ๋ถํฌ ์ธก์ : ์ด ์ธก์ ๊ฐ์ ๋ฐ์ดํฐ์ ๋ชจ์์ ์ค๋ช
ํฉ๋๋ค. ๊ฐ์ฅ ์ผ๋ฐ์ ์ธ ๋ถํฌ ์ธก์ ๊ฐ์ ๋ค์๊ณผ ๊ฐ์ต๋๋ค:
- ์๋(Skewness): ๋ฐ์ดํฐ์ ๋น๋์นญ์ฑ์ ์ธก์ ํฉ๋๋ค. ์๊ณก๋ ๋ถํฌ๋ ๋์นญ์ ์ด์ง ์์ต๋๋ค.
- ์ฒจ๋(Kurtosis): ๋ฐ์ดํฐ์ ๋พฐ์กฑํ ์ ๋๋ฅผ ์ธก์ ํฉ๋๋ค.
์์: ๊ณ ๊ฐ ๋ง์กฑ๋ ์ ์ ๋ถ์
ํ ๊ธ๋ก๋ฒ ํ์ฌ๊ฐ ๋ถ๋ฏธ, ์ ๋ฝ, ์์์ ์ธ ์ง์ญ์ ๊ณ ๊ฐ์ผ๋ก๋ถํฐ ๊ณ ๊ฐ ๋ง์กฑ๋ ์ ์(1์ ์์ 10์ ์ฒ๋)๋ฅผ ์์งํ๋ค๊ณ ๊ฐ์ ํด ๋ณด๊ฒ ์ต๋๋ค. ์ด ์ง์ญ๋ค์ ๊ณ ๊ฐ ๋ง์กฑ๋๋ฅผ ๋น๊ตํ๊ธฐ ์ํด, ๊ฐ ์ง์ญ์ ์ ์์ ๋ํ ํ๊ท , ์ค์๊ฐ, ํ์คํธ์ฐจ์ ๊ฐ์ ๊ธฐ์ ํต๊ณ๋ฅผ ๊ณ์ฐํ ์ ์์ต๋๋ค. ์ด๋ฅผ ํตํด ์ด๋ ์ง์ญ์ด ํ๊ท ๋ง์กฑ๋๊ฐ ๊ฐ์ฅ ๋์์ง, ์ด๋ ์ง์ญ์ ๋ง์กฑ๋ ์์ค์ด ๊ฐ์ฅ ์ผ๊ด์ ์ธ์ง, ๊ทธ๋ฆฌ๊ณ ์ง์ญ ๊ฐ์ ์ ์๋ฏธํ ์ฐจ์ด๊ฐ ์๋์ง ํ์ธํ ์ ์์ต๋๋ค.
์ถ๋ก ํต๊ณ
์ถ๋ก ํต๊ณ๋ ๋ฐ์ดํฐ ํ๋ณธ์ ๊ธฐ๋ฐ์ผ๋ก ๋ชจ์ง๋จ์ ๋ํ ์ถ๋ก ์ ํ ์ ์๊ฒ ํด์ค๋๋ค. ์ผ๋ฐ์ ์ธ ์ถ๋ก ํต๊ณ ๊ธฐ๋ฒ์ ๋ค์๊ณผ ๊ฐ์ต๋๋ค:
- ๊ฐ์ค ๊ฒ์ (Hypothesis Testing): ๋ชจ์ง๋จ์ ๋ํ ์ฃผ์ฅ์ด๋ ๊ฐ์ค์ ๊ฒ์ฆํ๋ ๋ฐฉ๋ฒ์ ๋๋ค. ๊ท๋ฌด๊ฐ์ค(ํจ๊ณผ๊ฐ ์๋ค๋ ์ง์ )๊ณผ ๋๋ฆฝ๊ฐ์ค(ํจ๊ณผ๊ฐ ์๋ค๋ ์ง์ )์ ์ค์ ํ ๋ค์, ํต๊ณ์ ๊ฒ์ ์ ์ฌ์ฉํ์ฌ ๊ท๋ฌด๊ฐ์ค์ ๊ธฐ๊ฐํ ์ถฉ๋ถํ ์ฆ๊ฑฐ๊ฐ ์๋์ง ํ๋จํฉ๋๋ค.
- ์ ๋ขฐ ๊ตฌ๊ฐ(Confidence Intervals): ํน์ ์ ๋ขฐ ์์ค์์ ์ค์ ๋ชจ์ง๋จ ๋ชจ์๋ฅผ ํฌํจํ ๊ฐ๋ฅ์ฑ์ด ์๋ ๊ฐ์ ๋ฒ์์ ๋๋ค. ์๋ฅผ ๋ค์ด, ํ ๋ชจ์ง๋จ์ ํ๊ท ์๋์ ๋ํ 95% ์ ๋ขฐ ๊ตฌ๊ฐ์ ์ค์ ํ๊ท ์๋์ด ํด๋น ๊ตฌ๊ฐ ๋ด์ ์์ ๊ฒ์ด๋ผ๊ณ 95% ํ์ ํ๋ค๋ ์๋ฏธ์ ๋๋ค.
- ํ๊ท ๋ถ์(Regression Analysis): ๋ ์ด์์ ๋ณ์ ๊ฐ์ ๊ด๊ณ๋ฅผ ๊ฒํ ํ๋ ํต๊ณ ๊ธฐ๋ฒ์ ๋๋ค. ํ๋ ์ด์์ ๋ ๋ฆฝ ๋ณ์ ๊ฐ์ ๊ธฐ๋ฐ์ผ๋ก ์ข ์ ๋ณ์์ ๊ฐ์ ์์ธกํ๋ ๋ฐ ์ฌ์ฉํ ์ ์์ต๋๋ค.
- ๋ถ์ฐ ๋ถ์(ANOVA): ๋ ์ด์์ ๊ทธ๋ฃน์ ํ๊ท ์ ๋น๊ตํ๋ ํต๊ณ ๊ธฐ๋ฒ์ ๋๋ค.
๊ฐ์ค ๊ฒ์ : ์์ธํ ์ดํด๋ณด๊ธฐ
๊ฐ์ค ๊ฒ์ ์ ์ถ๋ก ํต๊ณ์ ์ด์์ ๋๋ค. ๊ณผ์ ์ ๋ค์๊ณผ ๊ฐ์ต๋๋ค:
- ๊ฐ์ค ์ค์ : ๊ท๋ฌด๊ฐ์ค(H0)๊ณผ ๋๋ฆฝ๊ฐ์ค(H1)์ ์ ์ํฉ๋๋ค. ์๋ฅผ ๋ค์ด:
- H0: ์บ๋๋ค์ ๋ ์ผ์ ์ํํธ์จ์ด ์์ง๋์ด ํ๊ท ์ฐ๋ด์ ๋์ผํ๋ค.
- H1: ์บ๋๋ค์ ๋ ์ผ์ ์ํํธ์จ์ด ์์ง๋์ด ํ๊ท ์ฐ๋ด์ ๋ค๋ฅด๋ค.
- ์ ์ ์์ค(์ํ) ์ ํ: ์ด๋ ๊ท๋ฌด๊ฐ์ค์ด ์ค์ ๋ก ์ฐธ์ผ ๋ ์ด๋ฅผ ๊ธฐ๊ฐํ ํ๋ฅ ์ ๋๋ค. ์ผ๋ฐ์ ์ธ ์ํ ๊ฐ์ 0.05(5%)์ 0.01(1%)์ ๋๋ค.
- ๊ฒ์ ํต๊ณ๋ ์ ํ: ๋ฐ์ดํฐ ์ ํ๊ณผ ๊ฒ์ ํ ๊ฐ์ค์ ๋ฐ๋ผ ์ ์ ํ ๊ฒ์ ํต๊ณ๋์ ์ ํํฉ๋๋ค(์: t-๊ฒ์ , z-๊ฒ์ , ์นด์ด์ ๊ณฑ ๊ฒ์ ).
- p-๊ฐ ๊ณ์ฐ: p-๊ฐ์ ๊ท๋ฌด๊ฐ์ค์ด ์ฐธ์ผ ๊ฒฝ์ฐ ๊ฒ์ ํต๊ณ๋(๋๋ ๋ ๊ทน๋จ์ ์ธ ๊ฐ)์ ๊ด์ฐฐํ ํ๋ฅ ์ ๋๋ค.
- ๊ฒฐ์ ๋ด๋ฆฌ๊ธฐ: p-๊ฐ์ด ์ ์ ์์ค(์ํ)๋ณด๋ค ์๊ฑฐ๋ ๊ฐ์ผ๋ฉด ๊ท๋ฌด๊ฐ์ค์ ๊ธฐ๊ฐํฉ๋๋ค. ๊ทธ๋ ์ง ์์ผ๋ฉด ๊ท๋ฌด๊ฐ์ค์ ๊ธฐ๊ฐํ์ง ๋ชปํฉ๋๋ค.
์์: ์ ์ฝ์ ํจ๊ณผ์ฑ ๊ฒ์ฆ
ํ ์ ์ฝ ํ์ฌ๊ฐ ๊ณ ํ์ ์น๋ฃ์ฉ ์ ์ฝ์ ํจ๊ณผ์ฑ์ ์ํํ๊ณ ์ ํฉ๋๋ค. ๊ทธ๋ค์ ๋ ๊ทธ๋ฃน์ ํ์, ์ฆ ์ ์ฝ์ ํฌ์ฌ๋ฐ๋ ์น๋ฃ ๊ทธ๋ฃน๊ณผ ์์ฝ์ ํฌ์ฌ๋ฐ๋ ๋์กฐ ๊ทธ๋ฃน์ผ๋ก ์์ ์ํ์ ์ํํฉ๋๋ค. ์ํ ์ ํ ๊ฐ ํ์์ ํ์์ ์ธก์ ํฉ๋๋ค. ์ ์ฝ์ด ํจ๊ณผ์ ์ธ์ง ํ๋จํ๊ธฐ ์ํด, ๋ ๊ทธ๋ฃน ๊ฐ์ ํ์ ํ๊ท ๋ณํ๋ฅผ ๋น๊ตํ๋ t-๊ฒ์ ์ ์ฌ์ฉํ ์ ์์ต๋๋ค. p-๊ฐ์ด ์ ์ ์์ค(์: 0.05)๋ณด๋ค ์์ผ๋ฉด, ์ฝ์ด ํจ๊ณผ๊ฐ ์๋ค๋ ๊ท๋ฌด๊ฐ์ค์ ๊ธฐ๊ฐํ๊ณ ์ฝ์ด ํ์์ ๋ฎ์ถ๋ ๋ฐ ํจ๊ณผ์ ์ด๋ผ๊ณ ๊ฒฐ๋ก ๋ด๋ฆด ์ ์์ต๋๋ค.
ํ๊ท ๋ถ์: ๊ด๊ณ ๊ท๋ช ํ๊ธฐ
ํ๊ท ๋ถ์์ ํ๋ ์ด์์ ๋ ๋ฆฝ ๋ณ์์ ๋ณํ๊ฐ ์ข ์ ๋ณ์์ ์ด๋ค ์ํฅ์ ๋ฏธ์น๋์ง ์ดํดํ๋ ๋ฐ ๋์์ ์ค๋๋ค. ํ๊ท ๋ถ์์๋ ์ฌ๋ฌ ์ ํ์ด ์์ต๋๋ค:
- ๋จ์ ์ ํ ํ๊ท: ํ๋์ ๋ ๋ฆฝ ๋ณ์์ ํ๋์ ์ข ์ ๋ณ์ ๊ฐ์ ๊ด๊ณ๋ฅผ ๊ฒํ ํฉ๋๋ค. ์๋ฅผ ๋ค์ด, ๊ด๊ณ ์ง์ถ์ ๊ธฐ๋ฐํ ๋งค์ถ ์์ธก.
- ๋ค์ค ์ ํ ํ๊ท: ์ฌ๋ฌ ๋ ๋ฆฝ ๋ณ์์ ํ๋์ ์ข ์ ๋ณ์ ๊ฐ์ ๊ด๊ณ๋ฅผ ๊ฒํ ํฉ๋๋ค. ์๋ฅผ ๋ค์ด, ํฌ๊ธฐ, ์์น, ์นจ์ค ์๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํ ์ฃผํ ๊ฐ๊ฒฉ ์์ธก.
- ๋ก์ง์คํฑ ํ๊ท: ์ข ์ ๋ณ์๊ฐ ๋ฒ์ฃผํ์ผ ๋(์: ์/์๋์ค, ํฉ๊ฒฉ/๋ถํฉ๊ฒฉ) ์ฌ์ฉ๋ฉ๋๋ค. ์๋ฅผ ๋ค์ด, ๊ณ ๊ฐ์ ์ธ๊ตฌ ํต๊ณ ๋ฐ ๊ฒ์ ๊ธฐ๋ก์ ๊ธฐ๋ฐ์ผ๋ก ๊ด๊ณ ํด๋ฆญ ์ฌ๋ถ ์์ธก.
์์: GDP ์ฑ์ฅ๋ฅ ์์ธก
๊ฒฝ์ ํ์๋ค์ ํฌ์, ์์ถ, ์ธํ๋ ์ด์ ๊ณผ ๊ฐ์ ์์๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํ ๊ตญ๊ฐ์ GDP ์ฑ์ฅ๋ฅ ์ ์์ธกํ๊ธฐ ์ํด ํ๊ท ๋ถ์์ ์ฌ์ฉํ ์ ์์ต๋๋ค. ๊ณผ๊ฑฐ ๋ฐ์ดํฐ๋ฅผ ๋ถ์ํ๊ณ ์ด๋ฌํ ๋ณ์๋ค ๊ฐ์ ๊ด๊ณ๋ฅผ ํ์ ํจ์ผ๋ก์จ, ๋ฏธ๋ GDP ์ฑ์ฅ์ ์์ธกํ๋ ๋ฐ ์ฌ์ฉํ ์ ์๋ ํ๊ท ๋ชจ๋ธ์ ๊ฐ๋ฐํ ์ ์์ต๋๋ค. ์ด ์ ๋ณด๋ ์ ์ฑ ์ ์์์ ํฌ์์๊ฐ ์ ๋ณด์ ์ ๊ฐํ ๊ฒฐ์ ์ ๋ด๋ฆฌ๋ ๋ฐ ์ ์ฉํ ์ ์์ต๋๋ค.
ํ์ ํต๊ณ ๊ฐ๋
ํต๊ณ ๋ถ์์ ๋ฐ์ด๋ค๊ธฐ ์ ์ ๋ช ๊ฐ์ง ๊ธฐ๋ณธ ๊ฐ๋ ์ ์ดํดํ๋ ๊ฒ์ด ์ค์ํฉ๋๋ค:
- ๋ชจ์ง๋จ(Population): ์ฐ๋ฆฌ๊ฐ ์ฐ๊ตฌํ๊ณ ์ ํ๋ ๊ฐ์ธ์ด๋ ๊ฐ์ฒด์ ์ ์ฒด ๊ทธ๋ฃน์ ๋๋ค.
- ํ๋ณธ(Sample): ์ฐ๋ฆฌ๊ฐ ๋ฐ์ดํฐ๋ฅผ ์์งํ๋ ๋ชจ์ง๋จ์ ์ผ๋ถ ์งํฉ์ ๋๋ค.
- ๋ณ์(Variable): ํ ๊ฐ์ธ์ด๋ ๊ฐ์ฒด์์ ๋ค๋ฅธ ๊ฐ์ธ์ด๋ ๊ฐ์ฒด๋ก ๋ฌ๋ผ์ง ์ ์๋ ํน์ฑ์ด๋ ์์ฑ์ ๋๋ค.
- ๋ฐ์ดํฐ(Data): ๊ฐ ๋ณ์์ ๋ํด ์์งํ๋ ๊ฐ์ ๋๋ค.
- ํ๋ฅ (Probability): ์ฌ๊ฑด์ด ๋ฐ์ํ ๊ฐ๋ฅ์ฑ์ ๋๋ค.
- ๋ถํฌ(Distribution): ๋ฐ์ดํฐ๊ฐ ํผ์ ธ ์๋ ๋ฐฉ์์ ๋๋ค.
๋ณ์์ ์ ํ
์ ์ ํ ํต๊ณ ๋ฐฉ๋ฒ์ ์ ํํ๊ธฐ ์ํด์๋ ๋ค์ํ ์ ํ์ ๋ณ์๋ฅผ ์ดํดํ๋ ๊ฒ์ด ํ์์ ์ ๋๋ค.
- ๋ฒ์ฃผํ ๋ณ์(Categorical Variables): ๋ฒ์ฃผ๋ก ๋ถ๋ฅ๋ ์ ์๋ ๋ณ์์ ๋๋ค(์: ์ฑ๋ณ, ๊ตญ์ , ์ ํ ์ ํ).
- ์์นํ ๋ณ์(Numerical Variables): ์์น ์ฒ๋๋ก ์ธก์ ๋ ์ ์๋ ๋ณ์์ ๋๋ค(์: ๋์ด, ์๋, ์จ๋).
๋ฒ์ฃผํ ๋ณ์
- ๋ช ๋ชฉ ๋ณ์(Nominal Variables): ๊ณ ์ ํ ์์๊ฐ ์๋ ๋ฒ์ฃผํ ๋ณ์์ ๋๋ค(์: ์์, ๊ตญ๊ฐ).
- ์์ด ๋ณ์(Ordinal Variables): ์์ฐ์ค๋ฌ์ด ์์๊ฐ ์๋ ๋ฒ์ฃผํ ๋ณ์์ ๋๋ค(์: ๊ต์ก ์์ค, ๋ง์กฑ๋ ๋ฑ๊ธ).
์์นํ ๋ณ์
- ์ด์ฐ ๋ณ์(Discrete Variables): ์ ์ ๊ฐ๋ง ๊ฐ์ง ์ ์๋ ์์นํ ๋ณ์์ ๋๋ค(์: ์๋ ์, ์๋์ฐจ ์).
- ์ฐ์ ๋ณ์(Continuous Variables): ํน์ ๋ฒ์ ๋ด์ ๋ชจ๋ ๊ฐ์ ๊ฐ์ง ์ ์๋ ์์นํ ๋ณ์์ ๋๋ค(์: ํค, ๋ชธ๋ฌด๊ฒ, ์จ๋).
๋ถํฌ์ ์ดํด
๋ฐ์ดํฐ์ ์ ๋ถํฌ๋ ๊ฐ๋ค์ด ์ด๋ป๊ฒ ํผ์ ธ ์๋์ง๋ฅผ ์ค๋ช ํฉ๋๋ค. ํต๊ณํ์์ ๊ฐ์ฅ ์ค์ํ ๋ถํฌ ์ค ํ๋๋ ์ ๊ท ๋ถํฌ์ ๋๋ค.
- ์ ๊ท ๋ถํฌ(Normal Distribution): ํ๊ท ์ ์ค์ฌ์ผ๋ก ๋์นญ์ ์ธ ์ข ๋ชจ์์ ๋ถํฌ์ ๋๋ค. ๋ง์ ์์ฐ ํ์์ด ์ ๊ท ๋ถํฌ๋ฅผ ๋ฐ๋ฆ ๋๋ค.
- ํธํฌ(Skewed Distribution): ๋์นญ์ ์ด์ง ์์ ๋ถํฌ์ ๋๋ค. ํธํฌ๋ ์์ ์๊ณก(๊ผฌ๋ฆฌ๊ฐ ์ค๋ฅธ์ชฝ์ผ๋ก ๋ป์) ๋๋ ์์ ์๊ณก(๊ผฌ๋ฆฌ๊ฐ ์ผ์ชฝ์ผ๋ก ๋ป์)์ผ ์ ์์ต๋๋ค.
ํต๊ณ ์ํํธ์จ์ด ๋ฐ ๋๊ตฌ
ํต๊ณ ๋ถ์์ ์ํํ๊ธฐ ์ํด ์ฌ๋ฌ ์ํํธ์จ์ด ํจํค์ง๋ฅผ ์ฌ์ฉํ ์ ์์ต๋๋ค. ์ธ๊ธฐ ์๋ ์ต์ ์ ๋ค์๊ณผ ๊ฐ์ต๋๋ค:
- R: ํต๊ณ ์ปดํจํ ๋ฐ ๊ทธ๋ํฝ์ ์ํ ๋ฌด๋ฃ ์คํ ์์ค ํ๋ก๊ทธ๋๋ฐ ์ธ์ด ๋ฐ ์ํํธ์จ์ด ํ๊ฒฝ์ ๋๋ค.
- Python: NumPy, Pandas, Scikit-learn๊ณผ ๊ฐ์ ๊ฐ๋ ฅํ ๋ฐ์ดํฐ ๋ถ์ ๋ผ์ด๋ธ๋ฌ๋ฆฌ๋ฅผ ๊ฐ์ถ ๋ค๋ชฉ์ ํ๋ก๊ทธ๋๋ฐ ์ธ์ด์ ๋๋ค.
- SPSS: ์ฌํ ๊ณผํ ๋ฐ ๋น์ฆ๋์ค์์ ๋๋ฆฌ ์ฌ์ฉ๋๋ ํต๊ณ ์ํํธ์จ์ด ํจํค์ง์ ๋๋ค.
- SAS: ์๋ฃ, ๊ธ์ต, ์ ์กฐ์ ๋ฑ ๋ค์ํ ์ฐ์ ์์ ์ฌ์ฉ๋๋ ํต๊ณ ์ํํธ์จ์ด ํจํค์ง์ ๋๋ค.
- Excel: ๊ธฐ๋ณธ์ ์ธ ํต๊ณ ๋ถ์์ ์ํํ ์ ์๋ ์คํ๋ ๋์ํธ ํ๋ก๊ทธ๋จ์ ๋๋ค.
- Tableau: ๋ํํ ๋์๋ณด๋ ๋ฐ ๋ณด๊ณ ์๋ฅผ ๋ง๋๋ ๋ฐ ์ฌ์ฉํ ์ ์๋ ๋ฐ์ดํฐ ์๊ฐํ ์ํํธ์จ์ด์ ๋๋ค.
์ํํธ์จ์ด ์ ํ์ ๋ถ์์ ํน์ ์๊ตฌ ์ฌํญ๊ณผ ์ฌ์ฉ์์ ๋๊ตฌ ์๋ จ๋์ ๋ฐ๋ผ ๋ฌ๋ผ์ง๋๋ค. R๊ณผ Python์ ๊ณ ๊ธ ํต๊ณ ๋ถ์์ ์ํ ๊ฐ๋ ฅํ๊ณ ์ ์ฐํ ์ต์ ์ด๋ฉฐ, SPSS์ SAS๋ ์ผ๋ฐ์ ์ธ ํต๊ณ ์์ ์ ์ํ ์ฌ์ฉ์ ์นํ์ ์ธ ์ต์ ์ ๋๋ค. Excel์ ๊ธฐ๋ณธ์ ์ธ ๋ถ์์ ํธ๋ฆฌํ ์ต์ ์ผ ์ ์์ผ๋ฉฐ, Tableau๋ ์๊ฐ์ ์ผ๋ก ๋งค๋ ฅ์ ์ด๊ณ ์ ์ตํ ๋์๋ณด๋๋ฅผ ๋ง๋๋ ๋ฐ ์ด์์ ์ ๋๋ค.
ํผํด์ผ ํ ์ผ๋ฐ์ ์ธ ํจ์
ํต๊ณ ๋ถ์์ ์ํํ ๋, ๋ถ์ ํํ๊ฑฐ๋ ์คํด์ ์์ง๊ฐ ์๋ ๊ฒฐ๋ก ์ผ๋ก ์ด์ด์ง ์ ์๋ ์ผ๋ฐ์ ์ธ ํจ์ ์ ์ธ์งํ๋ ๊ฒ์ด ์ค์ํฉ๋๋ค:
- ์๊ด๊ด๊ณ์ ์ธ๊ณผ๊ด๊ณ์ ํผ๋: ๋ ๋ณ์๊ฐ ์๊ด๊ด๊ณ๊ฐ ์๋ค๊ณ ํด์ ํ๋๊ฐ ๋ค๋ฅธ ํ๋์ ์์ธ์ด ๋๋ ๊ฒ์ ์๋๋๋ค. ๋ ๋ณ์ ๋ชจ๋์ ์ํฅ์ ๋ฏธ์น๋ ๋ค๋ฅธ ์์ธ์ด ์์ ์ ์์ต๋๋ค. ์๋ฅผ ๋ค์ด, ์ฌ๋ฆ์๋ ์์ด์คํฌ๋ฆผ ํ๋งค๋๊ณผ ๋ฒ์ฃ์จ์ด ํจ๊ป ์ฆ๊ฐํ๋ ๊ฒฝํฅ์ด ์์ง๋ง, ์์ด์คํฌ๋ฆผ์ ๋จน๋ ๊ฒ์ด ๋ฒ์ฃ๋ฅผ ์ ๋ฐํ๋ค๋ ์๋ฏธ๋ ์๋๋๋ค.
- ํ๋ณธ ์ถ์ถ ํธํฅ: ํ๋ณธ์ด ๋ชจ์ง๋จ์ ๋ํํ์ง ์์ผ๋ฉด ๋ถ์ ๊ฒฐ๊ณผ๊ฐ ๋ชจ์ง๋จ์ ์ผ๋ฐํ๋ ์ ์์ต๋๋ค.
- ๋ฐ์ดํฐ ์ค์ค(Data Dredging): ๋ช ํํ ๊ฐ์ค ์์ด ๋ฐ์ดํฐ์์ ํจํด์ ์ฐพ๋ ๊ฒ์ ๋๋ค. ์ด๋ ์๋ฏธ ์๋ ์ฐ์ฐํ ๊ด๊ณ๋ฅผ ์ฐพ๋ ๊ฒฐ๊ณผ๋ก ์ด์ด์ง ์ ์์ต๋๋ค.
- ๊ณผ์ ํฉ(Overfitting): ๋๋ฌด ๋ณต์กํ๊ณ ๋ฐ์ดํฐ์ ๋๋ฌด ๊ฐ๊น๊ฒ ๋ง๋ ๋ชจ๋ธ์ ๋ง๋๋ ๊ฒ์ ๋๋ค. ์ด๋ ์๋ก์ด ๋ฐ์ดํฐ์ ๋ํ ์ฑ๋ฅ ์ ํ๋ก ์ด์ด์ง ์ ์์ต๋๋ค.
- ๊ฒฐ์ธก์น ๋ฌด์: ๊ฒฐ์ธก์น๋ฅผ ์ ๋๋ก ์ฒ๋ฆฌํ์ง ์์ผ๋ฉด ํธํฅ๋ ๊ฒฐ๊ณผ๋ฅผ ์ด๋ํ ์ ์์ต๋๋ค.
- p-๊ฐ ์คํด: p-๊ฐ์ ๊ท๋ฌด๊ฐ์ค์ด ์ฐธ์ผ ํ๋ฅ ์ด ์๋๋๋ค. ๊ท๋ฌด๊ฐ์ค์ด ์ฐธ์ผ ๊ฒฝ์ฐ ๊ฒ์ ํต๊ณ๋(๋๋ ๋ ๊ทน๋จ์ ์ธ ๊ฐ)์ ๊ด์ฐฐํ ํ๋ฅ ์ ๋๋ค.
์ค๋ฆฌ์ ๊ณ ๋ ค์ฌํญ
ํต๊ณ ๋ถ์์ ์ค๋ฆฌ์ ์ด๊ณ ์ฑ ์๊ฐ ์๊ฒ ์ํ๋์ด์ผ ํฉ๋๋ค. ์ฌ์ฉ๋ ๋ฐฉ๋ฒ์ ํฌ๋ช ํ๊ฒ ๊ณต๊ฐํ๊ณ , ํน์ ๊ฒฐ๋ก ์ ๋ท๋ฐ์นจํ๊ธฐ ์ํด ๋ฐ์ดํฐ๋ฅผ ์กฐ์ํ๋ ๊ฒ์ ํผํ๋ฉฐ, ๋ฐ์ดํฐ๊ฐ ๋ถ์๋๋ ๊ฐ์ธ์ ์ฌ์ํ์ ์กด์คํ๋ ๊ฒ์ด ์ค์ํฉ๋๋ค. ๊ธ๋ก๋ฒ ํ๊ฒฝ์์๋ ๋ฌธํ์ ์ฐจ์ด๋ฅผ ์ธ์งํ๊ณ , ํต๊ณ ๋ถ์์ ์ฌ์ฉํ์ฌ ๊ณ ์ ๊ด๋ ์ด๋ ์ฐจ๋ณ์ ์์์ํค๋ ๊ฒ์ ํผํ๋ ๊ฒ๋ ์ค์ํฉ๋๋ค.
๊ฒฐ๋ก
ํต๊ณ ๋ถ์์ ๋ฐ์ดํฐ๋ฅผ ์ดํดํ๊ณ ์ ๋ณด์ ์ ๊ฐํ ๊ฒฐ์ ์ ๋ด๋ฆฌ๋ ๊ฐ๋ ฅํ ๋๊ตฌ์ ๋๋ค. ํต๊ณ ๋ถ์์ ๊ธฐ์ด๋ฅผ ๋ง์คํฐํจ์ผ๋ก์จ ๋ณต์กํ ํ์์ ๋ํ ๊ท์คํ ํต์ฐฐ๋ ฅ์ ์ป๊ณ , ๊ฐ์ ์ ๊ธฐํ๋ฅผ ์๋ณํ๋ฉฐ, ํด๋น ๋ถ์ผ์์ ๊ธ์ ์ ์ธ ๋ณํ๋ฅผ ์ด๋ ์ ์์ต๋๋ค. ์ด ๊ฐ์ด๋๋ ์ฌ๋ฌ๋ถ์ ๊ด์ฌ์ฌ์ ์ง์ ์ ๊ด๋ จ๋ ํน์ ๊ธฐ๋ฒ๊ณผ ์์ฉ ๋ถ์ผ๋ฅผ ๋ ๊น์ด ํ๊ตฌํ๋๋ก ์ฅ๋ คํ๋ฉฐ, ์ถ๊ฐ์ ์ธ ํ๊ตฌ๋ฅผ ์ํ ๊ธฐ์ด๋ฅผ ์ ๊ณตํ์ต๋๋ค. ๋ฐ์ดํฐ๊ฐ ๊ธฐํ๊ธ์์ ์ผ๋ก ์ฆ๊ฐํจ์ ๋ฐ๋ผ, ์ด๋ฅผ ํจ๊ณผ์ ์ผ๋ก ๋ถ์ํ๊ณ ํด์ํ๋ ๋ฅ๋ ฅ์ ๊ธ๋ก๋ฒ ํ๊ฒฝ์์ ์ ์ ๋ ๊ฐ์น ์๊ฒ ๋ ๊ฒ์ ๋๋ค.
์ถ๊ฐ ํ์ต ์๋ฃ
ํต๊ณ ๋ถ์์ ๋ํ ์ดํด๋ฅผ ์ฌํ์ํค๋ ค๋ฉด ๋ค์ ์๋ฃ๋ค์ ํ์ํด ๋ณด์ธ์:
- ์จ๋ผ์ธ ๊ฐ์ข: Coursera, edX, Udemy์ ๊ฐ์ ํ๋ซํผ์ ํต๊ณ ๋ฐ ๋ฐ์ดํฐ ๋ถ์์ ๋ํ ๋ค์ํ ๊ฐ์ข๋ฅผ ์ ๊ณตํฉ๋๋ค.
- ๊ต๊ณผ์: David Freedman, Robert Pisani, Roger Purves์ "Statistics"๋ ํต๊ณํ์ ๋ํ ํฌ๊ด์ ์ธ ์ ๋ฌธ์๋ฅผ ์ ๊ณตํ๋ ๊ณ ์ ์ ์ธ ๊ต๊ณผ์์ ๋๋ค. "OpenIntro Statistics"๋ ๋ฌด๋ฃ ์คํ ์์ค ๊ต๊ณผ์์ ๋๋ค.
- ํต๊ณ ์ํํธ์จ์ด ๋ฌธ์: R, Python, SPSS, SAS์ ๊ณต์ ๋ฌธ์๋ ์ด๋ฌํ ๋๊ตฌ ์ฌ์ฉ ๋ฐฉ๋ฒ์ ๋ํ ์์ธํ ์ ๋ณด๋ฅผ ์ ๊ณตํฉ๋๋ค.
- ๋ฐ์ดํฐ ๊ณผํ ์ปค๋ฎค๋ํฐ: Kaggle, Stack Overflow์ ๊ฐ์ ์จ๋ผ์ธ ์ปค๋ฎค๋ํฐ๋ ์ง๋ฌธ์ ํ๊ณ ๋ค๋ฅธ ๋ฐ์ดํฐ ๊ณผํ์๋ค๋ก๋ถํฐ ๋ฐฐ์ฐ๊ธฐ์ ์ข์ ์๋ฃ์ ๋๋ค.