โํ๋ฅ ๊ณผ ํต๊ณ(MATH230)โ ์์
์์ ๋ฐฐ์ด ๊ฒ๊ณผ ๊ณต๋ถํ ๊ฒ์ ์ ๋ฆฌํ ํฌ์คํธ์
๋๋ค. ์ ์ฒด ํฌ์คํธ๋ Probability and Statistics์์ ํ์ธํ์ค ์ ์์ต๋๋ค ๐ฒ
์ฐ๋ฆฌ๋ ์ด์ ํฌ์คํธ โTest on Regressionโ์์ regression coefficient , ์ ๋ถํฌ๋ฅผ ํ์ธํ๋ค. ์ด๋ฒ ํฌ์คํธ์์๋ ์ด ๊ฒฐ๊ณผ๋ฅผ ์ข
ํฉํด ์ฐ๋ฆฌ๊ฐ regression ๋ชจ๋ธ๋ก๋ถํฐ ์ป๋ response์ ๋ถํฌ๋ฅผ ์ถ์ ํด๋ณด๋ ๊ณผ์ ์ ์งํํ๋ค.
๊ฐ์ธ์ ์ผ๋ก๋ โ์ ์ด estimated regression coefficient์ด๊ธฐ ๋๋ฌธ์ ๋ชจ๋ธ๋ก๋ถํฐ ์ป๋ response ์ญ์ estimated response๋ก ์ด๋์ ๋์ ๋ถํ์ค์ฑ์ ๊ฐ์ง๊ณ ์๋ค. ์ด๋ฅผ ๊ณผ ์ ๋ถํ์ค์ฑ์ ๋ชจ๋ธ๋งํ ์ด๋ค์ ๋ถํฌ๋ฅผ ์ด์ฉํด ์ถ์ ํ๋ค!โ๋ผ๊ณ ์ดํดํ๋ค.
์ฐ๋ฆฌ๋ mean response ์ ํตํด ๋ชจ๋ธ์ด ๋ฑ๋ response์ ๋ถํ์ค์ฑ์ ์ถ์ ํ ๊ฒ์ด๋ฉฐ, ๋ new data ์ ๋ํด ์ํํ๋ prediction์ ๋ถํ์ค์ฑ์ ์ถ์ ํ ๊ฒ์ด๋ค.
Estimate on Mean Response
Supp. we have sample points from where s are iid . Here, and are unknown parameters.
Q. Given data , what can be the mean response ?
์ด๋, ๋ sample point์์ ์ ๋ํ๊ฑฐ๋ ๋ฏธ๋ฆฌ ์ค์ ํ ๊ฐ์ด ์๋๋ผ, variable ์ ๊ฐ ๋ฅผ predictํ๋ ์ฉ๋์ ๊ฐ์ด๋ค.
๊ทธ๋ฌ๋ ์ฐ๋ฆฌ๋ , ์ ๊ฐ์ ๋ชจ๋ฅด๊ธฐ ๋๋ฌธ์ ์ํ๋ก๋ถํฐ ์ ๋นํ point estimator ๋ฅผ ์ ์ํ ๊ฒ์ด๋ค.
์ด์ , ์ ๋ถํฌ์ ๋ํด ์ดํด๋ณด์. ์ด๋, , ๊ฐ normal ๋ถํฌ์ด๋ฏ๋ก, ์ญ์ normal ๋ถํฌ๋ฅผ ๋ฐ๋ฅธ๋ค.
1. Mean
์ด๋ ์์ ์ฌ์ค์ ํตํด ๊ฐ unbiased estimator์๋ ์ ์ ์๋ค!
2. Variance
์ด๋, ์ด๋ฏ๋ก, ์ด ๋๋ค. (Homework ๐)
๋ฐ๋ผ์,
๋ฐ๋ผ์, ์ ๋ถํฌ๋ ์๋์ ๊ฐ๋ค.
์ด๋ error variance ์ ๊ฐ์ ๋ชจ๋ฅด๋ฏ๋ก, sample error variance ๋ฅผ ์ฌ์ฉํ๋ฉด,
์ด์ ์์ ๋ถํฌ๋ฅผ ์ฌ์ฉํด, data ์ ๋ํ mean response ์ โconfidence intervalโ์ ๊ตฌํ ์ ์๋ค! ๐
Prediction Interval
์์์ ๊ตฌํ โmean response โ๋ ์ฐ๋ฆฌ์๊ฒ ๋ผ๋ ๊ฐ์ด ์ฃผ์ด์ก์ ๋ ๋ชจ๋ธ์ ๋ถํ์ค์ฑ์ ์ถ์ ํ๋ ๊ณผ์ ์ด์๋ค. ์ด๋ฒ์๋ ๋ชจ๋ธ์ new data ๊ฐ ์ฃผ์ด์ก์ ๋, ์ด์ ๋ํ prediction์ ๋ถํ์ค์ฑ์ ์ถ์ ํ๋ ๊ณผ์ ์ ์ํํ๋ค. ์ด๊ฒ์ ์ response ๊ฐ ๊ธฐ์กด์ ์ independent ํ๊ธฐ ๋๋ฌธ์ - ์ฌ์ง์ด ์ผ์ง๋ผ๋ ์ด๋ค - ์์ โmean responseโ์๋ ๋ค๋ฅด๊ฒ ์ ๊ทผํด์ผ ํ๋ค!
๋ where and iid.
๋ฐ๋ผ์, ์ ๋ถํฌ๋ ์๋์ ๊ฐ๋ค.
์ด๋, ์ด๊ณ , ๋ง์ฐฌ๊ฐ์ง๋ก ์ด๋ค.
์ด๋, ์ ๋ํ ๋ถํฌ๋ ์์์ ๊ตฌํ ์ ์ด ์๋ค. ๊ทธ๋๋ก ์ฌ์ฉํ๋ฉด,
์ด๋ ๋ ์ ๋
๋ฆฝ์ด๋ฏ๋ก ์๋๊ฐ ์ฑ๋ฆฝํ๋ค.
์ด๋ error variance ์ ๊ฐ์ ๋ชจ๋ฅด๋ฏ๋ก, sample error variance ๋ฅผ ์ฌ์ฉํ๋ฉด,
์ด๋, ์ฃผ๋ชฉํ ์ ์ ์ผ๋ฐ์ ์ผ๋ก โresponse intervalโ์ด โprediction intervalโ๋ณด๋ค ๋ ์ข๋ค๋ ๊ฒ์ด๋ค. ๊ฐ์ธ์ ์ผ๋ก ํด์ํด๋ณด์๋ฉด, โprediction intervalโ์ ๊ฒฝ์ฐ, ์๋กญ๊ฒ ์ถ๊ฐ๋๋ data ์ด ๊ธฐ์กด์ ๋ฐ์ดํฐ์ ๋
๋ฆฝ์ด๊ธฐ ๋๋ฌธ์ ์ด๋ฐ ์ฐจ์ด๊ฐ ๋ฐ์ํ๋ ๊ฒ ๊ฐ๋ค. ๋, ์ ์ด์ โresponse intervalโ๊ณผ โprediction intervalโ์ ์ถ์ ์ ๋์ ์์ฒด๊ฐ ๋ค๋ฅด๋ค! ๐
๋ณธ์ธ ๋ง๊ณ ๋ ๋ ๊ฐ๋
์ด ํท๊ฐ๋ฆฌ๋ ์ฌ๋์ด ๋ง์ ๊ฒ ๊ฐ์. ๊ตฌ๊ธ์ ๊ฒ์ํด๋ณด๋ ๋์ ๋น๊ตํ๋ ํฌ์คํธ๊ฐ ๊ฝค ์์๋ค. ์๋๋ ๊ทธ ์ค์์ ๋์ ํ ๋ฌธ์ฅ์ ๋น๊ตํ ๋ฌธ๊ตฌ๋ฅผ ๊ฐ์ ธ์จ ๊ฒ์ด๋ค.
A mean response interval is a confidence interval for the mean of all Yโs at a given X value.
A prediction interval is a prediction interval for one single Y at a given X value.
โ from a post of โCarsten Grubeโ
์ด๊ฒ์ผ๋ก โํ๋ฅ ๊ณผ ํต๊ณ(MATH230)โ์ ์ ๊ท์์
์์ ๋ค๋ฃฌ ๋ชจ๋ ๋ด์ฉ์ ์ดํด๋ดค๋ค!! ๐