Mathology
확률과 통계고등학교 3학년

수능 확률과 통계: 통계 단원 완전 정복 가이드

확률분포, 정규분포, 통계적 추정까지! 수능 통계 단원의 핵심 개념을 완벽하게 이해하고 고난도 문제까지 대비할 수 있는 상세 가이드입니다.

개요

안녕하세요, 수능 수학 전문 교사입니다. 오늘 우리가 함께 정복할 단원은 바로 '확률과 통계' 과목의 꽃이자 핵심, '통계' 단원입니다. 이 단원은 우리가 일상생활에서 접하는 수많은 데이터와 정보를 이해하고 분석하며, 미래를 예측하는 데 필요한 기본적인 소양을 제공합니다. 단순히 공식을 암기하는 것을 넘어, 통계적 사고력을 기르는 것이 중요하죠.

수능 출제 경향: '확률과 통계' 과목에서 통계 단원은 매년 2~3문항이 출제되며, 특히 확률변수의 기댓값/분산 계산, 정규분포의 활용, 모평균/모비율의 추정 등 다양한 유형으로 나옵니다. 배점은 주로 4점 문항으로 출제되어 등급을 가르는 중요한 역할을 합니다. 특히, 정규분포와 통계적 추정은 개념이 긴밀하게 연결되어 있어 함께 출제되거나, 복합적인 상황에서 통계적 추론 능력을 요구하는 문제가 자주 등장합니다.

이 글을 통해 통계 단원의 모든 개념을 명확하게 정리하고, 실전 문제 풀이 능력을 향상시켜 수능에서 고득점을 받을 수 있도록 도와드리겠습니다!


핵심 개념

1. 확률분포

확률분포는 확률변수가 가질 수 있는 모든 값과 그 값을 가질 확률을 나타낸 것입니다. 확률변수는 어떤 시행에서 발생할 수 있는 결과를 숫자로 나타낸 것이며, 크게 이산확률변수와 연속확률변수로 나뉩니다.

이산확률변수와 이산확률분포

이산확률변수는 셀 수 있는 값들(정수 또는 유한개의 실수)을 가지는 확률변수입니다. 예를 들어, 주사위를 던졌을 때 나오는 눈의 수, 동전을 던졌을 때 앞면이 나오는 횟수 등이 있습니다. 이산확률변수의 확률분포는 확률질량함수로 나타냅니다.

  • 확률질량함수 P(X=xi)=piP(X=x_i) = p_i: 확률변수 XX가 특정 값 xix_i를 가질 확률을 나타내는 함수입니다.
    • 성질: 0lepile10 \\le p_i \\le 1 이고 sumpi=1\\sum p_i = 1 입니다.

이산확률변수의 중요한 특징은 기댓값(평균), 분산, 표준편차로 나타냅니다.

기댓값 (평균) E(X)E(X): E(X)=sumi=1nxipiE(X) = \\sum_{i=1}^{n} x_i p_i

분산 V(X)V(X): V(X)=E((XE(X))2)=sumi=1n(xiE(X))2piV(X) = E((X - E(X))^2) = \\sum_{i=1}^{n} (x_i - E(X))^2 p_i 또는 V(X)=E(X2)(E(X))2=sumi=1nxi2pi(E(X))2V(X) = E(X^2) - (E(X))^2 = \\sum_{i=1}^{n} x_i^2 p_i - (E(X))^2

표준편차 sigma(X)\\sigma(X): sigma(X)=sqrtV(X)\\sigma(X) = \\sqrt{V(X)}

확률변수 aX+baX+b의 기댓값, 분산, 표준편차:

  • E(aX+b)=aE(X)+bE(aX+b) = aE(X)+b
  • V(aX+b)=a2V(X)V(aX+b) = a^2V(X)
  • sigma(aX+b)=asigma(X)\\sigma(aX+b) = |a|\\sigma(X)

이항분포

이항분포 B(n,p)B(n, p)는 성공 확률이 pp인 독립 시행을 nn번 반복했을 때, 성공하는 횟수를 확률변수 XX로 하는 이산확률분포입니다.

이항분포의 확률질량함수: P(X=x)=binomnxpx(1p)nxP(X=x) = \\binom{n}{x} p^x (1-p)^{n-x} (단, x=0,1,2,dots,nx=0, 1, 2, \\dots, n)

이항분포의 기댓값, 분산, 표준편차: E(X)=npE(X) = np V(X)=np(1p)V(X) = np(1-p) sigma(X)=sqrtnp(1p)\\sigma(X) = \\sqrt{np(1-p)}

예제: 확률변수 XX의 확률질량함수가 P(X=x)=fracx6P(X=x) = \\frac{x}{6} (x=1,2,3x=1, 2, 3)일 때, E(X)E(X)V(X)V(X)를 구하시오.

풀이: 먼저 확률 분포표를 만듭니다.

| XX | 1 | 2 | 3 | 합계 | |:---:|:-:|:-:|:-:|:----:| | P(X=x)P(X=x) | frac16\\frac{1}{6} | frac26\\frac{2}{6} | frac36\\frac{3}{6} | 1 |

  1. 기댓값 E(X)E(X) 계산: E(X)=1cdotfrac16+2cdotfrac26+3cdotfrac36=frac1+4+96=frac146=frac73E(X) = 1 \\cdot \\frac{1}{6} + 2 \\cdot \\frac{2}{6} + 3 \\cdot \\frac{3}{6} = \\frac{1+4+9}{6} = \\frac{14}{6} = \\frac{7}{3}

  2. 분산 V(X)V(X) 계산: 먼저 E(X2)E(X^2)를 구합니다. E(X2)=12cdotfrac16+22cdotfrac26+32cdotfrac36=frac1+8+276=frac366=6E(X^2) = 1^2 \\cdot \\frac{1}{6} + 2^2 \\cdot \\frac{2}{6} + 3^2 \\cdot \\frac{3}{6} = \\frac{1+8+27}{6} = \\frac{36}{6} = 6 이제 V(X)=E(X2)(E(X))2V(X) = E(X^2) - (E(X))^2 공식을 이용합니다. V(X)=6(frac73)2=6frac499=frac54499=frac59V(X) = 6 - (\\frac{7}{3})^2 = 6 - \\frac{49}{9} = \\frac{54-49}{9} = \\frac{5}{9}

정답: E(X)=frac73E(X) = \\frac{7}{3}, V(X)=frac59V(X) = \\frac{5}{9}

2. 정규분포

연속확률변수는 어떤 구간 내의 모든 실수값을 가질 수 있는 확률변수입니다. 예를 들어, 사람의 키나 몸무게, 통학 시간 등이 있습니다. 연속확률변수의 확률분포는 확률밀도함수로 나타냅니다.

  • 확률밀도함수 f(x)f(x): 확률변수 XX가 특정 구간에 있을 확률을 나타내는 함수입니다. 특정 값에서의 확률은 항상 0입니다.
    • 성질: intinftyinftyf(x)dx=1\\int_{-\\infty}^{\\infty} f(x) dx = 1 이고 f(x)ge0f(x) \\ge 0 입니다.
    • P(aleXleb)=intabf(x)dxP(a \\le X \\le b) = \\int_{a}^{b} f(x) dx

정규분포 N(m,sigma2)N(m, \\sigma^2)

정규분포는 자연현상이나 사회현상에서 나타나는 많은 자료의 분포를 설명하는 데 사용되는 가장 중요한 연속확률분포입니다. 평균이 mm이고 표준편차가 sigma\\sigma인 정규분포는 N(m,sigma2)N(m, \\sigma^2)으로 표기합니다. 그 확률밀도함수는 다음과 같습니다.

정규분포 확률밀도함수: f(x)=frac1sqrt2pisigmaefrac(xm)22sigma2f(x) = \\frac{1}{\\sqrt{2\\pi}\\sigma} e^{-\\frac{(x-m)^2}{2\\sigma^2}}

  • 특징: 평균 mm을 중심으로 좌우 대칭인 종 모양의 곡선입니다. xx축을 점근선으로 가집니다. mm값이 변하면 곡선 위치가 바뀌고, sigma\\sigma값이 변하면 곡선의 높이와 퍼진 정도가 달라집니다.

표준정규분포 N(0,1)N(0, 1)

모든 정규분포를 비교하고 계산하기 쉽도록, 평균이 0이고 표준편차가 1인 정규분포를 표준정규분포라고 합니다. 정규분포 N(m,sigma2)N(m, \\sigma^2)를 따르는 확률변수 XX는 다음 공식을 이용하여 표준정규분포를 따르는 확률변수 ZZ표준화할 수 있습니다.

표준화 공식: Z=fracXmsigmaZ = \\frac{X-m}{\\sigma}

표준정규분포의 확률은 표준정규분포표를 이용하여 계산합니다. 표준정규분포표는 P(0leZlez)P(0 \\le Z \\le z) 또는 P(Zlez)P(Z \\le z)와 같은 형태로 주어집니다.

이항분포의 정규분포 근사

시행 횟수 nn이 충분히 크고 pp가 0 또는 1에 너무 가깝지 않을 때, 이항분포 B(n,p)B(n, p)는 정규분포 N(np,np(1p))N(np, np(1-p))에 근사합니다.

이항분포의 정규분포 근사: B(n,p)approxN(np,np(1p))B(n, p) \\approx N(np, np(1-p))

이를 통해 시행 횟수가 많은 이항분포의 확률을 정규분포를 이용하여 쉽게 계산할 수 있습니다.

예제: 어느 고등학교 학생들의 한 달 독서 시간은 평균이 10시간, 표준편차가 2시간인 정규분포를 따른다고 한다. 이 학교 학생 중 임의로 한 명을 선택했을 때, 독서 시간이 13시간 이상일 확률을 표준정규분포표를 이용하여 구하시오. (단, P(0leZle1.5)=0.4332P(0 \\le Z \\le 1.5) = 0.4332)

풀이: 확률변수 XX를 한 달 독서 시간이라고 하면, XsimN(10,22)X \\sim N(10, 2^2) 입니다. 우리는 P(Xge13)P(X \\ge 13)을 구해야 합니다.

  1. 표준화: Z=fracXmsigmaZ = \\frac{X-m}{\\sigma} 공식을 이용하여 X=13X=13을 표준화합니다. Z=frac13102=frac32=1.5Z = \\frac{13-10}{2} = \\frac{3}{2} = 1.5

  2. 확률 계산: P(Xge13)=P(Zge1.5)P(X \\ge 13) = P(Z \\ge 1.5) 입니다. 표준정규분포 곡선은 평균 0을 중심으로 대칭이며, 전체 넓이가 1입니다. 따라서 P(Zge1.5)=P(Zge0)P(0leZle1.5)=0.5P(0leZle1.5)P(Z \\ge 1.5) = P(Z \\ge 0) - P(0 \\le Z \\le 1.5) = 0.5 - P(0 \\le Z \\le 1.5) 입니다.

    P(Zge1.5)=0.50.4332=0.0668P(Z \\ge 1.5) = 0.5 - 0.4332 = 0.0668

정답: 0.0668

3. 통계적 추정

통계적 추정은 모집단 전체를 조사하기 어려울 때, 모집단에서 추출한 표본의 정보를 이용하여 모집단의 특성(모평균, 모비율 등)을 추론하는 과정입니다.

모집단과 표본

  • 모집단: 조사의 대상이 되는 전체 집단
  • 모수: 모집단의 특성(모평균 mm, 모분산 sigma2\\sigma^2, 모비율 pp)
  • 표본: 모집단에서 추출한 일부 집단
  • 통계량: 표본의 특성(표본평균 barX\\bar{X}, 표본분산 S2S^2, 표본비율 hatp\\hat{p})

표본평균의 분포

모평균이 mm, 모표준편차가 sigma\\sigma인 모집단에서 크기가 nn인 표본을 임의 추출했을 때, 표본평균 barX\\bar{X}는 다음과 같은 분포를 따릅니다.

  1. 모집단이 정규분포 N(m,sigma2)N(m, \\sigma^2)를 따를 때: 표본평균 barX\\bar{X}도 정규분포 N(m,fracsigma2n)N(m, \\frac{\\sigma^2}{n})를 따릅니다.

  2. 모집단이 정규분포를 따르지 않을 때 (중심극한정리): 표본의 크기 nn이 충분히 크면(보통 nge30n \\ge 30), 표본평균 barX\\bar{X}는 모평균이 mm, 표준편차가 fracsigmasqrtn\\frac{\\sigma}{\\sqrt{n}}인 정규분포 N(m,fracsigma2n)N(m, \\frac{\\sigma^2}{n})에 가까워집니다.

표본평균의 기댓값, 분산, 표준편차: E(barX)=mE(\\bar{X}) = m V(barX)=fracsigma2nV(\\bar{X}) = \\frac{\\sigma^2}{n} sigma(barX)=fracsigmasqrtn\\sigma(\\bar{X}) = \\frac{\\sigma}{\\sqrt{n}}

모평균의 추정

표본평균 barx\\bar{x}를 이용하여 모평균 mm이 포함될 것이라고 예측되는 구간을 신뢰구간이라고 합니다. 신뢰수준은 모평균이 신뢰구간에 포함될 확률을 의미합니다.

  • 모표준편차 sigma\\sigma를 알 때 모평균 mm에 대한 신뢰구간: kk는 신뢰수준에 따른 상수입니다.

모평균 mm에 대한 신뢰구간: barxkfracsigmasqrtnlemlebarx+kfracsigmasqrtn\\bar{x} - k \\frac{\\sigma}{\\sqrt{n}} \\le m \\le \\bar{x} + k \\frac{\\sigma}{\\sqrt{n}}

*   **신뢰수준 95%**: $k \\approx 1.96$ (즉, $P(-1.96 \\le Z \\le 1.96) = 0.95$)
*   **신뢰수준 99%**: $k \\approx 2.58$ (즉, $P(-2.58 \\le Z \\le 2.58) = 0.99$)
  • 신뢰구간의 길이: 2kfracsigmasqrtn2k \\frac{\\sigma}{\\sqrt{n}}
  • 최대 허용 오차: kfracsigmasqrtnk \\frac{\\sigma}{\\sqrt{n}}
    • 신뢰구간의 길이를 줄이려면 kk를 줄이거나(rightarrow\\rightarrow 신뢰수준 낮아짐), nn을 늘리거나, sigma\\sigma를 줄여야 합니다.

모비율의 추정

모집단의 비율 pp를 추정할 때는 표본에서 얻은 비율인 **표본비율 hatp\\hat{p}**를 사용합니다. 표본의 크기 nn이 충분히 크면, 표본비율 hatp\\hat{p}은 근사적으로 정규분포 N(p,fracp(1p)n)N(p, \\frac{p(1-p)}{n})를 따릅니다.

모비율 pp에 대한 신뢰구간: hatpksqrtfrachatp(1hatp)nleplehatp+ksqrtfrachatp(1hatp)n\\hat{p} - k \\sqrt{\\frac{\\hat{p}(1-\\hat{p})}{n}} \\le p \\le \\hat{p} + k \\sqrt{\\frac{\\hat{p}(1-\\hat{p})}{n}}

*   여기서 $k$는 모평균 추정 시와 동일한 신뢰수준에 따른 상수($1.96, 2.58$ 등)를 사용합니다.

예제: 어느 공장에서 생산되는 전구의 수명을 알아보기 위해 100개의 전구를 임의 추출하여 조사하였더니 평균 수명이 2000시간이었다. 전구의 수명에 대한 모표준편차가 50시간으로 알려져 있을 때, 이 공장에서 생산되는 전구의 모평균 수명 mm을 95%의 신뢰수준으로 추정하시오. (단, P(Zle1.96)=0.95P(|Z| \\le 1.96) = 0.95)

풀이: 주어진 값은 표본의 크기 n=100n=100, 표본평균 barx=2000\\bar{x}=2000, 모표준편차 sigma=50\\sigma=50, 신뢰수준 95% (k=1.96k=1.96)입니다.

모평균 mm에 대한 신뢰구간 공식은 barxkfracsigmasqrtnlemlebarx+kfracsigmasqrtn\\bar{x} - k \\frac{\\sigma}{\\sqrt{n}} \\le m \\le \\bar{x} + k \\frac{\\sigma}{\\sqrt{n}} 입니다.

각 값을 대입합니다. sqrtn=sqrt100=10\\sqrt{n} = \\sqrt{100} = 10

20001.96cdotfrac5010lemle2000+1.96cdotfrac50102000 - 1.96 \\cdot \\frac{50}{10} \\le m \\le 2000 + 1.96 \\cdot \\frac{50}{10} 20001.96cdot5lemle2000+1.96cdot52000 - 1.96 \\cdot 5 \\le m \\le 2000 + 1.96 \\cdot 5 20009.8lemle2000+9.82000 - 9.8 \\le m \\le 2000 + 9.8 1990.2lemle2009.81990.2 \\le m \\le 2009.8

정답: 1990.2lemle2009.81990.2 \\le m \\le 2009.8


주요 공식 정리

| 공식 | 설명 | |:------|:------| | E(X)=sumxipiE(X) = \\sum x_i p_i | 이산확률변수 XX의 기댓값 (평균) | | V(X)=E(X2)(E(X))2V(X) = E(X^2) - (E(X))^2 | 이산확률변수 XX의 분산 | | E(aX+b)=aE(X)+bE(aX+b) = aE(X)+b | 확률변수 변환 시 기댓값 | | V(aX+b)=a2V(X)V(aX+b) = a^2V(X) | 확률변수 변환 시 분산 | | E(X)=npE(X) = np (XsimB(n,p)X \\sim B(n,p)) | 이항분포의 기댓값 | | V(X)=np(1p)V(X) = np(1-p) (XsimB(n,p)X \\sim B(n,p)) | 이항분포의 분산 | | Z=fracXmsigmaZ = \\frac{X-m}{\\sigma} | 정규분포 XsimN(m,sigma2)X \\sim N(m, \\sigma^2)의 표준화 | | E(barX)=mE(\\bar{X}) = m | 표본평균의 기댓값 | | V(barX)=fracsigma2nV(\\bar{X}) = \\frac{\\sigma^2}{n} | 표본평균의 분산 | | barxkfracsigmasqrtnlemlebarx+kfracsigmasqrtn\\bar{x} - k \\frac{\\sigma}{\\sqrt{n}} \\le m \\le \\bar{x} + k \\frac{\\sigma}{\\sqrt{n}} | 모평균 mm의 신뢰구간 (kk: 신뢰수준에 따른 상수) | | hatpksqrtfrachatp(1hatp)nleplehatp+ksqrtfrachatp(1hatp)n\\hat{p} - k \\sqrt{\\frac{\\hat{p}(1-\\hat{p})}{n}} \\le p \\le \\hat{p} + k \\sqrt{\\frac{\\hat{p}(1-\\hat{p})}{n}} | 모비율 pp의 신뢰구간 |


자주 나오는 유형

유형 1: 이산확률분포의 기댓값 및 분산 계산

출제 패턴: 확률질량함수나 확률분포표가 주어지거나, 실제 상황(주사위, 동전 던지기, 제비뽑기 등)을 확률변수와 확률질량함수로 직접 설정해야 하는 문제가 출제됩니다. 확률변수 XX의 기댓값 E(X)E(X)와 분산 V(X)V(X)를 구한 후, E(aX+b)E(aX+b)V(aX+b)V(aX+b)를 묻는 형태로 확장될 수 있습니다.

접근 방법:

  1. 확률분포표 작성: 주어진 정보를 바탕으로 확률변수 XX가 가질 수 있는 값과 각 값의 확률 P(X=xi)P(X=x_i)를 표로 정리합니다. 이때 모든 확률의 합이 1이 되는지 확인하세요.
  2. 기댓값 계산: E(X)=sumxipiE(X) = \\sum x_i p_i 공식을 정확히 적용합니다.
  3. 분산 계산: V(X)=E(X2)(E(X))2V(X) = E(X^2) - (E(X))^2 공식을 주로 사용합니다. E(X2)=sumxi2piE(X^2) = \\sum x_i^2 p_i를 먼저 구하는 것이 편리합니다.
  4. 변환된 확률변수: E(aX+b)=aE(X)+bE(aX+b) = aE(X)+bV(aX+b)=a2V(X)V(aX+b) = a^2V(X) 공식을 이용하여 계산합니다.

유형 2: 정규분포의 성질 및 표준화 활용

출제 패턴: 특정 모집단이 정규분포를 따를 때, 특정 범위의 확률을 구하거나, 반대로 특정 확률을 만족하는 확률변수의 값을 묻는 문제가 나옵니다. 이항분포가 정규분포로 근사되는 상황을 이용하는 문제도 중요한 출제 유형입니다. 정규분포 곡선의 대칭성을 활용하는 문제도 자주 등장합니다.

접근 방법:

  1. 확률변수 정의: 문제에서 주어진 확률변수 XX와 그 분포 N(m,sigma2)N(m, \\sigma^2)를 명확히 파악합니다.
  2. 표준화: 구하고자 하는 확률 P(aleXleb)P(a \\le X \\le b)P(fracamsigmaleZlefracbmsigma)P(\\frac{a-m}{\\sigma} \\le Z \\le \\frac{b-m}{\\sigma})와 같이 표준화합니다.
  3. 표준정규분포표 활용: 표준정규분포표의 값을 이용하여 확률을 계산합니다. 이때 P(Zgez)=0.5P(0leZlez)P(Z \\ge z) = 0.5 - P(0 \\le Z \\le z) 등 대칭성을 이용한 성질들을 잘 활용해야 합니다.
  4. 이항분포 근사: 이항분포 B(n,p)B(n, p)가 주어지면, nn이 충분히 큰지 확인하고 N(np,np(1p))N(np, np(1-p))로 근사하여 표준화 과정을 적용합니다. 이때 연속성 수정을 고려할 때도 있습니다 (예: P(Xgek)P(X \\ge k)P(Xgek0.5)P(X \\ge k-0.5)로 근사).

유형 3: 모평균/모비율 추정과 신뢰구간

출제 패턴: 표본의 정보를 이용하여 모평균 mm 또는 모비율 pp의 신뢰구간을 구하거나, 신뢰구간의 길이를 이용해 표본의 크기 등을 결정하는 문제가 주로 출제됩니다. 신뢰수준, 표본 크기, 신뢰구간의 길이 간의 관계를 이해하는 것이 중요합니다.

접근 방법:

  1. 필요한 정보 파악: 표본평균 barx\\bar{x} (또는 표본비율 hatp\\hat{p}), 모표준편차 sigma\\sigma (또는 표본표준편차 ss), 표본의 크기 nn, 신뢰수준(이에 따른 kk값)을 정확히 파악합니다.
  2. 공식 적용: 모평균 또는 모비율의 신뢰구간 공식을 정확히 대입하여 계산합니다.
  3. 신뢰구간의 길이: 신뢰구간의 길이 2kfracsigmasqrtn2k \\frac{\\sigma}{\\sqrt{n}} 공식을 이용하여 표본 크기 nn이나 신뢰수준을 조절했을 때의 변화를 파악하는 문제에 대비합니다.
  4. '모표준편차를 모를 때': 고등학교 과정에서는 일반적으로 모표준편차 sigma\\sigma를 알려주거나, 표본의 크기 nn이 충분히 커서 표본표준편차 ss를 모표준편차 sigma\\sigma 대신 사용한다고 가정합니다. (정확히는 t-분포를 이용하지만, 수능에서는 정규분포 근사를 활용)

연습문제

연습 1 (기본)

어떤 시행의 결과에 따라 확률변수 XX가 가질 수 있는 값이 1, 2, 3이고, 확률질량함수가 P(X=x)=axP(X=x) = ax일 때, E(2X+1)E(2X+1)의 값은? (단, aa는 상수이다.)

(1) frac143\\frac{14}{3} (2) frac173\\frac{17}{3} (3) 77 (4) frac233\\frac{23}{3} (5) frac263\\frac{26}{3}

정답 및 풀이 보기

정답: (5)

풀이:

  1. 확률 P(X=x)P(X=x) 구하기: 확률질량함수의 성질 sumP(X=x)=1\\sum P(X=x)=1을 이용합니다. P(X=1)=acdot1=aP(X=1) = a \\cdot 1 = a P(X=2)=acdot2=2aP(X=2) = a \\cdot 2 = 2a P(X=3)=acdot3=3aP(X=3) = a \\cdot 3 = 3a a+2a+3a=6a=1Rightarrowa=frac16a + 2a + 3a = 6a = 1 \\Rightarrow a = \\frac{1}{6}

  2. 확률분포표 작성: a=frac16a = \\frac{1}{6}을 대입하여 확률분포표를 만듭니다.

    | XX | 1 | 2 | 3 | 합계 | |:---:|:---:|:---:|:---:|:----:| | P(X=x)P(X=x) | frac16\\frac{1}{6} | frac26\\frac{2}{6} | frac36\\frac{3}{6} | 1 |

  3. E(X)E(X) 계산: E(X)=sumxipiE(X) = \\sum x_i p_i E(X)=1cdotfrac16+2cdotfrac26+3cdotfrac36=frac1+4+96=frac146=frac73E(X) = 1 \\cdot \\frac{1}{6} + 2 \\cdot \\frac{2}{6} + 3 \\cdot \\frac{3}{6} = \\frac{1+4+9}{6} = \\frac{14}{6} = \\frac{7}{3}

  4. E(2X+1)E(2X+1) 계산: E(aX+b)=aE(X)+bE(aX+b) = aE(X)+b 공식을 이용합니다. E(2X+1)=2E(X)+1=2cdotfrac73+1=frac143+frac33=frac173E(2X+1) = 2E(X)+1 = 2 \\cdot \\frac{7}{3} + 1 = \\frac{14}{3} + \\frac{3}{3} = \\frac{17}{3}

정답은 (2) frac173\\frac{17}{3} 입니다. 오타 수정하여 (5)번이 아닌 (2)번 선택지임을 확인합니다. (위 답지에서는 (5)로 표기되어 있으나 풀이 결과는 (2)에 해당)

수정된 답지: (2)

연습 2 (심화)

어느 도시의 1인 가구 월 소득은 평균이 250만 원, 표준편차가 40만 원인 정규분포를 따른다고 한다. 이 도시의 1인 가구 중 임의로 64명을 추출하여 얻은 표본평균이 245만 원 이상 255만 원 이하일 확률을 표준정규분포표를 이용하여 구하시오. (단, P(0leZle1)=0.3413P(0 \\le Z \\le 1) = 0.3413, P(0leZle2)=0.4772P(0 \\le Z \\le 2) = 0.4772)

정답 및 풀이 보기

정답: 0.6826

풀이:

  1. 모집단의 분포: 월 소득을 확률변수 XX라 하면, XsimN(250,402)X \\sim N(250, 40^2) 입니다. (단위: 만 원)

  2. 표본평균의 분포: 크기 n=64n=64인 표본을 추출했으므로, 표본평균 barX\\bar{X}는 정규분포 N(m,fracsigma2n)N(m, \\frac{\\sigma^2}{n})를 따릅니다.

    • E(barX)=m=250E(\\bar{X}) = m = 250
    • V(barX)=fracsigma2n=frac40264=frac160064=25V(\\bar{X}) = \\frac{\\sigma^2}{n} = \\frac{40^2}{64} = \\frac{1600}{64} = 25
    • sigma(barX)=sqrt25=5\\sigma(\\bar{X}) = \\sqrt{25} = 5 따라서 barXsimN(250,52)\\bar{X} \\sim N(250, 5^2) 입니다.
  3. 확률 계산: 구하고자 하는 확률은 P(245lebarXle255)P(245 \\le \\bar{X} \\le 255) 입니다.

    • 표준화: Z=fracbarXE(barX)sigma(barX)Z = \\frac{\\bar{X} - E(\\bar{X})}{\\sigma(\\bar{X})}
      • barX=245\\bar{X} = 245일 때 Z=frac2452505=frac55=1Z = \\frac{245-250}{5} = \\frac{-5}{5} = -1
      • barX=255\\bar{X} = 255일 때 Z=frac2552505=frac55=1Z = \\frac{255-250}{5} = \\frac{5}{5} = 1 따라서 P(245lebarXle255)=P(1leZle1)P(245 \\le \\bar{X} \\le 255) = P(-1 \\le Z \\le 1) 입니다.
  4. 표준정규분포표 활용: 표준정규분포는 0을 중심으로 대칭이므로, P(1leZle1)=P(1leZle0)+P(0leZle1)=2cdotP(0leZle1)P(-1 \\le Z \\le 1) = P(-1 \\le Z \\le 0) + P(0 \\le Z \\le 1) = 2 \\cdot P(0 \\le Z \\le 1) 2cdot0.3413=0.68262 \\cdot 0.3413 = 0.6826

연습 3 (도전)

어느 고등학교 학생들의 통학 시간은 표준편차가 10분인 정규분포를 따른다고 알려져 있다. 이 고등학교 학생 중 nn명을 임의 추출하여 통학 시간을 조사한 결과, 표본평균이 35분이었다. 모평균 mm을 99%의 신뢰수준으로 추정한 신뢰구간의 길이가 5분 이하가 되도록 하는 자연수 nn의 최솟값을 구하시오. (단, P(Zle2.58)=0.99P(|Z| \\le 2.58) = 0.99로 계산한다.)

정답 및 풀이 보기

정답: 67

풀이:

  1. 주어진 정보 확인: 모표준편차 sigma=10\\sigma = 10분, 표본평균 barx=35\\bar{x} = 35분, 신뢰수준 99% (k=2.58k = 2.58), 신뢰구간의 길이 Lle5L \\le 5분.
  2. 신뢰구간의 길이 공식: 모평균 mm에 대한 신뢰구간의 길이는 L=2kfracsigmasqrtnL = 2k \\frac{\\sigma}{\\sqrt{n}} 입니다.
  3. 부등식 설정 및 계산: 주어진 조건을 공식에 대입합니다. 2cdot2.58cdotfrac10sqrtnle52 \\cdot 2.58 \\cdot \\frac{10}{\\sqrt{n}} \\le 5 5.16cdotfrac10sqrtnle55.16 \\cdot \\frac{10}{\\sqrt{n}} \\le 5 frac51.6sqrtnle5\\frac{51.6}{\\sqrt{n}} \\le 5 양변에 sqrtn\\sqrt{n}을 곱하고 5로 나눕니다 (sqrtn\\sqrt{n}은 양수이므로 부등호 방향 변동 없음). frac51.65lesqrtn\\frac{51.6}{5} \\le \\sqrt{n} 10.32lesqrtn10.32 \\le \\sqrt{n}
  4. nn의 최솟값 구하기: 양변을 제곱합니다. (10.32)2len(10.32)^2 \\le n 106.5024len106.5024 \\le n 따라서 nn의 최솟값은 107입니다.

정답 재확인: n=107n=107일 때 L=2×2.58×frac10sqrt107approx5.16×frac1010.34approx5.16×0.9674.99L = 2 \times 2.58 \times \\frac{10}{\\sqrt{107}} \\approx 5.16 \times \\frac{10}{10.34} \\approx 5.16 \times 0.967 \approx 4.99, 5분 이하가 됩니다.

(위 풀이에서 자연수 nn의 최솟값이 67로 되어있으나, 계산 결과 107이 나와 재확인 필요. 다시 계산해보겠습니다.)

2×2.58×frac10sqrtnle52 \times 2.58 \times \\frac{10}{\\sqrt{n}} \\le 5 51.6/sqrtnle551.6 / \\sqrt{n} \\le 5 51.6/5lesqrtn51.6 / 5 \\le \\sqrt{n} 10.32lesqrtn10.32 \\le \\sqrt{n} sqrtnge10.32\\sqrt{n} \\ge 10.32 nge(10.32)2n \\ge (10.32)^2 nge106.5024n \\ge 106.5024 자연수 nn의 최솟값은 107이 맞습니다.

수정된 정답: 107


학습 팁

통계 단원은 단순히 계산만 하는 것이 아니라, 주어진 상황을 통계적으로 해석하고 추론하는 능력이 중요합니다. 개념을 정확히 이해하고 문제에서 요구하는 바를 파악하는 훈련을 꾸준히 해야 합니다!

  1. 개념 정의 명확히 하기: 확률변수, 확률질량함수/밀도함수, 기댓값, 분산, 표준화, 모집단, 표본, 모수, 통계량, 신뢰구간 등 각 용어의 정의와 의미를 정확하게 이해해야 합니다. 특히 모수와 통계량, 모표준편차와 표본표준편차의 구별이 중요합니다.
  2. 공식 암기 후 적용 연습: 주요 공식들은 반드시 암기해야 하지만, 단순히 암기하는 것을 넘어 언제 어떤 공식을 적용해야 하는지 판단하는 능력을 길러야 합니다. 많은 문제 풀이를 통해 자연스럽게 익숙해지도록 연습하세요.
  3. 정규분포의 대칭성 활용: 표준정규분포표를 활용하는 문제는 정규분포의 대칭성을 이용하는 경우가 많습니다. P(Zgez)=0.5P(0leZlez)P(Z \\ge z) = 0.5 - P(0 \\le Z \\le z) 와 같은 성질들을 자유롭게 사용할 수 있어야 시간을 절약할 수 있습니다.
  4. 통계적 추정 문제의 함정 피하기: 신뢰구간 문제에서는 신뢰수준, 표본의 크기, 신뢰구간의 길이 사이의 관계를 묻는 문제가 자주 나옵니다. 신뢰수준을 높이면 신뢰구간의 길이가 길어지고, 표본의 크기를 늘리면 신뢰구간의 길이가 짧아진다는 사실을 정확히 이해하고 있어야 합니다.

이 가이드가 여러분의 수능 통계 단원 학습에 큰 도움이 되기를 바랍니다. 꾸준히 노력하여 좋은 결과 얻으시길 응원합니다!

#수능수학#확률과통계#통계#확률분포#정규분포#통계적추정#수능대비#수능킬러#확통개념#확률과 통계#통계