카테고리 없음

표본의 추출과 표본의 크기 결정 방법과 그 중요성에 대해 사례를 들어 설명

준디 2020. 11. 24. 12:13
반응형

표본추출

- 모집단에 대한 관찰과 통계적 추론을 위해 관심 모집단의 부분 집합(표본)을 선택하는 통계학적인 과정을 표본추출(sampling)이라고 한다. 실행가느엉, 비용제한 등의 이유로 전체모집단에 대한 연구를 실행할 수 없기 때문에 모집단으로부터 표본을 선택하게 됨.

 

표본추출 과정

표본추출 과정은 몇 가지 과정으로 구성된다.

- 첫 번째 단계는 목표 모집단을 정의하는 것이다. 모집단(population)은 연구자가 연구하고 싶은 특성을 지니고 있는 모든 사람들 혹은 항목들(분석 단위)이라고 정의 될 수 있다.

 

- 표본추출 과정의 두 번째 단계는 표집틀(sampling frame)을 선택하는 것이다. 이것은 표본이 도출될 수 있는 목표 모집단의 접근 가능성을 의미한다. 모집단의 분석단위가 조직이라면, 포츈 500대 기업의 명단이나 뉴욕증시에 등록된 SP기업의 명단이 적절할 표집틀이 됨.

 

- 표집틀이 모집단을 전적으로 대표하지 않는다면 표본에서 얻어진 결론은 일반화 될 수 없음. ex. 표집틀이 미국의 중서부 자동차회사의 직원들일 경우, 포츈 500대 기업에서 표집틀을 잡은 경우

 

- 마지막단계는 잘 정의된 표본추출기법을 활용하여 표집틀로부터 표본을 선택하는것임. 표집기법은 두 가지 큰 범주로 확률(임의)표본추출과 비확률 추출로 집단화됨.

 

 

확률표본추출(Probability Sampling)

- 확률표본추출(probability sampling)은 모집단 내에 있는 모든 단위가 표본으로 선택 받을 기회를 가지고 있는 기법이다.

. 단순임의표본추출법(simple random sampling). 모집단의 모든 부분집합(표집틀)은 표본으로 선택될 수 있는 동일한 확률을 지니고 있다. 표집틀이 세분화되고 부분화되지 않았기 때문에, 표본은 편향되지 않고 표본으로부터의 결론은 확률표본추출 기법 중 가장 일반화가 가능하다.

. 계통표본추출법(systematic sampling). 표집틀이 어떠한 기준에 의해 정렬되고, 요소는 정렬된 목록에서 규칙적인 간격으로 선택된다. k= N/n, 정렬된 임의의 첫 번째 기업을 선택하고 매번 k번째 기업을 계속 선택하면 됨.

. 층화표본추출법(stratified sampling). 층화표본추출에서 표집틀은 모집단을 계층에 따라 범주화하고 이를 하위집단으로 구성한다. 가령, 1,000개의 기업에서 200개의 기업을 선택하는 경우, 대기업(500명이상 직원비유), 중견기업(50-500명의 직원), 소기업(50인이하)로 분류한 다음, 하부집단에서 임의적으로 67개의 기업을 선택하여 200개의 표본을 구성.

 

(1) 적은 비율의 집단(대기업)이 과도하게 표본화 되었기 때문에, 이것을 비확률적층화표본추출법(non-proportional stratified sampling)이라고 한다.

 

(2) 모집단에서의 비율로 하부 집단을 선택하는 것이 하나의 대안 기법이라고 할 수 있음. 이 경우, 모집단의 확률분포가 표본에서도 유지되기 때문에 확률층화표본추출법(proportional stratified sampling)이라고 함.

. 군집표본추출법(cluster sam(ling). 지리적으로 넓은 지역에 존재하는 모집단이 있다면, 전체 모집단을 단순임의표집이 불가능할 수 있다. 이러한 경우, 모집단을 지리적인 경계에 따라 군집화하는 것이 효과적임.

. 대응 짝 표본 추출법(matched-pairs sampling). 연구자들은 종종 한 가지 구체적인 기준을 바탕으로 하나의 모집단 내에서 두 하위 집단을 비교하고 싶어 한다. 하위집단에 속한 기업가운데 단순임의표본을 고르고, 기업의 크기, 기업의 크기, 업종, 그리고 다른 대응하는 기준들을 바탕으로 두 번째 하위집단에 속한 기업과 짝을 지어봄.

. 다단계표본추출법(multi-stage sampling). 앞서 기술된 확률표집은 모두 단일표본추출법의 예들이다. 표집이 필요로 하는 방법에 따라, 단일표본추출 방법을 조합하여 다단계표집 방법으로 사용할 수 있다.

 

 

비확률적표본추출(Non-Probability Sampling)

- 비확률적표본추출(nonprobability sampling). 모집단의 단위들이 표본으로 선택의 기회가 없거나 선택 확률이 정확히 결정되지 않은 상황의 표집기법이다. 일반적으로 단위는 쿼터나 편의에 다른 비확률 기준에 따라 선택됨.

 

. 편의표본추출법(convenience sampling). 우연적 표집법 혹은 기회 표집법이라고도 하는데, 이것은 모집단으로부터 접근성이 쉽고, 이용 가능한, 혹은 편리한 상황으로부터 추출한 표본이다. ex> 쇼핑센터. 예비검사로 타당함.

 

. 할당표본추출법(quota sampling). 층화 추출법에서와 같이 모집단이 상호배타적인 하위집단으로 나눠져 있고, 각 하위 집단에서 선택된 비확률 집단은 미리 정해진 할당량(quata)으로 정해져 있는 기법이다. 비례할당추출법(proportional quota sampling)에서는, 각 하위 집단의 대상자 비율이 모집단의 비율과 대응 해야한다. 비비례할당표본추출법(non-proportional quota sampling)은 비례적으로 대표할 표본이 없어도 된다는 점에서 덜 제한적이지만, 각 하위집단의 최소한의 사람들은 만나야 한다.

 

. 전문가표본추출법(expert sampling). 연구되고 있는 현상에 대해 전문지식을 바탕으로 비확률적 방법을 활용하여 응답자를 선택하는 방법이다. 전문가 표본을 사용하는 경우.

 

. 스노우볼표본추출법(snowball sampling). 연구자는 연구에서 기준에 부합하는 몇몇 응답자들을 확인하고, 그들이 생각하는 연구기준에 부합되는 다른 사람을 추천해달라고 부탁함으로써 표집하는 방법이다.

 

 

어떤 사람이 수학자에게 2+2는 얼마냐고 물었다.

수학자는 4라고 퉁명스럽게 대답했다.

대답이 너무 간단해 옆에 있던 통계학자에게 다시 물었다.

통계학자는 답은 신뢰수준 100%에서 4이며 오차한계는 0이라고 말했다.

대답이 너무 복잡해 이제는 옆에 있던 여론조사자에게 2+2는 얼마냐고 다시 물었다.

질문을 받은 여론조사자는 심각한 표정을 짓더니 주위를 조심스럽게 둘러보고 창문을 닫으며 커튼을 내린 뒤,질문한 사람의 귀를 당겨 긴장된 목소리로 귓속말로 이렇게 되물었다. "2 더하기 2가 몇이 되기를 원하십니까?

 

표본의 크기를 결정하는 일반 원칙

연구의 목적에 ᄄᆞ라 표본의 크기가 경정됨

기존 문헌 검토를 통해 필요한 표본의 크기에 대한 사전 지식 습득

 

 

1) 표집의 동질성(=전체 집단을 구성하는 요소들과 연구하고자 하는 송성과 비슷한 정도) - 속성이 비슷할수록 쵸본의 크기는 작아질 수 있음, 표본이 다양하면 표본의 크기가 커짐.

2) 표집 방법과 절차

층화추출방법 < 단순무작위추출 < 군집추출 순으로 오른쪽으로 갈수록, 큰 표본의 크기가 요구

3) 비용 시간 및 인력의 한계

(표본이 커질수록 비용과 시간이 많이 소요되므로 고려해야함)

4) 카테고리 수

(카레고리를 많이 나눌수록 표본의 크기는 커져야 함)

5) 정확성

(표본을 근거로 하여 모집단을 추정한 추정치가 실제로 모집단을 얼마나 가ᄁᆞ이 추정하느냐)

 

 

피검사의 예

- 의사는 피검사에서 아주 소량의 피만 뽑아 검사

- 소량의 피도 대표성이 있음

 

사람들의 평균 몸무게 조사

- 수십 명으로도 충분

 

다양한 의견이 있을 수 있는 여론조사에서는 그보다도 많은 사람이 필요.

 

표본의 크기가 클수록 표본을 기초로 하여 얻은 통계량은 모집단의 모수에 가까워질 가능성이 높아지기 때문에 표본 통계량의 신뢰도는 증가함.

 

표본 조사를 통해 얻은 통계량이 모수와 가장 근접하게 되도록 하기 위해서는 모집단에서 표집 과정을 거쳐 추출한 표본이 얼마나 모집단의 특성과 일치하는가가 관건

 

표본의 특성이 그 표본이 추출된 모집단의 특성과 동일한 특성을 가지는 것을 의미 => 대표성

 

- 표본의 크기가 클수록, 모수에 관한 정보가 확실해 짐 > 신뢰구간은 짧아짐

- 신뢰구간이 너무 넓으면 추정의 결과가 무의미해짐 > 가능한 신뢰구간을 좁게 해야함

- 신뢰구간을 좁게 하기 위해서는 표본의 크기를 늘려야함

 

표뵨의 크기가 클수록 표집 오차는 작아짐, 반대로 표본의 크기가 작을수록 표집오차는 증가함

 

표본의 수가 너무 적다면 모집단에 대한 잘못된 추정을 하기 쉬ᅟᅵᆸ고, 반대로 표본의 수가 필요 이상으로 많으면 시간과 비용 낭비

 

조사원의 업무량, 관리-감독이 어려워져 표본조사에 따른 총오차(total error)가 증가하는 경우 발생

 

 

표본조사를 할 때 가장 중요한 것은 무엇일까?

바로 좋은 표본을 뽑는 것이며 좋은 표본이란 간단히 말해서 표본이 모집단의 축소판 닮은 꼴이 되는 것이다.

다른 말로는 모집단을 대표할 수 있는 표본, 즉 대표성을 갖는 표본을 뽑아야 한다.

국이나 찌개의 간을 볼 EO는 먼저 서너 번 휘휘 젓는다.

새로 담그는 김치의 간을 볼 EO도 먼저 양념과 배추를 골고루 버무린다.

왜일까? 국 한 숟가락이, 배춧잎 한 조각이 전체를 대표할 수 있어야 그 맛으로 전체의 간이 맞는가를 추정할 수 있기 때문이다.

반응형