카테고리 없음

관광학 연구에 필요한 기초통계 분석 기법, 단변량분석 이변량분석 등

준디 2020. 12. 15. 11:45
반응형

관광학 연구에 필요한 기초통계 분석 기법

 

빈도분석

-통계분석의 가장 기초. 변수 내 항목의 빈도수와 백분율을 알 수 있음

-빈도분석을 통하여 변수입력의 오류 확인 가능

교차분석

-분석대상이 되는 두 변수간의 빈도수와 백분율 알 수 있음

-카이제곱 검정을 통해 카이제곱 검정경과를 알 수 있음

t-검정

-두 집단의 평균차이를 통하여 두 집단 간에 차이가 있음을 분석하는 기법

-남녀 간의 여행비용 지출액 차이, 방문경험 여부에 따른 해당관광지 선호도 차이

분산분석

-셋 이상 집단의 평균차이를 통하여 집단 간 차이가 있음을 분석하는 기법

-관광지 방문 횟수별 지출비용 차이

상관분석

-두 개의 변수가 같이 변하거나 다르게 변하는 관계를 파악하는 분석기법

-연령과 연간 여행횟수 간의 관련성

회귀분석

-한 개 또는 그 이상의 독립변수의 변화에 따라 한 개의 종속변수가 어떻게 변화하는 가를 분석하는 기법

-관광사업체의 종업원수(독립변수)와 매출액(종속변수)

 

1.단변량분석(Univariate Analysis)

-단변량분석 혹은 단일변수에 대한 분석은 하나의 독립변수를 특징적으로 서술할 수 있는 통계학적 기법

-단변량 분석은 (1) 도수분포, (2) 중심화 경향, (3) 분산을 포함

-도수분포는 변수의 개별 값에 대한 빈도(혹은 퍼센티지)나 변수 값의 범위를 종합하여 나타냄.

-예를 들어, ‘독실함의 측정도구로써 응답자들이 종료활동에 얼마나 참여하는지를 범주척도로 나타내면 전혀’, ‘일 년에 한번’, ‘일 년에 몇 번’, ‘한 달에 한 번‘, ‘한 달에 몇 번‘, ’주 당 몇 번‘, ’응답하지 않음과 같음.

-각 범주 내에서 관찰의 빈도(퍼센티지)를 세고 아래 그림과 같이 표의 형태로 보여준다면, 이것이 도수분포인 것이다.

-그림의 오른쪽 부분에서 보여지는 것과 같은 분포는 막대 차트의 형태로 묘사된 것이다.

-수평 축은 각 범주의 변수를 나타내고 수직축은 각 범주에서의 곽측빈도 혹은 퍼센티지를 나타낸다.

-관찰이 독립적이고 임의표본의 도수분포는 종형곡선을 따르는 경향이 있음

-대부분 관찰 값의 범위가 중앙에 무리를 이루고 있으며 양쪽으로 갈수록 좀 더 적은 수의 관찰 값이 나타나 극단점을 향함

-이러한 곡선 형태를 나타내는 분포를 정규분포라 부름.

 

 

양적분석

중심화경향(central tendency)

-관찰 값들의 분포가 중앙에 모여 있음에 대한 추정치

-중심화경향의 세 가지 주요한 추정치는

평균값(mean), 중앙값(median), 최빈값(mode)

-간단하게 평균이라 불리는 산술평균은 주어진 분포에서 모든 값들의 단순 평균 값이다. 예를 들어, 여덟 명의 시험점수가 15, 22, 21, 18, 36, 15, 25, 15이다. 이 값들의 산술평균은 (15+22+21+18+36+15+25+15) / 8 = 20.875 이다.

-기하평균(geometric mean)n 개의 양수가 있을 때, 이들의 곱에 n제곱근의 값을 나타내며,

-조화평균(harmonic mean)n 개의 양수에 대하여 그 역수들을 산술평균 한 것의 역수로 나타낸다. 이러한 평균값들은 사회연구 데이터를 분석하는데 널리 활용되지 않는다.

-중심화경향의 두 번째 측정값은 중앙값(median)

-중앙값은 분포 내에 있는 값들 가운데 가장 중앙에 위치한 값을 의미한다.

-이것은 분포 내의 모든 값을 오름차순으로 정리한 후 중앙값을 고르는 것으로 계산된다.

-분포 내에 짝수 개의 값들이 있는 경우에는 두 개의 중앙 이 존재하게 되는데, 이 때 구 값의 평균을 중앙값으로 나타내면 된다. 예를 들어 정리된 값들이 15, 15, 15, 18, 21, 22, 25, 36 으로 8개 값이라면, 두 중앙값은 1821이 되기 때문에, 중앙값은 (18+21)/2=19.520이 된다.

-최빈값(mode)은 분포 내에 관찰값들 가운데 가장 많이 나타나는 값이다.

-앞선 예에서 정리된 값들이 15, 15, 15, 18, 21, 22, 25, 36, 으로 8개 값이라면 가장 많이 나타나는 값은 15이며, 이는 시험점수 집합의 최빈값

-표본에서 추정되는 평균, 중앙값, 최빈값 혹은 후에 추정되는 모든 값은 통계량(statistic)이라고 부름.

 

분산

-관찰 값이 중앙화 경향 근처에서 얼마나 퍼져 있는지를 의미

-예를 들어, 평균 주위에 얼마나 타이트하게 혹은 넓게 관찰 값들이 무리를 지어있는 지가 분산이라 할 수 있음.

-분산은 범위와 표준편차로 측정할 수 있다.

-범위(range)는 분포에서 가장 높은 값과 가장 낮은 값과의 차이이다.

앞선 예제에서의 범위는 36-15=21 이다. 범위는 이상 값이 존재할 결우 특히 민감하게 반응한다. 예를 들어, 분포 내에서 가장 높은 값이 85이고 다른 값들은 그대로라고 가정할 경우, 범위는 85-15=70이 될 것이다.

-표준편차(standard deviation)는 이상 값은 각각의 관찰 값의 평균으로부터 얼마나 가깝고 먼지를 나타냄.

-표분편차의 공식

 

 

-표준편차의 제곱은 분포의 분산(variance)이라고 부름.

 

2.이변량분석(Bivaiate Analysis)

-이변량분석은 두 개의 변수가 서로 얼마나 연관되어 있는지 검증하는 것

(독립변수와 종속변수가 각각 1개 이거나 독립변수가 2개인 경우)

-보통의 이변량 통계량은 간단히 상관관계라고 불리는 이변량상관관계(bivariate correlation)로 측정

-두 변수의 관계의 강도는 1부터 1 사이의 숫자로 나타냄.

-나이와 자존감이 얼마나 연관되어 있는지를 20명의 응답자를 통해 알아본다고 가정해보자(: 나이가 먹을수록, 자존감은 증가한다, 감소한다, 변하지 않는다)

-만약 자존감이 증가한다면, 두 변수 간에는 양의 상관관계가 존재하는 것이고, 자존감이 감소한다면, 두 변수 간에는 음의 상관관계가 존재하는 것이고, 자존감의 변화가 없다면, 영의 상관관계가 있는 것이다.

-표에 있는 값을 위의 공식을 활용하여 수동적으로 나이와 자존감 사이의 상관관계 값을 계산하면 0.79

따라서 나이와 자존감이 강한 양의 상관관계를 지니고 있음을 나타낸다.

(:자존감은 나이가 들면서 높아지는 경향을 보이며, 나이가 적어질수록 낮아지는 경향을 보임)

3.다변량분석(multivariate Analysis)

독립변수 2개 이상, 종속변수 1개 이상인 경우

1)다중회귀분석

-다중회귀분석은 하나의 계량적 종속변수와 하나 이상의 계량적 독립변수 간에 관련성이 있다고 가정되는 연구 문제에 적합한 분석기법

-다중회귀분석의 목적은 다수의 독립변수의 변화에 ᄄᆞ른 종속변수의 변화를 예측하는 데 있음

-독립변수들이 종속변수를 설명하는 정도를 알 수 있고, 종속변수에 대한 독립변수들의 상대적인 기여도를 파악할 수 있음.

-다중회귀분석의 예

월 외식 경비(종속변수)는 가정의 소득, 가족의 수와 같은 독립 변수들에 의해 예측될 수 있음.

 

2)다변량 분산분석, 가변량 공분산분석

-다변량 분산분석은 두 개 이상의 범주형 종속변수와 다수의 계량적 독립변수간의 관련성을 동시에 알아볼 때 이용되는 통계적 방법

-다변량 공분산분석은 실험에서 통제되지 않은 독립변수들의 종속변수들에 대한 효과를 제거하기 위해 다변량 분산분석과 함께 이용되는 방법

 

다변량 분산분석의 예

다수의 관광행동집단과 다수의 관광만족도 차원이 있을 EO rkr 관광 행동 집단의 다수 관광만족도 차원을 비교 분석시 다변량 분산분석이 사용되는 경우

 

다변량 공분산분석의 예

호텔종업원 교육시 종업원의 학령을 통제한 상태에서 종업원이 이론상 성적과 실무 성적이 두 가지의 교육방식(강의/학습 참여)에 따라 차이가 있는지를 알고자 하는 경우

 

 

3)주성분분석(Principal Component Analysis)

-여러 개의 양적변수들 사이의 분산-공분산 관계를 이용하여 이 변수들의 선형결합으로 표시되는 주성분을 찾고, 이 중에서 중요한 보통 2~3개의 주성분으로 전체 변동의 대부분을 설명 하고자 하는 다변량 분석법

-주성분 분석은 자료의 요약이나 선형관계식을 통하여 차수를 감소시켜 해석을 용이하게 하는데 목적이 있으며, 주성분들은 서로 상관이 없거나 또는 독립적인 새로운 변수들로써 정보의 손실이 최소화되도록 구함.

 

4)정준상관분석

-정준상관분석은 하나의 계량적 종속변수와 다수의 계략적 독립변수간의 관련성을 조사하는 다중회귀분석을 논리적으로 확대시킨 것

-이 기법은 다수의 계량적 종속변수와 다수의 계략적 독립변수간의 상관관계를 알아보고자 할 때 쓰는 방법

-정분산관분석의 기본원리는 종속변수군과 독립변수군의 두 변수군간의 상관을 가장 크게 하는 각 변수군의 선형조합을 찾아내는 일.

-다시 말해 종속변수군과 독립변수군간의 상관을 최대화하는 각 변수군의 가중치의 집합을 찾아내는 것

-정준상관분석의 예로는, 다수의 외식 동기 항목과 다수의 레스토랑 속성 변수들간의 관계 분석을 통해 고객의 외식 동기가 레스토랑 선 미치는 영향을 분석하는 경우

 

 

5)요인분석

요인분석은 많은 수의 변수들간의 상호관련성을 분석하고, 이들 변수들을 어떤 공통 요인들로 설명하고자 할 때 이용되는 기법이다. 즉 요인분석은 많은 수의 원래 변수들을 이보다 적은 수의 요인으로 요약하기 위한 분석기법이다. 그래서 요인분석은 주로 검사나 측정도구의 개발과정에서 측정도구의 타당성을 파악하기 위한 방법으로 많이 사용되고 있다. 요인분석의 종류로는 연구자가 가설적인 요인을 설정하지 않고 얻어진 자료에 근거하여 경험적으로 요인의 구조를 파악하는 탐색적 요인분석과 연구자가 사전에 요인의 구조를 가설적으로 설정하고 이를 검증하는 확인적 요인분석이 있다.

 

요인분석의 예로는 관광객이 여행사를 선택하는 변수(속성)들이 많을 때, 이들 변수 모두를 개별적으로 분석하기보다는 좀 더 이해하기 쉬운 몇 개의 요인으로 축소하거나 요약할 때 요인분석을 실시한다.

 

6)군집분석

군집분석은 집단에 관한 사전정보가 전혀 없는 각 표본에 대하여 그 분류체계를 찾을 때, 다시 말해 각 표본을 표본들 간의 유사성에 기초해 한 집단에 분류시키고자 할 때 사용되는 기법으로 판별분석과 달리 군집분석에서는 집단이 사전에 정의되어 있지 않다.

 

군집분석은 대개 다음과 같은 두 단계를 거치게 된다. 첫째로 몇 개의 집단이 존재하는가를 알아보기 위해 각 표본들 간의 유사성 혹은 연관성을 조사하며, 둘째로 첫 번째 단계에서 정의된 집단에 어떤 표본을 분류해 넣거나 혹은 그 소속을 예측하는 것이다. 두 번째 단계에는 군집기법에 의해 나타난 그룹들에 대해 판별분석을 적용하게 된다.

 

군집분석의 예로는 주제공원 운영자가 고객들로부터 각종 레저활동에 대한 관심도, 다양한 실/내외 시설에 대한 선호도 등을 조사하여 각종 주제시설의 세분시장을 발견하려는 경우를 들 수 있다.

반응형