728x90

1. 분산분석의 필요성

분산분석(ANOVA: Analysis of Variance)은 두 개 이상 집단 간의 평균에 대한 차이를 검정하는 통계분석입니다. 분산분석을 이용하여 각 집단들이 동일한 평균을 가진 모집단에서 추출된 것인지 여부를 검정할 수 있습니다. 예를 들어서 광고 모델을 누구로 사용하는가에 따라서 광고에 대한 평가가 달라질 수 있습니다. 즉 어떤 사람은 아이돌같은 연예인들이 등장하는 광고에 호감을 보이는 반면, 다른 사람들은 일반 보통사람들이 등장하는 광고에 더 큰 호감을 느끼기도 합니다. 이러한 상황에서 마케팅 관리자는 소비자들이 어떤 광고 모델에 더 좋은 반응을 나타내는지를 알고 싶을 것입니다. 분산 분석은 이와 같이 마케팅 전략의 효과 측정이나 소비자 집단의 마케팅 전략에 대한 반응 차이 등에 대하여 통계적으로 검증된 의사결정을 가능하게 합니다.

2. 분산 분석의 이해

집단간의 평균에 통계적 차이가 있다 혹은 없다는 것을 어떻게 측정할 수 있을까요? 분산 분석의 기본 원리를 이해하기 위하여 가상적인 A기업의 신상품 홍보 전략을 예로 설명하고자 합니다.

A회사는 새로운 여성용 화장품 브랜드를 런칭하면서, 브랜드를 널리 알리기 위하여 향수 샘플, 현금할인, 그리고 무료 마사지의 3 가지 판촉물을 준비하고 있습니다. 그리고 이중 어떤 판촉물이 더 효과적인지 확인하기 위하여 전국에 분포되어 있는 12개의 점포를 각각 4개의 점포로 나누어 총 3개의 집단을 구성하였습니다. 각각의 집단에는 한 가지 종류씩 판촉물이 주어졌으며, 1개월의 판촉 행사가 종료된 이후 다음과 같은 판매 성과를 얻었습니다.

이와 같은 결과를 받은 후에 A기업은 어떤 각기 다른 3가지 판촉수단을 사용한 3개 집단간에 통계적으로 유의한 차이가 있는지를 분석하여 의사결정에 활용할 수 있는데 이를 분산분석이라고 합니다.

분산분석에서는 독립 변수와 종속 변수가 각각 필요합니다독립변수는 서로 다른 판촉 수단을 사용한 향수 샘플, 현금 할인, 무료 마사지의 3개 집단이 되며, 종속 변수는 이들 각 집단의 일평균 매출액이 됩니다. 즉 독립변수는 명목이나 비율 척도로서 그 값이 변하지 않고 항상 일정하지만, 종속변수는 등간이나 비율 척도로서 어떤 독립변수를 기준으로 평균을 파악하는가에 따라서 수시로 그 값이 변할 수 있습니다.

분산분석에서 사용하는 귀무가설과 대립 가설은 다음과 같습니다.

H0 : 집단별 매출액은 동일하다

H1 : 집단별 매출액은 동일하지 않다

3. 분산분석의 계산 절차

분산분석은 전체 분산을 이루고 있는 집단간 분산과 집단내 분산 중에서 집단 간 분산이 집단내 분산보다 얼마나 큰가를 판단하여 집단 간의 차이를 검정하는 방식입니다. 따라서 가설을 검증하기 위하여 분산분석에서는 집단내 분산, 집단간 분산, 그리고 전체 분산의 3가지 분산을 계산해야만 합니다.

1) 집단내 분산

집단내 분산은 각 집단의 평균치를 중심으로 집단내 각 측정치들이 얼마나 떨어져 있는 가를 나타내며 집단내 분산은 무작위 오차에 의한 것입니다. 즉 집단의 특성에 의한 차이가 아니라 그 외 설명할 수 없는 원인들에 의한 차이들입니다. 일예로 향수를 사용한 a 집단의 평균 매출은 32만원이지만, 같은 a 집단내에서도 매출액은 22만원 ~ 40만 원까지 다양합니다. a 집단내에서 발생한 매출 차이는 동일한 판촉 수단을 썼으므로 결코 판촉 수단의 차이가 될 수 없으며, 판촉 수단 이외의 알지 못하는 원인에 의해 발생한 차이임을 의미합니다집단내 분산을 구하기 위한 공식은 다음과 같습니다.

이를 앞의 A기업의 판촉 예에 대입해보면 집단내 분산은 다음과 같이 구할 수 있습니다.

판촉물 a(향수샘플) 집단내 분산= (40-32)2 + (36-32)2 + (30-32)2 + (23-32)2 = 184

판촉물 b(가격할인) 집단내 분산= (34-26)2 + (28-26)2 + (26-26)2 + (16-26)2 = 168

판촉물 c(무료 마사지) 집단내 분산= (28-18)2 + (20-18)2 + (14-18)2 + (10-18)2 = 184

** 그리고 이 세개 집단의 집단간 분산을 모두 합산한 전체 집단내 분산은 184+168+184 = 536 입니다.

2) 집단간 분산

집단간 분산은 각 집단들의 평균이 전체 평균으로부터 떨어져 있는 정도로 계산됩니다. 이는 집단의 특성에 따른 차이로써, 3개의 집단이 각기 다른 판촉 수단을 사용하였기 때문에 발생한 차이라고 볼 수 있을 것입니다집단간 분산을 구하기 위한 공식은 다음과 같습니다.

이를 앞의 A기업의 판촉 예에 대입해보면 집단간 분산은 다음과 같이 구할 수 있습니다.

** 집단간 분산= 4( (32-25.3)2 + (26-25.3)2 + (18-25.3)2 ) = 394.7 입니다.

3) 전체 분산

전체 분산은 각 측정치들이 전체 평균에서 얼마나 떨어져 있는가의 정도이며,

전체분산 = 집단간 분산 + 집단간 분산 = 536 + 394.7 = 930.7 로 구할 수 있습니다.

이제 구해진 집단내 분산과 집단간 분산을 이용하여 집단간 차이를 분석하기 위해서는 추가적으로 각각의 분산 값들을 자유도로 나누어 줌으로써 평균 분산(M.S)'을 구하여야 합니다. 세가지 분산별 자유도를 구하는 방식은 다음과 같습니다.

ㅇ 집단내 분산의 자유도 = (집단의 수 * 집단내 항목 수) - 집단의 수

= (3 * 4) - 3 = 9

ㅇ 집단간 분산의 자유도 = 집단의 수 1

= 3 - 1 = 2

ㅇ 전체 분산의 자유도 = 집단내 분산의 자유도 + 집단간 분산의 자유도

= 9 + 2 = 11 입니다.

이미 구해진 분산값을 각각의 자유도로 나눌 경우, '평균분산(MS)'를 구할 수 있습니다.

ㅇ 집단내 평균분산 = 536 / 9 = 59.6

ㅇ 집단간 평균분산 = 394.7 / 2 = 197.3

마지막으로 구해진 평균분산 값을 이용하여 집단간에 평균 값의 차이가 있다는 것을 검증하기 위하여 집단간 분산이 집단내 분산보아 얼마나 큰지 F 검정을 해야 합니다. F 검정은 집단간 평균분산을 집단내 평균분산으로 나누어준 F 값을 가지고 검정이 이루어 집니다.

F = 집단간 분산 / 집단내 분산

= 197.3 / 59.6 = 3.31

즉 이런 과정을 통하여 도출된 F 값을 F비율통계표의 특정 유의수준별 제시된 통계량과 비교함으로서 가설의 기각이나 채택 여부를 결정하게 됩니다. 즉 이런 과정을 거쳐서 나온 F 값인 3.31은 유의수준 0.10에서 확인할 수 있는 임계치인 3.01보다 더 크므로 “H0(귀무가설) = 집단간의 매출액은 동일하다는 당초의 귀무 가설은 기각이 되며, 그 반대인 대립가설이 채택되빈다. 즉 집단간 유의한 차이가 있다고 판단하게 되는 것입니다. 실제 SPSS에서는 이런 비교의 번거로움을 덜어주기 위해서 F 값과 더불어 검정 결과를 유의도 값으로 제공합니다.

728x90

4. 분석을 위한 설문과 데이타

실제로 분산분석은 집단간 평균 차이를 구하기 위한 여러 방법의 총칭이며, 보다 세부적으로는 일원 분산분석, 다변량 분산분석 등 다양한 형태가 존재합니다. 본 차시에서는 분산 분석중 가장 기본적 방법이라고 할 수 있는 일원 분산분석(One-way ANOVA)를 중심으로 설명드리도록 하겠습니다.

일원 분산분석은 단 하나의 독립 변수에 의하여 발생하는 종속변수의 평균 차이를 검정합니다. 독리변수는 반드시 명목이나 서열 척도로 측정되어야 하며, 종속변수는 등간이나 비율 척도로 측정된 자료여만 합니다. 이를 위배할 경우 앞에서 살펴본 바와 같은 분산이나 F 값을 구할 수 없으므로 분산분석을 시행할 수 없습니다.
우선 분산분석을 실습하기 위하여 어떤 문항들을 사용할지 실습용 설문지를 참조해 보도록 하겠습니다. 본 분석에 사용될 설문 문항은 월평균 소득을 묻는 7번 문항과 집에서 보유한 TV의 사이즈를 묻는 문항을 사용하도록 하겠습니다. 즉 소득에 따라 TV 사이즈에 유의한 차이가 있는지 평균을 비교해보고자 합니다. 각 문항들을 살펴보면 7번 문항은 집단을 구분하는 변수로서 명목척도로 구성되어 있는 독립변수이며, 10번 문항은 비율 척도로 구성된 종속 변수 임을 알 수 있습니다.

5. 분산 분석 및 결과

이제 실습 설문지실습 data를 이용하여 직접 SPSS를 이용한 분석을 해보도록 하겠습니다. 우선 데이타 파일을 여신 후, 월평균 소득TV의 크기 변수들을 확인하십시요.

1) 분산분석 메뉴의 실행

분산 분석을 수행하기 위해서는 우선 메뉴 바의 분석(A) -> 평균비교(M) -> 일원배치 분산분석(O)을 차례데로 클릭해주시기 바랍니다. 이를 모두 실행하면 분산분석 대화상자가 나타납니다.

2) 분석 대상 변수의 선택

분산분석을 클릭한 경우 아래 그림과 같이 일원배치 분산분석 대화창이 나타납니다분산분석에서는 종속변수와 독립변수를 각각 구분지어서 지정해주어야 하는데, 대화창에서 나타난 요인 분석에 독립변수를 지정해주면 됩니다. 본 분석에서는 명목척도로 측정된 가구총수입을 독립변수로, 비율척도로 측정된 TV크기를 종속변수로 지정함으로서, 가구 수입별 집단에 따라 TV의 사이즈에 차이가 있는지 검정할 것입니다.

3) 옵션의 조정

: 분산 분석은 별도의 옵션을 지정하지 않더라도 충분히 필요한 정보들을 제공하기 때문에 옵션을 따로 조정할 필요는 많치 않습니다. 하지만 대화창 우측의 ‘옵션’버튼을 눌러보시면 기술 통계 등 몇몇 옵션을 선택할 수 있습니다. 본 실습에서는 기술 통계 옵션만을 선택하고 바로 분석을 진행해보도록 하겠습니다.

4) 분석의 시행 및 결과

이제 분산분석을 시행해보도록 하겠습니다옵션에서 기술통계를 선택하였기 때문에 분산분석은 먼저 각 집단의 평균적인 TV 사이즈 정보를 제공합니다. 분산분석의 목표가 집단간 평균 비교이기 때문에 평균을 표시하는 기술 통계 옵션은 항상 선택하시는 것이 좋습니다.

집단간 평균 차이를 보면 확실히 소득이 올라갈수록 TV의 사이즈도 같이 증가하는 것을 볼 수 있습니다. 일예로 소득 300만원 미만의 평균 사이즈가 고직 27.8인치에 불과하였지만, 701만원 이상인 경구 그 사이즈가 42.6인치로 증가하고 있습니다. 그러나 이 결과만을 가지고는 이 차이가 통계적으로 유의한지 확신할수는 없습니다. 이제 분산분석표를 확인할 차례입니다.

그 바로 다음의 결과는 요약된 분산분석표를 보여줍니다분석표에는 분산의 제곱합, 자유도(df), 평균제곱, F, 유의확률 등의 값을 보여주고 있습니다. SPSS 프로그램을 한글화하는 과정에서 번역이 잘못되어 F 값이 거짓으로 오역되어 있는 것도 볼 수 있습니다. 이처럼 통계 용어의 오번역등의 여러 이유로 많은 SPSS 사용자들은 한글보다는 영문 버전을 선호하기도 합니다.

결과에 따르면 집단간 평균과 집단내 평균을 이용하여 구한 F 값은 23.499이며, 유의확율은 0.000으로 나타나고 있습니다. 유의확률은 보통 p, sig 등 다양한 형태로 표시되기도 하는데, 가설 검증을 통하여 상관계수가 통계적으로 유의한가에 대한 정보이며, 보통 그 기준은 유의확률이 0.05보다 작은 경우 통계적으로 유의하다고 판단합니다. 분석 결과 유의 확율은 0.000으로서 통계적 유의성이 확보되었습니다. 즉 소득 집단별 보유한 TV의 크기는 유의한 것으로 나타나고 있습니다.

* 본 강좌 내용을 보다 상세히 동영상으로 보고싶으신 분들은 아래 유튜브 강좌 참조하세요.

https://youtu.be/itSsiCLklzA

: 청주대학교 이 원준 (meetme77@naver.com)

728x90
728x90

1. 상관관계 분석의 필요성

상관관계(correlation) 분석은 연구 대상인 변수들간의 관련성을 분석하기 위하여 사용됩니다. 즉 한 변수와 다른 변수와 어느 정도 관련성을 가지고 같이 변화하는지의 정도를 분석하는 목적으로 사용됩니다. 예를 들어서 광고량과 판매량을 각각 비율척도로 입력하여 상관관계 분석을 하거나, 광고량(광고비로 입력한 비율척도)과 제품에 대한 만족도(5점 등간 척도)를 대상으로 상관관계 분석이 이루어질 수 있습니다. 이처럼 두개 변수간의 상관관계를 나타내는 것을 단순상관관계라고 합니다. 단순상관관계를 분석하는 것만으로도 관리자는 효과적인 의사결정에 필요한 기본적 자료를 얻을 수 있습니다. 일예로 만일 광고량과 제품에 대한 만족도간에 별다른 관련성이 없다면, 고객의 불만이 증가할 때 광고를 늘리는 것은 그다지 현명한 전략이 아닐 것입니다.

상관관계의 분석에 사용되는 변수들은 반드시 등간척도나 비율척도처럼 연속성을 가지고 있는 변수들을 가지고 분석이 이루어집니다. 즉 자동차의 모델명(명목척도)과 연비(비율척도) 간의 상관관계는 이루어질 수 없습니다. 그 이유는 명목 척도는 평균이나 분산을 가질 수 없으므로, 통계적 추정이 필요한 상관관계가 불가능하기 때문입니다.

2. 상관관계 분석의 이해

변수들간의 관련성이 높다 혹은 낮다는 것은 어떻게 측정이 가능할까요? 변수들간의 상호관련성, 즉 상관은 특정 변수의 분산이 다른 변수의 분산과 같이 변화하는 정도에 따라 결정됩니다. 이처럼 같이 같이 공명하며 변동하는 분산을 공분산이라고 합니다.

아래 그림에서 보듯, 같이 변동하는 정도가 적을수록 상관관계는 낮아지면, 같이 변동하는 정도가 클수록 상관관계는 높아집니다. 이때 상관관계의 정도를 나타내주는 것이 상관계수인데, 전혀 상관이 없을 경우의 상관계수는 0이지만, 완전히 변동하는 부분이 일치하는 경우의 상관계수는 -1 혹은 1입니다. 즉 상관계수는 -1 ~ 1 사이의 값을 같습니다.

제시된 산포도를 기준으로 가상적 예를 살펴보면, 학생의 학습시간에 따라 성적이 정확하게 비례하여 증가하는 경우 +1의 완전한 상관관계를 보이고 있지만, 시외버스의 운행 간격과 성적은 상관관계가 거의 존재하지 않는 0의 상관관계를 보입니다. 반면에 학생의 온라인 게임을 즐기는 시간에 비례하여 성적이 정확하게 감소하는 경우 -1의 상관관계를 보이고 있습니다.

그러나 현실 세계에서는 이렇게 +1 혹은 -1의 완전한 상관관계를 보이거나 상관계수가 0인 전혀 상관이 없는 관계는 그렇게 많치 않습니다. 그보다 대부분의 경우는 다소의 상관관계를 가지고 있는 것이 보통입니다. 아래의 가상적 예에서 보듯 대부분의 상관관계는 어느 정도의 강도를 가지고 움직이는 것이 보통입니다. 관계수의 절대값이 0.2이하면 보통 상관관계가 무시할 수 있을 정도로 미약하다고 판단하며, 02 ~ 0.6 정도면 어느정도 상관관계가 있다고 인정됩니다. 그리고 0.6 이상일 경우 매우 강한 상관관계가 있는 것으로 인정됩니다.

또한 상관계수의 값을 제곱한 것을 결정 계수라고하며, 이 결정 계수 한 변수가 다른 변수의 변화를 설명할 수 있는 설명력을 의미합니다.

3. 상관관계 계산의 절차

상관관계 계산의 기초적 절차로서 우선 공분산의 개념을 이해하여야 합니다. 공분산이란 확률변수 X의 증감에 따라 또 다른 확률변수 Y가 증감하는 정도로서, 의 기대값이며 기호로는 cov(X, Y)로 표시합니다. 그러나 위 식에서 보듯, 공분산은 XY의 단위가 커지면 자연스럽게 같이 증대하게 되므로, 공분산을을 표준화할 필요가 있습니다. 이 공분산을 표준화한 것이 상관계수입니다, 상관계수는 다음과 같으며 -1 ~ 1 사이의값을 갖게 됩니다.

: 1) xy의 공분산, 2) x의 표준편차, 3) y의 표준편차

이를 보다 잘 이해하기 위하여 실제 사례를 가지고 같이 상관계수를 구해보도록 하겠습니다.

[사례]

스마트폰을 제작하는 S사는 최근 신제품을 개발하면서 스마트폰 가격이 커짐에 따라 더 많은 고객들이 좋은 평가를 내리는 것을 알게 되었습니다. 이런 경험을 통해서 막연하지만 스마트폰의 높은 가격 이미지가 판매량에 좋은 영향을 주고 있는 것이라고 생각을 하게 되었습니다. 이런 관계를 검증하기 위해서 가격 판매량간의 과거 데이타를 분석하여 그 관계를 파악하고자 합니다.

a. 상관계수를 구하기 위해서는가격(X)과 판매량(Y) 변수의 평균 및 합계를 구해야 합니다. 그 결과는 다음과 같습니다.

b. 구해진 각 변수의 평균을 활용하여 1), 2), 3), 4)를 구합니다. 즉 각 관측치에서 각 변수의 평균을 차감한 값을 활용하여 (1)(3)을 각각 구한뒤, 이 값들을 제곱하여 (2)(4)를 구한 후 다시 (5)를 구하십시요. 이때 2)4)는 곧 가격(X)과 판매량(Y) 각각의 표준편차이며, 5)는 이 두개 변수의 공분산입니다.

c. 상관계수 구하기

이제 가격(X)과 판매량(Y) 각각의 표준편차를 알고 있으며, 이들 변수간의 공분산을 알게 되었습니다. 이를 활용하면 바로 상관계수를 구할 수 있습니다.

,

= 0.903의 높은 상관관계가 있는 것으로 나타났습니다. 이 결과의 의미는 스마트폰의 가격과 판매량간에 매우 강력한 상관관계가 존재한다는 것을 의미합니다.

728x90

4. 분석을 위한 설문과 데이타

이처럼 직접 계산을 하여서 상관계수를 구하는 것도 가능하나, SPSS는 이런 중간 단계를 생략하고 바로 상관 관계를 구할 수 있는 편리한 기능을 제공합니다. , 통계적인 지식이 없다고 하더라도 등간척도와 비율척도를 활용하여 매우 간단하게 상관관계를 구할 수 있습니다.

우선 이를 실습하기 위하여 어떤 문항들을 사용할지 실습용 설문지를 참조해 보도록 하겠습니다. 본 분석에 사용될 설문 문항은 설문 22페이지의 가족의 숫자를 묻는 4-9)번 문항과 집에서 보유한 TV의 사이즈를 묻는 10번 문항을 사용하도록 하겠습니다. , 가족이 많으면 많을수록 더 편리하게 보기 위하여 더 큰 사이즈의 TV를 구하고 싶어할 것이라는 가설을 검증해보고자 합니다.

이 두개의 문항은 모두 비율척도로서 상관관계의 분석에 적합한 것으로 판단되었습니다. 추가로, 소득수준 역시 TV의 크기에 영향을 미칠 것이라고 가설을 세울 수 있습니다. 당연히 소득이 많을수록 소비지출이 많으므로 누구나 생각해볼만한 가설입니다. 그러나 소득 수준을 물어보는 22페이지의 문항 7을 살펴보니, 명목척도로 물어보고 있습니다. 충분히 소득수준과 TV의 크기간에는 유의한 상관관계가 실제로 존재하더라도, 조사자가 소득을 이처럼 명목 척도로 물어보았다면 상관관계를 진행할 수 없습니다. 따라서 어떤 연구 방법을 사용할지 여부는 설문지 작성 단계에서부터 고민되고 결정될 필요가 있음을 알 수 있습니다.

만일 소득 수준을 응답자가 직접 넣도록 하는 비율형 척도를 사용하였다면, 이 두변수간의 상관관계 분석은 가능했을 것입니다, 아래와 같이 물어보았다면 당연히 상관관계 분석이 가능합니다.

5. 상관관계 분석 및 결과

이제 직접 SPSS를 이용한 분석을 해보도록 하겠습니다. 우선 데이타 파일을 여신 후, 가족 수TV의 크기와 관련된 변수들을 확인하십시요. 단순상관관계 분석을 위해서는 최소한 2개 이상의 변수가 필요합니다. 만일 변수가 2개 이상인 경우에는 자동적으로 모든 변수의 쌍대 조합을 이용하여 모든 가능한 상관관계 변수를 자동으로 분석해줄 것입니다.

1) 상관분석 메뉴의 실행

상관관계 분석을 수행하기 위해서는 우선 메뉴 바의 분석(A) -> 상관분석(C) -> 이변량 상관계수(B)를 차례데로 클릭해주시기 바랍니다. 이를 모두 실행하면 상관분석 대화상자가 나타납니다.

2) 분석 대상 변수의 선택

아래 그림과 같이 대화상자에서 분석할 변수인 가족 수(변수명: s12)’‘TV의 크기(변수명: s19)’를 선정한 후 화살표를 클릭해서 오른쪽의 변수(V) 상자로 보냅니다.

대화상자를 보면은 Pearson 상관관계 분석으로 지정되어 있는 것을 볼 수 있습니다. 피어슨 상관관계는 바로 위에서 공분산과 표준편차를 이용하여서 구하였던 상관계수와 동일하기 때문에 이를 그대로 놓아두시고 그대로 진행합니다.

3) 옵션의 조정

: 바로 확인버튼을 누르는 것만으로도 성공적으로 상관관계 분석이 완수되지만, 필요시 선택적으로 분석에 필요한 다양한 옵션들을 지정할 수 있습니다. 간략히 어떤 옵션들이 주요 옵션들 위주로 있는지 살펴보도록 하겠습니다.

먼저 옵션버튼을 클릭해보시기 바랍니다. 평균과 표준편차, 공분산등을 추가로 선택할 수 있으며, 기본적으로 결측값이 상관계수 계산시 제외되도록 되어 있습니다. 추가로 필요한 부분이 있으면 선택하신 후 다음 단계로 진행합니다.

4) 분석의 시행 및 결과

이제 상관관계 분석을 시행해보도록 하겠습니다. 도출된 상관계수 표를 보면 크게 상관계수, 유의확율, 그리고 응답자의 수(N)라는 3가지 정보를 주고 있습니다. 우선 상관계수는 0.207로서, 약한 상관관계가 있음을 알 수 있습니다. 그 다음 정보는 유의확율입니다. 유의확률은 보통 p, sig 등 다양한 형태로 표시되기도 하는데, 가설 검증을 통하여 상관계수가 통계적으로 유의한가에 대한 정보이며, 보통 그 기준은 유의확률이 0.05보다 작은 경우 통계적으로 유의하다고 판단합니다. 분석 결과 유의 확율은 0.000으로서 통계적 유의성이 확보되었습니다.

: 청주대학교 이 원준 (meetme77@naver.com)

728x90
728x90

1. 다중응답분석의 이해

이제 교차분석에 대하여 이해하셨으리라 기대됩니다. 본 차시의 마지막으로 다중응답 결과를 이용한 교차 분석에 관하여 살펴보도록 하겠습니다. 우선 다중응답(multiple response)'의 개념을 간략히 살펴보도록 하겠습니다. 다중응답이란 응답자가 여러 보기중에서 2개 이상의 복수 선택을 할 수 있도록 허용한 설문 문항을 의미합니다. 보통 설문지에서는 아래 설문과 같은 형태로 물어보게 됩니다.

다중응답 설문 문항이 사용되는 경우는 크게 두가지 경우로 나누어집니다.

첫째, 설문 문항의 성격에 따라서 단 하나의 보기만을 고르도록 하는 것이 적절하지 않은 경우입니다. 일예로 위 문항처럼 주로 무엇을 사진으로 남기는지 물어본다면 아마 대부분의 사람들은 자녀나 풍경, 행사 중에서 하나만을 선택하기가 매우 어렵다고 느낄 것입니다.

둘째, 보기의 숫자가 너무 많아서 응답자가 여러개의 답을 고르도록 하는 것이 보다 정보의 질을 높일 것이라고 생각되는 경우입니다. 아래 설문 문항처럼 보기의 수가 많은 경우에는 각 선택 보기들의 중요도가 서로 비슷한 수준인 경우가 많아 가장 중요한 것 하나를 고르는 것이 큰 의미가 없을 수 있습니다.

이럴 경우에는 다중응답을 허용하여, 응답자가 보다 손쉽게 답할 수 있도록 하는 동시에 정보의 질을 높이는 것이 더 효과적일 수 있습니다. 다중응답은 빈도분석이나 교차분석과 마찬가지로 명목이나 서열 척도만이 분석될 수 있습니다.

다중응답으로 얻어진 결과들을 분석할 때는 기존의 빈도나 교차분석과 다른 프로세스가 필요합니다. 다시 아래 설문 문항을 보시기 바랍니다.

이 설문 문항 C-11)은 문항은 하나지만 2개의 선택을 받을 수 있으므로 실제로 SPSS의 변수 보기창을 보면 2개의 변수로 구성되어 있음을 알 수 있습니다. SPSS 변수보기 창을 살펴보시기 바랍니다.

따라서, 이 변수들을 빈도 혹은 교차분석한다면, 두개의 결과물을 받을 수 밖에 없습니다. 그리고 결과 해석에서도 일관성있게 해석하는 것이 매우 어렵습니다.

이런 문제를 해결하기 위하여 다중응답 분석에서는 두개의 변수에서 도출된 빈도수를 합산하여 하나의 테이블로 만든 후 다시 계산해줍니다. 즉 주촬영대상의 1순위에서 자녀의 빈도는 61명이고 2순위에서 자녀의 빈도는 12명이었지만, 새로만들어진 다중응답표에서의 자녀의 빈도는 61+12= 73명이 될 것입니다. 이런 동일한 과정을 반복하여 통합된 결과표를 만들어주는 것이 다중응답입니다.

728x90

2. 다중응답분석 분석

현재 SPSS상에서 다중응답을 이용하여 빈도분석이나 교차분석을 하기 위해서는 분석(A) -> 다중응답(U)을 차례데로 클릭하셔야 합니다. 다중응답 메뉴로 들어가면 크게 변수군 정의(E)와 더불어 빈도분석(F)', '교차분석(C)' 3가지 메뉴가 이용가능합니다.

그런데, ‘변수군 정의를 제외하고 교차분석 빈도분석은 명령어 아이콘이 어둡게 비활성화되어 있는 것을 볼 수 있습니다. 이는 아직 다중응답분석에 사용해야 하는 변수가 정의되지 않았기 때문입니다.

두개이상의 변수를 새로 계산하여 하나의 변수로 만든다는 것은 결국 새로운 변수가 하나 추가로 생성됨을 의미합니다. , 다중응답 문항을 먼저 통합하여 하나의 변수화하는 과정이 필요하며, 이것을 가능하게 하는 메유가 변수군 정의(E)' 메뉴입니다.

C-11) 문항을 다중응답 분석하기 위아여 이를 클릭해보도록 하겠습니다. 클릭하면 바로 다중응답 변수군 정의 대화상자를 볼 수 있습니다. 이 대화상자를 이용하여 새로운 다중응답 변수를 만들어 보겠습니다.

우선 좌측의 변수군 정의 화면에서 분석에 포함될 다중응답변수들을 클릭하여 좌측의 변수군에 포함된 변수(V)’의 공란으로 옮겨와야 합니다. 즉 어떤, 그리고 몇개의 변수들을 통합하여 하나의 다중응답 변수로 전환할지 지정해주어야 합니다. 본 문항에서는 1순위와 2순위의 2개 복수응답이 가능하므로 해당되는 2개의 변수들을 포함시켰습니다.

그 다음 단계로, ‘변수들의 코딩형식에서 변수 값, 즉 해당 문항에 보기가 몇개인지를 범위 값으로 지정해 주어야 합니다. C-11) 문항을 보면 촬영 대상으로서 1) 자녀 ~ 7) 기타까지 총 7개가 있습니다. 따라서 범위의 최소값으로 ‘1’, 최대값으로 ‘7’을 지정합니다. 만일 보기가 10)까지 있었다면 10을 최대값으로 지정합니다.

그리고, 새롭게 생성된 변수에 아직 이름이 없으므로 변수명을 지정하고 설명을 달아줍니다. 본 사례에서는 변수명을 ‘zz1'으로 지정하였습니다이제 모든 설정이 완료된 이후에는 추가 버튼을 누르면 변수의 지정이 완료되는 것을 볼 수 있습니다.

만일 모든 과정에 이상이 없다면 화면은 아래 화면처럼 바뀌고, 대화창 맨 우측의 다중응답변수군(S)'에 새롭게 지정된 변수가 보이게 될 것입니다.

또한 '다중응답(U)' 메뉴의 빈도분석과 교차분석 메뉴가 활성화되어 있는 것을 볼 수 있습니다. 다중응답의 빈도분석이나 교차분석은 일반 교차, 빈도분석과 달리 반드시 이 곳을 통해서만 분석이 가능합니다.

: 청주대학교 이 원준 (meetme77@naver.com)

 

728x90
728x90

1. 교차분석의 필요성

교차 분석은 보통 크로스탭(crosstab) 분석으로도 불리우며, 2개의 명목 혹은 서열형 척도를 변수로 분석에 활용합니다. 즉 한 변수의 범주를 다른 변수의 범주와 교차 시키고 각각 교차된 경우에 해당하는 셀의 빈도를 분석하는 방법입니다. 아래한글이나 엑셀에서 흔히 작성하여 빈도 수나 퍼센트를 보는 교차 표를 생각하시면 되겠습니다.

 

남자

여자

합계()

자동차 있음

1) 15

2) 20

35

자동차 없음

3) 30

4) 12

42

합계()

45

32

77

간단한 예를 보면 성별(남자/여자)과 자동차 보유(있음/없음)이라는 두개의 명목 척도를 각각 교차시킬 경우 1) ~ 4)와 같이 빈도를 포함하고 있는 총 4개의 셀(cell)을 도출할 수 있으며, 각 셀별 빈도 수에 기반하여 셀별 퍼센트를 구할 수 있을 것입니다실제 교차분석은 매우 간단함에도 불구하고 마케팅 조사에서 다양하게 이용될 수 있습니다. 일예로 소비자의 성별로 선호하는 브랜드를 조사한다거나, 소비자의 소득수준에 따라 자주 방문하는 백화점을 조사하는 등 다양하게 활용됩니다.

2. 교차 분석의 이해

교차분석을 통하여 각 범주별 빈도의 차이를 분석할 수 있습니다. 그러나 실제 이런 차이가 실제 통계적으로 유의한지는 어떻게 알 수 있을까요? 이런 목적을 위하여 교차 분석은 상황표를 이용하여 명목척도로 측정된 두 변수들이 서로 관련이 있는지 알아봅니다. 예를 들어, 이에 대하여 조금 더 자세히 살펴보도록 하겠습니다.

A기업은 글로벌 마케팅 전략을 수립하기 위하여 국가별로 소비자들이 선호하는 스마트폰 브랜드에 관한 조사를 실시하였습니다. 이에 따라 한국, 미국, EU의 세 국가를 선정하였고 각 국가의 소비자들이 삼성, 애플, 그리고 노키아 중 어떤 브랜드를 선호하는지 조사하였습니다조사한 결과는 아래 표와 같은데, 예를 들면 한국에서는 총 100명중 70명이 삼성 제품을 선호하고 있는 것을 알 수 있습니다. 이와 같은 빈도를 실제로 관측된 관측 빈도라고 합니다

 

삼성(B1)

애플(B2)

노키아(B3)

소계

한국(A1)

30

55

15

100

미국(A2)

40

60

20

120

EU(A3)

30

35

15

80

소계

100

150

50

300

그러나 만들어진 교차표 만을 가지고는 실제로 이런 집단간 차이가 브랜드간의 차이때문에 발생된 것이며, 통계적으로 유의한 것이라고 확신하기는 어렵습니다. 예를 들어 삼성 제품의 미국과 EU 지역내 판매 댓수에는 차이가 있기는 하지만, 이런 차이가 브랜드와 관련없는 다른 이유 때문에 우연히 발생했을 가능성도 있기 때문입니다. 이러한 의문에 답하고, 교차표의 결과가 통계적으로 유의한지 확인하기 위해서는 카이제곱의 독립성 검증을 해야 합니다.

3. 카이제곱 검증의 계산절차

카이제곱 검정을 하기위해서는, 우선 각 셀의 기대 빈도를 구해야 합니다. 기대 빈도는 결합 비율(combined proportion)’을 구한 후, 구해진 결합 비율을 각 셀에 곱함으로서 구할 수 있습니다. 일예로, 삼성(B1)과 한국(A1)을 결합한 결합 비율은 다음과 같은 동시 확률로 구해질 수 있습니다. ,

P(A1, B1) = P(A1) * P(B1) 이며, 이를 대입하면

P(A1) = 100/300,

P(B1) = 100/300,

P(A1) * P(B1) = (100/300) * (100/300) = 1/9 이며,

구해진 값을 전체의 총합(300)에 곱할경우, 300 * (1/9) = 33.3 이라는 삼성(B1)과 한국(A1)을 결합한 셀의 기대 빈도가 도출됩니다.

이를 다른 셀에도 동일하게 반복할 경우 다음과 같은 관측빈도와 기대빈도의 교차표를 얻을 수 있습니다. 아래 표가 의미하는 바는 두 변수가 상호독립적일 때, 즉 국가별로 선호브랜드가 동일할 때, 한국에서 삼성 브랜드가 구매될 빈도는 33.3이라는 의미입니다. 이제 브랜드와 국가라는 두개 변수간의 관련성 여부는 관측빈도(30)와 기대빈도(33.3)를 비교하여 그 차이를 카이 제곱 검증을 통하여 검정해 보면 알 수 있습니다.

 

삼성(B1)

애플(B2)

노키아(B3)

소계

한국(A1)

관측 : 30

기대 : 33.3

관측 : 55

기대 : 50

관측 : 15

기대 : 16.7

100

미국(A2)

관측 : 40

기대 : 40

관측 : 60

기대 : 60

관측 : 20

기대 : 20

120

EU(A3)

관측 : 30

기대 : 26.7

관측 : 35

기대 : 40

관측 : 15

기대 : 13.3

80

소계

100

150

50

300

카이제곱 검증을 하기 위해서는 귀무 가설과 대립 가설이 수립되어야 합니다. ,

H0(귀무가설) = 국가간의 브랜드의 차이는 없다.

H1(대립가설) = 국가간의 브랜드 차이는 있다.

라는 가설을 세우고, 귀무가설이 참인지 아닌지를 카이제곱 검증으로 검정을 하게 됩니다.

d. 카이제곱 통계량 계산

만일 귀무가설이 참이라면 카이 제곱 통계량의 표본 분포는 카이제곱 분포로 알려진 연속 곡선에 접근하게 됩니다카이제곱의 통계량을 구하기 위해서는 아래 수식을 사용해야 합니다.

이 식을 이용하여 각 셀의 계산을 반복하면 카이 제곱(x2) 값인 2.25를 얻을 수 있습니다. 직접 손 계산을 해보시기 바랍니다.

카이제곱 값을 이용하여 가설을 검증하기 위해서는 카이 제곱 값, 카이제곱 통계표, 그리고 자유도의 3가지가 필요합니다. 카이제곱 값은 관측빈도와 기대빈도 값을 이용하여 이미 2.25를 구하였습니다. 이제 자유도를 구할 차례입니다카이제곱의 분포는 그 본포의 모양이 '자유도(D.F)'에 따라 달라지는 특성이 있으므로, 자유도를 먼저 확인해야 합니다. 카이제곱 통계량에서 자유도는 교차표의 행의 수와 셀의 수에 의하여 결정됩니다. 그 공식은,

자유도 = (행의 수 - 1) * (열의 수 - 1) 이며, 위 예에 대입하면 행과 열이 각각 3개씩이므로;

= (3-1)*(3-1) = 4 의 자유도를 갖습니다.

이제 구한 자유도(4)와 카이제곱 값(2.25)을 가지고 카이제곱 통계표에서 유의수준 0.05에서 확인할 수 있는 카이 제곱의 임계치는 9.49입니다. 본 분석에서 구한 값이 2.25로 임계치인 9.49보다 작으므로 “H0(귀무가설) = 국가간의 브랜드의 차이는 없다는 채택이 되게 됩니다. 이 결과에 따라서 국가별로 판매되는 스마트폰 브랜드의 비율에는 통계적인 차이가 없다는 것을 알게 되었습니다. 실제 SPSS에서는 이런 비교의 번거로움을 덜어주기 위해서 카이제곱 값과 더불어 검정 결과를 유의도 값으로 제공합니다.

728x90

4. 분석을 위한 설문과 데이타

비교적 간단한 계산을 통하여 교차표를 구하고 카이제곱 검증을 할 수 있으나 SPSS는 이런 통계적 지식에 대한 기본적인 이해만 있다면 누구나 손쉽게 교차분석을 할 수 있도록 지원하고 있습니다. SPSS를 이용하여 지금까지 배웠던 교차 분석을 직접 해보도록 하ᅟᅦᆻ습니다.

우선 본 실습에 사용될 2개의 상호 관련성이 있는 설문 문항을 선택하여야하며, 문항들은 명목 혹은 서열 척도로 구성되어있어야만 합니다. 본 분석에서는 설문 1페이지의 캠코더 브랜드를 묻는 C-2-A)번 문항과 해당 제품의 구입 이유를 물어보는 C-2-D)번 문항을 이용하고자 합니다. 이를 통하여, 캠코더 브랜드별로 제품 구매 이유가 어떻게 다른지 확인해 보도록 하겠습니다이 문항들은 모두 명목척도로서, 교차분석에 적합한 것으로 판단되었습니다.

5. 교차분석 및 결과

이제 직접 SPSS를 이용한 분석을 해보도록 하겠습니다. 우선 데이타 파일을 여신 후, 캠코더 상표(변수명: c2)와 캠코더 구입이유(변수명: c5)를 확인하십시요. 교차 분석을 위해서는 2개의 명목 혹은 서열 척도가 필요합니다.

1) 교차분석 메뉴의 실행: 교차분석을 수행하기 위해서는 우선 메뉴바의 분석(A) -> 기술통계량(E) -> 교차분석(C)를 차례로 클릭해주시기 바랍니다. 이를 모두 실행하면 교차분석 대화상자가 나타납니다.

2) 분석대상 변수의 선택:  아래 그림과 같이 대화상자에서 분석할 변수인 상표(변수명: c2)’를 선택한 후 오른쪽의 '(w) 변수상자에 보냅니다. ‘캠코더 구입이유(변수명: c5)’(C) 변수상자에 보냅니다이때 어떤 특정 변수가 반드시 행으로가고 다른 변수가 열로 가야하는 법칙은 없습니다. 행과 열을 바꾸어서 지정하여도 상관이 없습니다.

3) 옵션의 조정: 이 단계까지 마치고 바로 확인을 누를 경우 교차표를 구할 수 있습니다. 그러나 교차표에는 단지 빈도만이 표시되고 퍼센트가 표시되지 않아 매우 불편합니다. 따라서 보통의 경우 퍼센트가 같이 제시되도록 옵션을 조정한 후 분석을 시행합니다화면 우측의 (E)' 버튼을 눌러보시기 바랍니다.

선택할 수 있는 몇가지 옵션들이 보입니다. 우선 관측빈도와 기대빈도를 선택할 수 있고, 그 밖에 여기서 퍼센트 지정이 가능합니다. (R) 퍼센트의 경우 행 각각의 합이 100%가 되도록 계산을 해주는 반면, (C) 퍼센트는 열 각각의 합이 100%가 되도록 계산을 해줍니다. 본 사례에서는 상표별 구매이유가 주된 관심사항이며, 상표 정보가 행에 위치하므로 행 퍼센트 옵션을 선택합니다. 별도의 카이제곱 통계량이 필요한 경우에는 통계량옵션에서 카이제곱을 선택하신후 분석을 하시면 됩니다.

4) 분석의 시행 및 결과: 이제 교차분석을 시행해 보도록 하겠습니다. 도출된 교차표를 보면 크게 빈도와 기대빈도, 그리고 퍼센트와 관련된 정보를 주고 있습니다. 소니와 삼성을 비교해보면, 소니를 구매한 소비자중 구입한 이유로 가장 중요한 것은 최초 구매(52.2%)’이며, 삼성은 최초 구매 비중이 63.6%로서 소니보다 다소 더 높은 것을 알 수 있습니다. 이를 통해서 초보자가 보다 삼성을 선택하는 경우가 많음을 알 수 있습니다.

추가로 이런 퍼센트의 차이가 브랜드간에 통계적으로 유의한 것인지를 살펴보기 위하여 카이 제곱 통계량을 도출하도록 옵션에서 명령을 부여한 바 있습니다. 카이제곱 검정 결과를 보면,자유도가 35일 때, 카이제곱 유의확율값이 0.606입니다. 이는 P 값이 0.05보다 크므로 유의수준 5%에서 유의하지 못함을 알 수 있습니다. 따라서, 대립가설을 기각되고, 브랜드와 구입이유라는 두 변수는 상호독립적이라는 귀무가설이 채택되게 됩니다. 다시말하면 구입이유와 브랜드간에는 통계적으로 유의한 관계는 없다고 할 수 있습니다. 삼성과 소니 브랜드간 나타난 구입 이유는 브랜드의 차이 때문이라고 할 수 없는 것입니다.

5) 상표전환율 매트릭스의 응용: 교차 분석은 조사자의 목적에 따라 다양하게 활용될 수 있는 실무적 가치가 높은 분석방법입니다. 교차 분석을 응용한 한가지 예로, 상표전환율 매트릭스를 볼 수 있습니다. 상표 전환율 매트릭스는 기존의 특정 브랜드를 가지고 있는 소비자가 다음 구매시점에서는 어떤 브랜드를 구매할 지를 비교 분석함으로서, 소비자가 특정 브랜드에 대하여 가지고 있는 브랜드 로열티수준을 직접 확인하고 타 브랜드와 비교평가할 수 있습니다.

상표전환율 매트릭스를 만들기 위해서는 두개의 질문이 설문지상에 존재하여야 합니다. 하나는 현재 보유한 브랜드와 관련된 문항이며, 또다른 하나는 향후 구매 예정 브랜드에 관련된 문항입니다. 본 실습설문지에도 이런 문항이 포함되어 있습니다. 현재 보유 브랜드를 묻는 1페이지의 C-2-A)번 문항과 미래 의도 브랜드를 묻는 13페이지 C-28-A)번 문항입니다. 이 두 개 변수를 이용하여 상표전환율 매트릭스를 작성할 경우, 현재 보유브랜드를 중심으로 퍼센트를 구하게 되면, 얼마나 많은 고객들이 경재사로부터 이탈하거나 새로 유입이 될지 확인할 수 있으며, 효과적인 브랜드 관리나 고객 로열티 구축을 위한 기초 자료로 활용할 수 있습니다.

우선 소비자의 로열티 수준을 점검해 보겠습니다. 로열티는 쉽게 표현하면, 특정 고객이 재구매 시점에서 같은 브랜드를 사는 재구매경향을 의미합니다. 이 표를 분석하면 가장 로열티나 높은 회사는 소니로서 77.1%에 달하고 있지만 삼성은 고작 40.0 수준에 머물고 있는 것을 볼 수 있습니다.

* 교차분석에 관한 내용을 유튜브 동영상으로 다시 확인하고 싶으신 경우에는 아래 링크 이용바랍니다.

https://youtu.be/CKAhrNfyg28

: 청주대학교 이 원준 (meetme77@naver.com)

 

728x90
728x90

1. 빈도 분석의 개요

빈도분석(Frequency)은 데이타의 전반적인 내용들이 도수분포표상에서 어떠한 분포적 특성을 가지고 있는지 요약된 정보를 제공하는 분석입니다. 빈도분석에서 제공하는 분포 관련 정보는 크게 빈도, 중심화 경향치, 그리고 분산도 들입니다. 또한 이 같은 특성치들을 보다 시각적으로 이해하기 쉽도록 도표를 제공할 수 있습니다.

1) 빈도와 중심화 경향

빈도는 우리가 흔히 퍼센트로 표시하는 개념으로서, 각 값들이 출현하는 횟수를 요약한 정보로서, 빈도 분석이 제공하는 가장 기본적인 정보입니다. 또한 빈도분석은 데이타의 중심화 경향(central tendency)을 보여주기도 합니다. 중심화 경향이란 관측된 데이타들이 어떤 형태로 집중되어 있는지를 알아보는 것으로서, 주로 최빈값, 중앙값, 그리고 평균과 같은 지표들을 이용하여 경향을 평가합니다.

- 최빈값(Mode) : 빈도수가 가장 많이 발생한 관측치

- 중앙값(Median): 수치로 이루어진 데이타들을 크기 순서데로 나열하였을 때 가장 중앙에 위치하는 관측치

2) 분산도

분산도(Dispersion)는 관측된 데이타가 흩어져 있는 정도를 말하며, 범위, 평균편차, 그리고 표준편차와 같은 통계량들로 측정합니다.

- 범위(range) : 가장 큰 수치의 데이타와 가장 작은 수치의 데이타간의 차이를 말합니다.

- 평균편차(mean deviation) : 관측치와 산술평균과의 차이들의 평균을 말합니다.

2. 빈도분석의 시행

이제 본격적으로 빈도분석을 시행하기 이전에, 어떤 데이타를 분석할 것인지 먼저 설문지를 살펴보도록 하겠습니다. 우선 아래 설문지 1페이지의 문항 C2에서 물어보는 캠코더의 구매 경험과 관련된 여러가지 질문들을 봐주시기 바랍니다.

우선, 현재 가지고 있는 캠코더의 형태는 어떤지 빈도분석을 통해서 단계적으로 살펴보도록 하겠습니다

1) 빈도분석 메뉴의 실행

빈도 분석을 수행하기 위해서는 우선 메뉴바의 분석(A) -> 기술통계량(E) -> 빈도분석(F)을 차례데로 클릭해주시기 바랍니다. 이를 모두 실행하면 빈도분석 대화상자가 나타납니다.

 

2) 분석대상 변수의 선택

아래 그림과 같이 대화상자에서 분석할 변수인 '형태(변수명 c3)'를 선정한 후 화살표를 클릭해서 오른쪽의 변수(V) 상자로 보냅니다.

3) 옵션의 조정

: 바로 확인버튼을 누르는 것만으로도 성공적으로 빈도분석이 완수되지만, 필요시 선택적으로 분석에 필요한 다양한 옵션들을 지정할 수 있습니다. 간략히 어떤 옵션들이 주요 옵션들 위주로 있는지 살펴보도록 하겠습니다먼저 통계량옵션을 클릭해보시기 바랍니다. 중심화 경향치, 백분위 값, 산포도 등 다양한 통계량을 선택할 수 있습니다.

다음으로 도표 옵션을 살펴보겠습니다. SPSS에서는 기본적으로 막대도표, 원도표, 히스토그램의 3가지 그래프를 제공합니다. 그러나 보통 SPSS에서 그래프를 그리기보다는 SPSS의 결과값들을 엑셀에 옮겨와서 다시 필요한 그래프를 그리는 것이 더 편리하고 고품질의 그래프를 구할 수 있습니다.

4) 분석의 시행

이제 통계량 옵션중 막대도표만을 선택한 후, 분석을 시행하도록 하겠습니다. 분석이 시작되면 다음과 같은 결과들이 나타날 것입니다. 먼저 제시되는 것은 결측치에 관한 정보가 제시됩니다. 결측치란 해당 문항에 대하여 응답하지 않은 사람들을 의미합니다. 분석 결과 결측치가 185명이나 되네요. 아마 집에 캠코더가 없는 사람이 조사 당시 많았던 것 같습니다그리고 간략한 빈도표가 제시됩니다. 각 빈도표를 보면 퍼센트와 유효퍼센트, 그리고 누적 퍼센트의 정보가 제시됩니다. 이중 퍼센트와 유효 퍼센트의 차이를 살펴보면 유효 퍼센트는 무응답한 결측치를 제외하고 구한 비율입니다. 보통 빈도분석에서 유효 퍼센트를 기본적인 정보로 사용합니다. 분석 결과를 보면 준수직형의 캠코더를 구입한 사람의 47.7%, 수평형 36.0%, 수직형 15.0%, 기타 1.4%로 나타나고 있습니다.

그리고, 추가적인 옵션 지정을 통해 구한 그래프의 모습도 보여주고 있습니다. 하지만, SPSS에서 기본으로 제공하는 그래프는 그다지 정교하거나 세련되지 않습니다. 더 좋은 방법은 빈도표를 엑셀로 복사한 이후 다시 그래프를 그리는 것입니다. 단지 ctrl+Cctrl+V만으로 SPSS의 결과물을 엑셀에 손쉽게 복사할 수 있으니 다양하게 활용해 보시기 바랍니다.

728x90

3. 평균 분석의 개요

평균 분석은 기술통계분석의 일종으로서, 평균과 같은 요약된 통계량을 계산합니다. 평균 분석과 빈도분석은 얼핏 유사해보일 수도 있지만, 결정적인 차이점이 있습니다. 빈도분석이 주로 이산적인 변수값들을 다루는 반면에, 평균분석은 연속적인 변수값들을 다룬다는 점입니다. 보다 쉽게 설명하면 이산적 변수들은 더하기, 곱하기, 빼기, 나누기와 같은 사칙연산으로 계산할 수 없는 값들을 의미하지만, 연속적 변수들은 사칙 연산이 가능한 값들을 의미합니다.

일예로, 야구 선수의 등 번호를 생각해 봅시다. 야구 선수의 등 번호는 분명히 번호이지만 이산적 변수들입니다. 등번호 3번인 선수와 17번인 선수를 더하거나 뺴는 것은 아무런 의미가 없기 때문입니다. 그러나 사과 3개와 17개를 더할 경우 20개의 사과가 됩니다. 이는 사칙 연산이 가능한 경우로서 연속적 변수 값의 예입니다 , 빈도분석은 이산적 변수 값, 평균 분석은 연속적 변수 값을 그 분석 대상으로 하고 있습니다. 척도를 중심으로 설명하면, 빈도분석은 주로 명목 척도와 서열 척도, 평균 분석은 주로 등간 척도와 비율 척도를 분석대상으로 합니다.

이중 등간 척도는 간혹 연구자의 목적에 따라서 빈도분석이 이루어질 수도 있지만, 명목과 서열척도는 평균 분석이 시행될 수 없음을 기억하시기 바랍니다.

4. 평균 분석의 시행

이제 본격적으로 평균 분석을 시행하기 이전에, 어떤 데이타를 분석할 것인지 먼저 설문지를 살펴보도록 하겠습니다. 우선 실습 설문지에서 물어보는 연령과 결혼 년수와 같이 개인 인적사항과 관련된 질문들을 중심으로 봐주시기 바랍니다. 연령과 결혼 년수의 평균을 구해보도록 하겠습니다.

1) 평균분석 메뉴의 실행:  평균 분석을 수행하기 위해서는 우선 메뉴 바의 분석(A) -> 기술통계량(E) -> 기술통계(D)를 차례데로 클릭해주시기 바랍니다. 이를 모두 실행하면 기술통계 대화상자가 나타납니다.

2) 분석대상 변수의 선택: 아래 그림과 같이 대화상자에서 분석할 변수인 '가장 연령(변수명 s1)'결혼 기간(변수명 s3)’을 선정한 후 화살표를 클릭해서 오른쪽의 변수(V) 상자로 보냅니다.

3) 옵션의 조정 : 바로 확인버튼을 누르는 것만으로도 성공적으로 평균을 구하기 위한 기술통계 분석이 완수되지만, 필요시 선택적으로 분석에 필요한 다양한 옵션들을 지정할 수 있습니다. 간략히 어떤 옵션들이 주요 옵션들 위주로 있는지 살펴보도록 하겠습니다먼저 옵션을 클릭해보시기 바랍니다. 연구자의 목적에 따라 평균은 물론이고, 표준편차, 분산, 범위 등 다양한 통계량을 선택할 수 있습니다.

4) 분석의 시행: 이제 원하는 옵션을 선택한 후, 분석을 시행하도록 하겠습니다. 만일 별도의 옵션을 선택하지 않았다면 SPSS는 기본 통계량으로 최소값, 최대값, 평균, 그리고 표준편차를 보여줄 것입니다.

그리고 간략한 기술통계량표가 제시됩니다. 표의 내용을 살펴 보면 사례 수(n), 최소값과 최대값, 평균, 그리고 표준편차의 정보가 제시됩니다. 분석 결과를 보면 가장의 평균 연령은 43.8세이며, 평균적으로 결혼한지 9.8년 가량 경과하였음을 알 수 있습니다.

: 청주대학교 이 원준 (meetme77@naver.com)

728x90

+ Recent posts