'파보자! SPSS&Jamovi 분석' 카테고리의 글 목록

파보자! SPSS&Jamovi 분석

[SPSS 리서치] 13. IPA 분석 (만족도-중요도 분석) 2021.03.15 27
[Jamovi 통계] 4. 기술통계와 그래프 그리기 2020.08.26 8
[Jamovi 통계] 3. Jamovi 데이터 핸들링 2020.08.23 8
[Jamovi 통계] 2. Jamovi 설치/준비하기 2020.08.20 8
[jamovi 통계] 1. Jamovi 와 오픈소스 통계 패키지 2020.08.20 7
[SPSS 리서치] 16.연습용 data set과 code book 2019.12.24 8
[SPSS 리서치] 15. 고객만족도 조사 설문지 사례 2019.12.17 9
[SPSS 리서치] 14. 대응일치 분석 (MDS 포지셔닝 분석) 2019.12.16 8
[SPSS 리서치] 12. 분산분석 ANOVA 2019.12.05 14
[SPSS 리서치] 11. 상관관계 분석 (correlation) 2019.11.28 8

[SPSS 리서치] 13. IPA 분석 (만족도-중요도 분석)

2021. 3. 15. 15:50

728x90

1. IPA 분석의 필요성

기업은 사용할 수 있는 자원이 항상 부족합니다. 사업을 성공적으로 완수하여 이익을 창출할 수 있는 것이 기업의 가장 큰 사명중 하나이지만, 기업이 이를 위해서 사용할 수 있는 예산이나 인력은 제한되어 있습니다. 그 결과 주어진 자원들을 얼마나 잘 효율적으로 사용하는 가는 기업의 성과를 결정하는 중요 의사결정 사항입니다. 일예로 카메라의 신제품 개발을 위해서 1억원의 연구개발 비용을 사용할 수 있다고 가정합시다. 만일 이 회사의 카메라의 무게에 대하여 소비자들이 매우 만족하며 아무런 불만이 없지만, 회사가 가장 중요하다고 생각하고 있는 디자인에 대하여 매우 크게 불만족스러워하고 있다면 예산의 대부분을 어디에 사용해야 할까요? 당연히 디자인을 개선하기 위해서 대부분의 힘을 쏟아부어야 하지만, 정확한 정보 없이는 이런 문제점을 파악하기도 어려울 때가 많습니다. 이런 상황에서 IPA 분석은 각 경영 차원에서 중점적으로 개선해야 하는 요소들을 구분해 줌으로서 효과적인 의사결정을 가능하게 해줍니다.

2. IPA 분석의 이해

IPA 분석은 Importance-Performance Analysis을 의미합니다. IPA 분석은 소비자가 지각하는 특정 요소에 대한 만족도와 중요도를 각각 X와 Y축으로 하는 2차원상의 평면위에 좌표로 각 요소를 표현하는 분석방법으로서 개선이 시급한 분야와 불필요하게 과잉 투자가 이루어진 분야를 파악하는데 매우 유용한 방법입니다.

IPA 분석은 만족도와 중요도의 평균 값을 기준으로 기업의 전체 활동 영역을 크게 1. 유지관리 영역, 2. 과잉투자 영역, 3. 중점개선 영역, 4. 개선 대상영역의 4개 영역으로 나누어줍니다.

1. 유지관리 영역은 응답자, 즉 소비자들에게 중요한 의미가 있는 영역이면서, 동시에 해당 기업이 비교적 잘 만족시키고 있는 영역입니다. 기업 입장에서는 이미 충분히 잘 하고 있는 영역이고 고객들도 별다른 불만들이 없으므로, 현재 수준을 꾸준히 유지하는 것이 필요합니다.

2. 과잉 투자 영역은 기업의 입장에서 큰 문제 영역이라고 할 수 있습니다. 소비자들에게 중요하지 않음에도 불구하고 기업이 지나친 투자나 과잉 노력을 통해서 불필요할 정도로 만족도가 높은 경우입니다. 일예로, 만일 소비자들이 과자를 살 때 포장지의 색깔을 전혀 중요하게 여기지 않고 있는데도 불구하고 지나칠 정도로 포장지에 대한 만족도가 높다면 기업의 마케팅 활동들이 매우 비효율적이며 예산 낭비적인 방법으로 이루어졌다는 의미가 될 수 있습니다.

3. 중점 개선영역은 소비자들이 생각하는 중요도가 높음에도 불구하고 이에 대하여 해당 기업에 대하여 느끼는 만족도가 낮은 경우입니다. 일예로 과자를 구매할 때 가장 중요한 요인이 과자의 맛임에도 불구하고 해당 기업 제품의 맛이 형편없는 경우일 것입니다. 중점 개선 영역은 가장 시급하게 개선이 필요한 내용이며, 개선 활동에 대한 효과성도 가장 큰 영역입니다.

4. 개선 대상영역은 중요도와 만족도 모두 낮은 영역으로서 현재로서는 크게 신경 쓸 필요가 없는 중요하지 않은 영역들입니다. 향후 중요도가 올라간다면 만족도가 낮은 것이 문제가 될 수 있지만, 현재로서는 소비자들도 별로 신경을 쓰거나 중요하게 여기지 않은 부분들이므로, 만족도의 높고 낮음 자체가 큰 문제가 되지 않는 부분들입니다. 그 결과 개선 대상영역은 향우 장기적인 개선과제로 그 우선 순위가 밀려나는 부분들입니다.

이상의 내용을 정리하면, 결국 IPA 분석은 과잉투자영역에서 사용되는 불필요한 자원이나 노력들을 줄임으로서 중점 개선영역을 우선적으로 개선하게 하는 분석 도구라고 할 수 있으며, 이를 통하여 기업은 보다 효율적인 마케팅활동이나 신상품 개발등이 가능할 것입니다. 사용하는 데이타가 무엇에 관하여 수집된 데이타인가에 따라서 IPA 분석 대상은 기업의 활동이 될 수도 있고 신상품의 세부 기능이 될 수도 있으며, 그외 다양한 방식으로 활용가능합니다.

3. IPA 분석을 위한 설문과 데이타

우선 IPA 분석을 하기 위해서는 이에 적합한 데이타를 수집하기 위한 검토가 설문지 개발 단계 이전부터 이루어질 필요가 있습니다. 적합한 SPSS 데이타 파일없이는 분석 자체가 불가능하기 때문입니다. 필요한 데이타를 얻기 위하여 설문지를 구상하는 방법은 크게 두가지 방법이 있습니다.

1) 첫째 방법으로서, 소비자들에게 만족도와 중요도를 각각 따로 물어보는 방법입니다. 그러나 가장 간단하게 특정 상품 속성에 대한 만족도와 중요도 데이타를 동시에 획득할 수 있는 이 방법은 큰 단점이 있습니다. 만족도와 중요도를 각각 따로 물어봐야 하므로 설문 문항이 많아지고 복잡해지는 단점이 있습니다.

2) 둘째 방법으로서, 개별적인 각 속성의 만족도와 전반적인 만족도간의 상관관계를 구하고 이를 바탕으로 중요도를 추정하는 방법입니다. 이 방법의 경우 데이타 수집에 필요한 설문 문항의 수를 절반 수준으로 줄일 수 있다는 장점이 있습니다. 실제 설문조사를 수행할 때 긴 설문지로 인하여 설문을 회수하는 것이 어려운 경우들이 많음을 감안할때 필요한 문항의 갯수를 획기적으로 줄일 수 있는 두번째 방법이 보다 선호될 것입니다.

이 예에서는 IPA 분석을 위하여 총 10개의 제품 속성과 전반적인 만족도를 확인하는 또 하나의 추가적인 설문 문항이 제시되고 있습니다. 여러분도 만일 IPA 분석을 독자적으로 해야한다면, 이처럼 IPA 분석에 필요한 데이타를 획득할 수 있는 설문지를 먼저 설계하는 것이 분석의 시작이 될 것입니다.

728x90

4. IPA 분석 절차

이제부터는 위에서 제시된 설문지 문항들을 가지고 설문 조사가 완료된 후에 SPSS를 이용하여 IPA 분석을 하는 과정들을 차례로 같이 해보겠습니다.

1) 1단계: 전만적인 만족도와 개별적 만족도간의 상관관계 구하기 : 이미 앞서 다른 블로그 글에서 설명한 바와 같이 상관관계란 어느 한 변수와 다른 변수간의 관계를 잘 설명할 수 있습니다. 마찬가지로 10개의 제품 속성과 전반적인 만족도 각각의 상관관계 분석을 시행하면, 전반적인 만족도에 미치는 각 10개 제품 속성의 개별적인 영향력을 계산할 수 있으며, 이를 중요도를 대체할 수 있는 유사 개념으로 사용할 수 있습니다.

우선 상관관계 분석을 통하여 다음과 같은 상관관계 테이블을 구합니다. 이 테이블을 살펴보면 전반적 만족도와 기타 10개 항목들간에 상관관계가 도출된 것을 볼 수 있습니다. 일예로, 전만적 만족도와 테입 삽입 및 추출기능간의 상관계수는 0.266인 것을 볼 수 있습니다.

2) 2단계: 상관계수를 활용한 중요도 구하기: 이제 구해진 상관계수를 활용하여 전반적인 만족도에 미치는 10개 제품 속성의 개별적인 중요도를 구해볼 차례입니다. 이를 위해서는 엑셀을 별도로 활용하면 더욱 편리합니다. 우선 엑셀 차트에 각 10개 항목의 내용을 첫째 칼럼에 정리합니다. 그리고 두번째 칼럼에는 구해진 상관계수를 복사해 놓습니다. 그리고 상관계수의 총 합을 구합니다. 이번 예의 경우에는 테이프 삽입추출 부터 렌즈 우수성까지 총 10개 항목과 전반적 만족도간의 상관관게를 구했으며, 10개 상관계수를 단순 합계하면 합이 3.467입니다.

세번째 칼럼에서는 이제 중요도를 구해야 합니다. 중요도를 구하는 방식은 ‘각 항목별 상관계수 / 상관계수 합계’입니다. 즉 테이프 삽입 추출 기능의 중요성을 구하는 예를 보면 ‘0.266 / 3.467 = 0.077’ 입니다. 동일한 방식으로 10개 항목의 중요도를 모두 구할 수 있습니다.

3) 3단계: 항목별 만족도 구하기: 이제 만족도를 구할 단계입니다. 우선 10개 항목의 만족도를 각 브랜드별로 구해야 합니다. 브랜드별로 구분해서 만족도를 구하는 이유는 IPA 분석은 기본적으로 각 브랜드 수준에서 시행되기 때문입니다. 이를 구하는 방법은 이미 앞서 배운 SPSS의 ‘평균 비교’ 기능을 활용합니다. 이를 통하여 구한 각 브랜드별 만족도를 엑셀 차트에 정리하면 아래와 같습니다.

4) 4단계: SPSS 코딩: 이제 엑셀에 정리된 데이타를 다시 SPSS에 펀칭하여야 합니다. 이제 엑셀에 1차적으로 정리된 데이타를 다시 SPSS에 코딩하기전에 우선 몇 개의 변수가 필요한지 생각해 봅시다. 우선 첫번째 변수로 (1) 속성을 나타내는 변수가 필요할 것입니다. 테이프 추출기능, 테이프 가격 등의 제품 속성이 하나의 변수가 될 것입니다. 여기서 우리는 임의로 그 변수를 factor라는 변수 명으로로 지정합니다. 두번째 변수로 (2) 각 브랜드를 나타내는 변수가 필요할 것입니다. 소니, 삼성, LG가 하나의 변수가 될 것입니다. 여기서 우리는 임의로 그 변수를 brand로 지정합니다. 세번째로, (3) 중요도 값을 나타내는 변수가 필요할 것입니다. 여기서는 importance로 지정합니다. 마지막 네번째로 (4) 만족도를 나타내는 변수가 필요하며, 여기서는 CS로 지정합니다. 이처럼 변수를 새로 만들고나서 엑셀 차트에 정리한 내용을 SPSS에 붙이면 아래와 같은 데이타 파일을 생성할 수 있을 것입니다. 엑셀의 정보들은 Ctrl-C와 ctrl-v 같은 기능을 통하여 손쉽게 SPSS에 복사할 수 있습니다.

그리고, 변수 값에 라벨링을 하여 각각의 변수값이 무엇인지 잘 알 수 있도록 합니다. 이 과정을 생략해도 결과값은 나오겠지만, 변수 설명 없이 결과값을 이해하기에는 다소 혼란스러울 수 있기 때문에 꼭 라벨링을 하도록 합시다.

5) 5단계: 브랜드의 선택 : 이제 완성된 SPSS 데이타셋은 삼성, 소니, 그리고 LG 3개 회사의 만족도 점수를 모두 가지고 있습니다. 분석을 하기 전에 우선 어떤 브랜드의 분석을 시행할 것인지 연구 대상이 되는 브랜드를 결정해야 합니다. 우선 여기서는 삼성 브랜드의 분석을 하고자 합니다. 삼성 브랜드를 선택하기 위해서는 메뉴에서 데이타 -> 케이스 선택을 통하여 삼성 브랜드만 선택하여야 합니다. 다른 브랜드의 추가 분석이 필요한 경우에는 마찬가지로 다른 브랜드를 선택한 후 진행하면 됩니다.

6) 6단계: IPA 분석의 시행: 이제 데이타가 준비되었으니 IPA 분석을 시행할 차례입니다. IPA 분석은 다른 분석 방법과 달리 SPSS의 ‘분석’ 메뉴가 아니라 ‘그래프’ 메뉴를 통해 실시됩니다. 우선 메뉴 바 상단의 그래프 메뉴 -> 레거시 대화상자 -> 산점표/점도표 메뉴를 클릭하십시요.

이 메뉴를 클릭하면 그래프의 유형을 물어보는 대화창이 나오는데, 여기에서 ‘단순 산점도’를 선택하고 ‘정의’ 버튼을 클릭합니다. 선택이 끝나고 나면 다시 IPA 분석에 필요한 사항들을 지정할 수 있는 대화창이 나타납니다. 이때 X와 Y 축에는 각각 중요도와 만족도의 변수들을 지정하고, ‘케이스 설명 기준변수’에는 속성 변수를 지정합니다. 그리고 나서 ‘옵션’ 버튼을 클릭한 후 ‘케이스 설명과 함께 도표 출력’을 활성화합니다. 이를 활성화해야만 분석 결과에서 각 속성에 대한 설명이 같이 표시될 것입니다. 설정이 끝난 후에 ‘확인’ 버튼을 누르면 이제 IPA 도표가 출력됩니다.

7) 7단계: 결과의 확인: 이제 결과물을 확인하면 IPA 도표가 작성된 것을 볼 수가 있습니다. 그러나 이 도표는 아직 4개의 영역으로 구분되기 이전의 자료입니다. 시사점을 찾기 위해서는 IPA 도표를 파워포인트로 옮긴 이후, 중요도와 만족도의 평균값을 중심으로 4개의 영역으로 분할 하는 작업이 필요합니다. 삼성의 예를 보면 중요도는 0.1, 만족도는 4.49를 중심으로 분할이 이루어졌습니다. 이제 이 결과를 해석해보면 삼성은 테이프 삽입 추출 기능에 소요되는 인력과 예산, 노력을 LLCD 가시성이나 LCD 창크기 확대 등에 사용해야 함을 알 수 있습니다.

* 해당 내용을 동영상을 통하여 보다 쉽게 배우고 싶으시면, 아래 동영상 링크를 이용바랍니다.

https://youtu.be/LY6-hhtz__c

: 청주대학교 이 원준 (meetme77@naver.com)

728x90

저작자표시 비영리 변경금지 (새창열림)

'파보자! SPSS&Jamovi 분석 > 4. SPSS 실무 적용' 카테고리의 다른 글

[SPSS 리서치] 16.연습용 data set과 code book (8)	2019.12.24
[SPSS 리서치] 15. 고객만족도 조사 설문지 사례 (9)	2019.12.17
[SPSS 리서치] 14. 대응일치 분석 (MDS 포지셔닝 분석) (8)	2019.12.16

[Jamovi 통계] 4. 기술통계와 그래프 그리기

2020. 8. 26. 00:50

728x90

[Jamovi 통계] 4. 기술통계와 그래프 그리기

데이터 입력 과정을 잘 이해하고, 코딩까지 마친 이후에는 이들 데이터를 가지고 본격적인 분석을 시행하게 된다. 이하 별도의 다른 안내가 없을 시, 향후 본 jamovi 실습의 데이터는 여러분이 3장에서 직접 입력한 '코로나 바이러스 이후의 소비자 행동'에 관한 실제 설문자료를 사용하게 될 것이다(본 데이터의 변수 정의와 설문문항은 3장 참조: https://sooupforlee.tistory.com/138?category=882298).

데이타546명.omv

0.01MB

1) 기술통계란?

기술 통계는 표본 자체의 속성을 파악하여 묘사는데 주안점을 두고 있는 분석 방법이며, 기술을 의미하는 description은 이를 잘 표현한다. 기술통계는 주로 표본에 속한 대상자들의 인구통계적 특성이나 데이터가 보여주는 공통적 특성을 요약하여 보여주는 것이 주목적이다. 이를 통하여 방대한 데이터도 합리적으로 요약하고 정보처리의 수고를 덜 수 있다. 일예로, 우리는 미국인들은 진취적이며, 프랑스인들은 예술을 사랑한다고 생각한다. 물론 미국인들중에도 소극적인 사람도 있고 프랑스인들중에도 예술에 무관심한 사람들이 적지 않을 것이다. 우리는 이런 예외가 항상 적지않게 있음을 충분히 알고 있음에도 불구하고, 이들의 국민성을 한 눈에 파악할 수 있는 정보가 유용하다는 것 역시 잘 알고 있다. 나중에 어떤 통계분석을 하더라도 기술통계를 통하여 표본 전체의 전반적인 속성을 정확하게 파악하는 것은 거의 모든 통계분석의 기초가 된다.

여러가지 기술통계량이 있지만, 주요한 통계량으로는 가) 중심경향성, 나) 산포도, 다) 분포, 라) 백분위수 정도가 이용된다. 각각의 설명은 다음과 같다. ** 본 기술통계량이 중요한 이유는 대학원이나 연구기관의 학술적인 데이터 분석인 경우를 제외하고, 일상적인 데이터 분석이나 소비자 조사 등 리서치에서는 대부분의 데이터 분석들이 기술통계량을 위주로 이루어진다는 점이다. 기술통계량은 분석 자체도 쉽지만, 수학이나 통계에 대한 지식이 없어도 직관적으로 이해가능하기 때문에 사실상 거의 대부분의 일상적 기업실무에서는 기술통계만이 쓰이는 경우도 적지 않다. 물론 회귀분석이나 신경망 분석도 고도의 통계분석의 사용도 증가하고는 있지만, 이는 나중에 필요하다면 추가로 배워나가면 될 뿐이다.**

가) 중심 경향성

: 중심 경향성이란 용어 그대로 데이터가 중심을 중심으로 퍼져있는 경향을 나타내는 통계량이다. 일예로 100명이 본 시험 점수가 0점부터 100점까지 고르게 분포되어 있다면, 우리는 대부분의 사람들, 특히 중간에 속한 사람의 점수는 0점이나 100점이 아니라는 것을 안다. 기술통계량은 이 중간에 속한 사람이 누구인지 확인하게 도와준다. 이를 확인할 수 있는 대표적인 값은 여러가지가 있는데, 우선 평균(mean), 중위수(median), 최빈값(mode)이다. 평균은 이미 익숙한 개념이고, 중위수는 100명의 성적 서열(순서)을 매겼을때 가장 가운데 위치한 사람의 점수를 의미하는 값이다. 반면에 최빈값은 100명의 성적중 가장 많이 발견되는 빈도의 값이다.

나) 산포도

: 산포도는 표본의 속성을 나타내는 데이터가 퍼져 있는 정도를 설명하는 통계량으로서 최대값, 최소갑, 범위, 분산, 표준편차, 표준오차 등이 있다. 이중 최댓값(maximum)과 최소값(minimum)은 각각 데이터에서 가장 작은 값과 가장 큰 값을 나타내며, 범위(range)는 최대 및 최소값 간 차이, 즉 '최대값-최소값'을 나타낸다. 그러나 이 세 가지 통계량은 여전히 데이터의 전반적인 흩어짐과 변화량에 대한 정확한 정보를 제공해 주지 못한다. 일예로 두 학급의 평균이 70점으로 동일하더라도, A반은 성적 분포가 0점~100점까지 극단적이고, B반은 성적이 60-80점 사이로 큰 차이가 없을 수 도 있다. 이런 데이터의 흩어짐 정도에 대한 정보가 없다면 우리는 어떤 교사가 더 편애없이 잘 지도했는지 알기가 어려울 것이다. 이를 위해 또 다른 산포도 통계량, 즉 분산, 표준편차, 그리고 표준오차가 필요하다. 분산, 표준편차, 그리고 표준오차는 기본적으로 각 데이터가 평균으로부터 떨어진 거리들에 대한 평균 개념으로 이해하면 무방하다. 자세한 설명은 본 과정의목표를 넘어가므로 생략하며, 통계원론 등에서 찾아보기 바란다.

다) 분포

: 데이터 분포의 형태와 대칭성을 보여주는 통계량으로, 보통, 첨도(Kurtosis)와 왜도(skweness)를 본다. 첨도는 데이터의 정규분포도가 뾰족한 정도를, 왜도는 데이터의 분포가 뾰족한 정도를 보여준다.

라) 백분위수

: 데이터를 4분위의 집단으로 나누고 각각에 해당되는 퍼센트를 보여준다

728x90

2) Jamovi 기초적인 기술통계

본 조사에 응답한 응답자의 성별 여부를 확인하여 우리는 남성과 여성의 %, 그리고 응답자의 평균적인 연령을 각각 살펴볼 것이다. 이를 위하여 우선 기본적인 기술통계를 위하여 '데이터546명.omv'라는 데이터 파일을 우선 연다. 그 이후의 단계는 간단하다. 상단의 '어날리세스' 메뉴 탭을 선택하고, 'Exploration(탐색)' -> 'Descriptives(기술)'을 차례로 선택한다. 그러면 다음과 같은 형태로 분석 창이 변화될 것이다. 기술통계의 기술은 '묘사하거나 서술한다(descript)'는 의미로 사용되고 있음을 알 수 있다. 즉 데이터를 요약하여 어떤 응답을 했는지 함축적으로 보여주는 매우 기초적인 분석이며, 주로 평균이나 빈도(%)의 형태로 데이터를 함축적으로 보여준다.

Jamovi는 분석과 결과보여주기 모두 매우 직관적인 방식을 택하고 있다. 분석 화면의 좌측에는 분석이 가능한 모든 변수들(변수 전체)를 보여주고 있는데, 이중 분석하고 싶은 변수들만 화면 우측의 'Variables'에 클릭하여 가져자 놓으면 된다. 그러면 친절한 Jamovi는 어떤 결과 값이 나왔는지를 실시간으로 바로 보여주게 된다. 화면의 'split by'는 분석값을 특정한 기준을 중심으로 나누어보고 싶을때 사용하는 메뉴이며, 이는 추후에 설명한다. 바로 그 아래에는 'Frequency table' 옵션을 지정할 수 있으며, 지정 시 빈토(%) 결과값을 보여준다. 추가적으로 분석 화면의 하단에 보면 두개의 옵션 메뉴가 숨겨져 있다. 즉 'Statisics'와 'Plots'이다. 우선 'Statisics'를 클릭하면 평균, 최빈값, 중앙값, 분포값, 퍼센타일 값등 다양한 추가 통계자료를 보여준다. 'Plots'은분석결과를보기좋은그래프형태로보여준다.

우선 테스트로 응답자의 평균 연령을 살펴보자. 이를 위해서는 단지 분석가능한 변수들중에서 연령(age)를 'Variable'창에 옮겨다 놓으면 된다. 결과값은 자동으로 산출된다. 추가적으로 응답자 성별(gender)를 분석해보자. 남녀 성별을 평균으로 본다는 것은 결과 값은 기계적으로 나오긴 하지만 아무런 의미가 없다. 이 경우 gender 변수를 'Variable'창에 옮겨놓은다음 아래의 'Frequency table' 옵션창을 클릭하면 된다. 추가적 통계옵션이 필요한 경우에는 옵션창에서 추가로 선택할 수도 있다.

분석 결과를 보면 Jamovi의 오른편 화면에 원하는 통계결과와 관련된 참고문헌이 실시간으로 나타나는 것을 볼 수 있을 것이다. 이로서 간단한 평균이나 빈도(%)의 분석을 할 수 있게 되었다. 분석해보고 싶은 다른 변수들이 있으면 자유롭게 분석해본다. 이를 통하여 우리는 척도의 특성(명목, 등간, 비율 등)에 따라서 어떤 분석방법이 적합한지, 혹은 적합하지 않은지 앞서 배운 내용을 상기하면서 체험할 수 있을 것이다. 일예로, 그래프(plots) 작성은 데이터 특성이 적절하지 않으면 옵션에서 지정을 하더라도 그래프를 산출해주지 않을 것이다(중국집에서 스테이크를 주문하는 경우를 생각해보자. 주문하더라도 결코 스테이크는 나오지 않는다).

728x90

저작자표시 비영리 변경금지 (새창열림)

[Jamovi 통계] 3. Jamovi 데이터 핸들링

2020. 8. 23. 12:23

728x90

3. Jamovi 데이터 핸들링

1) 데이터 핸들링의 목적

통계분석의 시작은 분석에 적합한 원천 데이터(raw data)를 확보하고, 이를 통계분석에 적합한 형태로 정리하는 작업이다. 원천 데이터는 설문 조사나 외부 2차 데이터 등을 통하여 확보할 수 있지만, 보통 이들 데이터들을 그대로 쓰는 경우는 거의 없으며, 통계분석에 적합하도록 코딩(coding), 데이터 클린싱(cleansing) 같은 전 처리 과정을 거친다. 또한 전 처리 과정 이후에도 분석 과정중에서 기존 변수들을 다시 구간화하여 정리한다든지, 두개 이상의 변수를 결합하여 새로운 변수를 만드는 등의 경우가 빈번하다. 이와 같은 데이터 핸들링 과정을 통하여 통계 분석의 편리성을 증대시킬 수 있으며, 데이터를 타 연구자와 공유하는 등 협업의 가능성을 높일 수 있다. 잘 정리된 데이터는 굳이 설문지나 데이터에 대한 자세한 설명없이도 어떤 목적으로 수집된 데이터인지 스스로 말할 수 있어야 한다.

2) 데이터 입력하기

Jamovi에서 데이터 입력하는 방법은 기존 SPSS와 동일하다. 이미 SPSS에 익숙하다면 별다른 지침이나 설명없이도 직관적으로 입력이 가능하다. 처음 통계 프로그램을 접하는 경우를 가정하고 설명하면 다음과 같다. Jamovi 에서는 데이터 입력창에 직접 데이터를 입력할 수 있으며, 이 경우 변수명은 자동적으로 A, B, C, D와 같은 알파벳 순서로 생선된다. 엑셀 시트와 닮은 데이터 입력창은 column(열)과 row(줄)로 이루어져 있는데, 쉽게 생각하면 column은 변수명, row는 개별 응답자로 생각하면 된다. 즉 총 10개의 변수가 포함된 설문 문항을 5명이 응답하였다면 10개의 컬럼(열)과 5개의 로(줄)가 필요하다.

그러나, 대부분의 경우 데이터 입력창에 직접 입력하기 보다는 이미 다른 도구에서 정리한 데이터 파일을 불러오는 것이 일반적이다. 종이나 온라인 설문지로 받은 설문 결과를 통계 프로그램이 이해할 수 있도록 입력하는 과정을 펀칭(punching), 그리고 입력된 데이터에 변수명과 변수 값을 부여하는 과정을 코딩(coding), 입력된 데이터중 오류나 이상치(outlinear)를 찾아서 정정하거나, 도량형 등 사전에 정의된 데이터 기준에 부합되도록 데이터를 정리하는 과정인 데이터 클린싱(cleansing) 과정을 통계 분석 전에 처리하여야 하는데, 이런 데이터 핸들링 작업을 수행할때는 보통 SPSS나 Jamovi 같은 통계 프로그램이 제공하는 데이터 에디터 창보다는 엑셀이나 워드, 텍스트 에디터 등을 이용하는 것이 더 빠르고 편리하기 때문이다.

Jamovi 역시 다양한 입력 파일을 지원한다. Jamovi와 SPSS, R, JASP 등 통계 패키지의 데이터 파일은 물론이고, 엑셀 파일 포맷(csv)과 텍스트 파일 포맷(txt)를 지원한다. 데이터 입력 기능을 사용하기 위해서는 파일 탭 ->열기(open)-> 본 컴퓨터에서 열기(This PC) -> 파일찾기(Browse)를 차례로 선택하면 된다. 파일을 불러오면 데이터 파일이 열리게 된다. 엑샐 파일(csv)로 파일을 준비하여 여는 경우에 엑셀의 첫 행이 변수들의 이름으로 되어 있다면 Jamovi는 이를 자동으로 변수명으로 인식한다. 변수명은 데이터 입력후 변경이나 생성이 가능하므로 변수명이 확정되어 있지 않다면 나중에 명명하여주어도 상관없다.

3) 변수명 및 속성 지정

불러온 데이터는 통계분석에 적합하도록 편집이나 변수명 부여하기 등 관리 활동이 필요할 수 있다. 변수 관리는 데이터 관리 탭에서 제공되는 메뉴들을 활용하여 변수명 및 속성 지정(Setup), 새로운 변수의 계산(Compute), 변수 다시 코딩하기(Transform), 필터와 그외 기능들에 대하여 살펴본다.

우선 통계분석을 위해서는 필수적으로 변수명을 지정해주고, 변수의 속성 역시 지정해주어야 한다. 변수명은 엑셀 시트의 첫줄에서 지정해준채로 불러올수도 있지만, 변수의 속성은 엑셀에서는 지정할 수 없으며 Jamovi에서 지정해주어야 한다. 변수의 속성은 적용가능한 통계분석방법론의 종류에 영향을 미치기 때문에 가급적 정확하게 부여해주는 것이 좋다.

가) Setup: 변수명 및 속성 지정

우선 데이터 입력창을 보명 1명의 응답자가 3개의 질문에 응답한 결과, 즉 1개의 줄(row)과 3개의 열(column)으로 구성된 데이터를 볼 수 있다. 설문조사를 통하여 응답자의 이름, 연령, 성별(1=남자, 2-여자)를 차례로 물어본 결과를 데이터로 정리한 것이다. 그러나 이런 문항이었음을 우리는 현재의 데이터 창만을 보고는 잘 알 수가 없다. 변수명도 A,B,C와 같이 문항의 내용을 알아보기 힘들게 자동부여된 상태이며, 변수에 대한 설명이 잘 되어 있지 않기 때문이다. 이런 문제를 해결하기 위하여 변수명을 각각 name, age, gender로 수정하고, 변수에 대한 추가적인 설명을 달 수 있다면 데이터를 접하는 누구나 손쉽게 데이터를 이해할 수 있다.

변수명과 변수 설명 이외에 추가적으로 변수의 척도 유형(type)을 4가지중 하나로 지정해주어야 한다. Jamovi에서는 연속척도(continuous scale), 서열척도(ordinal scale), 명목척도(nominal scale), 그리고 구분번호(ID)의 4가지 유형을 구분한다. 척도의 구분은 통계 분석과 방법론 결정에서 매우 중요하기 때문에 별도로 설명이 필요하지만, 우선 간단하게 표로 그 차이를 제시하면 다음과 같다(상세 설명은 추후 설문지 만들기에서 다룸). Jamovi에서는 비율척도와 연속척도 간의 실질적인 차이가 크지 않다고 보고 있기 때문에 연속척도에서 비율척도 까지 포괄하고 있다고 생각하면 된다. 그리고 구분번호(ID)는 단순히 응답자에 일련번호를 붙이는 것을 말하며 특별히 분석에 사용되는 경우가 적기 때문에 일단은 무시하여도 좋다. 즉, 변수 설정에서는 주로 1) 연속척도 혹은 2) 명목척도인지 2개중 하나를 선택하면 대부분의 경우 문제가 없다.

척도 유형을 결정한 이후에는 데이터 유형도 지정하여 주어야 한다. 데이터 유형은 크게 텍스트(text), 정수(decimal), 소수점(decimal)의 3가지인데, 텍스트는 주로 문자로 받는 입력값(이름,의견등)인 경우이며, 정수는 소수점 없는 숫자(예:7), 소수점은 소수점을 가진 숫자(예: 7.22)의 경우에 사용한다. 데이터 유형 규칙에 맞지 않는 경우에는 입력이 제한될 수 있다. 즉, 정수 데이터유형인 경우에는 소숫점을 가진 숫자는 입력되지 않는다.

모든 변수에 대한 설정이 완료된 이후에는 엔터키나 화면 우측상단의 윗화살표 아이콘을 클릭하면 변경사항을 저장할 수 있다

나) Compute: 변수의 계산

변수를 계산하는 'Compute' 아이콘은 이미 획득한 데이터를 기반으로 새로운 변수를 만들때 주로 사용된다. 실제로 이 기능을 이용하면 설문 조사나 원 데이터에 없었던 새로운 변수를 계산을 통하여 만들어낼 수 있기 때문에 설문지의 문항 갯수를 감소하거나, 분석의 다양성을 확보하는 등의 장점이 있다. 일 예로, 어린이가 연간 마시는 음료수의 갯수를 조사하는 설문조사를 한다고 가정하자. 이럴 때 "일년에 몇병의 음료수를 마시는가?"라고 물어보게된다면 대부분의 응답자들은 연간 음료구매량에 대해서 생각해본 적이 없기 때문에 답변을 할 수 없다. 반면에 "일주일에 몇병의 음료수를 마시는가?"라고 물어본다면 비교적 최근의 기억을 토대로 정확하게 응답할 수 있고, 연구자는 물어본 결과는 아니지만 주간 음료의 양을 연간으로 환산하여 손쉽게 원하는 결과를 찾아낼 수 있다. 비슷한 예로 현재 이용중인 스마트폰의 이용기간을 월로 물어본다고 가정하자. "몇개월이나 사용하였는가?"라고 물어보기 보다는 "언제 가입하였는가?"를 물어본 뒤, 가입 이후 현재까지의 경과 기간을 물어보는 것이 더 효율적이다.

이러한 예를 설명하기 위하여 본 예제에서는 '비만도(BMI) 조사'의 예를 살펴보자. '비만도(BMI)는 BMI=몸무게(kg)/(키m*키m)'로 산출한다. 즉 키와 몸무게만으로도 산출이 가능하다. BMI를 계산하는 방법은 다음과 같다.

우선, 데이터 관리 탭의 'Compute' 아이콘을 클릭하면, 새로운 변수가 자동으로 생성된다. 이는, 변수의 계산을 통하여 과거에 없던 새로운 변수가 하나 더 생기기 때문에 새로운 변수에 대하여 변수명과 속성 지정이 필요함을 의미한다. 물론 자동으로 주어진 변수명을 사용하여도 분석은 가능하지만, 우리는 연구자의 편의를 위하여 앞서 배운바대로 변수명, 변수설명 등의 속성을 지정해준다. 이를 통하여 목표로 하는 BMI 값을 확인할 수 있다. 변수 계산은 보통 계산식 입력창에 직접 계산 수식을 넣어서 사용할 수도 있고, 화면 우측하단의 'Fomular'를 선택하면 엑셀에서 익숙한 함수 형태의 수식 적용도 가능하다.

다) Transform: 변수의 변환

기존의 변수를 다른 변수로 바꾸어주는 'Transform' 아이콘은 이미 획득한 데이터를 기반으로 새로운 특성의 변수를 만들때 주로 사용된다. 일예로, 설문문항에서는 명목척도로 물어보았지만, 통계분석을 위하여 다시 연속척도로 변경하는 경우가 있다. 일예로 주관식 질문으로 성별을 물어본 경우에는 '남성', 혹은 '여성'으로 응답이 들어오지만, 이후의 통계 분석의 편의성을 의하여 남성=1, 여성=2의 값으로 바꾸는 경우가 많다. 또 다른 사례로, 기존의 데이터를 기준으로 새로운 변수를 만들고 싶은 경우가 있다. 일예로, 응답자의 몸무게를 주관식 문항으로 물어본다면 매우 다양한 응답치가 입력되지만, 연구자는 단순히 몸무게를 60키로 미만, 61키로 이상의 집단으로만 보고 싶은 경우도 생긴다. 변수 변환 기능은 얼핏 변수 계산 기능과 유사해보이지만 기존의 변수값을 단순히 재분류하거나 명명을 달리하는 것이라는 점에서 새로운 변수의 계산과는 차이가 있다. 이 기능 역시 실무 분석시 활용도가 높은 기능이므로 잘 익힐 필요가 있다.

이러한 예를 설명하기 위하여 본 예제에서는 응답자의 몸무게를 단지 60키로 미만, 61키로 이상의 2개 집단으로 재분류하는 예를 살펴보자. '즉 60키로 미만 = 1, 60키로 이상 = 2의 값으로 다시 코딩을 하게되며, 이를 변환하는 방법은 다음과 같다.

우선 메뉴 창의 Transform 아이콘을 클릭한다. 혹은 데이터 보기 창에서 마우스 오른클릭 후 Transform을 클릭하여도 동일다. 그러면 자동으로 변수가 하나 생기는데, 이 변수에도 변수명과 변수설명을 달아준다. 본 예시에서는 변수명은 'weight_group'으로 설정한다. 그리고 source variable을 지정해주어야 하는데, 이는 변환할때 참조하고자 하는 원래 데이터 변수명을 의미한다. 우리는 weight 변수를 다시 코딩하는 것이기 때문에 weight 변수를 선택한다. 그리고, 바로 아래의 드롭다운 메뉴를 보면 'using transform'에서 'create new transform'을 설정해준다. 그러면 Transform의 내용에 대하여 설명을 달 수 있고, 하단의 "+Add recode condition" 버튼을 2번 클릭한다. 2번 클릭하는 이유는 2개 집단을 만들기 위해서이며, 만일 3개 집단이면 3번 클릭하면 된다. 이후 등장하는 함수버튼(f)의 수식을 입력하면 된다. 본 예제의 경우에는 60kg 미만과 이상의 2개 집단이므로, "if $source < 60"을 먼저 입력한 후 새로운 변수 값 1을, 이후 "if $source >= 60"을 먼저 입력한 후 새로운 변수 값 2를 입력해주면 된다. 이후 생성된 새 변수를 보면, 바르게 변환된 것을 볼 수 있다. 간혹 이름과 같은 문자로 표시된 명목 척도값을 숫자로 변경하여 줄 필요가 발생하는데, 이때 해당 문자 값은 반드시 작은따옴표를 사용하여야 한다. 즉 '남자', '여자'처럼 함수버튼에 입력해야 한다. 본 수식은 다소 복잡해 보이지만 일반 엑셀에서 사용하는 등호 수식과 거의 동일하며, 직접 입력할 필요없이 마우스 클릭만으로 설정이 가능하다. 유의할 점은 Jamovi는 R에서 출발하였기 때문에 등호 수식중에서 같다(eqaul)를 표현하기 위하여 "=="를 사용하며 같지 않다(not equal)를 표현하기 위하여 "!="를 사용한다는 점 정도는 엑셀과 차이가 있다. 기타 다양한 수식은 필요에 따라서 익혀 사용하기를 권한다.

라) Filter: 특정 케이스의 선택

Jamovi에서 제공하는 필토 기능은 특정한 조건을 충족하느 케이스만을 선택하여 분석을 수행할 수 있게 도와준다. 예를 들어서 남자와 여자 모두를 대상으로 데이터를 수집하였으나, 보고서 목적상 여자만을 대상으로 분석하는 경우를 생각해보자. 가장 쉽게 생각할 수 있는 방법은 데이터 보기창에서 남자 데이터를 모두 지우고 여자 데이터만을 가지고 분석하는 방식이다. 이 방법은 얼핏 간단하고 효과적으로 보일지 모르지만, 나중에 연구 목적에 따라 남자도 추가로 분석해야 되는 상황이 되면 데이터 삭제에 따른 문제가 발생한다. 이럴때 필터 기능을 사용하면 데이터의 삭제 없이 필요한 분석을 할 수 있도록 도와준다. 그외에도 필터를 이용할 경우 복잡한 조건을 충족해야 하는 분석(예: 남성이면서 대학생인 응답자의 나이)을 간단히 할 수 있도록 도와줄 수 있으므로 꼭 익히도록 하자.

이러한 예시처럼, 이번에는 남자만을 대상으로 데이터 분석을 하기위한 필터를 적용해보자. 우선 데이터 탭의 메뉴 아이콘 중에서 'Filters'를 선택한다. 그리고 편집창의 'Filter 1' 칸에 필터로 사용할 변수명을 클릭한후, 필터로 사용한 변수 값을 지정해준다. 즉 변수명은 gender, 변수값은 '여성'을 지정해준다. 그러면 데이터 보기 창에 보기와 같이 응답자가 남성인 경우에는 x표시가 뜨며, 향후 분석에서 제외됨을 표시한다. 변수 지정 등 이 과정 역시 직접 입력하지 않고 마우스 클릭만으로 처리가 가능하다.

필터는 필요에 따라서 추가하여 복수의 필터를 선택할 수 있다. 즉, 본 사례 데이터 값은 경우 필터에 사용할 변수로 gender와 height의 2개를 사용하여 키 170cm 이상의 여성이라는 조건을 충족하는 응답자에 대한 분석만도 가능하다.

마) 기타 기능들

Jamovi 데이터 입력창에서는 데이터를 다루는데 필요한 기타 기능들을 제공한다. 변수를 추가하거나 삭제할 수 있는 Add와 Delete 기능, 변수나 데이터를 복제하거나 붙일 수 있는 기능들을 제공한다. 이들 기능들은 기본적으로 엑셀, 워드의 기능과 동일하므로 별다른 설명없이 바로 사용이 가능할 것이다.

4) 직접 데이터 핸들링을 해보자

앞에 배운 내용을 중심으로 직접 데이터 핸들링을 해보자. 변수(이름)과 변수에 대한 설명(레이블)은 통상적 SPSS에서 사용되었던 전형적인 데이터 분석 창이다. 이를 보면 본 데이터는 코로나 바이러스가 생활에 미치는 영향을 살펴보기 위하여 총 8개의 설문문항으로 이루어진 설문조사를 통하여 얻어진 것임을 알 수 있다. 즉.

1. Id 변수: 응답자 일련번로 (응답자 중복방지를 위하여 설문응답자에게 번호를 붙여다. 본 데이터는 1~546까지의 아이디가 부여되어 있다. 즉 546명의 데이터다)

2. a1~a3 변수: 코로나 이후 1) 인터넷, 2) 스트리밍 서비스, 3) SNS의 이용이 증가 혹은 감소하였는지를 등간척도의 하나인 5점척도로 물어보고 있다.

2. b1~b3: 로나 이후 1) 인터넷, 2) 스트리밍 서비스, 3) SNS의 이용시간을 시간 단위의 주관식 문항(비율척도)으로 물어보았다.

3. gender: 응답자의 성별은 객관식 문항(명목척도)인 1과 2로 물어보았다. 1=남성, 2=여성

4. age: 응답자 연령을 주관식 문항(비율척도)으로 물어보았다.

아래는 이런 설문지를 통하여 얻은 총 546명의 데이터를 엑셀 시트로 정리한 것이다. 이 파일을 가지고 실습을 해보자

실습 1) 이 변수들을 가지고, 어떤 설문지를 사용하였는지 역으로 추산해서 설문지를 만들어보자

실습 2) 제공된 엑셀 CSV 파일 포멧의 데이터를 가지고, Jamovi에 데이터를 불어오기를 한다. 그리고, SPSS의 변수정의와 동일하도록 정리해보자(엑셀 파일의 첫줄은 자동적으로 변수명이 되므로, 불러오기 전에 첫줄에 변수명을 미리 상빕하는 전 처리를 하는 것이 편하다)

데이타546명.csv

0.02MB

728x90

저작자표시 비영리 변경금지 (새창열림)

'파보자! SPSS&Jamovi 분석 > 5. Jamovi 로 준비하기' 카테고리의 다른 글

[Jamovi 통계] 2. Jamovi 설치/준비하기 (8)	2020.08.20
[jamovi 통계] 1. Jamovi 와 오픈소스 통계 패키지 (7)	2020.08.20

[Jamovi 통계] 2. Jamovi 설치/준비하기

2020. 8. 20. 12:16

728x90

2. Jamovi 설치/준비하기

1) Jamovi 설치하기

오픈소스 통계 패키지중에서도 Jamovi는 SPSS보다 뛰어난 성능과 편의성을 자랑한다. 일 예로 SPSS에서는 데이터보기 창과 분석결과 창이 별개의 윈도우로 제공되지만 Jamovi에서는 하나의 화면에서 데이터와 분석 결과를 실시간 점검할 수 있다. 무료 패키지라는 장점 외에도 업데이트가 빨라 새로운 최신 기능도 다양하게 선택적으로 사용할 수 있다.

Jamovi를 설치하기 위해서는 우선 프로그램을 다운로드하여야 한다. Jamovi 다운로드를 위한 인터넷 접속은 모든 브라우저에 가능하나, 가급적 구글 크롬의 사용을 권장한다. 다양한 디지털 데이터 분석과 데이터 마케팅 플랫폼이 구글 중심으로 빠르게 재편되고 있기 때문에 평소에 구글 크롬 브라우저는 기본 브라우저로 사용하는 습관이 편리하기 때문이다. 다른 통계 패키지에서 보기 힘든 특징으로 .Jamovi는 클라우드(cloud) 버전도 지원한다. 즉, 프로그램의 설치 없이도 웹(cloud.jamovi.org)에 접속하여도 동일한 기능의 이용이 가능하다. 이는 여러가지 편리함을 제공하는데, 스마트폰의 웹 접속이나 공용 PC 등에서도 간편하게 이용이 가능하다는 것은 큰 장점이다.

Jamovi 웹사이트(https://www.jamovi.org/) 를 방문하면 다양한 버전의 설치 파일을 선택할 수 있는데, 우선 솔리드(solid) 버전과 커런트(current) 버전의 차이점을 알아야 한다. 보통 커런트 버전은 현재까지 개발된 최신판이지만 아직 기능이 다소 불완전할 수 있어서 에러가 발생할 가능성이 있는 반면, 솔리드 버전은 검증을 통하여 보다 안정된 버전이다. 그러나, 실제로 두 버전간의 차이는 사실상 크지 않아서 어느 것을 설치하여도 무방하다. 이하 본 블로그에서는 솔리드 버전을 설치하고 설명한다.

설치 파일의 사이즈는 약 200메가 이하이며, 설치 과정은 단순히 안내 창에 따라 따라가면 되기 때문에 어렵거나 고민해야되는 부분은 없다. 설치가 종료되고 실행되면 Jamovi의 기본적인 화면이 등장한다. Jamovi는 하나의 화면에서 데이터분석과 결과 보기를 할 수 있도록 디자인되어 있어서, 화면 좌우를 중심으로 데이터 보기창과 결과보기 창이 동시에 나타난다. 그리고 기본적인 통계 분석 기능이 자동으로 제공된다. Jamovi는 연구자의 필요에 따라서 기타 다양한 통계 분석 도구들을 추가할 수 있다. 이를 위해서는 메뉴 화면 맨 우측의 모듈(+) 이라는 메뉴를 추가하면 현재까지 설치된 통계 모듈과 추가 설치가능한 통계 모듈을 확인할 수 있다. 이 통계 모듈은 오픈소스 개발자들의 노력을 통하여 수시로 업데이트되거나 추가되기 때문에 Jamovi의 기능이 향후 계속 확장될 수 있음을 보여준다.

728x90

2) Jamovi 화면과 메뉴

Jamovi 설치가 완료된 후 실행하면 화면 상단에 아이콘 형태로 제시된 메뉴 영역이 있으며, 그 메뉴 화면 아래로는 좌우로 분할된 두개의 윈도우 창이 나타난다. 좌측의 윈도우 창은 분석에 사용되는 데이터들을 보여주는 역할을 하며, 우측의 윈도우 창은 분석된 통계 결과들을 보여주는 역할을 한다. 우선 화면 상단의 메뉴는 '데이터' 탭과 '어날리세스(분석)' 탭을 선택하면 아이콘 메뉴가 탭에 따라서 변경되는 것을 볼 수 있다. Jamovi의 기본적인 작동 방식은 다음과 같이 단순하다.

가. 분석 업무의 내용에 따라 우선 데이터 탭 혹은 어날리세스 탭을 선택한다. 데이터 탭은 데이터의 정리가 가공 등 분석 이전의 데이터 전 처리를 위하여 주로 사용하게 되고, 어날리세스 탭은 어떤 통계분석을 시행할지를 선택하게 된다.

나. 메뉴 아래 좌측의 데이터 보기 윈도우에 분석 대상인 데이터와 변수명이 적절하게 표시되었는가를 확인한다.

다. 분석 탭을 클릭한 후, 원하는 통계분석을 선택한다.

라. 메뉴 아래 우측의 결과보기 창에 나타난 통계 결과를 확인한다.

각 탭들의 기본적 메뉴들을 간단히 살펴보면 다음과 같다.

가) 데이터 탭

: 데이터 탭에서는 분석을 위하여 자료를 준비하거나 변수(variable)의 속성값을 지정하고, 기존의 변수와 데이터를 새로 추가, 변경, 삭제하는 기능을 제공한다.

나) 어날리세스(분석) 탭

: 분석 탭에서는 적절한 통계 분석을 실시할 수 있게 해준다. 처음 설치하면 기술통계(Exploration, Frequencies)와 그외 많이 쓰이는 기본적인 통계도구(T-test, ANOVA, Regression)들만 이용가능하며, 모듈 투가를 통하여 보다 다양한 통계분석을 이용할 수 있다.

이는 어날리세스 탭의 메뉴의 맨 우측의 'Modiule' 아이콘을 클릭하면 드롭다운(drop-down) 메뉴를 통하여 원하는 기능을 설치하면 추가 기능의 이용이 가능하다. 이들 추가 기능은 고급 통계기능까지 포함하여 매우 다양하며, 오픈소스 개발자 커뮤니티를 통하여 새롭고 강력한 기능이 계속 추가된다는 것은 SPSS 등 사용 프로그램들과 비교시 가장 큰 장점이기도 하다. 특히 모듈을 추가할 경우, 기존 SPSS에서는 값비싼 확장팩을 통해서도 이용할수 없었던 확인적 요인분석(CFA분석), 매개효과(mediation)와 조절효과(moderation) 분석, 메타(Meta) 분석 등의 고급 통계 기능들도 손쉽게 이용가능하다는 점은 Jamovi만의 매우 큰 매력이 아닐 수 없다.

다) 파일 관리 메뉴

: 화면 상단의 맨 좌측의 파일관리 탭을 클릭하면 불러오기, 저장하기, 파일이름 바꾸기 등 기본적인 파일관리 기능을 활용할 수 있다.

728x90

저작자표시 비영리 변경금지 (새창열림)

'파보자! SPSS&Jamovi 분석 > 5. Jamovi 로 준비하기' 카테고리의 다른 글

[Jamovi 통계] 3. Jamovi 데이터 핸들링 (8)	2020.08.23
[jamovi 통계] 1. Jamovi 와 오픈소스 통계 패키지 (7)	2020.08.20

[jamovi 통계] 1. Jamovi 와 오픈소스 통계 패키지

2020. 8. 20. 11:07

728x90

1. Jamovi 와 오픈소스 통계 패키지

1) 통계 패키지 소프트웨어

컴퓨터를 이용한 통계분석이 보편화된 이후, 주변에서 통계 소프트웨어를 사용하는 경우를 보는 것은 어려운 일이 아니다. 통계분석자들이 가장 흔하게 사용하는 통계 팩키지 프로그램은 SPSS를 필두로 SAS, Minitab 과 같은 상용 프로그램들이 있으며, 최근에는 r 등 새로운 프로그램들이 인기를 끌고 있다. 가장 잘 알려지고 보편적으로 사용중인 프로그램은 여전히 SPSS지만 각자 프로그램들은 자신의 영역에서 활약을 하고 있다. SPSS는 GUI (graphic user interfeace) 기반으로 오피스 프로그램에 익숙하다면 쉽게 조작할 수 있으며, 매년 버전 업을 통해서 방대하고 강력한 통계분석 기능을 자랑하고 있다. 최근에는 SAS나 MINITAB 등 경쟁 패키지도 점차 사용편리성 개선을 위하여 노력하고 있는 실정이다.

그러나 이런 강점과 편리성에도 불구하고 일반인이 손쉽게 구매하기 힘든 고가의 패키지라는 것이 가장 큰 제약사항이다. 개인적 목적으로 구매할 경우 최소 수백만원을 호가하며, 기업이 구매할 경우 억 단위가 넘어간다. 또한 확장 기능을 부가할때마다 더 많은 추가 비용을 지불하여야 한다. 대부분의 대학들은 50인 내외의 소규모 라이센스 계약을 통하여 교육에 활용하고는 있지만, 대학을 벗어나는 순간 이런 고가 패키지를 이용하기는 쉽지 않다. 일반적인 중소규모의 기업은 물론이고, 대기업에서도 특별한 용도로 구매한 경우가 아닌 다음에야 현업에서 구경하기가 쉽지 않다. 여론조사나 마케팅 리서치 업체 정도에서나 갖추어놓은 경우가 많다. 전문적인 교육을 받고도 가격적 장벽으로 현업에서 사용하지 못하는 문제점들을 극복하기 위해서 누구나 무료로 사용할 수 있는 오픈소스 기반의 통계프로그램들이 등장하고 있으며, 대표적인 운동이 R project이다 (https://www.r-project.org). R은 통계 분석과 관련 그래픽 도출을 위한 완전한 무료 패키지이며, 윈도우, 맥OS, 그리고 리눅스 같은 다양한 플랫폼에서도 운영이 가능하며, 커뮤니티 중심으로 개발자들이 새로운 패키지를 계속 개발하는 유연한 프로그램 이라는 장점이 있다. 현재 2020년 기준으로 적어도 5,000개 이상의 R 패키지들이 개발되어 있다.

R이 이런 장점을 바탕으로 빅 데이터 분석 등 최근 급부상한 통계 영역에서 인기를 끌고 있지만, SPSS 등 기존 프로그램들을 충분히 대체하고 있지는 못하다. 이는 R이 GUI 형태의 소프트웨어가 아니라 일일이 code를 짜서 입력해야 하는 프로그래밍 개발 도구의 형태를 가지고 있기 때문이다. 최근에는 통합개발환경(IDE)인 'R Studio'의 이용을 통하여 다소 편리해졌다고는 하나, GUI 환경에 비할 바는 아니다. 프로그래밍 방식에 따른 개발의 유연성은 장점이 될 수 있지만, 결국 일반 사용자들에게 외면 받는 이유가 되고 있다. 과거 SPSS가 80년대까지는 지금의 r과 똑같은 프로그램 방식을 취하였지만(지금도 SPSS에서 GUI가 구현되지 않은 일부 고급분석 기능(예: conjoint 분석)을 이용하거나 맞춤형 테이블을 대량 출력할 경우에는 여전히 Syntax 코드를 짜야만 한다), 개선을 거듭하여 편리한 사용환경으로 진화한 것을 고려하면, 대중화를 위해서는 현재의 R은 편의성이 크게 부족하다.

2) 오픈소스 기반 통계 패키지

이에 대한 대안으로 최근에는 무료 공개 통계프로그램들도 R과 같은 강력한 통계분석기능과 다양한 OS 플랫폼 지원의 장점은 그대로 유지하면서, SPSS 처럼 편리한 GUI를 갖추고 공개되고 있다. 이런 프로그램의 대표 주자가 PSPP, JASP, 그리고 Jamovi 이다. PSPP (https://www.gnu.org/software/pspp)는 기존에 SPSS에 익숙하였던 사용자가 SPSS를 대체하기에 적합하다. 기존 SPSS와 100% 동일한 GUI와 메뉴 체계를 가지고 있어서 아무런 추가적 학습이나 노력없이 SPSS 사용 경험을 그대로 이용할 수 있다. 당연히 무료이기 떄문에 SPSS 데모판처럼 시간 제한이나 라이센스 문제는 발생하지 않으며, 기능 역시 SPSS 확장판의 통계분석 기능 대부분을 가지고 있다. 10억개 이상의 변수나 응답자 처리가 가능한 것도 장점이다. 또한 기존 SPSS와 데이타파일의 완벽한 호환이 가능하여 과거 사용하였던 SPSS 파일을 분석하거나 타 SPSS 사용자와 데이터 교환 등이 가능하다.

또 다른 대안은 JASP (https://jasp-stats.org)나 Jamovi (https://www.jamovi.org)를 이용하는 것이다. JASP의 개발자중 일부가 독립하여 Jamovi를 개발에 참여하고 있기 때문에 이들 프로그램의 개발 철학이나 이용방식 등은 매우 유사하다. 이들 프로그램은 모두 무료 공개 프로그램이며 SPSS나 SAS와 비교해서도 더 사용하기 편리한 GUI를 갖추고 있다. 또한 이들 프로그램들은 R 통계 언어에 기반하여 구현되었기 때문에 R의 강력하고 유연한 기능을 모두 사용할 수 있다. 평소에는 GUI 형태로 통계 패키지를 이용하지만, 사용자가 R code를 직접 운용하고 싶은 경우에도 패키지 안에서 R 실행이 가능하다. 또한 비교적 개발자 커뮤니티가 작은 규모인 PSPP에 비하여 큰 규모의 R 커뮤니티가 참여하고 있기 때문에 더 빠르게 업데이트되고 더 다양한 기능 모듈들이 수시로 업데이트되고 있는 것도 큰 장점이다. SPSS 등 유명 통계 패키지와의 데이터 호환성도 갖추고 있다.

여러가지 사용 옵션이 있지만, 만일 직장에서 이미 SPSS나 SAS 등의 라이센스를 구입하였고, 많은 데이터 아카이브가 구축되어 있다면 당연히 기존 패키지를 사용하는 것이 최선일 것이다. 그러나 그렇치 않은 경우의 대안으로서 이들 공개 프로그램들은 매우 훌륭하다. SPSS에 익숙한 경험을 버리고 싶지 않은 경우에는 PSPP를, 새롭게 배우기 시작한 경우에는 JASP나 Jamovi를 선택할 수 있다. 특히 Jamovi는 SPSS를 능가할 정도의 다양한 통계 모듈들이 빠르게 추가되고 있고, R 의 확장성을 그대로 가지고 있다는 점에서 추천할 만하다. 윈도우와 맥OS, 그리고 리눅스 등 다양한 환경에서 작동되기 때문에 다양한 운영체제를 가지고 있는 학생들 대상의 교육에 있어서도 적절한 측면이 있다. 본인도 역시 고사양의 PC에는 SPSS를 운영하고 있지만, 저사양의 리눅스에서는 Jamovi를 활용하고 있다.

728x90

저작자표시 비영리 변경금지 (새창열림)

'파보자! SPSS&Jamovi 분석 > 5. Jamovi 로 준비하기' 카테고리의 다른 글

[Jamovi 통계] 3. Jamovi 데이터 핸들링 (8)	2020.08.23
[Jamovi 통계] 2. Jamovi 설치/준비하기 (8)	2020.08.20

[SPSS 리서치] 16.연습용 data set과 code book

2019. 12. 24. 09:21

728x90

SPSS 등 통계 분석의 시작은 양질의 데이터를 확보하는 것이다. 양질의 데이터는 좋은 식재료와 같아서, 아무리 훌륭한 쉐프라 하더라도 재료없는 요리가 불가능한 것처럼 데이터 없는 분석은 성립할 수 없기 때문이다. 그리고 양질의 데이터는 대부분 좋은 설문지의 개발, 완결성이 높은 실사 작업(field work), 정직하고 꼼꼼한 데이타 클린싱 작업의 모두 갖추어져야지만 가능한 결과물이다.

이러한 데이터와 설문지를 확보하는 것은 상업적인 마케팅 리서치회사에서는 오랫동안 축적된 과거 경험을 바탕으로 진행된다. 과거 수행되었던 수많은 프로젝트의 결과물을 쉽게 이용할 수 있고 비교적 체계적인 OJT(on the job)가 진행되기 때문에 신입 연구원의 경우라도 빠르게 역량을 갖추어갈 환경과 여건이 갖추어져 있다. 마케팅 리서치에 익숙해지는 좋은 방법중 하나는 과거의 성공적 리서치 경험과 데이터를 복기하는 방식이라는 점에서 바둑 배우기와 닮아 있다.

그러나, 처음 배우는 입장에서는 설문지와 데이터, 특히 양질의 데이터를 확보하는 것은 매우 어렵다. 대부분 기업 마케팅 조사 결과는 기업의 영업 비밀에 해당되기 때문에 신문 등에 기사로 나는 요약된 조사 결과 외에는 raw data나 설문지 등 공개되는 경우가 거의 없기 때문이다. 다양한 통계 분석을 시험해보기 위해서는 볼륨있는 시장조사 데이타가 필요한 경우가 많으나 구하기는 쉽지 않은 이유다.

이와 관련하여 참조할 만한 데이터로 한국콘텐츠 진흥원이 제공하는 패널 데이터를 참조해볼 수 있다. 본 패널 데이터는 2014-2019년간에 걸친 조사로 획득한 패널 데이터를 제공하고 있으며, 설문지와 코딩 북도 공개하고 있다. 또한 데이터를 기반으로한 공모전도 개최하고 있다.

아래 첨부한 데이터를 기반으로 SPSS와 마케팅 리서치에 익숙해질 수 있을 것으로 기대한다.

1. 데이터의 세부문항의 구성과 특징.pdf

5. 자녀 변수설명 및 코드북.xlsx

0.10MB

6. 부모(1~10차)_공개용데이터.sav

1.47MB

7. 자녀(1+3+5+7+9차)_공개용데이터.sav

2.50MB

99_분석데이터자녀(2+4+6+8+10차).sav

2.85MB

728x90

저작자표시 비영리 변경금지 (새창열림)

'파보자! SPSS&Jamovi 분석 > 4. SPSS 실무 적용' 카테고리의 다른 글

[SPSS 리서치] 13. IPA 분석 (만족도-중요도 분석) (27)	2021.03.15
[SPSS 리서치] 15. 고객만족도 조사 설문지 사례 (9)	2019.12.17
[SPSS 리서치] 14. 대응일치 분석 (MDS 포지셔닝 분석) (8)	2019.12.16

[SPSS 리서치] 15. 고객만족도 조사 설문지 사례

2019. 12. 17. 14:17

728x90

이제 SPSS를 사용한 설문 조사의 설계와 문항 작성, 다양한 실무적 통계 분석에 관하여 익힐 수 있다. 그러나, 이런 기법들도 양질의 설문 데이터를 수집한 이후에야 적용이 가능할 것. Garbage-in & Garbage-out를 피하기 위해서는 설문 작성의 중요 관건이 되며, 좋은 설문지 작성은 오랜 경험이 숙련된 이후에야 가능하다.

경험을 축적하기 위해서는 먼저 시행된 다양한 설문지를 참고삼아 분석하고, 각 설문지의 장단점 등을 확인할 필요가 있으며, 편집을 통하여 응답자가 시각적으로 부담을 느끼거나 피로감을 느끼지 않도록 배려하는 작업도 중요하다. 이러한 목적을 위하여 국내 주요 마케팅 리서치 기업들은 자신들만의 독특한 설문지 양식과 질문 체계, 측정 도구들을 갖추고 있으며 이들을 특허 출원하는 등 저작권(IP) 보호에도 신경을 쓰고 있다.

그 결과 타 조사기관의 설문지 원본을 구하는 것도 쉽지 않으며, 구한다 하더라도 이를 상업적으로 활용하는데에는 윤리적 문제와 기타 제약들이 따른다. 따라서 본인의 경험을 축적으로 자신만의 노하우가 담긴 설문지를 만들어가는 과정이 중요하다.

728x90

그리고 설문지는 그 목적에 따라 1) 상업적 설문지, 2) 학술적 설문지로 나누어질 수 있다.

1) 상업적 설문지는 보통 고객인 위탁기업의 다양한 요구사항을 포함시켜야 하므로 질문의 형태나 내용, 부가적 자료의 제공등이 매우 다양하게 이루어진다. 보통 고객만족도 조사, 신상품 컨셉 조사, 유통 전략 조사 등 다양하다. 통계적 신뢰성도 중요하지만, 기업이 확인하고자하는 객관적 사실을 담는데 더 치중하게 된다. 아래는 저자가 과거 작성한 상업적 설문지중 일부 내용을 변경하여 공개하는 내용이다.

상업적 설문지 표본.hwp

0.05MB

2) 학술적 설문지는 학술지나 학술대회에 필요한 기본적인 데이터 수집을 목적으로 하며, 보통 석박사 학위 논문 작성에 필요한 원천 데이터의 수집을 목적으로 한다. 데이터 자체를 통하여 특정 정보를 요약하는 기술(description)보다는 변수들 간의 인과관계 규명이 목적이라는 점에서 상업적 설문지의 일반적 양식과 차이를 보인다. 또한 사용되는 변수의 신뢰성과 타당성 확인이 반드시 이루어져야 하기 때문에, 이런 목적을 달성할 수 있는 다항목(multi-item)으로 구성된 측정 항목이 일반적으로 삽입된다. 다항목 측정 항목은 비연구자들이 보기에는 거의 똑같은 질문이 반복되는 것처럼 느껴질 수 있으며, 특별한 용도가 아니면 상업적 설문지에서는 거의 사용되지 않는다. 아래는 저자가 과거 작성한 학술적 설문지중 일부 내용을 변경하여 공개하는 내용이다.

학술적 설문지 표본.hwp

0.18MB

: 청주대학교 이 원준 (meetme77@naver.com)

728x90

저작자표시 비영리 변경금지 (새창열림)

'파보자! SPSS&Jamovi 분석 > 4. SPSS 실무 적용' 카테고리의 다른 글

[SPSS 리서치] 13. IPA 분석 (만족도-중요도 분석) (27)	2021.03.15
[SPSS 리서치] 16.연습용 data set과 code book (8)	2019.12.24
[SPSS 리서치] 14. 대응일치 분석 (MDS 포지셔닝 분석) (8)	2019.12.16

[SPSS 리서치] 14. 대응일치 분석 (MDS 포지셔닝 분석)

2019. 12. 16. 12:11

728x90

1. 포지셔닝 분석의 필요성

포지셔닝을 분석하고 맵을 시각적으로 제시할 수 있는 방법은 다양하게 존재합니다. 제공되는 맵의 특성에 다소 차이는 있지만, ALSCAL, KYST, PROFIT, INDISCAL, PREFMAP, 대응일치분석 등의 분석방법을 사용할 수 있습니다. 이런 분석방법들은 모두 공통적으로 브랜드 이미지 관리와 관련된 두가지 문제에 초점을 두고 있습니다.

1) 첫째는 소비자가 브랜드 이미지를 결정하는 기준입니다. 예를 들어서, 여성 소비자들이 화장품을 구매할 때 고려하는 기준들이 무엇인지 확인하는 것입니다. 실제로 화장품 구매시에는 가격, 품질, 향, 효능 등 다양한 구매 기준들이 존재하지만, 이중에서 중요한 기준들을 선별해냄으로서 적정한 기준을 골라내는 것입니다. 이 기준들은 바로 포지셔닝 분석에서 ‘차원(dimension)'으로 활용되는데, 차원이 너무 많으면 맵이 복잡해져서 분석이 어려워지고, 너무 작으면 현실을 반영하기 어렵기 때문입니다.

2) 둘째는 이런 과정을 통하여 밝혀낸 각 차원상에서 자사의 브랜드와 경쟁사의 브랜드가 어떤 위치에 포지셔닝하고 있는가에 관한 문제입니다. 만일 화장품 구매시에 가격과 효능이 중요하다고 한다면 자사와 경쟁사를 포괄하여 어느 브랜드가 더 가격이 저렴하다고 인식되고 있는지 혹은 효능이 더 뛰어나다고 있는지를 밝혀내야 합니다. 이러한 목적을 달성하기 위하여 구성된 포지셔닝 맵은 각 차원에서 브랜드들의 위치를 밝혀냄으로서 소비자의 각 브랜드에 대한 평가를 가시적으로 보여줍니다. 특히 이 분석은 차원의 수가 보통 2개 이상의 복수이기 때문에 다차원척도법이라고도 불립니다.

차원이 만일 3개이면 3차원, 4개이면 4차원이라고 할 수 있지만, 프로그램이 이를 도출해낼 때는 평평한 화면이나 인쇄물 위에 2 차원으로 보여주게 됩니다. 디지털 카메라로 3차원인 일상을 사진에 담았지만, 화면이나 사진에서는 2차원으로 표현된 것과 동일한 방식으로 다차원의 정보를 제공하고 있습니다.

2. 포지셔닝 분석의 이해

본 차시에서는 다양한 다차원척도법중에서도 가장 보편적으로 많이 쓰이고 있는 ‘대응일치분석’을 중심으로 포지셔닝 분석을 이해해보도록 하겠습니다. 대응일치분석에서는 다른 다차원분석들과 마찬가지로 설문 조사를 통하여 얻어진 데이타를 이용하여 브랜드와 차원이 내재하고 있는 관계를 다차원적으로 분해해서 보여주는데, 차원이나 브랜드간에 거리가 가까울수록 소비자의 마음속에 유사하게 인식되고 있음을 의미합니다.

이때 차원이나 브랜드간의 거리는 보통 ‘유클리디안(Euclidean)’을 이용하여 상호간에 얼마나 유사한지 거리를 계산하게 됩니다. 이를 조금 더 상세히 설명하기 위해서 다음과 같이 매운 정도와 가격을 차원으로 사용한 라면 제품의 가상적인 2차원의 포지셔닝 맵을 살펴보도록 하겠습니다. 그리고, 가격과 매운 정도를 중립점이 있는 7점 척도로 확인한 결과입니다.

이 맵을 살펴보면 A라면과 B라면을 얼마나 유사하며, A라면과 C라면은 얼마다 다른가에 관한 질문을 할 수 있습니다. 이러한 질문에 답을 하기위해서는 거리를 측정하여 유사성을 확인하여야 하는데, 이때 가장 보편적으로 사용되는 방법이 유클리디안 거리 측정입니다. 즉 A라면과 B라면간의 거리 측정은 다음과 같은 공식을 통하여 계산됩니다.

이 공식에 대응에서 위 포지셔닝 맵에서 A브랜드와 B 브랜드간의 거리는 다음과 같이 구해질 수 있습니다.

같은 방식으로 A와 C 브랜드간 거리를 계산하면, 그 거리는 5.10입니다.

이런 결과를 통해서 3.16은 5.10보다 가까우므로, A 브랜드는 C보다는 B 브랜드와 더 유사하다고 이야기 할 수 있는 것입니다. 즉 이런 포지셔닝 맵에서 특정 브랜드가 다른 브랜드와 가깝다는 것 혹은 특정 브랜드가 특정 차원과 가깝다는 것은 소비자의 마음속에 비슷한 이미지로 각인되어 있음을 의미합니다.

실제 이런 거리 계산은 차원의 수가 증대할수록 기하급수적으로 번거로워지기 때문에 3차원 이상의 포지셔닝 맵의 거리 계산은 SPSS 등 컴퓨터 프로그램의 도움으르 받아 자동으로 계산하게 될 것입니다.

3. 포지셔닝 분석을 위한 설문과 데이타

우선 대응일치 분석을 하기 위해서는 이에 적합한 데이타를 수집하기 위한 검토가 설문지 개발 단계 이전부터 이루어질 필요가 있습니다. 처음부터 포지셔닝 분석을 목적으로 수집된 SPSS 데이타 파일없이는 사실상 분석이 불가능하며, 같은 포지셔닝 맵을 작성하는 기법이라, 대응일치분석이 아닌 다른 방법을 사용하는 경우에는 다른 형태의 데이타가 필요하므로 설문지의 문항과 내용에 대한 고려는 사전에 이루어질 필요가 있습니다.

일반적으로 대응일치 분석을 사용하여 포지셔닝 맵을 도출하고자 할 때는 각 기준별 소비자가 선호하는 브랜드를 측정한 후, 응답자가 응답한 빈도 수를 원 데이타로 사용하기 때문에 보통 아래와 같은 형태의 질문들을 활용하여 데이타를 수집합니다.

이 설문 문항은 국내에 시판중인 소주 브랜드들을 대상으로 ‘브랜드 개성’을 조사하고 있습니다. 즉, 소비자들이 브랜드 개성을 판단하는 선택 기준으로서 성실성, 재미, 성공, 매력, 터프함의 5가지 선택 기준을 문항의 형태로 제시하고 있고, 선택 보기로는 진로 등 국내에 시판중인 대표적인 5개의 소주 브랜드를 제시하고 있습니다.

728x90

4. 포지셔닝 분석 절차

이제부터는 위에서 제시된 설문지 문항들을 가지고 설문 조사가 완료된 후에 SPSS를 이용하여 대응일치분석을 실시하고 포지셔닝 맵 작성을 하는 과정들을 차례로 같이 해보겠습니다.

1) 1단계: 빈도 분석:

포지셔닝 맵을 작성하기 위한 데이타는 위에서 작성한 설문으로부터 직접 받은 데이타를 사용하지 않고, 또 한번의 추가적인 가공이 필요합니다. 즉 일차적으로 빈도분석을 시행한 이후에 각 문항 및 보기별 빈도를 입력한 가공 데이타를 사용합니다. 이미 설문지상에서는 5개의 개성을 묻는 문항을 사용하여 데이타 수집까지 완료되었지만, 실제 분석에서는 소주 브랜드의 이미지를 측정하기 위하여 몇 개의 차원을 설정할 것인가를 결정하여야 합니다. 연구자의 목적에 따라 5개 모두를 사용할 수 있고, 불필요한 것들을 제거한 후 더 적은 숫자의 문항을 사용할 수도 있습니다. 문항의 갯수가 적을수록 차원의 갯수도 감소하므로 더 간단명료한 포지셔닝 맵을 도출할 수 있습니다. 그러나, 차원의 감소에 따라 제공하는 정보의 양 역시 같이 감소할 것입니다. 본 차시에서는 브랜드 개성을 확인하는 5개의 질문 모두를 사용하여 분석하기로 합니다.

이러한 결정이 이루어진 이후에는 바로 5개 문항 모두에 대하여 기초적인 빈도분석을 실행하고 결과를 조회합니다.

2) 2단계: 데이타 파일의 정리:

도출된 빈도분석의 결과중 각 보기별 빈도만을 추출하여야 합니다. 그리고 데이타 보기창이나 엑셀을 활용하여 대응일치분석에 적합한 데이타로 재가공하는 과정이 필요합니다. 엑셀이나 데이타 보기 창위에 새롭게 생성되는 데이타 시트에는 모두 3개의 변수가 생성되어야 합니다. 엑셀 챠트를 보면, A행은 차원을 가르키는 문항 변수이며, B 행은 브랜드를 담고 있는 보기 변수, 그리고 C행은 응답빈도를 나타냅니다. 이 세가지 행을 이용하여 SPSS 분석에 필요한 데이타로 정리합니다.

잘 정리된 데이타는 다시 SPSS의 데이타 보기 창에 복사한 후 코딩과 라벨링 작업을 거쳐야 합니다. 즉 화면 우측 하단의 ‘변수보기(V)' 탭을 눌러 변수보기 창으로 이동한 후, 변수명과 변수 값에 대하여 코딩을 해주어야 합니다. 우선 변수명은 한글 이름으로 되어있는 차원과 보기의 데이타를 다시 1과 같은 아라비아 숫자로 코딩을 합니다. SPSS 다중응답분석에서는 숫자 데이타만을 입력받으므로, 만일 한글로 정리되어 있다면 번거롭지만 반드시 숫자로 코딩을 다시 하여야 합니다.

그리고 변수 보기 창으로 옮겨간 이후, 각각의 변수 값에도 적절한 코딩을 해줍니다. 실제 코딩 작업을 생략할 경우 구분이 되지 않아 결과의 해석이 어려우므로 반드시 코딩을 하도록 합니다.

3) 3단계: 빈도의 가중처리:

그 다음 단계로서 차원간 결과를 비교하기 위해서는 각 문항당 응답한 빈도를 가중처리(weighting)해주어야 합니다. 각 문항별로 무응답자의 숫자가 달라 문항별 빈도의 총합이 상이하기 때문에 반드시 분석 이전에 가중 처리를 해주어야 합니다. 가중 처리를 하기 위한 메뉴는 메뉴 바에서 데이타(D) -> 가중 케이스(W)를 차례데로 선택하시면 됩니다.

대화창이 나타나면 어떤 변수를 가중처리할 것인지 지정해야 합니다. 본 데이타에서 빈도를 포함하고 있는 변수는 ‘응답 수’이므로, 해당 변수를 ‘빈도 변수(F)’란에 옮겨놓고 ‘확인’ 버튼을 누릅니다.

4) 4단계: 대응일치 분석 실행:

자 이제 대응일치분석을 위한 데이타의 정리가 완료되었습니다. 이제, 본격적으로 포지셔닝 맵을 작성해볼 차레입니다. 분석을 실시하기 위해서는 분석(A) -> 차원감소(D) -> 대응일치분석(C) 를 차례데로 선택하시면 됩니다.

대응일치분석을 선택한 경우 바로 대화 창이 나타날 것입니다. 대화 창에서는 직접 열과 행에 들어가야 하는 변수들을 지정해주어야 합니다. 이때 미리 생성한 3개의 변수중에서 ‘문항’과 ‘보기’ 변수 각각을 행과 열에 차례로 지정해줍니다. 이때 행과 열에 포함되는 변수가 서로 바뀌어도 무관합니다.

이렇게 지정된 이후에는 각 변수의 옆에 두개의 물음표가 남아있는 것을 볼 수 있습니다.

이제 열과 행 변수가 가질 수 있는 최소값과 최대값의 범위를 추가로 지정해주어야만 합니다. 이제 ‘범위지정(D)' 버튼을 누른 후 범위를 지정해줍니다. 이들 값은 각 변수의 보기, 즉 변수값의 범위이며, 문항이 5개, 보기가 5개 이므로 각각 1과 5를 지정해 준 후 ’갱신(U)' 버튼을 누릅니다.

5) 5단계: 결과 도출 및 정리:

이제 모든 지정이 완료되었습니다. 대응일치보기 대화창에서 ‘확인’ 버튼을 누르면 자동으로 대응일치 분석이 시행되며, 분석 결과가 도출됩니다.

분석 결과중 그래프를 더불 클릭하면, 그래프에 포함된 글자 폰트나 기호 표시, 글자 색 등을 변경할 수 있습니다. 또한 필요시 작성된 포지셔닝 맵은 파워포인트 등으로 옮겨서 시사점이 더 명확하도록 시각적인 개선을 할 수 있습니다. 즉 0점을 중심으로 중심선을 제공하고, 차원을 화살표로 표시함으로서 가독성을 높이도록 합니다.

포지셔닝 맵을 보면 크게 3가지 정보들을 확인할 수 있습니다.

(1) 어느 브랜드와 경쟁하고 있는가? 즉 유사 브랜드와 차별화된 브랜드 이미지입니다. 맵을 보면 시원과 진로소주는 매우 밀접한 거리로써 소비자의 마음속에 유사하게 포지셔닝 되고 있음을 알 수 있습니다. 반면 진로와 금복주는 매우 다르게 인식되고 있습니다.

(2) 각 차원간 유사성은 무엇인가? 즉 소비자가 비슷하거나 다르다고 느끼는 차원은 무엇인가에 관한 정보입니다. 맵을 보면 매력적인 이미지와 재미있는 이미지는 매우 유사하게 인식되고 있음을 알수 있습니다. 그러나 터프함이나 성공은 매력과는 큰 거리 차이가 있습니다.

3) 마지막으로 브랜드와 차원의 이미지를 겹쳐서 봄으로써, 자사 혹은 경쟁사의 브랜드가 어떤 이미지를 가지고 있으며, 어떤 브랜드와 경쟁하고 있는지 종합적으로 판단해볼 수 있습니다. 일예로 참이슬 제품은 재미있고 매력적인 이미지를 가지고 있지만 이런 이미지는 처음처럼과 같이 공유하고 있음을 알 수 있습니다. 결과적으로 참이슬의 가장 큰 시장 경쟁자가 처음처럼 임을 다시한번 확인할 수 있습니다.

* 본 내용을 보다 상세히 동영상으로 확인하고 싶은 경우에는 아래 유튜브 링크 이용바랍니다.

https://youtu.be/fG-4fdQqMsc

: 청주대학교 이원준 (meetme77@naver.com)

728x90

저작자표시 비영리 변경금지 (새창열림)

'파보자! SPSS&Jamovi 분석 > 4. SPSS 실무 적용' 카테고리의 다른 글

[SPSS 리서치] 13. IPA 분석 (만족도-중요도 분석) (27)	2021.03.15
[SPSS 리서치] 16.연습용 data set과 code book (8)	2019.12.24
[SPSS 리서치] 15. 고객만족도 조사 설문지 사례 (9)	2019.12.17

[SPSS 리서치] 12. 분산분석 ANOVA

2019. 12. 5. 11:59

728x90

1. 분산분석의 필요성

분산분석(ANOVA: Analysis of Variance)은 두 개 이상 집단 간의 평균에 대한 차이를 검정하는 통계분석입니다. 분산분석을 이용하여 각 집단들이 동일한 평균을 가진 모집단에서 추출된 것인지 여부를 검정할 수 있습니다. 예를 들어서 광고 모델을 누구로 사용하는가에 따라서 광고에 대한 평가가 달라질 수 있습니다. 즉 어떤 사람은 아이돌같은 연예인들이 등장하는 광고에 호감을 보이는 반면, 다른 사람들은 일반 보통사람들이 등장하는 광고에 더 큰 호감을 느끼기도 합니다. 이러한 상황에서 마케팅 관리자는 소비자들이 어떤 광고 모델에 더 좋은 반응을 나타내는지를 알고 싶을 것입니다. 분산 분석은 이와 같이 마케팅 전략의 효과 측정이나 소비자 집단의 마케팅 전략에 대한 반응 차이 등에 대하여 통계적으로 검증된 의사결정을 가능하게 합니다.

2. 분산 분석의 이해

집단간의 평균에 통계적 차이가 있다 혹은 없다는 것을 어떻게 측정할 수 있을까요? 분산 분석의 기본 원리를 이해하기 위하여 가상적인 A기업의 신상품 홍보 전략을 예로 설명하고자 합니다.

A회사는 새로운 여성용 화장품 브랜드를 런칭하면서, 브랜드를 널리 알리기 위하여 향수 샘플, 현금할인, 그리고 무료 마사지의 3 가지 판촉물을 준비하고 있습니다. 그리고 이중 어떤 판촉물이 더 효과적인지 확인하기 위하여 전국에 분포되어 있는 12개의 점포를 각각 4개의 점포로 나누어 총 3개의 집단을 구성하였습니다. 각각의 집단에는 한 가지 종류씩 판촉물이 주어졌으며, 1개월의 판촉 행사가 종료된 이후 다음과 같은 판매 성과를 얻었습니다.

이와 같은 결과를 받은 후에 A기업은 어떤 각기 다른 3가지 판촉수단을 사용한 3개 집단간에 통계적으로 유의한 차이가 있는지를 분석하여 의사결정에 활용할 수 있는데 이를 분산분석이라고 합니다.

분산분석에서는 독립 변수와 종속 변수가 각각 필요합니다. 독립변수는 서로 다른 판촉 수단을 사용한 향수 샘플, 현금 할인, 무료 마사지의 3개 집단이 되며, 종속 변수는 이들 각 집단의 일평균 매출액이 됩니다. 즉 독립변수는 명목이나 비율 척도로서 그 값이 변하지 않고 항상 일정하지만, 종속변수는 등간이나 비율 척도로서 어떤 독립변수를 기준으로 평균을 파악하는가에 따라서 수시로 그 값이 변할 수 있습니다.

분산분석에서 사용하는 귀무가설과 대립 가설은 다음과 같습니다.

H0 : 집단별 매출액은 동일하다

H1 : 집단별 매출액은 동일하지 않다

3. 분산분석의 계산 절차

분산분석은 전체 분산을 이루고 있는 집단간 분산과 집단내 분산 중에서 집단 간 분산이 집단내 분산보다 얼마나 큰가를 판단하여 집단 간의 차이를 검정하는 방식입니다. 따라서 가설을 검증하기 위하여 분산분석에서는 집단내 분산, 집단간 분산, 그리고 전체 분산의 3가지 분산을 계산해야만 합니다.

1) 집단내 분산

집단내 분산은 각 집단의 평균치를 중심으로 집단내 각 측정치들이 얼마나 떨어져 있는 가를 나타내며 집단내 분산은 무작위 오차에 의한 것입니다. 즉 집단의 특성에 의한 차이가 아니라 그 외 설명할 수 없는 원인들에 의한 차이들입니다. 일예로 향수를 사용한 a 집단의 평균 매출은 32만원이지만, 같은 a 집단내에서도 매출액은 22만원 ~ 40만 원까지 다양합니다. a 집단내에서 발생한 매출 차이는 동일한 판촉 수단을 썼으므로 결코 판촉 수단의 차이가 될 수 없으며, 판촉 수단 이외의 알지 못하는 원인에 의해 발생한 차이임을 의미합니다. 집단내 분산을 구하기 위한 공식은 다음과 같습니다.

이를 앞의 A기업의 판촉 예에 대입해보면 집단내 분산은 다음과 같이 구할 수 있습니다.

판촉물 a(향수샘플) 집단내 분산= (40-32)2 + (36-32)2 + (30-32)2 + (23-32)2 = 184

판촉물 b(가격할인) 집단내 분산= (34-26)2 + (28-26)2 + (26-26)2 + (16-26)2 = 168

판촉물 c(무료 마사지) 집단내 분산= (28-18)2 + (20-18)2 + (14-18)2 + (10-18)2 = 184

** 그리고 이 세개 집단의 집단간 분산을 모두 합산한 전체 집단내 분산은 184+168+184 = 536 입니다.

2) 집단간 분산

집단간 분산은 각 집단들의 평균이 전체 평균으로부터 떨어져 있는 정도로 계산됩니다. 이는 집단의 특성에 따른 차이로써, 3개의 집단이 각기 다른 판촉 수단을 사용하였기 때문에 발생한 차이라고 볼 수 있을 것입니다. 집단간 분산을 구하기 위한 공식은 다음과 같습니다.

이를 앞의 A기업의 판촉 예에 대입해보면 집단간 분산은 다음과 같이 구할 수 있습니다.

** 집단간 분산= 4( (32-25.3)2 + (26-25.3)2 + (18-25.3)2 ) = 394.7 입니다.

3) 전체 분산

전체 분산은 각 측정치들이 전체 평균에서 얼마나 떨어져 있는가의 정도이며,

전체분산 = 집단간 분산 + 집단간 분산 = 536 + 394.7 = 930.7 로 구할 수 있습니다.

이제 구해진 집단내 분산과 집단간 분산을 이용하여 집단간 차이를 분석하기 위해서는 추가적으로 각각의 분산 값들을 자유도로 나누어 줌으로써 ‘평균 분산(M.S)'을 구하여야 합니다. 세가지 분산별 자유도를 구하는 방식은 다음과 같습니다.

ㅇ 집단내 분산의 자유도 = (집단의 수 * 집단내 항목 수) - 집단의 수

= (3 * 4) - 3 = 9

ㅇ 집단간 분산의 자유도 = 집단의 수 – 1

= 3 - 1 = 2

ㅇ 전체 분산의 자유도 = 집단내 분산의 자유도 + 집단간 분산의 자유도

= 9 + 2 = 11 입니다.

이미 구해진 분산값을 각각의 자유도로 나눌 경우, '평균분산(MS)'를 구할 수 있습니다.

ㅇ 집단내 평균분산 = 536 / 9 = 59.6

ㅇ 집단간 평균분산 = 394.7 / 2 = 197.3

마지막으로 구해진 평균분산 값을 이용하여 집단간에 평균 값의 차이가 있다는 것을 검증하기 위하여 집단간 분산이 집단내 분산보아 얼마나 큰지 F 검정을 해야 합니다. F 검정은 집단간 평균분산을 집단내 평균분산으로 나누어준 F 값을 가지고 검정이 이루어 집니다.

ㅇ F 값 = 집단간 분산 / 집단내 분산

= 197.3 / 59.6 = 3.31

즉 이런 과정을 통하여 도출된 F 값을 F비율통계표의 특정 유의수준별 제시된 통계량과 비교함으로서 가설의 기각이나 채택 여부를 결정하게 됩니다. 즉 이런 과정을 거쳐서 나온 F 값인 3.31은 유의수준 0.10에서 확인할 수 있는 임계치인 3.01보다 더 크므로 “H0(귀무가설) = 집단간의 매출액은 동일하다”는 당초의 귀무 가설은 기각이 되며, 그 반대인 대립가설이 채택되빈다. 즉 집단간 유의한 차이가 있다고 판단하게 되는 것입니다. 실제 SPSS에서는 이런 비교의 번거로움을 덜어주기 위해서 F 값과 더불어 검정 결과를 유의도 값으로 제공합니다.

728x90

4. 분석을 위한 설문과 데이타

실제로 분산분석은 집단간 평균 차이를 구하기 위한 여러 방법의 총칭이며, 보다 세부적으로는 일원 분산분석, 다변량 분산분석 등 다양한 형태가 존재합니다. 본 차시에서는 분산 분석중 가장 기본적 방법이라고 할 수 있는 일원 분산분석(One-way ANOVA)를 중심으로 설명드리도록 하겠습니다.

일원 분산분석은 단 하나의 독립 변수에 의하여 발생하는 종속변수의 평균 차이를 검정합니다. 독리변수는 반드시 명목이나 서열 척도로 측정되어야 하며, 종속변수는 등간이나 비율 척도로 측정된 자료여만 합니다. 이를 위배할 경우 앞에서 살펴본 바와 같은 분산이나 F 값을 구할 수 없으므로 분산분석을 시행할 수 없습니다.
우선 분산분석을 실습하기 위하여 어떤 문항들을 사용할지 실습용 설문지를 참조해 보도록 하겠습니다. 본 분석에 사용될 설문 문항은 월평균 소득을 묻는 7번 문항과 집에서 보유한 TV의 사이즈를 묻는 문항을 사용하도록 하겠습니다. 즉 소득에 따라 TV 사이즈에 유의한 차이가 있는지 평균을 비교해보고자 합니다. 각 문항들을 살펴보면 7번 문항은 집단을 구분하는 변수로서 명목척도로 구성되어 있는 독립변수이며, 10번 문항은 비율 척도로 구성된 종속 변수 임을 알 수 있습니다.

5. 분산 분석 및 결과

이제 ‘실습 설문지와 실습 data를 이용하여 직접 SPSS를 이용한 분석을 해보도록 하겠습니다. 우선 데이타 파일을 여신 후, 월평균 소득과 TV의 크기 변수들을 확인하십시요.

1) 분산분석 메뉴의 실행

분산 분석을 수행하기 위해서는 우선 메뉴 바의 분석(A) -> 평균비교(M) -> 일원배치 분산분석(O)을 차례데로 클릭해주시기 바랍니다. 이를 모두 실행하면 분산분석 대화상자가 나타납니다.

2) 분석 대상 변수의 선택

분산분석을 클릭한 경우 아래 그림과 같이 일원배치 분산분석 대화창이 나타납니다. 분산분석에서는 종속변수와 독립변수를 각각 구분지어서 지정해주어야 하는데, 대화창에서 나타난 ‘요인 분석’에 독립변수를 지정해주면 됩니다. 본 분석에서는 명목척도로 측정된 가구총수입을 독립변수로, 비율척도로 측정된 TV크기를 종속변수로 지정함으로서, 가구 수입별 집단에 따라 TV의 사이즈에 차이가 있는지 검정할 것입니다.

3) 옵션의 조정

: 분산 분석은 별도의 옵션을 지정하지 않더라도 충분히 필요한 정보들을 제공하기 때문에 옵션을 따로 조정할 필요는 많치 않습니다. 하지만 대화창 우측의 ‘옵션’버튼을 눌러보시면 기술 통계 등 몇몇 옵션을 선택할 수 있습니다. 본 실습에서는 기술 통계 옵션만을 선택하고 바로 분석을 진행해보도록 하겠습니다.

4) 분석의 시행 및 결과

이제 분산분석을 시행해보도록 하겠습니다. 옵션에서 기술통계를 선택하였기 때문에 분산분석은 먼저 각 집단의 평균적인 TV 사이즈 정보를 제공합니다. 분산분석의 목표가 집단간 평균 비교이기 때문에 평균을 표시하는 기술 통계 옵션은 항상 선택하시는 것이 좋습니다.

집단간 평균 차이를 보면 확실히 소득이 올라갈수록 TV의 사이즈도 같이 증가하는 것을 볼 수 있습니다. 일예로 소득 300만원 미만의 평균 사이즈가 고직 27.8인치에 불과하였지만, 701만원 이상인 경구 그 사이즈가 42.6인치로 증가하고 있습니다. 그러나 이 결과만을 가지고는 이 차이가 통계적으로 유의한지 확신할수는 없습니다. 이제 분산분석표를 확인할 차례입니다.

그 바로 다음의 결과는 요약된 분산분석표를 보여줍니다. 분석표에는 분산의 제곱합, 자유도(df), 평균제곱, F값, 유의확률 등의 값을 보여주고 있습니다. SPSS 프로그램을 한글화하는 과정에서 번역이 잘못되어 F 값이 ‘거짓’으로 오역되어 있는 것도 볼 수 있습니다. 이처럼 통계 용어의 오번역등의 여러 이유로 많은 SPSS 사용자들은 한글보다는 영문 버전을 선호하기도 합니다.

결과에 따르면 집단간 평균과 집단내 평균을 이용하여 구한 F 값은 23.499이며, 유의확율은 0.000으로 나타나고 있습니다. 유의확률은 보통 p값, sig 등 다양한 형태로 표시되기도 하는데, 가설 검증을 통하여 상관계수가 통계적으로 유의한가에 대한 정보이며, 보통 그 기준은 유의확률이 0.05보다 작은 경우 통계적으로 유의하다고 판단합니다. 분석 결과 유의 확율은 0.000으로서 통계적 유의성이 확보되었습니다. 즉 소득 집단별 보유한 TV의 크기는 유의한 것으로 나타나고 있습니다.

* 본 강좌 내용을 보다 상세히 동영상으로 보고싶으신 분들은 아래 유튜브 강좌 참조하세요.

https://youtu.be/itSsiCLklzA

: 청주대학교 이 원준 (meetme77@naver.com)

728x90

저작자표시 비영리 변경금지 (새창열림)

'파보자! SPSS&Jamovi 분석 > 3. SPSS로 분석하기' 카테고리의 다른 글

[SPSS 리서치] 11. 상관관계 분석 (correlation) (8)	2019.11.28
[SPSS 리서치] 10. 다중응답(multiple choice) 분석 (7)	2019.11.23
[SPSS 리서치] 9. 교차(Cross-tab) 분석 (8)	2019.11.23
[SPSS 리서치] 8. 빈도 및 평균 분석 (10)	2019.11.17

[SPSS 리서치] 11. 상관관계 분석 (correlation)

2019. 11. 28. 13:10

728x90

1. 상관관계 분석의 필요성

상관관계(correlation) 분석은 연구 대상인 변수들간의 관련성을 분석하기 위하여 사용됩니다. 즉 한 변수와 다른 변수와 어느 정도 관련성을 가지고 같이 변화하는지의 정도를 분석하는 목적으로 사용됩니다. 예를 들어서 광고량과 판매량을 각각 비율척도로 입력하여 상관관계 분석을 하거나, 광고량(광고비로 입력한 비율척도)과 제품에 대한 만족도(5점 등간 척도)를 대상으로 상관관계 분석이 이루어질 수 있습니다. 이처럼 두개 변수간의 상관관계를 나타내는 것을 ‘단순상관관계’라고 합니다. 단순상관관계를 분석하는 것만으로도 관리자는 효과적인 의사결정에 필요한 기본적 자료를 얻을 수 있습니다. 일예로 만일 광고량과 제품에 대한 만족도간에 별다른 관련성이 없다면, 고객의 불만이 증가할 때 광고를 늘리는 것은 그다지 현명한 전략이 아닐 것입니다.

상관관계의 분석에 사용되는 변수들은 반드시 등간척도나 비율척도처럼 연속성을 가지고 있는 변수들을 가지고 분석이 이루어집니다. 즉 자동차의 모델명(명목척도)과 연비(비율척도) 간의 상관관계는 이루어질 수 없습니다. 그 이유는 명목 척도는 평균이나 분산을 가질 수 없으므로, 통계적 추정이 필요한 상관관계가 불가능하기 때문입니다.

2. 상관관계 분석의 이해

변수들간의 관련성이 높다 혹은 낮다는 것은 어떻게 측정이 가능할까요? 변수들간의 상호관련성, 즉 상관은 특정 변수의 분산이 다른 변수의 분산과 같이 변화하는 정도에 따라 결정됩니다. 이처럼 같이 같이 공명하며 변동하는 분산을 공분산이라고 합니다.

아래 그림에서 보듯, 같이 변동하는 정도가 적을수록 상관관계는 낮아지면, 같이 변동하는 정도가 클수록 상관관계는 높아집니다. 이때 상관관계의 정도를 나타내주는 것이 상관계수인데, 전혀 상관이 없을 경우의 상관계수는 0이지만, 완전히 변동하는 부분이 일치하는 경우의 상관계수는 -1 혹은 1입니다. 즉 상관계수는 -1 ~ 1 사이의 값을 같습니다.

제시된 산포도를 기준으로 가상적 예를 살펴보면, 학생의 학습시간에 따라 성적이 정확하게 비례하여 증가하는 경우 +1의 완전한 상관관계를 보이고 있지만, 시외버스의 운행 간격과 성적은 상관관계가 거의 존재하지 않는 0의 상관관계를 보입니다. 반면에 학생의 온라인 게임을 즐기는 시간에 비례하여 성적이 정확하게 감소하는 경우 -1의 상관관계를 보이고 있습니다.

그러나 현실 세계에서는 이렇게 +1 혹은 -1의 완전한 상관관계를 보이거나 상관계수가 0인 전혀 상관이 없는 관계는 그렇게 많치 않습니다. 그보다 대부분의 경우는 다소의 상관관계를 가지고 있는 것이 보통입니다. 아래의 가상적 예에서 보듯 대부분의 상관관계는 어느 정도의 강도를 가지고 움직이는 것이 보통입니다. 상관계수의 절대값이 0.2이하면 보통 상관관계가 무시할 수 있을 정도로 미약하다고 판단하며, 02 ~ 0.6 정도면 어느정도 상관관계가 있다고 인정됩니다. 그리고 0.6 이상일 경우 매우 강한 상관관계가 있는 것으로 인정됩니다.

또한 상관계수의 값을 제곱한 것을 ‘결정 계수’라고하며, 이 결정 계수 한 변수가 다른 변수의 변화를 설명할 수 있는 설명력을 의미합니다.

3. 상관관계 계산의 절차

상관관계 계산의 기초적 절차로서 우선 ‘공분산’의 개념을 이해하여야 합니다. 공분산이란 확률변수 X의 증감에 따라 또 다른 확률변수 Y가 증감하는 정도로서, 의 기대값이며 기호로는 cov(X, Y)로 표시합니다. 그러나 위 식에서 보듯, 공분산은 X와 Y의 단위가 커지면 자연스럽게 같이 증대하게 되므로, 공분산을을 표준화할 필요가 있습니다. 이 공분산을 표준화한 것이 상관계수입니다. 즉, 상관계수는 다음과 같으며 -1 ~ 1 사이의값을 갖게 됩니다.

: 1) x와 y의 공분산, 2) x의 표준편차, 3) y의 표준편차

이를 보다 잘 이해하기 위하여 실제 사례를 가지고 같이 상관계수를 구해보도록 하겠습니다.

[사례]

스마트폰을 제작하는 S사는 최근 신제품을 개발하면서 스마트폰 가격이 커짐에 따라 더 많은 고객들이 좋은 평가를 내리는 것을 알게 되었습니다. 이런 경험을 통해서 막연하지만 스마트폰의 높은 가격 이미지가 판매량에 좋은 영향을 주고 있는 것이라고 생각을 하게 되었습니다. 이런 관계를 검증하기 위해서 가격 판매량간의 과거 데이타를 분석하여 그 관계를 파악하고자 합니다.

a. 상관계수를 구하기 위해서는가격(X)과 판매량(Y) 변수의 평균 및 합계를 구해야 합니다. 그 결과는 다음과 같습니다.

b. 구해진 각 변수의 평균을 활용하여 1), 2), 3), 4)를 구합니다. 즉 각 관측치에서 각 변수의 평균을 차감한 값을 활용하여 (1)과 (3)을 각각 구한뒤, 이 값들을 제곱하여 (2)와 (4)를 구한 후 다시 (5)를 구하십시요. 이때 2)와 4)는 곧 가격(X)과 판매량(Y) 각각의 표준편차이며, 5)는 이 두개 변수의 공분산입니다.

c. 상관계수 구하기

이제 가격(X)과 판매량(Y) 각각의 표준편차를 알고 있으며, 이들 변수간의 공분산을 알게 되었습니다. 이를 활용하면 바로 상관계수를 구할 수 있습니다.

즉,

= 0.903의 높은 상관관계가 있는 것으로 나타났습니다. 이 결과의 의미는 스마트폰의 가격과 판매량간에 매우 강력한 상관관계가 존재한다는 것을 의미합니다.

728x90

4. 분석을 위한 설문과 데이타

이처럼 직접 계산을 하여서 상관계수를 구하는 것도 가능하나, SPSS는 이런 중간 단계를 생략하고 바로 상관 관계를 구할 수 있는 편리한 기능을 제공합니다. 즉, 통계적인 지식이 없다고 하더라도 등간척도와 비율척도를 활용하여 매우 간단하게 상관관계를 구할 수 있습니다.

우선 이를 실습하기 위하여 어떤 문항들을 사용할지 실습용 설문지를 참조해 보도록 하겠습니다. 본 분석에 사용될 설문 문항은 설문 22페이지의 가족의 숫자를 묻는 4-9)번 문항과 집에서 보유한 TV의 사이즈를 묻는 10번 문항을 사용하도록 하겠습니다. 즉, 가족이 많으면 많을수록 더 편리하게 보기 위하여 더 큰 사이즈의 TV를 구하고 싶어할 것이라는 가설을 검증해보고자 합니다.

이 두개의 문항은 모두 비율척도로서 상관관계의 분석에 적합한 것으로 판단되었습니다. 추가로, 소득수준 역시 TV의 크기에 영향을 미칠 것이라고 가설을 세울 수 있습니다. 당연히 소득이 많을수록 소비지출이 많으므로 누구나 생각해볼만한 가설입니다. 그러나 소득 수준을 물어보는 22페이지의 문항 7을 살펴보니, 명목척도로 물어보고 있습니다. 충분히 소득수준과 TV의 크기간에는 유의한 상관관계가 실제로 존재하더라도, 조사자가 소득을 이처럼 명목 척도로 물어보았다면 상관관계를 진행할 수 없습니다. 따라서 어떤 연구 방법을 사용할지 여부는 설문지 작성 단계에서부터 고민되고 결정될 필요가 있음을 알 수 있습니다.

만일 소득 수준을 응답자가 직접 넣도록 하는 비율형 척도를 사용하였다면, 이 두변수간의 상관관계 분석은 가능했을 것입니다. 즉, 아래와 같이 물어보았다면 당연히 상관관계 분석이 가능합니다.

5. 상관관계 분석 및 결과

이제 직접 SPSS를 이용한 분석을 해보도록 하겠습니다. 우선 데이타 파일을 여신 후, 가족 수와 TV의 크기와 관련된 변수들을 확인하십시요. 단순상관관계 분석을 위해서는 최소한 2개 이상의 변수가 필요합니다. 만일 변수가 2개 이상인 경우에는 자동적으로 모든 변수의 쌍대 조합을 이용하여 모든 가능한 상관관계 변수를 자동으로 분석해줄 것입니다.

1) 상관분석 메뉴의 실행

상관관계 분석을 수행하기 위해서는 우선 메뉴 바의 분석(A) -> 상관분석(C) -> 이변량 상관계수(B)를 차례데로 클릭해주시기 바랍니다. 이를 모두 실행하면 상관분석 대화상자가 나타납니다.

2) 분석 대상 변수의 선택

아래 그림과 같이 대화상자에서 분석할 변수인 ‘가족 수(변수명: s12)’와 ‘TV의 크기(변수명: s19)’를 선정한 후 화살표를 클릭해서 오른쪽의 변수(V) 상자로 보냅니다.

대화상자를 보면은 Pearson 상관관계 분석으로 지정되어 있는 것을 볼 수 있습니다. 피어슨 상관관계는 바로 위에서 공분산과 표준편차를 이용하여서 구하였던 상관계수와 동일하기 때문에 이를 그대로 놓아두시고 그대로 진행합니다.

3) 옵션의 조정

: 바로 ‘확인’ 버튼을 누르는 것만으로도 성공적으로 상관관계 분석이 완수되지만, 필요시 선택적으로 분석에 필요한 다양한 옵션들을 지정할 수 있습니다. 간략히 어떤 옵션들이 주요 옵션들 위주로 있는지 살펴보도록 하겠습니다.

먼저 ‘옵션’ 버튼을 클릭해보시기 바랍니다. 평균과 표준편차, 공분산등을 추가로 선택할 수 있으며, 기본적으로 결측값이 상관계수 계산시 제외되도록 되어 있습니다. 추가로 필요한 부분이 있으면 선택하신 후 다음 단계로 진행합니다.

4) 분석의 시행 및 결과

이제 상관관계 분석을 시행해보도록 하겠습니다. 도출된 상관계수 표를 보면 크게 상관계수, 유의확율, 그리고 응답자의 수(N)라는 3가지 정보를 주고 있습니다. 우선 상관계수는 0.207로서, 약한 상관관계가 있음을 알 수 있습니다. 그 다음 정보는 유의확율입니다. 유의확률은 보통 p값, sig 등 다양한 형태로 표시되기도 하는데, 가설 검증을 통하여 상관계수가 통계적으로 유의한가에 대한 정보이며, 보통 그 기준은 유의확률이 0.05보다 작은 경우 통계적으로 유의하다고 판단합니다. 분석 결과 유의 확율은 0.000으로서 통계적 유의성이 확보되었습니다.

: 청주대학교 이 원준 (meetme77@naver.com)

728x90

저작자표시 비영리 변경금지 (새창열림)

'파보자! SPSS&Jamovi 분석 > 3. SPSS로 분석하기' 카테고리의 다른 글

[SPSS 리서치] 12. 분산분석 ANOVA (14)	2019.12.05
[SPSS 리서치] 10. 다중응답(multiple choice) 분석 (7)	2019.11.23
[SPSS 리서치] 9. 교차(Cross-tab) 분석 (8)	2019.11.23
[SPSS 리서치] 8. 빈도 및 평균 분석 (10)	2019.11.17

PREV 1 2 NEXT

EduNow. 디지털마케팅 교육