728x90

1. IPA 분석의 필요성

기업은 사용할 수 있는 자원이 항상 부족합니다. 사업을 성공적으로 완수하여 이익을 창출할 수 있는 것이 기업의 가장 큰 사명중 하나이지만, 기업이 이를 위해서 사용할 수 있는 예산이나 인력은 제한되어 있습니다. 그 결과 주어진 자원들을 얼마나 잘 효율적으로 사용하는 가는 기업의 성과를 결정하는 중요 의사결정 사항입니다. 일예로 카메라의 신제품 개발을 위해서 1억원의 연구개발 비용을 사용할 수 있다고 가정합시다. 만일 이 회사의 카메라의 무게에 대하여 소비자들이 매우 만족하며 아무런 불만이 없지만, 회사가 가장 중요하다고 생각하고 있는 디자인에 대하여 매우 크게 불만족스러워하고 있다면 예산의 대부분을 어디에 사용해야 할까요? 당연히 디자인을 개선하기 위해서 대부분의 힘을 쏟아부어야 하지만, 정확한 정보 없이는 이런 문제점을 파악하기도 어려울 때가 많습니다. 이런 상황에서 IPA 분석은 각 경영 차원에서 중점적으로 개선해야 하는 요소들을 구분해 줌으로서 효과적인 의사결정을 가능하게 해줍니다.

2. IPA 분석의 이해

IPA 분석은 Importance-Performance Analysis을 의미합니다. IPA 분석은 소비자가 지각하는 특정 요소에 대한 만족도와 중요도를 각각 XY축으로 하는 2차원상의 평면위에 좌표로 각 요소를 표현하는 분석방법으로서 개선이 시급한 분야와 불필요하게 과잉 투자가 이루어진 분야를 파악하는데 매우 유용한 방법입니다.

IPA 분석은 만족도와 중요도의 평균 값을 기준으로 기업의 전체 활동 영역을 크게 1. 유지관리 영역, 2. 과잉투자 영역, 3. 중점개선 영역, 4. 개선 대상영역의 4개 영역으로 나누어줍니다.

1. 유지관리 영역은 응답자, 즉 소비자들에게 중요한 의미가 있는 영역이면서, 동시에 해당 기업이 비교적 잘 만족시키고 있는 영역입니다. 기업 입장에서는 이미 충분히 잘 하고 있는 영역이고 고객들도 별다른 불만들이 없으므로, 현재 수준을 꾸준히 유지하는 것이 필요합니다.

2. 과잉 투자 영역은 기업의 입장에서 큰 문제 영역이라고 할 수 있습니다. 소비자들에게 중요하지 않음에도 불구하고 기업이 지나친 투자나 과잉 노력을 통해서 불필요할 정도로 만족도가 높은 경우입니다. 일예로, 만일 소비자들이 과자를 살 때 포장지의 색깔을 전혀 중요하게 여기지 않고 있는데도 불구하고 지나칠 정도로 포장지에 대한 만족도가 높다면 기업의 마케팅 활동들이 매우 비효율적이며 예산 낭비적인 방법으로 이루어졌다는 의미가 될 수 있습니다.

3. 중점 개선영역은 소비자들이 생각하는 중요도가 높음에도 불구하고 이에 대하여 해당 기업에 대하여 느끼는 만족도가 낮은 경우입니다. 일예로 과자를 구매할 때 가장 중요한 요인이 과자의 맛임에도 불구하고 해당 기업 제품의 맛이 형편없는 경우일 것입니다. 중점 개선 영역은 가장 시급하게 개선이 필요한 내용이며, 개선 활동에 대한 효과성도 가장 큰 영역입니다.

4. 개선 대상영역은 중요도와 만족도 모두 낮은 영역으로서 현재로서는 크게 신경 쓸 필요가 없는 중요하지 않은 영역들입니다. 향후 중요도가 올라간다면 만족도가 낮은 것이 문제가 될 수 있지만, 현재로서는 소비자들도 별로 신경을 쓰거나 중요하게 여기지 않은 부분들이므로, 만족도의 높고 낮음 자체가 큰 문제가 되지 않는 부분들입니다. 그 결과 개선 대상영역은 향우 장기적인 개선과제로 그 우선 순위가 밀려나는 부분들입니다.

이상의 내용을 정리하면, 결국 IPA 분석은 과잉투자영역에서 사용되는 불필요한 자원이나 노력들을 줄임으로서 중점 개선영역을 우선적으로 개선하게 하는 분석 도구라고 할 수 있으며, 이를 통하여 기업은 보다 효율적인 마케팅활동이나 신상품 개발등이 가능할 것입니다. 사용하는 데이타가 무엇에 관하여 수집된 데이타인가에 따라서 IPA 분석 대상은 기업의 활동이 될 수도 있고 신상품의 세부 기능이 될 수도 있으며, 그외 다양한 방식으로 활용가능합니다.

3. IPA 분석을 위한 설문과 데이타

우선 IPA 분석을 하기 위해서는 이에 적합한 데이타를 수집하기 위한 검토가 설문지 개발 단계 이전부터 이루어질 필요가 있습니다. 적합한 SPSS 데이타 파일없이는 분석 자체가 불가능하기 때문입니다. 필요한 데이타를 얻기 위하여 설문지를 구상하는 방법은 크게 두가지 방법이 있습니다.

1) 첫째 방법으로서, 소비자들에게 만족도와 중요도를 각각 따로 물어보는 방법입니다. 그러나 가장 간단하게 특정 상품 속성에 대한 만족도와 중요도 데이타를 동시에 획득할 수 있는 이 방법은 큰 단점이 있습니다. 만족도와 중요도를 각각 따로 물어봐야 하므로 설문 문항이 많아지고 복잡해지는 단점이 있습니다.

2) 둘째 방법으로서, 개별적인 각 속성의 만족도와 전반적인 만족도간의 상관관계를 구하고 이를 바탕으로 중요도를 추정하는 방법입니다. 이 방법의 경우 데이타 수집에 필요한 설문 문항의 수를 절반 수준으로 줄일 수 있다는 장점이 있습니다. 실제 설문조사를 수행할 때 긴 설문지로 인하여 설문을 회수하는 것이 어려운 경우들이 많음을 감안할때 필요한 문항의 갯수를 획기적으로 줄일 수 있는 두번째 방법이 보다 선호될 것입니다.

이 예에서는 IPA 분석을 위하여 총 10개의 제품 속성과 전반적인 만족도를 확인하는 또 하나의 추가적인 설문 문항이 제시되고 있습니다. 여러분도 만일 IPA 분석을 독자적으로 해야한다면, 이처럼 IPA 분석에 필요한 데이타를 획득할 수 있는 설문지를 먼저 설계하는 것이 분석의 시작이 될 것입니다.

728x90

4. IPA 분석 절차

이제부터는 위에서 제시된 설문지 문항들을 가지고 설문 조사가 완료된 후에 SPSS를 이용하여 IPA 분석을 하는 과정들을 차례로 같이 해보겠습니다.

1) 1단계: 전만적인 만족도와 개별적 만족도간의 상관관계 구하기 : 이미 앞서 다른 블로그 글에서 설명한 바와 같이 상관관계란 어느 한 변수와 다른 변수간의 관계를 잘 설명할 수 있습니다. 마찬가지로 10개의 제품 속성과 전반적인 만족도 각각의 상관관계 분석을 시행하면, 전반적인 만족도에 미치는 각 10개 제품 속성의 개별적인 영향력을 계산할 수 있으며, 이를 중요도를 대체할 수 있는 유사 개념으로 사용할 수 있습니다.

우선 상관관계 분석을 통하여 다음과 같은 상관관계 테이블을 구합니다. 이 테이블을 살펴보면 전반적 만족도와 기타 10개 항목들간에 상관관계가 도출된 것을 볼 수 있습니다. 일예로, 전만적 만족도와 테입 삽입 및 추출기능간의 상관계수는 0.266인 것을 볼 수 있습니다.

2) 2단계: 상관계수를 활용한 중요도 구하기: 이제 구해진 상관계수를 활용하여 전반적인 만족도에 미치는 10개 제품 속성의 개별적인 중요도를 구해볼 차례입니다. 이를 위해서는 엑셀을 별도로 활용하면 더욱 편리합니다. 우선 엑셀 차트에 각 10개 항목의 내용을 첫째 칼럼에 정리합니다그리고 두번째 칼럼에는 구해진 상관계수를 복사해 놓습니다. 그리고 상관계수의 총 합을 구합니다. 이번 예의 경우에는 테이프 삽입추출 부터 렌즈 우수성까지 총 10개 항목과 전반적 만족도간의 상관관게를 구했으며, 10개 상관계수를 단순 합계하면 합이 3.467입니다.

세번째 칼럼에서는 이제 중요도를 구해야 합니다. 중요도를 구하는 방식은 각 항목별 상관계수 / 상관계수 합계입니다. 즉 테이프 삽입 추출 기능의 중요성을 구하는 예를 보면 ‘0.266 / 3.467 = 0.077’ 입니다. 동일한 방식으로 10개 항목의 중요도를 모두 구할 수 있습니다.

3) 3단계: 항목별 만족도 구하기: 이제 만족도를 구할 단계입니다. 우선 10개 항목의 만족도를 각 브랜드별로 구해야 합니다. 브랜드별로 구분해서 만족도를 구하는 이유는 IPA 분석은 기본적으로 각 브랜드 수준에서 시행되기 때문입니다. 이를 구하는 방법은 이미 앞서 배운 SPSS평균 비교기능을 활용합니다. 이를 통하여 구한 각 브랜드별 만족도를 엑셀 차트에 정리하면 아래와 같습니다.

4) 4단계: SPSS 코딩: 이제 엑셀에 정리된 데이타를 다시 SPSS에 펀칭하여야 합니다. 이제 엑셀에 1차적으로 정리된 데이타를 다시 SPSS에 코딩하기전에 우선 몇 개의 변수가 필요한지 생각해 봅시다. 우선 첫번째 변수로 (1) 속성을 나타내는 변수가 필요할 것입니다. 테이프 추출기능, 테이프 가격 등의 제품 속성이 하나의 변수가 될 것입니다. 여기서 우리는 임의로 그 변수를 factor라는 변수 명으로로 지정합니다. 두번째 변수로 (2) 각 브랜드를 나타내는 변수가 필요할 것입니다. 소니, 삼성, LG가 하나의 변수가 될 것입니다. 여기서 우리는 임의로 그 변수를 brand로 지정합니다. 세번째로, (3) 중요도 값을 나타내는 변수가 필요할 것입니다. 여기서는 importance로 지정합니다. 마지막 네번째로 (4) 만족도를 나타내는 변수가 필요하며, 여기서는 CS로 지정합니다. 이처럼 변수를 새로 만들고나서 엑셀 차트에 정리한 내용을 SPSS에 붙이면 아래와 같은 데이타 파일을 생성할 수 있을 것입니다. 엑셀의 정보들은 Ctrl-Cctrl-v 같은 기능을 통하여 손쉽게 SPSS에 복사할 수 있습니다.

그리고, 변수 값에 라벨링을 하여 각각의 변수값이 무엇인지 잘 알 수 있도록 합니다. 이 과정을 생략해도 결과값은 나오겠지만, 변수 설명 없이 결과값을 이해하기에는 다소 혼란스러울 수 있기 때문에 꼭 라벨링을 하도록 합시다.

5) 5단계: 브랜드의 선택 : 이제 완성된 SPSS 데이타셋은 삼성, 소니, 그리고 LG 3개 회사의 만족도 점수를 모두 가지고 있습니다. 분석을 하기 전에 우선 어떤 브랜드의 분석을 시행할 것인지 연구 대상이 되는 브랜드를 결정해야 합니다. 우선 여기서는 삼성 브랜드의 분석을 하고자 합니다. 삼성 브랜드를 선택하기 위해서는 메뉴에서 데이타 -> 케이스 선택을 통하여 삼성 브랜드만 선택하여야 합니다. 다른 브랜드의 추가 분석이 필요한 경우에는 마찬가지로 다른 브랜드를 선택한 후 진행하면 됩니다.

6) 6단계: IPA 분석의 시행: 이제 데이타가 준비되었으니 IPA 분석을 시행할 차례입니다. IPA 분석은 다른 분석 방법과 달리 SPSS분석메뉴가 아니라 그래프메뉴를 통해 실시됩니다. 우선 메뉴 바 상단의 그래프 메뉴 -> 레거시 대화상자 -> 산점표/점도표 메뉴를 클릭하십시요.

이 메뉴를 클릭하면 그래프의 유형을 물어보는 대화창이 나오는데, 여기에서 단순 산점도를 선택하고 정의버튼을 클릭합니다. 선택이 끝나고 나면 다시 IPA 분석에 필요한 사항들을 지정할 수 있는 대화창이 나타납니다. 이때 XY 축에는 각각 중요도와 만족도의 변수들을 지정하고, ‘케이스 설명 기준변수에는 속성 변수를 지정합니다. 그리고 나서 옵션버튼을 클릭한 후 케이스 설명과 함께 도표 출력을 활성화합니다. 이를 활성화해야만 분석 결과에서 각 속성에 대한 설명이 같이 표시될 것입니다. 설정이 끝난 후에 확인버튼을 누르면 이제 IPA 도표가 출력됩니다.

7) 7단계: 결과의 확인: 이제 결과물을 확인하면 IPA 도표가 작성된 것을 볼 수가 있습니다. 그러나 이 도표는 아직 4개의 영역으로 구분되기 이전의 자료입니다. 시사점을 찾기 위해서는 IPA 도표를 파워포인트로 옮긴 이후, 중요도와 만족도의 평균값을 중심으로 4개의 영역으로 분할 하는 작업이 필요합니다. 삼성의 예를 보면 중요도는 0.1, 만족도는 4.49를 중심으로 분할이 이루어졌습니다. 이제 이 결과를 해석해보면 삼성은 테이프 삽입 추출 기능에 소요되는 인력과 예산, 노력을 LLCD 가시성이나 LCD 창크기 확대 등에 사용해야 함을 알 수 있습니다.

* 해당 내용을 동영상을 통하여 보다 쉽게 배우고 싶으시면, 아래 동영상 링크를 이용바랍니다.

https://youtu.be/LY6-hhtz__c

: 청주대학교 이 원준 (meetme77@naver.com)

728x90
728x90

이제 SPSS를 사용한 설문 조사의 설계와 문항 작성, 다양한 실무적 통계 분석에 관하여 익힐 수 있다. 그러나, 이런 기법들도 양질의 설문 데이터를 수집한 이후에야 적용이 가능할 것. Garbage-in & Garbage-out를 피하기 위해서는 설문 작성의 중요 관건이 되며, 좋은 설문지 작성은 오랜 경험이 숙련된 이후에야 가능하다.

경험을 축적하기 위해서는 먼저 시행된 다양한 설문지를 참고삼아 분석하고, 각 설문지의 장단점 등을 확인할 필요가 있으며, 편집을 통하여 응답자가 시각적으로 부담을 느끼거나 피로감을 느끼지 않도록 배려하는 작업도 중요하다. 이러한 목적을 위하여 국내 주요 마케팅 리서치 기업들은 자신들만의 독특한 설문지 양식과 질문 체계, 측정 도구들을 갖추고 있으며 이들을 특허 출원하는 등 저작권(IP) 보호에도 신경을 쓰고 있다.

그 결과 타 조사기관의 설문지 원본을 구하는 것도 쉽지 않으며, 구한다 하더라도 이를 상업적으로 활용하는데에는 윤리적 문제와 기타 제약들이 따른다. 따라서 본인의 경험을 축적으로 자신만의 노하우가 담긴 설문지를 만들어가는 과정이 중요하다. 

728x90

그리고 설문지는 그 목적에 따라 1) 상업적 설문지, 2) 학술적 설문지로 나누어질 수 있다.

1) 상업적 설문지는 보통 고객인 위탁기업의 다양한 요구사항을 포함시켜야 하므로 질문의 형태나 내용, 부가적 자료의 제공등이 매우 다양하게 이루어진다. 보통 고객만족도 조사, 신상품 컨셉 조사, 유통 전략 조사 등 다양하다. 통계적 신뢰성도 중요하지만, 기업이 확인하고자하는 객관적 사실을 담는데 더 치중하게 된다. 아래는 저자가 과거 작성한 상업적 설문지중 일부 내용을 변경하여 공개하는 내용이다.

상업적 설문지 표본.hwp
0.05MB

2) 학술적 설문지는 학술지나 학술대회에 필요한 기본적인 데이터 수집을 목적으로 하며, 보통 석박사 학위 논문 작성에 필요한 원천 데이터의 수집을 목적으로 한다. 데이터 자체를 통하여 특정 정보를 요약하는 기술(description)보다는 변수들 간의 인과관계 규명이 목적이라는 점에서 상업적 설문지의 일반적 양식과 차이를 보인다. 또한 사용되는 변수의 신뢰성과 타당성 확인이 반드시 이루어져야 하기 때문에, 이런 목적을 달성할 수 있는 다항목(multi-item)으로 구성된 측정 항목이 일반적으로 삽입된다. 다항목 측정 항목은 비연구자들이 보기에는 거의 똑같은 질문이 반복되는 것처럼 느껴질 수 있으며, 특별한 용도가 아니면 상업적 설문지에서는 거의 사용되지 않는다. 아래는 저자가 과거 작성한 학술적 설문지중 일부 내용을 변경하여 공개하는 내용이다.

학술적 설문지 표본.hwp
0.18MB

: 청주대학교 이 원준 (meetme77@naver.com)

728x90
728x90

1. 포지셔닝 분석의 필요성

포지셔닝을 분석하고 맵을 시각적으로 제시할 수 있는 방법은 다양하게 존재합니다. 제공되는 맵의 특성에 다소 차이는 있지만, ALSCAL, KYST, PROFIT, INDISCAL, PREFMAP, 대응일치분석 등의 분석방법을 사용할 수 있습니다.  이런 분석방법들은 모두 공통적으로 브랜드 이미지 관리와 관련된 두가지 문제에 초점을 두고 있습니다.

1) 첫째는 소비자가 브랜드 이미지를 결정하는 기준입니다. 예를 들어서, 여성 소비자들이 화장품을 구매할 때 고려하는 기준들이 무엇인지 확인하는 것입니다. 실제로 화장품 구매시에는 가격, 품질, , 효능 등 다양한 구매 기준들이 존재하지만, 이중에서 중요한 기준들을 선별해냄으로서 적정한 기준을 골라내는 것입니다. 이 기준들은 바로 포지셔닝 분석에서 차원(dimension)'으로 활용되는데, 차원이 너무 많으면 맵이 복잡해져서 분석이 어려워지고, 너무 작으면 현실을 반영하기 어렵기 때문입니다.

2) 둘째는 이런 과정을 통하여 밝혀낸 각 차원상에서 자사의 브랜드와 경쟁사의 브랜드가 어떤 위치에 포지셔닝하고 있는가에 관한 문제입니다. 만일 화장품 구매시에 가격과 효능이 중요하다고 한다면 자사와 경쟁사를 포괄하여 어느 브랜드가 더 가격이 저렴하다고 인식되고 있는지 혹은 효능이 더 뛰어나다고 있는지를 밝혀내야 합니다이러한 목적을 달성하기 위하여 구성된 포지셔닝 맵은 각 차원에서 브랜드들의 위치를 밝혀냄으로서 소비자의 각 브랜드에 대한 평가를 가시적으로 보여줍니다. 특히 이 분석은 차원의 수가 보통 2개 이상의 복수이기 때문에 다차원척도법이라고도 불립니다.

차원이 만일 3개이면 3차원, 4개이면 4차원이라고 할 수 있지만, 프로그램이 이를 도출해낼 때는 평평한 화면이나 인쇄물 위에 2 차원으로 보여주게 됩니다. 디지털 카메라로 3차원인 일상을 사진에 담았지만, 화면이나 사진에서는 2차원으로 표현된 것과 동일한 방식으로 다차원의 정보를 제공하고 있습니다.

2. 포지셔닝 분석의 이해

본 차시에서는 다양한 다차원척도법중에서도 가장 보편적으로 많이 쓰이고 있는 대응일치분석을 중심으로 포지셔닝 분석을 이해해보도록 하겠습니다. 대응일치분석에서는 다른 다차원분석들과 마찬가지로 설문 조사를 통하여 얻어진 데이타를 이용하여 브랜드와 차원이 내재하고 있는 관계를 다차원적으로 분해해서 보여주는데, 차원이나 브랜드간에 거리가 가까울수록 소비자의 마음속에 유사하게 인식되고 있음을 의미합니다.

이때 차원이나 브랜드간의 거리는 보통 유클리디안(Euclidean)’을 이용하여 상호간에 얼마나 유사한지 거리를 계산하게 됩니다. 이를 조금 더 상세히 설명하기 위해서 다음과 같이 매운 정도와 가격을 차원으로 사용한 라면 제품의 가상적인 2차원의 포지셔닝 맵을 살펴보도록 하겠습니다. 그리고, 가격과 매운 정도를 중립점이 있는 7점 척도로 확인한 결과입니다.

이 맵을 살펴보면 A라면과 B라면을 얼마나 유사하며, A라면과 C라면은 얼마다 다른가에 관한 질문을 할 수 있습니다. 이러한 질문에 답을 하기위해서는 거리를 측정하여 유사성을 확인하여야 하는데, 이때 가장 보편적으로 사용되는 방법이 유클리디안 거리 측정입니다A라면과 B라면간의 거리 측정은 다음과 같은 공식을 통하여 계산됩니다.

이 공식에 대응에서 위 포지셔닝 맵에서 A브랜드와 B 브랜드간의 거리는 다음과 같이 구해질 수 있습니다

같은 방식으로 AC 브랜드간 거리를 계산하면, 그 거리는 5.10입니다.

이런 결과를 통해서 3.165.10보다 가까우므로, A 브랜드는 C보다는 B 브랜드와 더 유사하다고 이야기 할 수 있는 것입니다. 즉 이런 포지셔닝 맵에서 특정 브랜드가 다른 브랜드와 가깝다는 것 혹은 특정 브랜드가 특정 차원과 가깝다는 것은 소비자의 마음속에 비슷한 이미지로 각인되어 있음을 의미합니다.

실제 이런 거리 계산은 차원의 수가 증대할수록 기하급수적으로 번거로워지기 때문에 3차원 이상의 포지셔닝 맵의 거리 계산은 SPSS 등 컴퓨터 프로그램의 도움으르 받아 자동으로 계산하게 될 것입니다.

3. 포지셔닝 분석을 위한 설문과 데이타

우선 대응일치 분석을 하기 위해서는 이에 적합한 데이타를 수집하기 위한 검토가 설문지 개발 단계 이전부터 이루어질 필요가 있습니다. 처음부터 포지셔닝 분석을 목적으로 수집된 SPSS 데이타 파일없이는 사실상 분석이 불가능하며, 같은 포지셔닝 맵을 작성하는 기법이라, 대응일치분석이 아닌 다른 방법을 사용하는 경우에는 다른 형태의 데이타가 필요하므로 설문지의 문항과 내용에 대한 고려는 사전에 이루어질 필요가 있습니다.

일반적으로 대응일치 분석을 사용하여 포지셔닝 맵을 도출하고자 할 때는 각 기준별 소비자가 선호하는 브랜드를 측정한 후, 응답자가 응답한 빈도 수를 원 데이타로 사용하기 때문에 보통 아래와 같은 형태의 질문들을 활용하여 데이타를 수집합니다.

이 설문 문항은 국내에 시판중인 소주 브랜드들을 대상으로 브랜드 개성을 조사하고 있습니다. , 소비자들이 브랜드 개성을 판단하는 선택 기준으로서 성실성, 재미, 성공, 매력, 터프함의 5가지 선택 기준을 문항의 형태로 제시하고 있고, 선택 보기로는 진로 등 국내에 시판중인 대표적인 5개의 소주 브랜드를 제시하고 있습니다.

728x90

4. 포지셔닝 분석 절차

이제부터는 위에서 제시된 설문지 문항들을 가지고 설문 조사가 완료된 후에 SPSS를 이용하여 대응일치분석을 실시하고 포지셔닝 맵 작성을 하는 과정들을 차례로 같이 해보겠습니다.

1) 1단계: 빈도 분석:

포지셔닝 맵을 작성하기 위한 데이타는 위에서 작성한 설문으로부터 직접 받은 데이타를 사용하지 않고, 또 한번의 추가적인 가공이 필요합니다. 즉 일차적으로 빈도분석을 시행한 이후에 각 문항 및 보기별 빈도를 입력한 가공 데이타를 사용합니다이미 설문지상에서는 5개의 개성을 묻는 문항을 사용하여 데이타 수집까지 완료되었지만, 실제 분석에서는 소주 브랜드의 이미지를 측정하기 위하여 몇 개의 차원을 설정할 것인가를 결정하여야 합니다. 연구자의 목적에 따라 5개 모두를 사용할 수 있고, 불필요한 것들을 제거한 후 더 적은 숫자의 문항을 사용할 수도 있습니다. 문항의 갯수가 적을수록 차원의 갯수도 감소하므로 더 간단명료한 포지셔닝 맵을 도출할 수 있습니다. 그러나, 차원의 감소에 따라 제공하는 정보의 양 역시 같이 감소할 것입니다. 본 차시에서는 브랜드 개성을 확인하는 5개의 질문 모두를 사용하여 분석하기로 합니다.

이러한 결정이 이루어진 이후에는 바로 5개 문항 모두에 대하여 기초적인 빈도분석을 실행하고 결과를 조회합니다.

2) 2단계: 데이타 파일의 정리:

도출된 빈도분석의 결과중 각 보기별 빈도만을 추출하여야 합니다. 그리고 데이타 보기창이나 엑셀을 활용하여 대응일치분석에 적합한 데이타로 재가공하는 과정이 필요합니다엑셀이나 데이타 보기 창위에 새롭게 생성되는 데이타 시트에는 모두 3개의 변수가 생성되어야 합니다. 엑셀 챠트를 보면, A행은 차원을 가르키는 문항 변수이며, B 행은 브랜드를 담고 있는 보기 변수, 그리고 C행은 응답빈도를 나타냅니다. 이 세가지 행을 이용하여 SPSS 분석에 필요한 데이타로 정리합니다.

잘 정리된 데이타는 다시 SPSS의 데이타 보기 창에 복사한 후 코딩과 라벨링 작업을 거쳐야 합니다. 즉 화면 우측 하단의 변수보기(V)' 탭을 눌러 변수보기 창으로 이동한 후, 변수명과 변수 값에 대하여 코딩을 해주어야 합니다우선 변수명은 한글 이름으로 되어있는 차원과 보기의 데이타를 다시 1과 같은 아라비아 숫자로 코딩을 합니다. SPSS 다중응답분석에서는 숫자 데이타만을 입력받으므로, 만일 한글로 정리되어 있다면 번거롭지만 반드시 숫자로 코딩을 다시 하여야 합니다.

그리고 변수 보기 창으로 옮겨간 이후, 각각의 변수 값에도 적절한 코딩을 해줍니다. 실제 코딩 작업을 생략할 경우 구분이 되지 않아 결과의 해석이 어려우므로 반드시 코딩을 하도록 합니다.

3) 3단계: 빈도의 가중처리:

그 다음 단계로서 차원간 결과를 비교하기 위해서는 각 문항당 응답한 빈도를 가중처리(weighting)해주어야 합니다. 각 문항별로 무응답자의 숫자가 달라 문항별 빈도의 총합이 상이하기 때문에 반드시 분석 이전에 가중 처리를 해주어야 합니다가중 처리를 하기 위한 메뉴는 메뉴 바에서 데이타(D) -> 가중 케이스(W)를 차례데로 선택하시면 됩니다.

대화창이 나타나면 어떤 변수를 가중처리할 것인지 지정해야 합니다. 본 데이타에서 빈도를 포함하고 있는 변수는 응답 수이므로, 해당 변수를 빈도 변수(F)’란에 옮겨놓고 확인버튼을 누릅니다.

4) 4단계: 대응일치 분석 실행:

자 이제 대응일치분석을 위한 데이타의 정리가 완료되었습니다. 이제, 본격적으로 포지셔닝 맵을 작성해볼 차레입니다. 분석을 실시하기 위해서는 분석(A) -> 차원감소(D) -> 대응일치분석(C) 를 차례데로 선택하시면 됩니다.

 대응일치분석을 선택한 경우 바로 대화 창이 나타날 것입니다. 대화 창에서는 직접 열과 행에 들어가야 하는 변수들을 지정해주어야 합니다. 이때 미리 생성한 3개의 변수중에서 문항보기변수 각각을 행과 열에 차례로 지정해줍니다. 이때 행과 열에 포함되는 변수가 서로 바뀌어도 무관합니다.

이렇게 지정된 이후에는 각 변수의 옆에 두개의 물음표가 남아있는 것을 볼 수 있습니다.

이제 열과 행 변수가 가질 수 있는 최소값과 최대값의 범위를 추가로 지정해주어야만 합니다. 이제 범위지정(D)' 버튼을 누른 후 범위를 지정해줍니다. 이들 값은 각 변수의 보기, 즉 변수값의 범위이며, 문항이 5, 보기가 5개 이므로 각각 15를 지정해 준 후 갱신(U)' 버튼을 누릅니다.

5) 5단계: 결과 도출 및 정리:

이제 모든 지정이 완료되었습니다. 대응일치보기 대화창에서 확인버튼을 누르면 자동으로 대응일치 분석이 시행되며, 분석 결과가 도출됩니다.

분석 결과중 그래프를 더불 클릭하면, 그래프에 포함된 글자 폰트나 기호 표시, 글자 색 등을 변경할 수 있습니다. 또한 필요시 작성된 포지셔닝 맵은 파워포인트 등으로 옮겨서 시사점이 더 명확하도록 시각적인 개선을 할 수 있습니다. 0점을 중심으로 중심선을 제공하고, 차원을 화살표로 표시함으로서 가독성을 높이도록 합니다.

포지셔닝 맵을 보면 크게 3가지 정보들을 확인할 수 있습니다.

(1) 어느 브랜드와 경쟁하고 있는가? 즉 유사 브랜드와 차별화된 브랜드 이미지입니다. 맵을 보면 시원과 진로소주는 매우 밀접한 거리로써 소비자의 마음속에 유사하게 포지셔닝 되고 있음을 알 수 있습니다. 반면 진로와 금복주는 매우 다르게 인식되고 있습니다.

(2) 각 차원간 유사성은 무엇인가? 즉 소비자가 비슷하거나 다르다고 느끼는 차원은 무엇인가에 관한 정보입니다. 맵을 보면 매력적인 이미지와 재미있는 이미지는 매우 유사하게 인식되고 있음을 알수 있습니다. 그러나 터프함이나 성공은 매력과는 큰 거리 차이가 있습니다.

3) 마지막으로 브랜드와 차원의 이미지를 겹쳐서 봄으로써, 자사 혹은 경쟁사의 브랜드가 어떤 이미지를 가지고 있으며, 어떤 브랜드와 경쟁하고 있는지 종합적으로 판단해볼 수 있습니다. 일예로 참이슬 제품은 재미있고 매력적인 이미지를 가지고 있지만 이런 이미지는 처음처럼과 같이 공유하고 있음을 알 수 있습니다. 결과적으로 참이슬의 가장 큰 시장 경쟁자가 처음처럼 임을 다시한번 확인할 수 있습니다.

* 본 내용을 보다 상세히 동영상으로 확인하고 싶은 경우에는 아래 유튜브 링크 이용바랍니다.

https://youtu.be/fG-4fdQqMsc

: 청주대학교 이원준 (meetme77@naver.com)

728x90
728x90

1. 분산분석의 필요성

분산분석(ANOVA: Analysis of Variance)은 두 개 이상 집단 간의 평균에 대한 차이를 검정하는 통계분석입니다. 분산분석을 이용하여 각 집단들이 동일한 평균을 가진 모집단에서 추출된 것인지 여부를 검정할 수 있습니다. 예를 들어서 광고 모델을 누구로 사용하는가에 따라서 광고에 대한 평가가 달라질 수 있습니다. 즉 어떤 사람은 아이돌같은 연예인들이 등장하는 광고에 호감을 보이는 반면, 다른 사람들은 일반 보통사람들이 등장하는 광고에 더 큰 호감을 느끼기도 합니다. 이러한 상황에서 마케팅 관리자는 소비자들이 어떤 광고 모델에 더 좋은 반응을 나타내는지를 알고 싶을 것입니다. 분산 분석은 이와 같이 마케팅 전략의 효과 측정이나 소비자 집단의 마케팅 전략에 대한 반응 차이 등에 대하여 통계적으로 검증된 의사결정을 가능하게 합니다.

2. 분산 분석의 이해

집단간의 평균에 통계적 차이가 있다 혹은 없다는 것을 어떻게 측정할 수 있을까요? 분산 분석의 기본 원리를 이해하기 위하여 가상적인 A기업의 신상품 홍보 전략을 예로 설명하고자 합니다.

A회사는 새로운 여성용 화장품 브랜드를 런칭하면서, 브랜드를 널리 알리기 위하여 향수 샘플, 현금할인, 그리고 무료 마사지의 3 가지 판촉물을 준비하고 있습니다. 그리고 이중 어떤 판촉물이 더 효과적인지 확인하기 위하여 전국에 분포되어 있는 12개의 점포를 각각 4개의 점포로 나누어 총 3개의 집단을 구성하였습니다. 각각의 집단에는 한 가지 종류씩 판촉물이 주어졌으며, 1개월의 판촉 행사가 종료된 이후 다음과 같은 판매 성과를 얻었습니다.

이와 같은 결과를 받은 후에 A기업은 어떤 각기 다른 3가지 판촉수단을 사용한 3개 집단간에 통계적으로 유의한 차이가 있는지를 분석하여 의사결정에 활용할 수 있는데 이를 분산분석이라고 합니다.

분산분석에서는 독립 변수와 종속 변수가 각각 필요합니다독립변수는 서로 다른 판촉 수단을 사용한 향수 샘플, 현금 할인, 무료 마사지의 3개 집단이 되며, 종속 변수는 이들 각 집단의 일평균 매출액이 됩니다. 즉 독립변수는 명목이나 비율 척도로서 그 값이 변하지 않고 항상 일정하지만, 종속변수는 등간이나 비율 척도로서 어떤 독립변수를 기준으로 평균을 파악하는가에 따라서 수시로 그 값이 변할 수 있습니다.

분산분석에서 사용하는 귀무가설과 대립 가설은 다음과 같습니다.

H0 : 집단별 매출액은 동일하다

H1 : 집단별 매출액은 동일하지 않다

3. 분산분석의 계산 절차

분산분석은 전체 분산을 이루고 있는 집단간 분산과 집단내 분산 중에서 집단 간 분산이 집단내 분산보다 얼마나 큰가를 판단하여 집단 간의 차이를 검정하는 방식입니다. 따라서 가설을 검증하기 위하여 분산분석에서는 집단내 분산, 집단간 분산, 그리고 전체 분산의 3가지 분산을 계산해야만 합니다.

1) 집단내 분산

집단내 분산은 각 집단의 평균치를 중심으로 집단내 각 측정치들이 얼마나 떨어져 있는 가를 나타내며 집단내 분산은 무작위 오차에 의한 것입니다. 즉 집단의 특성에 의한 차이가 아니라 그 외 설명할 수 없는 원인들에 의한 차이들입니다. 일예로 향수를 사용한 a 집단의 평균 매출은 32만원이지만, 같은 a 집단내에서도 매출액은 22만원 ~ 40만 원까지 다양합니다. a 집단내에서 발생한 매출 차이는 동일한 판촉 수단을 썼으므로 결코 판촉 수단의 차이가 될 수 없으며, 판촉 수단 이외의 알지 못하는 원인에 의해 발생한 차이임을 의미합니다집단내 분산을 구하기 위한 공식은 다음과 같습니다.

이를 앞의 A기업의 판촉 예에 대입해보면 집단내 분산은 다음과 같이 구할 수 있습니다.

판촉물 a(향수샘플) 집단내 분산= (40-32)2 + (36-32)2 + (30-32)2 + (23-32)2 = 184

판촉물 b(가격할인) 집단내 분산= (34-26)2 + (28-26)2 + (26-26)2 + (16-26)2 = 168

판촉물 c(무료 마사지) 집단내 분산= (28-18)2 + (20-18)2 + (14-18)2 + (10-18)2 = 184

** 그리고 이 세개 집단의 집단간 분산을 모두 합산한 전체 집단내 분산은 184+168+184 = 536 입니다.

2) 집단간 분산

집단간 분산은 각 집단들의 평균이 전체 평균으로부터 떨어져 있는 정도로 계산됩니다. 이는 집단의 특성에 따른 차이로써, 3개의 집단이 각기 다른 판촉 수단을 사용하였기 때문에 발생한 차이라고 볼 수 있을 것입니다집단간 분산을 구하기 위한 공식은 다음과 같습니다.

이를 앞의 A기업의 판촉 예에 대입해보면 집단간 분산은 다음과 같이 구할 수 있습니다.

** 집단간 분산= 4( (32-25.3)2 + (26-25.3)2 + (18-25.3)2 ) = 394.7 입니다.

3) 전체 분산

전체 분산은 각 측정치들이 전체 평균에서 얼마나 떨어져 있는가의 정도이며,

전체분산 = 집단간 분산 + 집단간 분산 = 536 + 394.7 = 930.7 로 구할 수 있습니다.

이제 구해진 집단내 분산과 집단간 분산을 이용하여 집단간 차이를 분석하기 위해서는 추가적으로 각각의 분산 값들을 자유도로 나누어 줌으로써 평균 분산(M.S)'을 구하여야 합니다. 세가지 분산별 자유도를 구하는 방식은 다음과 같습니다.

ㅇ 집단내 분산의 자유도 = (집단의 수 * 집단내 항목 수) - 집단의 수

= (3 * 4) - 3 = 9

ㅇ 집단간 분산의 자유도 = 집단의 수 1

= 3 - 1 = 2

ㅇ 전체 분산의 자유도 = 집단내 분산의 자유도 + 집단간 분산의 자유도

= 9 + 2 = 11 입니다.

이미 구해진 분산값을 각각의 자유도로 나눌 경우, '평균분산(MS)'를 구할 수 있습니다.

ㅇ 집단내 평균분산 = 536 / 9 = 59.6

ㅇ 집단간 평균분산 = 394.7 / 2 = 197.3

마지막으로 구해진 평균분산 값을 이용하여 집단간에 평균 값의 차이가 있다는 것을 검증하기 위하여 집단간 분산이 집단내 분산보아 얼마나 큰지 F 검정을 해야 합니다. F 검정은 집단간 평균분산을 집단내 평균분산으로 나누어준 F 값을 가지고 검정이 이루어 집니다.

F = 집단간 분산 / 집단내 분산

= 197.3 / 59.6 = 3.31

즉 이런 과정을 통하여 도출된 F 값을 F비율통계표의 특정 유의수준별 제시된 통계량과 비교함으로서 가설의 기각이나 채택 여부를 결정하게 됩니다. 즉 이런 과정을 거쳐서 나온 F 값인 3.31은 유의수준 0.10에서 확인할 수 있는 임계치인 3.01보다 더 크므로 “H0(귀무가설) = 집단간의 매출액은 동일하다는 당초의 귀무 가설은 기각이 되며, 그 반대인 대립가설이 채택되빈다. 즉 집단간 유의한 차이가 있다고 판단하게 되는 것입니다. 실제 SPSS에서는 이런 비교의 번거로움을 덜어주기 위해서 F 값과 더불어 검정 결과를 유의도 값으로 제공합니다.

728x90

4. 분석을 위한 설문과 데이타

실제로 분산분석은 집단간 평균 차이를 구하기 위한 여러 방법의 총칭이며, 보다 세부적으로는 일원 분산분석, 다변량 분산분석 등 다양한 형태가 존재합니다. 본 차시에서는 분산 분석중 가장 기본적 방법이라고 할 수 있는 일원 분산분석(One-way ANOVA)를 중심으로 설명드리도록 하겠습니다.

일원 분산분석은 단 하나의 독립 변수에 의하여 발생하는 종속변수의 평균 차이를 검정합니다. 독리변수는 반드시 명목이나 서열 척도로 측정되어야 하며, 종속변수는 등간이나 비율 척도로 측정된 자료여만 합니다. 이를 위배할 경우 앞에서 살펴본 바와 같은 분산이나 F 값을 구할 수 없으므로 분산분석을 시행할 수 없습니다.
우선 분산분석을 실습하기 위하여 어떤 문항들을 사용할지 실습용 설문지를 참조해 보도록 하겠습니다. 본 분석에 사용될 설문 문항은 월평균 소득을 묻는 7번 문항과 집에서 보유한 TV의 사이즈를 묻는 문항을 사용하도록 하겠습니다. 즉 소득에 따라 TV 사이즈에 유의한 차이가 있는지 평균을 비교해보고자 합니다. 각 문항들을 살펴보면 7번 문항은 집단을 구분하는 변수로서 명목척도로 구성되어 있는 독립변수이며, 10번 문항은 비율 척도로 구성된 종속 변수 임을 알 수 있습니다.

5. 분산 분석 및 결과

이제 실습 설문지실습 data를 이용하여 직접 SPSS를 이용한 분석을 해보도록 하겠습니다. 우선 데이타 파일을 여신 후, 월평균 소득TV의 크기 변수들을 확인하십시요.

1) 분산분석 메뉴의 실행

분산 분석을 수행하기 위해서는 우선 메뉴 바의 분석(A) -> 평균비교(M) -> 일원배치 분산분석(O)을 차례데로 클릭해주시기 바랍니다. 이를 모두 실행하면 분산분석 대화상자가 나타납니다.

2) 분석 대상 변수의 선택

분산분석을 클릭한 경우 아래 그림과 같이 일원배치 분산분석 대화창이 나타납니다분산분석에서는 종속변수와 독립변수를 각각 구분지어서 지정해주어야 하는데, 대화창에서 나타난 요인 분석에 독립변수를 지정해주면 됩니다. 본 분석에서는 명목척도로 측정된 가구총수입을 독립변수로, 비율척도로 측정된 TV크기를 종속변수로 지정함으로서, 가구 수입별 집단에 따라 TV의 사이즈에 차이가 있는지 검정할 것입니다.

3) 옵션의 조정

: 분산 분석은 별도의 옵션을 지정하지 않더라도 충분히 필요한 정보들을 제공하기 때문에 옵션을 따로 조정할 필요는 많치 않습니다. 하지만 대화창 우측의 ‘옵션’버튼을 눌러보시면 기술 통계 등 몇몇 옵션을 선택할 수 있습니다. 본 실습에서는 기술 통계 옵션만을 선택하고 바로 분석을 진행해보도록 하겠습니다.

4) 분석의 시행 및 결과

이제 분산분석을 시행해보도록 하겠습니다옵션에서 기술통계를 선택하였기 때문에 분산분석은 먼저 각 집단의 평균적인 TV 사이즈 정보를 제공합니다. 분산분석의 목표가 집단간 평균 비교이기 때문에 평균을 표시하는 기술 통계 옵션은 항상 선택하시는 것이 좋습니다.

집단간 평균 차이를 보면 확실히 소득이 올라갈수록 TV의 사이즈도 같이 증가하는 것을 볼 수 있습니다. 일예로 소득 300만원 미만의 평균 사이즈가 고직 27.8인치에 불과하였지만, 701만원 이상인 경구 그 사이즈가 42.6인치로 증가하고 있습니다. 그러나 이 결과만을 가지고는 이 차이가 통계적으로 유의한지 확신할수는 없습니다. 이제 분산분석표를 확인할 차례입니다.

그 바로 다음의 결과는 요약된 분산분석표를 보여줍니다분석표에는 분산의 제곱합, 자유도(df), 평균제곱, F, 유의확률 등의 값을 보여주고 있습니다. SPSS 프로그램을 한글화하는 과정에서 번역이 잘못되어 F 값이 거짓으로 오역되어 있는 것도 볼 수 있습니다. 이처럼 통계 용어의 오번역등의 여러 이유로 많은 SPSS 사용자들은 한글보다는 영문 버전을 선호하기도 합니다.

결과에 따르면 집단간 평균과 집단내 평균을 이용하여 구한 F 값은 23.499이며, 유의확율은 0.000으로 나타나고 있습니다. 유의확률은 보통 p, sig 등 다양한 형태로 표시되기도 하는데, 가설 검증을 통하여 상관계수가 통계적으로 유의한가에 대한 정보이며, 보통 그 기준은 유의확률이 0.05보다 작은 경우 통계적으로 유의하다고 판단합니다. 분석 결과 유의 확율은 0.000으로서 통계적 유의성이 확보되었습니다. 즉 소득 집단별 보유한 TV의 크기는 유의한 것으로 나타나고 있습니다.

* 본 강좌 내용을 보다 상세히 동영상으로 보고싶으신 분들은 아래 유튜브 강좌 참조하세요.

https://youtu.be/itSsiCLklzA

: 청주대학교 이 원준 (meetme77@naver.com)

728x90
728x90

1. 상관관계 분석의 필요성

상관관계(correlation) 분석은 연구 대상인 변수들간의 관련성을 분석하기 위하여 사용됩니다. 즉 한 변수와 다른 변수와 어느 정도 관련성을 가지고 같이 변화하는지의 정도를 분석하는 목적으로 사용됩니다. 예를 들어서 광고량과 판매량을 각각 비율척도로 입력하여 상관관계 분석을 하거나, 광고량(광고비로 입력한 비율척도)과 제품에 대한 만족도(5점 등간 척도)를 대상으로 상관관계 분석이 이루어질 수 있습니다. 이처럼 두개 변수간의 상관관계를 나타내는 것을 단순상관관계라고 합니다. 단순상관관계를 분석하는 것만으로도 관리자는 효과적인 의사결정에 필요한 기본적 자료를 얻을 수 있습니다. 일예로 만일 광고량과 제품에 대한 만족도간에 별다른 관련성이 없다면, 고객의 불만이 증가할 때 광고를 늘리는 것은 그다지 현명한 전략이 아닐 것입니다.

상관관계의 분석에 사용되는 변수들은 반드시 등간척도나 비율척도처럼 연속성을 가지고 있는 변수들을 가지고 분석이 이루어집니다. 즉 자동차의 모델명(명목척도)과 연비(비율척도) 간의 상관관계는 이루어질 수 없습니다. 그 이유는 명목 척도는 평균이나 분산을 가질 수 없으므로, 통계적 추정이 필요한 상관관계가 불가능하기 때문입니다.

2. 상관관계 분석의 이해

변수들간의 관련성이 높다 혹은 낮다는 것은 어떻게 측정이 가능할까요? 변수들간의 상호관련성, 즉 상관은 특정 변수의 분산이 다른 변수의 분산과 같이 변화하는 정도에 따라 결정됩니다. 이처럼 같이 같이 공명하며 변동하는 분산을 공분산이라고 합니다.

아래 그림에서 보듯, 같이 변동하는 정도가 적을수록 상관관계는 낮아지면, 같이 변동하는 정도가 클수록 상관관계는 높아집니다. 이때 상관관계의 정도를 나타내주는 것이 상관계수인데, 전혀 상관이 없을 경우의 상관계수는 0이지만, 완전히 변동하는 부분이 일치하는 경우의 상관계수는 -1 혹은 1입니다. 즉 상관계수는 -1 ~ 1 사이의 값을 같습니다.

제시된 산포도를 기준으로 가상적 예를 살펴보면, 학생의 학습시간에 따라 성적이 정확하게 비례하여 증가하는 경우 +1의 완전한 상관관계를 보이고 있지만, 시외버스의 운행 간격과 성적은 상관관계가 거의 존재하지 않는 0의 상관관계를 보입니다. 반면에 학생의 온라인 게임을 즐기는 시간에 비례하여 성적이 정확하게 감소하는 경우 -1의 상관관계를 보이고 있습니다.

그러나 현실 세계에서는 이렇게 +1 혹은 -1의 완전한 상관관계를 보이거나 상관계수가 0인 전혀 상관이 없는 관계는 그렇게 많치 않습니다. 그보다 대부분의 경우는 다소의 상관관계를 가지고 있는 것이 보통입니다. 아래의 가상적 예에서 보듯 대부분의 상관관계는 어느 정도의 강도를 가지고 움직이는 것이 보통입니다. 관계수의 절대값이 0.2이하면 보통 상관관계가 무시할 수 있을 정도로 미약하다고 판단하며, 02 ~ 0.6 정도면 어느정도 상관관계가 있다고 인정됩니다. 그리고 0.6 이상일 경우 매우 강한 상관관계가 있는 것으로 인정됩니다.

또한 상관계수의 값을 제곱한 것을 결정 계수라고하며, 이 결정 계수 한 변수가 다른 변수의 변화를 설명할 수 있는 설명력을 의미합니다.

3. 상관관계 계산의 절차

상관관계 계산의 기초적 절차로서 우선 공분산의 개념을 이해하여야 합니다. 공분산이란 확률변수 X의 증감에 따라 또 다른 확률변수 Y가 증감하는 정도로서, 의 기대값이며 기호로는 cov(X, Y)로 표시합니다. 그러나 위 식에서 보듯, 공분산은 XY의 단위가 커지면 자연스럽게 같이 증대하게 되므로, 공분산을을 표준화할 필요가 있습니다. 이 공분산을 표준화한 것이 상관계수입니다, 상관계수는 다음과 같으며 -1 ~ 1 사이의값을 갖게 됩니다.

: 1) xy의 공분산, 2) x의 표준편차, 3) y의 표준편차

이를 보다 잘 이해하기 위하여 실제 사례를 가지고 같이 상관계수를 구해보도록 하겠습니다.

[사례]

스마트폰을 제작하는 S사는 최근 신제품을 개발하면서 스마트폰 가격이 커짐에 따라 더 많은 고객들이 좋은 평가를 내리는 것을 알게 되었습니다. 이런 경험을 통해서 막연하지만 스마트폰의 높은 가격 이미지가 판매량에 좋은 영향을 주고 있는 것이라고 생각을 하게 되었습니다. 이런 관계를 검증하기 위해서 가격 판매량간의 과거 데이타를 분석하여 그 관계를 파악하고자 합니다.

a. 상관계수를 구하기 위해서는가격(X)과 판매량(Y) 변수의 평균 및 합계를 구해야 합니다. 그 결과는 다음과 같습니다.

b. 구해진 각 변수의 평균을 활용하여 1), 2), 3), 4)를 구합니다. 즉 각 관측치에서 각 변수의 평균을 차감한 값을 활용하여 (1)(3)을 각각 구한뒤, 이 값들을 제곱하여 (2)(4)를 구한 후 다시 (5)를 구하십시요. 이때 2)4)는 곧 가격(X)과 판매량(Y) 각각의 표준편차이며, 5)는 이 두개 변수의 공분산입니다.

c. 상관계수 구하기

이제 가격(X)과 판매량(Y) 각각의 표준편차를 알고 있으며, 이들 변수간의 공분산을 알게 되었습니다. 이를 활용하면 바로 상관계수를 구할 수 있습니다.

,

= 0.903의 높은 상관관계가 있는 것으로 나타났습니다. 이 결과의 의미는 스마트폰의 가격과 판매량간에 매우 강력한 상관관계가 존재한다는 것을 의미합니다.

728x90

4. 분석을 위한 설문과 데이타

이처럼 직접 계산을 하여서 상관계수를 구하는 것도 가능하나, SPSS는 이런 중간 단계를 생략하고 바로 상관 관계를 구할 수 있는 편리한 기능을 제공합니다. , 통계적인 지식이 없다고 하더라도 등간척도와 비율척도를 활용하여 매우 간단하게 상관관계를 구할 수 있습니다.

우선 이를 실습하기 위하여 어떤 문항들을 사용할지 실습용 설문지를 참조해 보도록 하겠습니다. 본 분석에 사용될 설문 문항은 설문 22페이지의 가족의 숫자를 묻는 4-9)번 문항과 집에서 보유한 TV의 사이즈를 묻는 10번 문항을 사용하도록 하겠습니다. , 가족이 많으면 많을수록 더 편리하게 보기 위하여 더 큰 사이즈의 TV를 구하고 싶어할 것이라는 가설을 검증해보고자 합니다.

이 두개의 문항은 모두 비율척도로서 상관관계의 분석에 적합한 것으로 판단되었습니다. 추가로, 소득수준 역시 TV의 크기에 영향을 미칠 것이라고 가설을 세울 수 있습니다. 당연히 소득이 많을수록 소비지출이 많으므로 누구나 생각해볼만한 가설입니다. 그러나 소득 수준을 물어보는 22페이지의 문항 7을 살펴보니, 명목척도로 물어보고 있습니다. 충분히 소득수준과 TV의 크기간에는 유의한 상관관계가 실제로 존재하더라도, 조사자가 소득을 이처럼 명목 척도로 물어보았다면 상관관계를 진행할 수 없습니다. 따라서 어떤 연구 방법을 사용할지 여부는 설문지 작성 단계에서부터 고민되고 결정될 필요가 있음을 알 수 있습니다.

만일 소득 수준을 응답자가 직접 넣도록 하는 비율형 척도를 사용하였다면, 이 두변수간의 상관관계 분석은 가능했을 것입니다, 아래와 같이 물어보았다면 당연히 상관관계 분석이 가능합니다.

5. 상관관계 분석 및 결과

이제 직접 SPSS를 이용한 분석을 해보도록 하겠습니다. 우선 데이타 파일을 여신 후, 가족 수TV의 크기와 관련된 변수들을 확인하십시요. 단순상관관계 분석을 위해서는 최소한 2개 이상의 변수가 필요합니다. 만일 변수가 2개 이상인 경우에는 자동적으로 모든 변수의 쌍대 조합을 이용하여 모든 가능한 상관관계 변수를 자동으로 분석해줄 것입니다.

1) 상관분석 메뉴의 실행

상관관계 분석을 수행하기 위해서는 우선 메뉴 바의 분석(A) -> 상관분석(C) -> 이변량 상관계수(B)를 차례데로 클릭해주시기 바랍니다. 이를 모두 실행하면 상관분석 대화상자가 나타납니다.

2) 분석 대상 변수의 선택

아래 그림과 같이 대화상자에서 분석할 변수인 가족 수(변수명: s12)’‘TV의 크기(변수명: s19)’를 선정한 후 화살표를 클릭해서 오른쪽의 변수(V) 상자로 보냅니다.

대화상자를 보면은 Pearson 상관관계 분석으로 지정되어 있는 것을 볼 수 있습니다. 피어슨 상관관계는 바로 위에서 공분산과 표준편차를 이용하여서 구하였던 상관계수와 동일하기 때문에 이를 그대로 놓아두시고 그대로 진행합니다.

3) 옵션의 조정

: 바로 확인버튼을 누르는 것만으로도 성공적으로 상관관계 분석이 완수되지만, 필요시 선택적으로 분석에 필요한 다양한 옵션들을 지정할 수 있습니다. 간략히 어떤 옵션들이 주요 옵션들 위주로 있는지 살펴보도록 하겠습니다.

먼저 옵션버튼을 클릭해보시기 바랍니다. 평균과 표준편차, 공분산등을 추가로 선택할 수 있으며, 기본적으로 결측값이 상관계수 계산시 제외되도록 되어 있습니다. 추가로 필요한 부분이 있으면 선택하신 후 다음 단계로 진행합니다.

4) 분석의 시행 및 결과

이제 상관관계 분석을 시행해보도록 하겠습니다. 도출된 상관계수 표를 보면 크게 상관계수, 유의확율, 그리고 응답자의 수(N)라는 3가지 정보를 주고 있습니다. 우선 상관계수는 0.207로서, 약한 상관관계가 있음을 알 수 있습니다. 그 다음 정보는 유의확율입니다. 유의확률은 보통 p, sig 등 다양한 형태로 표시되기도 하는데, 가설 검증을 통하여 상관계수가 통계적으로 유의한가에 대한 정보이며, 보통 그 기준은 유의확률이 0.05보다 작은 경우 통계적으로 유의하다고 판단합니다. 분석 결과 유의 확율은 0.000으로서 통계적 유의성이 확보되었습니다.

: 청주대학교 이 원준 (meetme77@naver.com)

728x90
728x90

1. 교차분석의 필요성

교차 분석은 보통 크로스탭(crosstab) 분석으로도 불리우며, 2개의 명목 혹은 서열형 척도를 변수로 분석에 활용합니다. 즉 한 변수의 범주를 다른 변수의 범주와 교차 시키고 각각 교차된 경우에 해당하는 셀의 빈도를 분석하는 방법입니다. 아래한글이나 엑셀에서 흔히 작성하여 빈도 수나 퍼센트를 보는 교차 표를 생각하시면 되겠습니다.

 

남자

여자

합계()

자동차 있음

1) 15

2) 20

35

자동차 없음

3) 30

4) 12

42

합계()

45

32

77

간단한 예를 보면 성별(남자/여자)과 자동차 보유(있음/없음)이라는 두개의 명목 척도를 각각 교차시킬 경우 1) ~ 4)와 같이 빈도를 포함하고 있는 총 4개의 셀(cell)을 도출할 수 있으며, 각 셀별 빈도 수에 기반하여 셀별 퍼센트를 구할 수 있을 것입니다실제 교차분석은 매우 간단함에도 불구하고 마케팅 조사에서 다양하게 이용될 수 있습니다. 일예로 소비자의 성별로 선호하는 브랜드를 조사한다거나, 소비자의 소득수준에 따라 자주 방문하는 백화점을 조사하는 등 다양하게 활용됩니다.

2. 교차 분석의 이해

교차분석을 통하여 각 범주별 빈도의 차이를 분석할 수 있습니다. 그러나 실제 이런 차이가 실제 통계적으로 유의한지는 어떻게 알 수 있을까요? 이런 목적을 위하여 교차 분석은 상황표를 이용하여 명목척도로 측정된 두 변수들이 서로 관련이 있는지 알아봅니다. 예를 들어, 이에 대하여 조금 더 자세히 살펴보도록 하겠습니다.

A기업은 글로벌 마케팅 전략을 수립하기 위하여 국가별로 소비자들이 선호하는 스마트폰 브랜드에 관한 조사를 실시하였습니다. 이에 따라 한국, 미국, EU의 세 국가를 선정하였고 각 국가의 소비자들이 삼성, 애플, 그리고 노키아 중 어떤 브랜드를 선호하는지 조사하였습니다조사한 결과는 아래 표와 같은데, 예를 들면 한국에서는 총 100명중 70명이 삼성 제품을 선호하고 있는 것을 알 수 있습니다. 이와 같은 빈도를 실제로 관측된 관측 빈도라고 합니다

 

삼성(B1)

애플(B2)

노키아(B3)

소계

한국(A1)

30

55

15

100

미국(A2)

40

60

20

120

EU(A3)

30

35

15

80

소계

100

150

50

300

그러나 만들어진 교차표 만을 가지고는 실제로 이런 집단간 차이가 브랜드간의 차이때문에 발생된 것이며, 통계적으로 유의한 것이라고 확신하기는 어렵습니다. 예를 들어 삼성 제품의 미국과 EU 지역내 판매 댓수에는 차이가 있기는 하지만, 이런 차이가 브랜드와 관련없는 다른 이유 때문에 우연히 발생했을 가능성도 있기 때문입니다. 이러한 의문에 답하고, 교차표의 결과가 통계적으로 유의한지 확인하기 위해서는 카이제곱의 독립성 검증을 해야 합니다.

3. 카이제곱 검증의 계산절차

카이제곱 검정을 하기위해서는, 우선 각 셀의 기대 빈도를 구해야 합니다. 기대 빈도는 결합 비율(combined proportion)’을 구한 후, 구해진 결합 비율을 각 셀에 곱함으로서 구할 수 있습니다. 일예로, 삼성(B1)과 한국(A1)을 결합한 결합 비율은 다음과 같은 동시 확률로 구해질 수 있습니다. ,

P(A1, B1) = P(A1) * P(B1) 이며, 이를 대입하면

P(A1) = 100/300,

P(B1) = 100/300,

P(A1) * P(B1) = (100/300) * (100/300) = 1/9 이며,

구해진 값을 전체의 총합(300)에 곱할경우, 300 * (1/9) = 33.3 이라는 삼성(B1)과 한국(A1)을 결합한 셀의 기대 빈도가 도출됩니다.

이를 다른 셀에도 동일하게 반복할 경우 다음과 같은 관측빈도와 기대빈도의 교차표를 얻을 수 있습니다. 아래 표가 의미하는 바는 두 변수가 상호독립적일 때, 즉 국가별로 선호브랜드가 동일할 때, 한국에서 삼성 브랜드가 구매될 빈도는 33.3이라는 의미입니다. 이제 브랜드와 국가라는 두개 변수간의 관련성 여부는 관측빈도(30)와 기대빈도(33.3)를 비교하여 그 차이를 카이 제곱 검증을 통하여 검정해 보면 알 수 있습니다.

 

삼성(B1)

애플(B2)

노키아(B3)

소계

한국(A1)

관측 : 30

기대 : 33.3

관측 : 55

기대 : 50

관측 : 15

기대 : 16.7

100

미국(A2)

관측 : 40

기대 : 40

관측 : 60

기대 : 60

관측 : 20

기대 : 20

120

EU(A3)

관측 : 30

기대 : 26.7

관측 : 35

기대 : 40

관측 : 15

기대 : 13.3

80

소계

100

150

50

300

카이제곱 검증을 하기 위해서는 귀무 가설과 대립 가설이 수립되어야 합니다. ,

H0(귀무가설) = 국가간의 브랜드의 차이는 없다.

H1(대립가설) = 국가간의 브랜드 차이는 있다.

라는 가설을 세우고, 귀무가설이 참인지 아닌지를 카이제곱 검증으로 검정을 하게 됩니다.

d. 카이제곱 통계량 계산

만일 귀무가설이 참이라면 카이 제곱 통계량의 표본 분포는 카이제곱 분포로 알려진 연속 곡선에 접근하게 됩니다카이제곱의 통계량을 구하기 위해서는 아래 수식을 사용해야 합니다.

이 식을 이용하여 각 셀의 계산을 반복하면 카이 제곱(x2) 값인 2.25를 얻을 수 있습니다. 직접 손 계산을 해보시기 바랍니다.

카이제곱 값을 이용하여 가설을 검증하기 위해서는 카이 제곱 값, 카이제곱 통계표, 그리고 자유도의 3가지가 필요합니다. 카이제곱 값은 관측빈도와 기대빈도 값을 이용하여 이미 2.25를 구하였습니다. 이제 자유도를 구할 차례입니다카이제곱의 분포는 그 본포의 모양이 '자유도(D.F)'에 따라 달라지는 특성이 있으므로, 자유도를 먼저 확인해야 합니다. 카이제곱 통계량에서 자유도는 교차표의 행의 수와 셀의 수에 의하여 결정됩니다. 그 공식은,

자유도 = (행의 수 - 1) * (열의 수 - 1) 이며, 위 예에 대입하면 행과 열이 각각 3개씩이므로;

= (3-1)*(3-1) = 4 의 자유도를 갖습니다.

이제 구한 자유도(4)와 카이제곱 값(2.25)을 가지고 카이제곱 통계표에서 유의수준 0.05에서 확인할 수 있는 카이 제곱의 임계치는 9.49입니다. 본 분석에서 구한 값이 2.25로 임계치인 9.49보다 작으므로 “H0(귀무가설) = 국가간의 브랜드의 차이는 없다는 채택이 되게 됩니다. 이 결과에 따라서 국가별로 판매되는 스마트폰 브랜드의 비율에는 통계적인 차이가 없다는 것을 알게 되었습니다. 실제 SPSS에서는 이런 비교의 번거로움을 덜어주기 위해서 카이제곱 값과 더불어 검정 결과를 유의도 값으로 제공합니다.

728x90

4. 분석을 위한 설문과 데이타

비교적 간단한 계산을 통하여 교차표를 구하고 카이제곱 검증을 할 수 있으나 SPSS는 이런 통계적 지식에 대한 기본적인 이해만 있다면 누구나 손쉽게 교차분석을 할 수 있도록 지원하고 있습니다. SPSS를 이용하여 지금까지 배웠던 교차 분석을 직접 해보도록 하ᅟᅦᆻ습니다.

우선 본 실습에 사용될 2개의 상호 관련성이 있는 설문 문항을 선택하여야하며, 문항들은 명목 혹은 서열 척도로 구성되어있어야만 합니다. 본 분석에서는 설문 1페이지의 캠코더 브랜드를 묻는 C-2-A)번 문항과 해당 제품의 구입 이유를 물어보는 C-2-D)번 문항을 이용하고자 합니다. 이를 통하여, 캠코더 브랜드별로 제품 구매 이유가 어떻게 다른지 확인해 보도록 하겠습니다이 문항들은 모두 명목척도로서, 교차분석에 적합한 것으로 판단되었습니다.

5. 교차분석 및 결과

이제 직접 SPSS를 이용한 분석을 해보도록 하겠습니다. 우선 데이타 파일을 여신 후, 캠코더 상표(변수명: c2)와 캠코더 구입이유(변수명: c5)를 확인하십시요. 교차 분석을 위해서는 2개의 명목 혹은 서열 척도가 필요합니다.

1) 교차분석 메뉴의 실행: 교차분석을 수행하기 위해서는 우선 메뉴바의 분석(A) -> 기술통계량(E) -> 교차분석(C)를 차례로 클릭해주시기 바랍니다. 이를 모두 실행하면 교차분석 대화상자가 나타납니다.

2) 분석대상 변수의 선택:  아래 그림과 같이 대화상자에서 분석할 변수인 상표(변수명: c2)’를 선택한 후 오른쪽의 '(w) 변수상자에 보냅니다. ‘캠코더 구입이유(변수명: c5)’(C) 변수상자에 보냅니다이때 어떤 특정 변수가 반드시 행으로가고 다른 변수가 열로 가야하는 법칙은 없습니다. 행과 열을 바꾸어서 지정하여도 상관이 없습니다.

3) 옵션의 조정: 이 단계까지 마치고 바로 확인을 누를 경우 교차표를 구할 수 있습니다. 그러나 교차표에는 단지 빈도만이 표시되고 퍼센트가 표시되지 않아 매우 불편합니다. 따라서 보통의 경우 퍼센트가 같이 제시되도록 옵션을 조정한 후 분석을 시행합니다화면 우측의 (E)' 버튼을 눌러보시기 바랍니다.

선택할 수 있는 몇가지 옵션들이 보입니다. 우선 관측빈도와 기대빈도를 선택할 수 있고, 그 밖에 여기서 퍼센트 지정이 가능합니다. (R) 퍼센트의 경우 행 각각의 합이 100%가 되도록 계산을 해주는 반면, (C) 퍼센트는 열 각각의 합이 100%가 되도록 계산을 해줍니다. 본 사례에서는 상표별 구매이유가 주된 관심사항이며, 상표 정보가 행에 위치하므로 행 퍼센트 옵션을 선택합니다. 별도의 카이제곱 통계량이 필요한 경우에는 통계량옵션에서 카이제곱을 선택하신후 분석을 하시면 됩니다.

4) 분석의 시행 및 결과: 이제 교차분석을 시행해 보도록 하겠습니다. 도출된 교차표를 보면 크게 빈도와 기대빈도, 그리고 퍼센트와 관련된 정보를 주고 있습니다. 소니와 삼성을 비교해보면, 소니를 구매한 소비자중 구입한 이유로 가장 중요한 것은 최초 구매(52.2%)’이며, 삼성은 최초 구매 비중이 63.6%로서 소니보다 다소 더 높은 것을 알 수 있습니다. 이를 통해서 초보자가 보다 삼성을 선택하는 경우가 많음을 알 수 있습니다.

추가로 이런 퍼센트의 차이가 브랜드간에 통계적으로 유의한 것인지를 살펴보기 위하여 카이 제곱 통계량을 도출하도록 옵션에서 명령을 부여한 바 있습니다. 카이제곱 검정 결과를 보면,자유도가 35일 때, 카이제곱 유의확율값이 0.606입니다. 이는 P 값이 0.05보다 크므로 유의수준 5%에서 유의하지 못함을 알 수 있습니다. 따라서, 대립가설을 기각되고, 브랜드와 구입이유라는 두 변수는 상호독립적이라는 귀무가설이 채택되게 됩니다. 다시말하면 구입이유와 브랜드간에는 통계적으로 유의한 관계는 없다고 할 수 있습니다. 삼성과 소니 브랜드간 나타난 구입 이유는 브랜드의 차이 때문이라고 할 수 없는 것입니다.

5) 상표전환율 매트릭스의 응용: 교차 분석은 조사자의 목적에 따라 다양하게 활용될 수 있는 실무적 가치가 높은 분석방법입니다. 교차 분석을 응용한 한가지 예로, 상표전환율 매트릭스를 볼 수 있습니다. 상표 전환율 매트릭스는 기존의 특정 브랜드를 가지고 있는 소비자가 다음 구매시점에서는 어떤 브랜드를 구매할 지를 비교 분석함으로서, 소비자가 특정 브랜드에 대하여 가지고 있는 브랜드 로열티수준을 직접 확인하고 타 브랜드와 비교평가할 수 있습니다.

상표전환율 매트릭스를 만들기 위해서는 두개의 질문이 설문지상에 존재하여야 합니다. 하나는 현재 보유한 브랜드와 관련된 문항이며, 또다른 하나는 향후 구매 예정 브랜드에 관련된 문항입니다. 본 실습설문지에도 이런 문항이 포함되어 있습니다. 현재 보유 브랜드를 묻는 1페이지의 C-2-A)번 문항과 미래 의도 브랜드를 묻는 13페이지 C-28-A)번 문항입니다. 이 두 개 변수를 이용하여 상표전환율 매트릭스를 작성할 경우, 현재 보유브랜드를 중심으로 퍼센트를 구하게 되면, 얼마나 많은 고객들이 경재사로부터 이탈하거나 새로 유입이 될지 확인할 수 있으며, 효과적인 브랜드 관리나 고객 로열티 구축을 위한 기초 자료로 활용할 수 있습니다.

우선 소비자의 로열티 수준을 점검해 보겠습니다. 로열티는 쉽게 표현하면, 특정 고객이 재구매 시점에서 같은 브랜드를 사는 재구매경향을 의미합니다. 이 표를 분석하면 가장 로열티나 높은 회사는 소니로서 77.1%에 달하고 있지만 삼성은 고작 40.0 수준에 머물고 있는 것을 볼 수 있습니다.

* 교차분석에 관한 내용을 유튜브 동영상으로 다시 확인하고 싶으신 경우에는 아래 링크 이용바랍니다.

https://youtu.be/CKAhrNfyg28

: 청주대학교 이 원준 (meetme77@naver.com)

 

728x90
728x90

1. 빈도 분석의 개요

빈도분석(Frequency)은 데이타의 전반적인 내용들이 도수분포표상에서 어떠한 분포적 특성을 가지고 있는지 요약된 정보를 제공하는 분석입니다. 빈도분석에서 제공하는 분포 관련 정보는 크게 빈도, 중심화 경향치, 그리고 분산도 들입니다. 또한 이 같은 특성치들을 보다 시각적으로 이해하기 쉽도록 도표를 제공할 수 있습니다.

1) 빈도와 중심화 경향

빈도는 우리가 흔히 퍼센트로 표시하는 개념으로서, 각 값들이 출현하는 횟수를 요약한 정보로서, 빈도 분석이 제공하는 가장 기본적인 정보입니다. 또한 빈도분석은 데이타의 중심화 경향(central tendency)을 보여주기도 합니다. 중심화 경향이란 관측된 데이타들이 어떤 형태로 집중되어 있는지를 알아보는 것으로서, 주로 최빈값, 중앙값, 그리고 평균과 같은 지표들을 이용하여 경향을 평가합니다.

- 최빈값(Mode) : 빈도수가 가장 많이 발생한 관측치

- 중앙값(Median): 수치로 이루어진 데이타들을 크기 순서데로 나열하였을 때 가장 중앙에 위치하는 관측치

2) 분산도

분산도(Dispersion)는 관측된 데이타가 흩어져 있는 정도를 말하며, 범위, 평균편차, 그리고 표준편차와 같은 통계량들로 측정합니다.

- 범위(range) : 가장 큰 수치의 데이타와 가장 작은 수치의 데이타간의 차이를 말합니다.

- 평균편차(mean deviation) : 관측치와 산술평균과의 차이들의 평균을 말합니다.

2. 빈도분석의 시행

이제 본격적으로 빈도분석을 시행하기 이전에, 어떤 데이타를 분석할 것인지 먼저 설문지를 살펴보도록 하겠습니다. 우선 아래 설문지 1페이지의 문항 C2에서 물어보는 캠코더의 구매 경험과 관련된 여러가지 질문들을 봐주시기 바랍니다.

우선, 현재 가지고 있는 캠코더의 형태는 어떤지 빈도분석을 통해서 단계적으로 살펴보도록 하겠습니다

1) 빈도분석 메뉴의 실행

빈도 분석을 수행하기 위해서는 우선 메뉴바의 분석(A) -> 기술통계량(E) -> 빈도분석(F)을 차례데로 클릭해주시기 바랍니다. 이를 모두 실행하면 빈도분석 대화상자가 나타납니다.

 

2) 분석대상 변수의 선택

아래 그림과 같이 대화상자에서 분석할 변수인 '형태(변수명 c3)'를 선정한 후 화살표를 클릭해서 오른쪽의 변수(V) 상자로 보냅니다.

3) 옵션의 조정

: 바로 확인버튼을 누르는 것만으로도 성공적으로 빈도분석이 완수되지만, 필요시 선택적으로 분석에 필요한 다양한 옵션들을 지정할 수 있습니다. 간략히 어떤 옵션들이 주요 옵션들 위주로 있는지 살펴보도록 하겠습니다먼저 통계량옵션을 클릭해보시기 바랍니다. 중심화 경향치, 백분위 값, 산포도 등 다양한 통계량을 선택할 수 있습니다.

다음으로 도표 옵션을 살펴보겠습니다. SPSS에서는 기본적으로 막대도표, 원도표, 히스토그램의 3가지 그래프를 제공합니다. 그러나 보통 SPSS에서 그래프를 그리기보다는 SPSS의 결과값들을 엑셀에 옮겨와서 다시 필요한 그래프를 그리는 것이 더 편리하고 고품질의 그래프를 구할 수 있습니다.

4) 분석의 시행

이제 통계량 옵션중 막대도표만을 선택한 후, 분석을 시행하도록 하겠습니다. 분석이 시작되면 다음과 같은 결과들이 나타날 것입니다. 먼저 제시되는 것은 결측치에 관한 정보가 제시됩니다. 결측치란 해당 문항에 대하여 응답하지 않은 사람들을 의미합니다. 분석 결과 결측치가 185명이나 되네요. 아마 집에 캠코더가 없는 사람이 조사 당시 많았던 것 같습니다그리고 간략한 빈도표가 제시됩니다. 각 빈도표를 보면 퍼센트와 유효퍼센트, 그리고 누적 퍼센트의 정보가 제시됩니다. 이중 퍼센트와 유효 퍼센트의 차이를 살펴보면 유효 퍼센트는 무응답한 결측치를 제외하고 구한 비율입니다. 보통 빈도분석에서 유효 퍼센트를 기본적인 정보로 사용합니다. 분석 결과를 보면 준수직형의 캠코더를 구입한 사람의 47.7%, 수평형 36.0%, 수직형 15.0%, 기타 1.4%로 나타나고 있습니다.

그리고, 추가적인 옵션 지정을 통해 구한 그래프의 모습도 보여주고 있습니다. 하지만, SPSS에서 기본으로 제공하는 그래프는 그다지 정교하거나 세련되지 않습니다. 더 좋은 방법은 빈도표를 엑셀로 복사한 이후 다시 그래프를 그리는 것입니다. 단지 ctrl+Cctrl+V만으로 SPSS의 결과물을 엑셀에 손쉽게 복사할 수 있으니 다양하게 활용해 보시기 바랍니다.

728x90

3. 평균 분석의 개요

평균 분석은 기술통계분석의 일종으로서, 평균과 같은 요약된 통계량을 계산합니다. 평균 분석과 빈도분석은 얼핏 유사해보일 수도 있지만, 결정적인 차이점이 있습니다. 빈도분석이 주로 이산적인 변수값들을 다루는 반면에, 평균분석은 연속적인 변수값들을 다룬다는 점입니다. 보다 쉽게 설명하면 이산적 변수들은 더하기, 곱하기, 빼기, 나누기와 같은 사칙연산으로 계산할 수 없는 값들을 의미하지만, 연속적 변수들은 사칙 연산이 가능한 값들을 의미합니다.

일예로, 야구 선수의 등 번호를 생각해 봅시다. 야구 선수의 등 번호는 분명히 번호이지만 이산적 변수들입니다. 등번호 3번인 선수와 17번인 선수를 더하거나 뺴는 것은 아무런 의미가 없기 때문입니다. 그러나 사과 3개와 17개를 더할 경우 20개의 사과가 됩니다. 이는 사칙 연산이 가능한 경우로서 연속적 변수 값의 예입니다 , 빈도분석은 이산적 변수 값, 평균 분석은 연속적 변수 값을 그 분석 대상으로 하고 있습니다. 척도를 중심으로 설명하면, 빈도분석은 주로 명목 척도와 서열 척도, 평균 분석은 주로 등간 척도와 비율 척도를 분석대상으로 합니다.

이중 등간 척도는 간혹 연구자의 목적에 따라서 빈도분석이 이루어질 수도 있지만, 명목과 서열척도는 평균 분석이 시행될 수 없음을 기억하시기 바랍니다.

4. 평균 분석의 시행

이제 본격적으로 평균 분석을 시행하기 이전에, 어떤 데이타를 분석할 것인지 먼저 설문지를 살펴보도록 하겠습니다. 우선 실습 설문지에서 물어보는 연령과 결혼 년수와 같이 개인 인적사항과 관련된 질문들을 중심으로 봐주시기 바랍니다. 연령과 결혼 년수의 평균을 구해보도록 하겠습니다.

1) 평균분석 메뉴의 실행:  평균 분석을 수행하기 위해서는 우선 메뉴 바의 분석(A) -> 기술통계량(E) -> 기술통계(D)를 차례데로 클릭해주시기 바랍니다. 이를 모두 실행하면 기술통계 대화상자가 나타납니다.

2) 분석대상 변수의 선택: 아래 그림과 같이 대화상자에서 분석할 변수인 '가장 연령(변수명 s1)'결혼 기간(변수명 s3)’을 선정한 후 화살표를 클릭해서 오른쪽의 변수(V) 상자로 보냅니다.

3) 옵션의 조정 : 바로 확인버튼을 누르는 것만으로도 성공적으로 평균을 구하기 위한 기술통계 분석이 완수되지만, 필요시 선택적으로 분석에 필요한 다양한 옵션들을 지정할 수 있습니다. 간략히 어떤 옵션들이 주요 옵션들 위주로 있는지 살펴보도록 하겠습니다먼저 옵션을 클릭해보시기 바랍니다. 연구자의 목적에 따라 평균은 물론이고, 표준편차, 분산, 범위 등 다양한 통계량을 선택할 수 있습니다.

4) 분석의 시행: 이제 원하는 옵션을 선택한 후, 분석을 시행하도록 하겠습니다. 만일 별도의 옵션을 선택하지 않았다면 SPSS는 기본 통계량으로 최소값, 최대값, 평균, 그리고 표준편차를 보여줄 것입니다.

그리고 간략한 기술통계량표가 제시됩니다. 표의 내용을 살펴 보면 사례 수(n), 최소값과 최대값, 평균, 그리고 표준편차의 정보가 제시됩니다. 분석 결과를 보면 가장의 평균 연령은 43.8세이며, 평균적으로 결혼한지 9.8년 가량 경과하였음을 알 수 있습니다.

: 청주대학교 이 원준 (meetme77@naver.com)

728x90
728x90

1. SPSS ‘변수 계산의 이해

 원 데이터에 있는 변수들의 수치를 변환하여 새로운 변수 값을 계산하기 위해서는 변수 계산을 하여야 합니다. 변수 계산을 하기 위해서는 메뉴 바에서 변환(T) -> 변수계산(C)을 차례 데로 선택해야 합니다.

변수계산을 선택하였을 경우 아래 그림과 같은 변수 계산 대화 상자가 열릴 것입니다. 이 대화상자는 그 모습이나 기능이 우리가 흔히 사용하는 전자계산기와 거의 유사합니다. 그래서 계산대라고 부르기도 합니다. 계산대의 주요 기능들을 간략히 설명드리면 다음과 같습니다.

a. 변수보기 Box : 변수보기 BoxSPSS의 원 데이터 파일에 있는 모든 변수들을 보여줍니다. 이 변수들을 변수 계산Box로 옮겨옴으로서 새로운 변수를 계산해 낼 수 있습니다.

b. 변수계산 Box : 변수 계산의 결과로 항상 계산 후 새로운 변수가 만들어지게 됩니다. 우측의 '대상변수(T)''대상 변수(T)'에서는 새롭게 만들어지는 변수를 위하여 새로운 SPSS 변수명을 지정해주어야 합니다. 그리고 좌측의 ‘숫자표현식(E)’‘숫자 표현식(E)’에서는 연산자나 함수 등을 이용하여 계산을 행함으로써 새롭게 생성되는 변수들을 정의해주어야 합니다. 즉 변수의 계산이 이루어지는 장소입니다.

c. 연산자 Box: 변수계산에 사용할 수 있는 다양한 연산자와 함수들을 모아놓은 곳입니다. 이들 연산자나 함수들은 ‘숫자표현식(E)’‘숫자 표현식(E)’에서 직접 키보드로 입력할 수도 있으며, 혹은 연산자 Box에서 사용할 함수나 연산자를 클릭하여 사용할 수도 있습니다. 사용할 수 있는 연산자는 산술 연산자,, 논리 연산자,관계 연산자가 있으며, 그외 기타로 여러 함수들을 사용할 수 있습니다.

<산술 연산자>

기본적인 산술 연산을 위한 연산자들이다. 그러나 여러 개의 괄호( )를 사용하는 복잡한 연산을 수행할 때는, 괄호 안의 식이 먼저 계산되므로 주의가 필요하다.

기호

의미

+

-

*

/

**

( )

더하기

빼기

곱하기

나누기

지수

연산의 순서 정함

<관계 연산자>

관계 연산자는 두 값을 비교하는 등 주로 값들 간의 관계를 설정하는 데 사용합니다.

기호

의미

<

>

<

>

=

~=

~보다 지다

~보다 크다

~보다 작거나 같다

~보다 크거나 같다

같다

같지않다

<논리 연산자>

두 개 이상의 관계식을 결합하기 위해 혹은 작성한 조건식을 보다 정교화하기 위하여 논리 연산자를 사용합니다.

기호

의미

& (and)

I (or)

~ (not)

또한

또는

아니면

연산자 외에 다양한 함수들을 이용할 수도 있습니다. SPSS에서는 통계, 산술, 문자, 날짜지정, 분포 등에 관련한 다양한 함수들을 사용할 수 있습니다. 함수들에 관한 상세한 내용이 필요한 경우에는 SPSS에 내장되어 있는 도움말을 참조해보시기 바랍니다.

d. 조건선택 Box: 필요할 경우, 데이터의 변화 과정에 조건식을 사용하여 특정 조건에 적합한 케이스만 선택할 수 도 있습니다. .

2. 변수 계산 실습

이제 변수 계산의 의미와 실행하는 방법에 대하여 간단히 이해하셨으리라 생각됩니다. 이제 실제 사례들을 가지고 직접 실습을 해보도록 하겠습니다. 본 강의를 들으시면서 ’실습 data 01.sav' 파일을 여신 후 직접 따라해보시면 더 쉽게 이해하실 수 있으리라 생각합니다.

a. 간단한 산술 연산으로 새 변수 만들기

가장 기본적인 변수 계산의 예로서 더하기, 빼하기, 곱하기, 나누기 등의 산술 연산자를 이용하여 하나의 새로운 변수들을 만들어보기로 하겠습니다. 우선 분석하기 전에 어떤 상황에서 이런 변수 만들기가 필요한지 실습용 설문지의 예를 들어보기로 하겠습니다.

실습문제1) C-8번 문항을 보면 연간 평균 테이프 사용 분량에 관한 설문 문항을 가지고 있습니다. 만일 이를 월간 사용량으로 바꾸고 싶은 경우 어떻게 해야 할까요?

(답변 1) : ‘연간사용량 / 12’, 즉 연간 사용량을 12개월로 나누어주면 간단히 구할 수 있을 것입니다. 즉 ‘변수계산’ 대화창에서 다음과 같이 입력을 하면 됩니다. 우선 새롭게 변수가 만들어지기 때문에 새로운 변수명을 임의로 지정합니다. 여기서 변수명은 ‘zzz01'입니다그리고 C-8번 문항의 SPSS 변수명은 'c22'이므로 이 변수를 찾아 숫자표현식에 넣고 12개월로 나누어주면 됩니다.

변수계산전과 변수계산후의 결과를 비교해보면, 다음과 같습니다. 연평균 테입 분량은 6.7개 였지만, 월별 소요량으로 변환한 후에는 0.558개로 변한 것을 볼 수 있습니다.

실습문제 2) C-8번 문항을 사용하여 연간 촬영 시간을 구하시오. 단 테입 1개 분량은 60분을 찍을 수 있다고 가정합니다.

답변 2) 연간사용량 * 60을 하면 간단하게 촬영시간을 구할 수 있으며, 분석 결과는 연간 402.2분의 시간을 촬영하고 있는 것으로 나타났습니다.

실습문제 3) 캠코더에 대한 소비자 만족도를 조사하기 위하여 아래와 같은 만족도 문항을 7점 척도로 조사하였습니다.

그러나, 보통 과거에는 만족도를 100점 만점으로 평가하였기 때문에 새로운 조사 결과와 과거 조사 결과를 직접 비교하는 것이 곤란해졌습니다. 이 문제를 해결하기 위해서 7점 척도를 100점 만점으로 환산하고자 합니다. , 7점 척도의 1점은 100점 만점의 0, 4점은 50, 7점은 100점이 되도록 환산하십시요.

(답변 3) (변수 - 1) * (100 / 6)와 같은 계산식으로 쉽게 구할 수 있습니다. 여기서 (변수 - 1)을 한것은 7점 척도에서 1점을 선택한 사람의 점수를 0점으로 환산하기 위해서입니다. 그리고 (100 / 6)한 값을 곱해줌으로서 0~ 100점 사이의 값을 갖는 100점 척도로 전환이 가능합니다.

3. ‘코딩 변경의 이해

코딩이란 변수값을 의미합니다. 즉 각 변수들은 구체적으로 변수 값들을 갖습니다. ‘가족내 지위는 하나의 변수이며, 구체적인 변수값으로는 가장, 주부, 자녀, 기타 등의 값을 갖을 수 있습니다.

변수값의 코딩 변경에서는 범주나 분류를 다시 변경하는 방식으로 새로운 변수를 만들거나 기존 변수들을 변경할 수 있습니다, ‘가족내 지위라는 변수를 그대로 유지하면서 변수값만 1(가장), 2(기타)로 간단하게 변경할 수 도 있고, ‘가족내 지위2’라는 새로운 변수를 만들어서 변수값을 1(가장), 2(기타)로 지정할 수도 있습니다.

SPSS는 이 두 가지중 한 방식을 선택하여 변수 값을 변경할 수 있도록 해줍니다. 코딩 변경을 하기위에서는 메뉴 바에서 변환(T) -> 같은 변수로 코딩변경(S), 혹은 다른변수로 코딩변경(R)을 선택하시면 됩니다.

본 수업에서는 다른 변수로 코딩변경하는 방법만을 설명드리도록 하겠습니다. 기본적으로 명령어나 변경 순서가 두가지 방식 모두 동일하기 때문입니다. 아울러, 가능하다면 항상 다른변수로 코딩변경하는 습관을 들이시기 바랍니다. 언제 어떤 상황에서 원본 데이타가 필요할지 모르기 때문에 가능하면 원본 데이타는 훼손하지 않는 것이 좋기 때문입니다.

기존 변수값을 이용하여 새로운 변수로 코딩변경하기 위해서는 우선 변화(T) -> 다른변수로 코딩변경(R)을 차례로 선택하셔서 코딩 변경 대화상자가 나타나도록 해야 합니다.

왼쪽 상자는 데이타에 포함된 모든 변수들을 보여주고 있는데, 이중에서 코딩을 변경할 기존의 변수를 선택한 후, 대화 창의 중앙에 있는 ‘숫자변수(V) ->출력 변수’ Box로 옮깁니다. 여기서는 응답자의 가족내 지위를 표시하는 변수인 'id1'을 선택하였습니다.

변수를 옮긴 후 ‘?’가 표시된 것을 볼 수 있습니다. 이는 코딩을 변경하여 새로운 변수를 만들었기 때문에 새 변수에 필요한 변수명이 현재 없다는 의미입니다. 이제 변수명을 하나 만들어 주도록 하겠습니다변수명을 지정할 때는 대화 창의 좌측에 있는 ‘출력변수’란에 새로운 변수의 이름을 지정해주면 됩니다. 그리고 바꾸기버튼을 눌러 줍니다.

이제 새로운 변수에 기존 변수의 변수값을 코딩만 변경해서 옮겨줄 차례입니다. 이를 위해서는 대화 창 하단의 기존 값 및 새로운 값(O)' 버튼을 눌러주시기 바랍니다.

이를 클릭하면 변수값을 재지정하기 위한 새로운 대화창이 열리게 됩니다. 대화창 좌측의 ‘r기존값(V)' 상자안에 변환 전의 변수값을 입력하고, 창 우측의 ’새로운 값(A)' 상자안에 변환하고자 하는 변수값을 입력한후 추가버튼을 선택합니다. 그러면 기존값이 새로운 값으로 변환된 값이 나타나며, 이를 반복하여 원하는 데로 코딩이 변경된 새로운 변수를 얻습니다본 예시에서는, 1=가장, 2=주부, 3=자녀, 4=기타로 되어있던 기존값을 1=가장, 2=기타로 단순화하고자 하였기 때문에 아래 대화창과 같은 결과를 얻을 수 있습니다.

: 청주대학교 이 원준 (meetme77@naver.com)

 

728x90
728x90

1. SPSS 데이타의 편집

입력이 완료된 이후의 데이타라도 데이타 편집기를 활용하여 얼마든지 추후에 이를 수정할 수 있으며, 필요할 경우 다양한 편집 활동을 할 수 있습니다.

,

- 입력된 변수 값의 삭제나 수정이 가능합니다. 마이크로소프트 엑셀과 같이 직접 커서를 움직여서 새로운 값을 기존 값 위에 입력하거나, 기존 값을 삭제 후 재입력할 수 있습니다.

- 변수 값을 복사하여 옮겨붙이기도 가능합니다. 하나의 셀이나 여러개의 셀, 혹은 행이나 열 단위의 데이타를 삭제하거나 다른 곳에 복사할 수 있습니다.

이처럼 데이타를 편집하기 위해서는 다음과 같은 절차가 필요합니다.

1) 삭제하거나 복사하고 싶은 셀들을 지정합니다. 마우스 오른쪽 버튼을 누르면 한 개의 셀을 지정할 수 있고, 쉬프트키를 누른상태에서 마우스를 누르면 여러개의 셀을 한번에 지정할 수 있습니다.

2) 마우스 오른쪽 버튼을 누르거나 메뉴의 편집(E)에서 잘라내기(T)나 복사(C)를 선택합니다. 잘라내기는 원래 셀로부터 다른 셀로 데이타를 이동함을 의미하며, 복사는 똑같은 셀의 내용은 다른 셀에 하나 더 만드는 것을 의미합니다.

3) 복사해 붙이기 원하는 셀의 위치에 마우스 커서를 옮깁니다.

4) 마우스 오른쪽 버튼 혹은 메뉴의 편집(E)에서 붙여넣기(P)를 선택합니다.

2. 행과 열의 추가 및 삭제

기존의 파일에 새로운 케이스를 추가하거나 삭제할 수 있습니다. 이를 설명하기 위해서 5차시에서 사용하였던 간단한 설문 문항과 데이타를 다시 보도록 하겠습니다.

문항 1. 당신이 좋아하는 과목은 다음중 무엇입니까 1) 수학 2) 과학 3) 영어 4) 기타

문항 2. 당신의 평균 기말고사 점수는 몇 점입니까? 직접 입력하여 주시기 바랍니다. ________

문항 3. 당신의 성별은 무엇입니까 1) 남성 2) 여성

이런 간략한 설문 조사를 통하여 10명의 응답자로부터 얻은 설문 결과를 데이타 윈도우에 정리한 것이 아래 화면입니다. 그런데 만일, 뒤늦게 학생 1명으로부터 추가적으로 설문지를 받게 되었을 때는 어떻게 해야 할까요? 우선 생각해볼 수 있는 가장 간단한 방법은 마지막 행인 11번째 행에 새로 응답을 받는 학생이 데이타를 추가하면 될 것입니다.

하지만 경우에 따라서는 특정 행에 새로 얻은 설문지를 삽입해야 하는 경우도 생깁니다. 예를 들면 데이타가 학번이나 날짜와 같이 일정한 순서를 가지고 있는 경우들입니다. 만일 첫번째 행과 두번째 행 사이에 새로 얻은 데이타를 추가하고자 할 때의 절차를 살펴보도록 하겠습니다.

1) 행을 추가하기 위해서는 추가하고자 하는 행 번호에 마우스를 왼쪽 클릭한다. 그러면 해당 행 전체가 블록으로 지정된다

2) 마우스 오른쪽 버튼을 누르거나 메뉴의 편집(E)에서 케이스 삽입(I)’을 선택하면 새로운 행이 공란으로 추가되며, 공란의 각 셀은 마침표(.)로 나타납니다. 그리고 기존에 있던 행은 다음 행으로 자동적으로 밀려납니다.

3) 새롭게 생긴 행의 셀이 추가하고자하는 데이타를 입력하면 됩니다.

만일 설문 문항이 증가하거나 변수가 추가되었을 경우에는 어떻게 해야 할까요? 변수가 추가되었을 경우에는 열(column)을 증가시키게 되며, 그 과정은 행(raw)을 추가하는 과정과 동일합니다. 첫번째 변수로 V1이 아니고 설문지의 일련번호를 의미하는 'no'라는 새로운 변수를 추가하는 과정을 살펴보도록 하겠습니다.

1) 열을 추가하기 위해서는 추가하고자 하는 열 번호에 마우스를 왼쪽 클릭한다. 그러면 해당 열 전체가 블록으로 지정된다

2) 마우스 오른쪽 버튼을 누르거나 메뉴의 편집(E)에서 변수 삽입(I)’을 선택하면 새로운 열이 공란으로 추가되며, 공란의 각 셀은 마침표(.)로 나타납니다. 그리고 기존에 있던 열은 다음 열로 자동적으로 밀려납니다.

3) 새롭게 생긴 열의 셀의 설문지의 일련번호인 1~11을 입력하면 됩니다.

3. 데이타의 정리

최근에는 온라인을 통한 설문 조사가 많이 진행되고 있습니다. 온라인으로 조사가 진행될 경우, 대부분 응답자의 응답 결과는 자동으로 SPSS에서 직접 읽어들일 수 있는 파일 포맷인 엑셀이나 txt 형태로 저장됩니다. 그 결과 응답 결과는 별다른 처리없이 신속하게 바로 SPSS에서 사용할 수 있습니다.

그러나 아직은 조사원이 직접 응답대상자를 찾아가서 설문지를 받아오는 전통적인 면대면 방식의 조사 방식이 보다 많이 활용되고 있습니다. 면대면 방식이 더 많은 시간과 비용이 소요되지만 응답자들의 협조를 구하는 것이 용이하고, 조사의 신뢰성도 더 높기 때문에 여전히 선호되고 있습니다.

이런 면대면 방식의 응답 결과는 종이로 인쇄된 설문지를 통하여 얻게되기 때문에, SPSS로 분석하기 위해서는 종이에 적힌 응답 결과를 SPSS가 인식할 수 있도록 직접 키보드를 두들겨서 데이타 윈도우에 값을 입력하거나, 엑셀 혹은 TXT 파일로 작성한 이후에 다시 SPSS로 읽어와야 합니다. 우리는 이 과정을 펀칭(punching)’ 이라고 합니다.

펀칭이라고 부르는 이유는 지금은 생소하지만 60~70년대 컴퓨터 초창기에는 실제로 종이 카드에 천공기로 구멍을 뚫어서 직접 데이타를 입력했기 때문에 그런 이름이 붙었다고 합니다.

그러나, 사람의 손을 거쳐 종이에 적힌 데이타가 컴퓨터가 인식할 수 있는 디지털 파일로 바뀌는 과정에서 착오나 오타로 잘못된 정보들이 입력되는 경우들이 종종 있습니다. 데이타 정리, 혹은 데이타 클린싱(cleansing)은 이런 잘못된 데이타들을 교정해서 바로잡는 과정이라고 할 수 있습니다.

우선 아래 설문지와 입력된 데이타 파일을 비교해보면서 입력이 잘못되었다고 의심할 만한 사례가 있는지 확인해 보도록 하겠습니다.

문항 1. 당신이 좋아하는 과목은 다음중 무엇입니까?   1) 수학 2) 과학 3) 영어 4) 기타

문항 2. 당신의 평균 기말고사 점수는 몇 점입니까? 직접 입력하여 주시기 바랍니다.   ________

문항 3. 당신의 성별은 무엇입니까?   1) 남성 2) 여성 

이미 찾으셨는지요? 이 데이타와 설문지를 비교해보면 10번째 응답자의 V3 변수에 이상이 있는 것을 알 수 있습니다. 실제 V3변수는 응답자의 성별 변수이며, 취할 수 있는 변수 값은 1=남성, 2=여성인데 입력값은‘3’입니다.

이런 오류가 나타날 가능성은 크게 두가지 입니다.

1) 설문 응답자가 실제로 틀리게 ‘3’을 쓴 경우, 혹은

2) 응답자는 1이나 2로 바르게 썼으나 펀칭 과정에서 오타가 발생한 경우입니다.

이를 확인하기 위해서는 실제 종이로된 설문지를 다시 찾아보고 응답 결과를 확인하는 수 밖에 없습니다. 확인시 해당 열에서 오름차순정렬이나 내림차순정렬을 잘 사용하면 이런 작업을 보다 손쉽게 할 수 있습니다.

만일 설문에 응답한 응답자가 수백 혹은 수천명을 넘을 정도로 너무많다면, 이중에서 잘못 펀칭한 설문지를 어떻게 찾느냐고요? 이런 경우를 대비해서 각 설문지에는 설문지 일련번호를 붙일 것을 권장하며, 관습적으로 spss 데이타의 첫번째 변수, 즉 첫번째 열에는 보통 설문지 일련 번호를 부여하게 됩니다.

4. 케이스 선택

이제 데이타의 정리까지 끝났고, 본격적으로 분석할 준비가 되어 있습니다. 그런데 경우에 따라서는 준비된 데이타를 모두 사용하지 않고 데이타 파일의 일부 케이스만 이용하여서 분석을 해야하는 경우가 있습니다.

문항 1. 당신이 좋아하는 과목은 다음중 무엇입니까?   1) 수학 2) 과학 3) 영어 4) 기타

문항 2. 당신의 평균 기말고사 점수는 몇 점입니까? 직접 입력하여 주시기 바랍니다.   ________ 점 

문항 3. 당신의 성별은 무엇입니까?   1) 남성 2) 여성

일예로, 위와 같은 설문조사를 통하여 조사를 완료하고 데이타를 모두 가지고 있지만, 수학 선생님이 특별히 수학과 관련된 내용을 분석하고 싶어할 수도 있고, 혹은 남자의 성적만이 궁금한 경우가 있을 수 있습니다. 이 경우 특정한 케이스만 선택하여 분석을 할 수 있게 해주는 메뉴가 케이스 선택(S)' 입니다.

예로 남학생만의 기말고사 점수를 보고 싶은 경우를 중심으로, 어떤 단계를 거쳐 케이스 선택이 진행되는지 살펴보겠습니다.

1) 메뉴 바에서 데이타(D)'를 선택한 후 차례로 케이스선택(S)'을 클릭합니다. 그려면 아래와 같이 케이스 선택 대화상자가 나타납니다. 케이스 대화상자의 왼쪽 창에서는 데이타 파일에 있는 모든 변수들을 보여주고 있습니다.

2) 여기서 선택가능한 버튼중에서 조건을 만족하는 케이스(C)'를 선택한 후, 다시 바로 밑에 있는 조건(I)' 버튼을 클릭합니다.

 

3) 조건 버튼을 클릭하면 다시 보다 작은 크기의 조건 대화상자가 나타나게 됩니다. 여기서 우리는 남학생만을 선택하여 분석할 것이기 때문에 성별을 나타내는 변수인 'V3' 변수를 클릭한 후 화살표 버튼을 눌러 우측으로 옮겨놓습니다. 그리고 변수 값을 지정하게 됩니다. v3의 변수 값을 보면 1=남자, 여자=2이므로, 'V3=1'을 입력하면 남자만 선택되게 됩니다. 입력하는 방법은 직접 키보드로 입력을 해도되고, 대화 상자 중앙의 전자계산기처럼 생긴 버튼들을 이용하여 입력하여도 됩니다.

4) 자 이제 지정이 끝났습니다. 지정이 잘 끝났는지 확인하려면, 다시 데이타 윈도우로 돌아가 보십시요. 만일 모든 과정이 잘 끝났다면, 데이타 윈도우에서 v3=2, 즉 성별 변수가 여자인 경우에는 행 번호를 보여주는 첫번째 박스에 / 표시가 되어 있는 것을 볼 수 있을 것입니다. 아울러 ‘filter_S'라는 변수가 하나 더 생긴 것을 볼 수 있는데, 0인 변수 값은 분석에 사용하지 않는다는 의미이며, 변수 값이 1인 것은 분석에 사용한다는 의미입니다. 이렇게 지정이 된 이후에는 앞으로 어떤 분석을 하더라도 남자만이 분석에 포함되며 여자는 분석에서 제외될 것입니다.

5) 마지막으로, 케이스 선택은 다시 해제하지 않으면 지속적으로 앞으로의 모든 분석들에 동일한 영향을 미치게 됩니다. 따라서, 남학생을 대상으로한 분석이 끝나고, 다시 남녀 전체를 대상으로 분석을 해야할 경우에는 반드시 먼저 케이스 선택을 해제해주셔야만 합니다. 해제하는 방법은 케이스 선택 대화상자에서 모든 케이스를 선택해주시면 해제가 됩니다.

본 사례에서는 케이스 선택을 이해하기 위하여 남학생만을 선택하는 지극히 간단한 예를 사용하였습니다. 하지만, 케이스 선택 대화상자에서 제공하는 다양한 수식 기호나 함수들을 이용하여 더욱 복잡한 조건들을 사용하여 케이스를 선택하는 것도 가능합니다.

예를 들어서 평균 점수가 80점 이상인 우등생만을 대상으로 분석하고자 할때는 조건 대화상자안에 “v2 > 79'라는 간단한 수식으로 원하는 케이스만을 선택할 수 있으며, 이 수식을 조금 더 응용하면 수학이 50점 미만인 남자와 같이 여러개의 변수들을 같이 사용하여 보다 복잡한 조건을 충족하는 케이스만을 선택할 수도 있을 것입니다.

: 청주대학교 이 원준 (meetme77@naver.com)

728x90
728x90

1. 데이터 파일 생성

SPSS에서 처리할 데이터를 작성하기 위한 방식은 크게 3가지 방식을 사용할 수 있습니다. 첫째 아래한글이나 텍스트 편집기를 이용하여 입력을 받거나, 둘째 엑셀로 준비한 파일을 입력받을 수 있습니다. 그리고 셋째 바로 SPSS의 데이터보기 창에서 직접 데이터를 입력하여 데이터 파일을 만들 수도 있습니다. 세가지 방법 모두 사용 가능하지만,, 보통 사용 목적에 따라 적합한 방식이 있으므로 필요에 따라 선택하여 사용하면 됩니다.

세 가지 문항으로 이루어진 간단한 설문자료를 이용하여 데이터 파일을 생성하는 법을 배워보겠습니다.

문항 1. 당신이 좋아하는 과목은 다음중 무엇입니까?

1) 수학 2) 과학 3) 영어 4) 기타

문항 2. 당신의 평균 기말고사 점수는 몇 점입니까? 직접 입력하여 주시기 바랍니다 ________

문항 3. 당신의 성별은 무엇입니까?

1) 남성 2) 여성

1) 아래한글 혹은 텍스트 입력기를 활용하는 방법

일반적으로 표본의 수가 매우 큰 조사 자료를 입력하는 경우 아래한글 같은 워드프로세서를 입력하여 txtASCII 파일 형태로 자료를 일괄적으로 입력하는 것이 편리합니다. 엑셀이나 SPSS 데이타보기 창에 비하여 이런 워드 프로세서들은 대용량 파일을 빠르게 처리할 수 있기 때문입니다. 간단히 10명의 응답자가 설문에 응답한 예를 들어보면 아래와 같이 설문지의 데이터를 고정 형태로 입력할 수 있을 것입니다.

설문지에 응답한 내용을 아래한글에 옮길 때 주의사항은 미리 각 변수의 자리 수를 생각해두어야 한다는 점입니다. 위 데이타의 첫 번째 응답자를 보면 ‘1 852’로 코딩되어 있습니다. 1은 첫번째 변수인 좋아하는 과목(수학)’이고, ‘85’점수’, 2성별(여성)’입니다. 85앞에 한 칸이 공란으로 띄어져 있는 이유는 점수는 최대 허용 가능한 점수가 100점으로서 최대 3칸의 자릿 수를 차지하기 때문에 100점 맞는 응답자를 대비해서 공간을 맞추어 놓은 것입니다. 본 데이타의 10번째 응답자를 보면 실제로 100점을 맞아 자리 수가 꽉 차 있음을 볼 수 있습니다.

다음 단계로는 이 파일을 아래 한글에서 새로운 이름으로 저장하면서, 파일 형식을 hwp가 아니라 txt로 저장하시면 SPSS에서 불러올 수 있습니다.

SPSS에서는 txt 파일도 다양한 형태로 불러 올 수 있지만, 가장 빈번하게 사용되는 방식을 위주로 설명드리겠습니다. 이제 SPSS를 열고 파일 -> 열기 -> 데이타열기 메뉴를 차례로 클릭하시면 아래와 같은 메뉴가 나옵니다. 이 데이터열기 창에서 저장해놓은 txt 파일을 열어 보겠습니다.

파일을 열면 자동적으로 텍스트 가져오기 마법사가 시행되는데, 우선 텍스트 1단계에서는 텍스트 파일이 사전에 정의된 형식과 일치하는지 확인합니다. 사전에 형식을 정의한 것이 없으므로 아니오를 선택합니다.

그리고 다음 단계로 넘어가면 txt 파일의 데이타가 구분자에 구분되어 있는지 고정 너비인지 묻는 질문이 나옵니다. 각 변수간 구분을 쉼표나 마침 표등 구분자로 하였을 경우에는 구분자에 의한 배열을 선택하지만, 보통 이렇게 하지 않습니다. 쉼표와 같은 구분자를 일일이 변수 사이에 입력하는 경우에는 그 수고가 적지 않기 때문에 보통 위에서 예를 든 것처럼 공간을 일정하게 배분하여 입력을 하게 됩니다.. 이런 경우 마법사 창에서 고정 너비로 배열을 선택하게 됩니다. 아울러 본 텍스트 파일에는 변수 이름이 포함되어 있지 않으므로 변수 이름이 파일의 처음에 있는지 묻는 질문에는 아니오를 선택하면 됩니다.

그 다음에도 몇 가지 단계가 남아 있지만 중요한 사항들은 아니므로 무시하고 계속해서 다음을 누르시면 4단계로 갑니다. 4단계에서는 읽어온 데이터의 자릿수를 구분해서 나눔으로써 변수의 개수를 지정하게 됩니다. 변수를 지정하는 방법은 박스 하단에 있는 데이타에 가서 각 변수에 해당하는 자리에서 마우스를 오른 클릭하면 변수 구분선이 자동 생성됩니다.. 이때 사전에 지정된 변수의 자릿수에 맞게 구분선을 클릭하시면 원하는 변수들을 얻을 수 있습니다. 구분선이 잘못되었을 경우에는 구분 삭제버튼을 누르셔서 취소할 수 있습니다.

완료하시면 이제 아래와 같이 SPSS의 데이타보기 창에 데이터 입력이 자동으로 완성된 것을 볼 수 있습니다. 이를 SPSS상에서에서 다른 이름으로 저장하여 SPSS만의 고유한 확장자인 data.sav로 다시 저장하시면 데이타 불러오기가 완료됩니다.

2) 엑셀을 활용하는 방법

최근에는 보다 보편적으로 엑셀을 활용하여 데이터 파일을 작성한 후 SPSS에서 읽어들이는 방법이 보다 많이 사용되고 있습니다. 그 이유는 우선 엑셀의 경우 엑셀의 열(칼럼) 하나가 하나의 변수에 해당되기 때문에 초보자가 입력 실수를 할 가능성이 아래한글을 이용한 경우보다 적다는 점입니다. 그리고 또다른 이유로 구글이나 인터넷을 활용하여 설문을 실시할 경우 이런 프로그램들은 기본적으로 설문 응답 결과를 엑셀 파일 형태로 저장해주기 때문에 매우 편리하기 때문입니다.

엑셀을 이용하는 경우 엑셀 한 개의 열이 SPSS에서 한개의 변수로 자동적으로 인식됩니다. 즉 아래와 같이 설문 응답한 데이터를 엑셀 차트에 저장한 이후에 data.xls 파일로 저장하면 됩니다. 아래의 엑셀 챠트를 살펴보면 10개의 응답자가 응답한 설문 결과 외에 맨 첫 번째 줄에 a1, a2, a3의 추가된 데이타가 있는 것을 볼 수 있습니다. 엑셀로 저장된 데이타를 불러올 때는 선택적으로 엑셀의 맨 첫 줄에 있는 내용을 변수 명으로 지정하여 불러들일 수 있습니다. 즉 이 엑셀 파일을 SPSS로 불러들이면 SPSS는 자동적으로 a1, a2, a3라는 이름을 가진 세개 변수를 자동으로 만들 것입니다.

이제 SPSS를 열고 파일 -> 열기 -> 데이타열기 메뉴를 차례로 클릭하시면 아래와 같은 메뉴가 나옵니다. 파일 유형을 xls로 변경하신 후 데이터 파일을 열 수 있습니다.

이때, ‘첫행에서 변수 이름 읽기옵션을 선택하시면 엑셀의 첫 줄에 있는 데이터는 데이터가 아니라 변수 이름으로 읽힐 것입니다. 이 과정을 거치면 SPSS의 데이타보기 창에 데이터 입력이 완성된 것을 볼 수 있습니다.

3) SPSS를 활용하는 방법

SPSS데이타보기창을 엑셀 창처럼 활용해서 데이터를 직접 입력할 수 있습니다. SPSS의 데이타보기창의 각 셀에 직접 원하는 데이터를 입력하거나 삭제할 수 있습니다. 이 방법은 가장 간단한 방법이지만, SPSS의 데이타데이터 입력 속도가 아래 한글이나 엑셀에 비하여 현저하게 느리기 때문에 많은 양의 데이터를 처리할 때는 적합하지 않습니다. 다만, 기존의 데이타에 내용을 변경하거나 일부 추가할 때는 유용하게 사용될 수 있습니다.

또한 각 열의 이름인 변수 명이나 각 행의 번호에서 마우스를 오른 클릭하면 특정 열이나 줄을 삽입하거나 삭제할 수 있으며, 정렬할 수 있는 메뉴가 나타납니다. 이를 이용하여 데이터를 정리하는 것도 가능합니다.

2. 변수의 정의

SPSS데이타 보기창은 엑셀과 마찬가지로 데이터 파일을 수정하거나 편집하는 데 있어서 편리합니다. 데이타 보기창은 크게 3가지로 구성되어 있습니다.

1) (row) : 각 행은 설문에 응답한 개인을 나타냅니다. 일예로 100명이 응답한 경우 기본적으로 100개의 행이 생성됩니다.

2) (column) : 각 열은 변수를 나타냅니다. 설문지 문항에 10개의 변수가 있는 경우 기본적으로 10개의 열이 생성됩니다.

3) (cell)“ 각 설문 응답자들이 응답한 변수의 값을 의미합니다.

 

 

SPSS를 이용하여 분석하기 이전에 각 변수들은 변수의 이름(변수명), 데이터의 형식, 변수의 속성, 속성 값 들이 정의될 필요가 있습니다. 변수와 관련된 이런 작업들은 메뉴 창의 데이터-> 변수특성 정의를 선택하는 방식으로 이루어질 수 있지만, 보다 직관적이고 편리한 방식으로 SPSS에서는 변수 보기탭을 별도로 제공하고 있습니다.

변수의 정의를 설명하기 위하여 다시 앞부분에서 제시되었던 설문지의 예를 들어 설명하기로 하겠습니다.

문항 1. 당신이 좋아하는 과목은 다음 중 무엇입니까?

1) 수학 2) 과학 3) 영어 4) 기타

문항 2. 당신의 평균 기말고사 점수는 몇 점입니까? 직접 입력하여 주시기 바랍니다 ________

문항 3. 당신의 성별은 무엇입니까?

1) 남성 2) 여성

위와 같은 설문지에 응답한 응답자 두 사람의 응답 값을 SPSS의 데이타보기 창에 직접 입력하였다고 합시다. 응답자1은 각각 1) 수학, 89, 1) 남성을, 응답자 22) 과학, 90, 2) 여성으로 답하였습니다. 이를 데이터 보기 창에 아래와 같이 직접 입력해 봅시다. 데이타의 입력을 완료할 경우, 문항 1)을 하나의 변수로 간주하게 되며, 문항2와 문항 3 역시 각각 하나의 변수로 정의함으로써 총 3개의 변수가 생성되게 됩니다. 변수 이름은 SPSS에서 자동으로 Var00001처럼 부여하게 됩니다.

 

그러나 자동으로 부여되는 Var00001같은 변수 이름은 자신이 보다 잘 이해할 수 있는 변수 이름으로 변경하는 것이 편리하며, 아울러 향후 분석을 위해서는 변수의 특성들을 다시 정리할 필요가 있습니다. 이런 작업들은 프로그램 하단의 ‘변수보기’ 탭을 누르면 할 수 있습니다.

‘변수 보기’.

우선 첫번째 열에는 변수 이름이 있습니다. 변수 이름은 영어 알파벳과 숫자를 조합하여 직접 입력함으로써 변경할 수 있습니다. 그외 특별한 규칙은 없지만 보통 연구자가 알아보기 쉬운 규칙을 정하여 이름을 붙이게 되며, , 한글 이름은 권장되지 않습니다. 한글SPSS 버전에는 이용이 가능하지만 영문판 SPSS에서 구현이 되지 않아 향후에 데이터를 교환하거나 공유할 때 호환성 문제가 발생되기 때문입니다.

두번째 열에는 유형이 있습니다. 데이타의 유형은 크게 여러 가지가 있습니다. 유형칸에 있는 셸을 클릭하면 선택할 수 있는 여러 가지 유형이 나타나면 자기에게 적합한 유형을 선택하면 됩니다. 이중에서 가장 빈번하게 사용되는 변수의 유형은 숫자와 문자입니다.. 숫자는 데이터 보기 탭에 있는 데이터가 아라비아 숫자로 이루어져 있을 경우 선택하게 됩니다. 이때 주의하여야 할 점은 여기서 이야기하는 숫자는 사칙연산이 가능한 숫자와 더불어 특정 이름을 지목하는 단순한 기호 형태의 숫자도 포함한다는 점입니다. 일예로, 위의 설문에서 문항 2)는 평균 점수로서 계산이 가능한 명백한 숫자이지만, 문항 1)의 경우처럼 숫자 1이 단지 특정 과목을 지칭하는 기호에 불과함에도 불과하고 여기서는 숫자로 지정해야 합니다. 즉 변수 유형에서는 단순히 데이터 보기 창에서 어떤 외형적인 형태로 데이터가 입력되어 있는지만을 기준으로 합니다. 아울러 선택할 수 있는 변수 유형중에 문자는 데이터 형태가 한글이나 영문 문자인 경우에 해당됩니다. 일예로 응답자에게 ‘Kim’이나 이 원준직접 자기 이름을 쓰도록 설문 문항이 되어 있다면 이 문항의 변수는 문자로 지정해야 할 것입니다. 그외 변수 유형은 자주 사용되지 않으므로 차차 알아보도록 합시다.

셋째 열과 넷째 열은 데이터의 크기를 지정할 수 있습니다. 즉 데이타의 자릿수와 소수점 이하 자릿수를 지정합니다. 너비가 8이라는 것은 최대 8자리까지 입력이 가능하며, 소수점 이하가 2라는 것은 소수점 둘째 자리까지 허용한다는 의미입니다. 즉 이런 경우에는 99999999.99가 최대 허용값이 될 것입니다. 다만 유형이 문자인 경우에는 다소 주의가 필요합니다. 영어 알파벳 한글자는 한 자리를 차지하지만 한글은 한 글자가 두 자리를 차지합니다. 그 결과 너비가 8로 지정된 경우 영어는 ‘abcdefgh'8글자까지만 입력이 가능하고, 한글은 가나다라4글자만 입력이 가능합니다. 더 길이가 긴 문자를 입력하기 위해서는 해당 셀을 클릭해서 원하는 크기만큼 변수의 너비를 늘리거나 줄일 수 있습니다.

다음은 다섯 번째 열의 ‘설명’ 입니다. 설명은 말 그대로 변수에 대하여 상세하게 설명을 붙일 수 있습니다. 영어와 숫자로만 구성된 변수 이름만을 보고 그 변수가 어떤 변수인지 알기는 어렵습니다. 그 결과 분석자의 이해를 돕기 위하여 설명을 첨가하게 됩니다. 변수의 의미에 대하여 자유롭게 설명을 첨가할 수 있습니다.

여섯 번째 열은 변수 값입니다. 변수 값에 대한 이해를 하기 위해서는변수변수 값의 차이를 간단히 알아야 합니다. 변수는 설문의 문항이라고 생각하시면 되고 변수 값은 문항에서 선택 가능한 혹은 입력 가능한 답변이라고 생각하시면 됩니다. , 위 설문지의 예에서 성별을 물어보는 문항 3)은 하나의 변수가 되고, 문항 3)의 보기인 1. 남자, 2. 여자는 변수 값이 됩니다. 그러나 변수 값이 각각 남자나 여자와 같은 구체적인 내용을 담고 있지만 SPSS에서는 12로만 입력이 되었습니다. 향후 분석시 분석 결과가 1, 혹은 2로 표시된다면 이것이 무슨 의미인지 파악하기가 어려울 수 있습니다. 변수 값을 붙이지 않더라도 분석은 이루어지지만, 분석 결과의 이해를 편리하기 위해서 보통 변수 값을 붙이게 됩니다.

변수 값을 지정하는 방식은 간단합니다. 변수 값에 해당되는 셸을 클릭하시면 아래와 같이 대화창이 나타납니다. 여기에 변수에 해당되는 값을 입력한 후,, 추가로 변수 값에 대한 설명을 입력하고 ‘추가’‘추가’ 버튼을 누르시면 됩니다. 모든 변수 값에 대한 입력이 완료되면 확인버튼을 누르시면 됩니다.

마지막으로 일곱 번째 열의 결측 값을 설명드리겠습니다. SPSS에서 처리가능한 결측 값은 시스템상의 결측치와 응답자의 결측 값으로 구분됩니다. 시스템 결측치는 데이타가 기록될 셀이 공백인 경우로서 보통 마침표로 표시됩니다. 그러나 응답자 결측치는 해당 문항이 누락되었음을 표시하기 위하여 어떤 특정한 값을 부여한 것입니다. 보통 9 혹은 99 등의 값을 응답자 결측치로 부여하게 됩니다. 일단 여기서 9혹은 99를 결측치로 지정하게 되면 ‘‘데이터 보기’ 창에’창에 999 같은 값이 있더라도 숫자로 인식하지 않고 무응답으로 인식하여 각종 계산에서 제외되게 될 것입니다.

: 청주대학교 이 원준 (meetme77@naver.com)

 

 

728x90

+ Recent posts