728x90

[Jamovi 통계] 4. 기술통계와 그래프 그리기

데이터 입력 과정을 잘 이해하고, 코딩까지 마친 이후에는 이들 데이터를 가지고 본격적인 분석을 시행하게 된다. 이하 별도의 다른 안내가 없을 시, 향후 본 jamovi 실습의 데이터는 여러분이 3장에서 직접 입력한 '코로나 바이러스 이후의 소비자 행동'에 관한 실제 설문자료를 사용하게 될 것이다(본 데이터의 변수 정의와 설문문항은 3장 참조: https://sooupforlee.tistory.com/138?category=882298).

데이타546명.omv
0.01MB

1) 기술통계란?

기술 통계는 표본 자체의 속성을 파악하여 묘사는데 주안점을 두고 있는 분석 방법이며, 기술을 의미하는 description은 이를 잘 표현한다. 기술통계는 주로 표본에 속한 대상자들의 인구통계적 특성이나 데이터가 보여주는 공통적 특성을 요약하여 보여주는 것이 주목적이다. 이를 통하여 방대한 데이터도 합리적으로 요약하고 정보처리의 수고를 덜 수 있다. 일예로, 우리는 미국인들은 진취적이며, 프랑스인들은 예술을 사랑한다고 생각한다. 물론 미국인들중에도 소극적인 사람도 있고 프랑스인들중에도 예술에 무관심한 사람들이 적지 않을 것이다. 우리는 이런 예외가 항상 적지않게 있음을 충분히 알고 있음에도 불구하고, 이들의 국민성을 한 눈에 파악할 수 있는 정보가 유용하다는 것 역시 잘 알고 있다. 나중에 어떤 통계분석을 하더라도 기술통계를 통하여 표본 전체의 전반적인 속성을 정확하게 파악하는 것은 거의 모든 통계분석의 기초가 된다. 

여러가지 기술통계량이 있지만, 주요한 통계량으로는 가) 중심경향성, 나) 산포도, 다) 분포, 라) 백분위수 정도가 이용된다. 각각의 설명은 다음과 같다. ** 본 기술통계량이 중요한 이유는 대학원이나 연구기관의 학술적인 데이터 분석인 경우를 제외하고, 일상적인 데이터 분석이나 소비자 조사 등 리서치에서는 대부분의 데이터 분석들이 기술통계량을 위주로 이루어진다는 점이다. 기술통계량은 분석 자체도 쉽지만, 수학이나 통계에 대한 지식이 없어도 직관적으로 이해가능하기 때문에 사실상 거의 대부분의 일상적 기업실무에서는 기술통계만이 쓰이는 경우도 적지 않다. 물론 회귀분석이나 신경망 분석도 고도의 통계분석의 사용도 증가하고는 있지만, 이는 나중에 필요하다면 추가로 배워나가면 될 뿐이다.**

  가) 중심 경향성

: 중심 경향성이란 용어 그대로  데이터가 중심을 중심으로 퍼져있는 경향을 나타내는 통계량이다. 일예로 100명이 본 시험 점수가 0점부터 100점까지 고르게 분포되어 있다면, 우리는 대부분의 사람들, 특히 중간에 속한 사람의 점수는 0점이나 100점이 아니라는 것을 안다. 기술통계량은 이 중간에 속한 사람이 누구인지 확인하게 도와준다. 이를 확인할 수 있는 대표적인 값은 여러가지가 있는데, 우선 평균(mean), 중위수(median), 최빈값(mode)이다. 평균은 이미 익숙한 개념이고, 중위수는 100명의 성적 서열(순서)을 매겼을때 가장 가운데 위치한 사람의 점수를 의미하는 값이다. 반면에 최빈값은 100명의 성적중 가장 많이 발견되는 빈도의 값이다.

 나) 산포도

: 산포도는 표본의 속성을 나타내는 데이터가 퍼져 있는 정도를 설명하는 통계량으로서 최대값, 최소갑, 범위, 분산, 표준편차, 표준오차 등이 있다. 이중 최댓값(maximum)과 최소값(minimum)은 각각 데이터에서 가장 작은 값과 가장 큰 값을 나타내며, 범위(range)는 최대 및 최소값 간 차이, 즉 '최대값-최소값'을 나타낸다. 그러나 이 세 가지 통계량은 여전히 데이터의 전반적인 흩어짐과 변화량에 대한 정확한 정보를 제공해 주지 못한다. 일예로 두 학급의 평균이 70점으로 동일하더라도, A반은 성적 분포가 0점~100점까지 극단적이고, B반은 성적이 60-80점 사이로 큰 차이가 없을 수 도 있다. 이런 데이터의 흩어짐 정도에 대한 정보가 없다면 우리는 어떤 교사가 더 편애없이 잘 지도했는지 알기가 어려울 것이다. 이를 위해 또 다른 산포도 통계량, 즉 분산, 표준편차, 그리고 표준오차가 필요하다. 분산, 표준편차, 그리고 표준오차는 기본적으로 각 데이터가 평균으로부터 떨어진 거리들에 대한 평균 개념으로 이해하면 무방하다. 자세한 설명은 본 과정의목표를 넘어가므로 생략하며, 통계원론 등에서 찾아보기 바란다.

 다) 분포

: 데이터 분포의 형태와 대칭성을 보여주는 통계량으로, 보통, 첨도(Kurtosis)와 왜도(skweness)를 본다. 첨도는 데이터의 정규분포도가 뾰족한 정도를, 왜도는 데이터의 분포가 뾰족한 정도를 보여준다.

 라) 백분위수

: 데이터를 4분위의 집단으로 나누고 각각에 해당되는 퍼센트를 보여준다

728x90

2) Jamovi 기초적인 기술통계

본 조사에 응답한 응답자의 성별 여부를 확인하여 우리는 남성과 여성의 %, 그리고 응답자의 평균적인 연령을 각각 살펴볼 것이다. 이를 위하여 우선 기본적인 기술통계를 위하여 '데이터546명.omv'라는 데이터 파일을 우선 연다. 그 이후의 단계는 간단하다. 상단의 '어날리세스' 메뉴 탭을 선택하고, 'Exploration(탐색)' -> 'Descriptives(기술)'을 차례로 선택한다.  그러면 다음과 같은 형태로 분석 창이 변화될 것이다. 기술통계의 기술은 '묘사하거나 서술한다(descript)'는 의미로 사용되고 있음을 알 수 있다. 즉 데이터를 요약하여 어떤 응답을 했는지 함축적으로 보여주는 매우 기초적인 분석이며, 주로 평균이나 빈도(%)의 형태로 데이터를 함축적으로 보여준다.

분석창의 설정

Jamovi는 분석과 결과보여주기 모두 매우 직관적인 방식을 택하고 있다. 분석 화면의 좌측에는 분석이 가능한 모든 변수들(변수 전체)를 보여주고 있는데, 이중 분석하고 싶은 변수들만 화면 우측의 'Variables'에 클릭하여 가져자 놓으면 된다. 그러면 친절한 Jamovi는 어떤 결과 값이 나왔는지를 실시간으로 바로 보여주게 된다. 화면의 'split by'는 분석값을 특정한 기준을 중심으로 나누어보고 싶을때 사용하는 메뉴이며, 이는 추후에 설명한다. 바로 그 아래에는 'Frequency table' 옵션을 지정할 수 있으며, 지정 시 빈토(%) 결과값을 보여준다.  추가적으로 분석 화면의 하단에 보면 두개의 옵션 메뉴가 숨겨져 있다. 즉 'Statisics'와 'Plots'이다. 우선 'Statisics'를 클릭하면 평균, 최빈값, 중앙값, 분포값, 퍼센타일 값등 다양한 추가 통계자료를 보여준다.  'Plots'은분석결과를보기좋은그래프형태로보여준다.

우선 테스트로 응답자의 평균 연령을 살펴보자. 이를 위해서는 단지 분석가능한 변수들중에서 연령(age)를 'Variable'창에 옮겨다 놓으면 된다. 결과값은 자동으로 산출된다. 추가적으로 응답자 성별(gender)를 분석해보자. 남녀 성별을 평균으로 본다는 것은 결과 값은 기계적으로 나오긴 하지만 아무런 의미가 없다. 이 경우 gender 변수를 'Variable'창에 옮겨놓은다음 아래의 'Frequency table' 옵션창을 클릭하면 된다. 추가적 통계옵션이 필요한 경우에는 옵션창에서 추가로 선택할 수도 있다. 

분석 케이스

분석 결과를 보면 Jamovi의 오른편 화면에 원하는 통계결과와 관련된 참고문헌이 실시간으로 나타나는 것을 볼 수 있을 것이다. 이로서 간단한 평균이나 빈도(%)의 분석을 할 수 있게 되었다. 분석해보고 싶은 다른 변수들이 있으면 자유롭게 분석해본다. 이를 통하여 우리는 척도의 특성(명목, 등간, 비율 등)에 따라서 어떤 분석방법이 적합한지, 혹은 적합하지 않은지 앞서 배운 내용을 상기하면서 체험할 수 있을 것이다. 일예로, 그래프(plots) 작성은 데이터 특성이 적절하지 않으면 옵션에서 지정을 하더라도 그래프를 산출해주지 않을 것이다(중국집에서 스테이크를 주문하는 경우를 생각해보자. 주문하더라도 결코 스테이크는 나오지 않는다).

 

728x90
728x90

1. 빈도 분석의 개요

빈도분석(Frequency)은 데이타의 전반적인 내용들이 도수분포표상에서 어떠한 분포적 특성을 가지고 있는지 요약된 정보를 제공하는 분석입니다. 빈도분석에서 제공하는 분포 관련 정보는 크게 빈도, 중심화 경향치, 그리고 분산도 들입니다. 또한 이 같은 특성치들을 보다 시각적으로 이해하기 쉽도록 도표를 제공할 수 있습니다.

1) 빈도와 중심화 경향

빈도는 우리가 흔히 퍼센트로 표시하는 개념으로서, 각 값들이 출현하는 횟수를 요약한 정보로서, 빈도 분석이 제공하는 가장 기본적인 정보입니다. 또한 빈도분석은 데이타의 중심화 경향(central tendency)을 보여주기도 합니다. 중심화 경향이란 관측된 데이타들이 어떤 형태로 집중되어 있는지를 알아보는 것으로서, 주로 최빈값, 중앙값, 그리고 평균과 같은 지표들을 이용하여 경향을 평가합니다.

- 최빈값(Mode) : 빈도수가 가장 많이 발생한 관측치

- 중앙값(Median): 수치로 이루어진 데이타들을 크기 순서데로 나열하였을 때 가장 중앙에 위치하는 관측치

2) 분산도

분산도(Dispersion)는 관측된 데이타가 흩어져 있는 정도를 말하며, 범위, 평균편차, 그리고 표준편차와 같은 통계량들로 측정합니다.

- 범위(range) : 가장 큰 수치의 데이타와 가장 작은 수치의 데이타간의 차이를 말합니다.

- 평균편차(mean deviation) : 관측치와 산술평균과의 차이들의 평균을 말합니다.

2. 빈도분석의 시행

이제 본격적으로 빈도분석을 시행하기 이전에, 어떤 데이타를 분석할 것인지 먼저 설문지를 살펴보도록 하겠습니다. 우선 아래 설문지 1페이지의 문항 C2에서 물어보는 캠코더의 구매 경험과 관련된 여러가지 질문들을 봐주시기 바랍니다.

우선, 현재 가지고 있는 캠코더의 형태는 어떤지 빈도분석을 통해서 단계적으로 살펴보도록 하겠습니다

1) 빈도분석 메뉴의 실행

빈도 분석을 수행하기 위해서는 우선 메뉴바의 분석(A) -> 기술통계량(E) -> 빈도분석(F)을 차례데로 클릭해주시기 바랍니다. 이를 모두 실행하면 빈도분석 대화상자가 나타납니다.

 

2) 분석대상 변수의 선택

아래 그림과 같이 대화상자에서 분석할 변수인 '형태(변수명 c3)'를 선정한 후 화살표를 클릭해서 오른쪽의 변수(V) 상자로 보냅니다.

3) 옵션의 조정

: 바로 확인버튼을 누르는 것만으로도 성공적으로 빈도분석이 완수되지만, 필요시 선택적으로 분석에 필요한 다양한 옵션들을 지정할 수 있습니다. 간략히 어떤 옵션들이 주요 옵션들 위주로 있는지 살펴보도록 하겠습니다먼저 통계량옵션을 클릭해보시기 바랍니다. 중심화 경향치, 백분위 값, 산포도 등 다양한 통계량을 선택할 수 있습니다.

다음으로 도표 옵션을 살펴보겠습니다. SPSS에서는 기본적으로 막대도표, 원도표, 히스토그램의 3가지 그래프를 제공합니다. 그러나 보통 SPSS에서 그래프를 그리기보다는 SPSS의 결과값들을 엑셀에 옮겨와서 다시 필요한 그래프를 그리는 것이 더 편리하고 고품질의 그래프를 구할 수 있습니다.

4) 분석의 시행

이제 통계량 옵션중 막대도표만을 선택한 후, 분석을 시행하도록 하겠습니다. 분석이 시작되면 다음과 같은 결과들이 나타날 것입니다. 먼저 제시되는 것은 결측치에 관한 정보가 제시됩니다. 결측치란 해당 문항에 대하여 응답하지 않은 사람들을 의미합니다. 분석 결과 결측치가 185명이나 되네요. 아마 집에 캠코더가 없는 사람이 조사 당시 많았던 것 같습니다그리고 간략한 빈도표가 제시됩니다. 각 빈도표를 보면 퍼센트와 유효퍼센트, 그리고 누적 퍼센트의 정보가 제시됩니다. 이중 퍼센트와 유효 퍼센트의 차이를 살펴보면 유효 퍼센트는 무응답한 결측치를 제외하고 구한 비율입니다. 보통 빈도분석에서 유효 퍼센트를 기본적인 정보로 사용합니다. 분석 결과를 보면 준수직형의 캠코더를 구입한 사람의 47.7%, 수평형 36.0%, 수직형 15.0%, 기타 1.4%로 나타나고 있습니다.

그리고, 추가적인 옵션 지정을 통해 구한 그래프의 모습도 보여주고 있습니다. 하지만, SPSS에서 기본으로 제공하는 그래프는 그다지 정교하거나 세련되지 않습니다. 더 좋은 방법은 빈도표를 엑셀로 복사한 이후 다시 그래프를 그리는 것입니다. 단지 ctrl+Cctrl+V만으로 SPSS의 결과물을 엑셀에 손쉽게 복사할 수 있으니 다양하게 활용해 보시기 바랍니다.

728x90

3. 평균 분석의 개요

평균 분석은 기술통계분석의 일종으로서, 평균과 같은 요약된 통계량을 계산합니다. 평균 분석과 빈도분석은 얼핏 유사해보일 수도 있지만, 결정적인 차이점이 있습니다. 빈도분석이 주로 이산적인 변수값들을 다루는 반면에, 평균분석은 연속적인 변수값들을 다룬다는 점입니다. 보다 쉽게 설명하면 이산적 변수들은 더하기, 곱하기, 빼기, 나누기와 같은 사칙연산으로 계산할 수 없는 값들을 의미하지만, 연속적 변수들은 사칙 연산이 가능한 값들을 의미합니다.

일예로, 야구 선수의 등 번호를 생각해 봅시다. 야구 선수의 등 번호는 분명히 번호이지만 이산적 변수들입니다. 등번호 3번인 선수와 17번인 선수를 더하거나 뺴는 것은 아무런 의미가 없기 때문입니다. 그러나 사과 3개와 17개를 더할 경우 20개의 사과가 됩니다. 이는 사칙 연산이 가능한 경우로서 연속적 변수 값의 예입니다 , 빈도분석은 이산적 변수 값, 평균 분석은 연속적 변수 값을 그 분석 대상으로 하고 있습니다. 척도를 중심으로 설명하면, 빈도분석은 주로 명목 척도와 서열 척도, 평균 분석은 주로 등간 척도와 비율 척도를 분석대상으로 합니다.

이중 등간 척도는 간혹 연구자의 목적에 따라서 빈도분석이 이루어질 수도 있지만, 명목과 서열척도는 평균 분석이 시행될 수 없음을 기억하시기 바랍니다.

4. 평균 분석의 시행

이제 본격적으로 평균 분석을 시행하기 이전에, 어떤 데이타를 분석할 것인지 먼저 설문지를 살펴보도록 하겠습니다. 우선 실습 설문지에서 물어보는 연령과 결혼 년수와 같이 개인 인적사항과 관련된 질문들을 중심으로 봐주시기 바랍니다. 연령과 결혼 년수의 평균을 구해보도록 하겠습니다.

1) 평균분석 메뉴의 실행:  평균 분석을 수행하기 위해서는 우선 메뉴 바의 분석(A) -> 기술통계량(E) -> 기술통계(D)를 차례데로 클릭해주시기 바랍니다. 이를 모두 실행하면 기술통계 대화상자가 나타납니다.

2) 분석대상 변수의 선택: 아래 그림과 같이 대화상자에서 분석할 변수인 '가장 연령(변수명 s1)'결혼 기간(변수명 s3)’을 선정한 후 화살표를 클릭해서 오른쪽의 변수(V) 상자로 보냅니다.

3) 옵션의 조정 : 바로 확인버튼을 누르는 것만으로도 성공적으로 평균을 구하기 위한 기술통계 분석이 완수되지만, 필요시 선택적으로 분석에 필요한 다양한 옵션들을 지정할 수 있습니다. 간략히 어떤 옵션들이 주요 옵션들 위주로 있는지 살펴보도록 하겠습니다먼저 옵션을 클릭해보시기 바랍니다. 연구자의 목적에 따라 평균은 물론이고, 표준편차, 분산, 범위 등 다양한 통계량을 선택할 수 있습니다.

4) 분석의 시행: 이제 원하는 옵션을 선택한 후, 분석을 시행하도록 하겠습니다. 만일 별도의 옵션을 선택하지 않았다면 SPSS는 기본 통계량으로 최소값, 최대값, 평균, 그리고 표준편차를 보여줄 것입니다.

그리고 간략한 기술통계량표가 제시됩니다. 표의 내용을 살펴 보면 사례 수(n), 최소값과 최대값, 평균, 그리고 표준편차의 정보가 제시됩니다. 분석 결과를 보면 가장의 평균 연령은 43.8세이며, 평균적으로 결혼한지 9.8년 가량 경과하였음을 알 수 있습니다.

: 청주대학교 이 원준 (meetme77@naver.com)

728x90

+ Recent posts