'파보자! SPSS&Jamovi 분석/2. SPSS로 시작하기' 카테고리의 글 목록

파보자! SPSS&Jamovi 분석/2. SPSS로 시작하기

[SPSS 리서치] 7. 데이타 변환 및 리코딩 2019.11.14 7
[SPSS 리서치] 6. SPSS 데이타 다루기 2019.10.31 6
[SPSS 리서치] 5. SPSS 데이터 입력 및 변수 정리 2019.10.23 8

[SPSS 리서치] 7. 데이타 변환 및 리코딩

2019. 11. 14. 12:54

728x90

1. SPSS ‘변수 계산’의 이해

원 데이터에 있는 변수들의 수치를 변환하여 새로운 변수 값을 계산하기 위해서는 변수 계산을 하여야 합니다. 변수 계산을 하기 위해서는 메뉴 바에서 변환(T) -> 변수계산(C)을 차례 데로 선택해야 합니다.

변수계산을 선택하였을 경우 아래 그림과 같은 변수 계산 대화 상자가 열릴 것입니다. 이 대화상자는 그 모습이나 기능이 우리가 흔히 사용하는 전자계산기와 거의 유사합니다. 그래서 ‘계산대’라고 부르기도 합니다. 계산대의 주요 기능들을 간략히 설명드리면 다음과 같습니다.

a. 변수보기 Box :　변수보기 Box는 SPSS의 원 데이터 파일에 있는 모든 변수들을 보여줍니다. 이 변수들을 변수 계산Box로 옮겨옴으로서 새로운 변수를 계산해 낼 수 있습니다.

b. 변수계산 Box : 변수 계산의 결과로 항상 계산 후 새로운 변수가 만들어지게 됩니다. 우측의 '대상변수(T)''대상 변수(T)'에서는 새롭게 만들어지는 변수를 위하여 새로운 SPSS 변수명을 지정해주어야 합니다. 그리고 좌측의 ‘숫자표현식(E)’‘숫자 표현식(E)’에서는 연산자나 함수 등을 이용하여 계산을 행함으로써 새롭게 생성되는 변수들을 정의해주어야 합니다. 즉 변수의 계산이 이루어지는 장소입니다.

c. 연산자 Box: 변수계산에 사용할 수 있는 다양한 연산자와 함수들을 모아놓은 곳입니다. 이들 연산자나 함수들은 ‘숫자표현식(E)’‘숫자 표현식(E)’에서 직접 키보드로 입력할 수도 있으며, 혹은 연산자 Box에서 사용할 함수나 연산자를 클릭하여 사용할 수도 있습니다. 사용할 수 있는 연산자는 산술 연산자,, 논리 연산자,관계 연산자가 있으며, 그외 기타로 여러 함수들을 사용할 수 있습니다.

<산술 연산자>

기본적인 산술 연산을 위한 연산자들이다. 그러나 여러 개의 괄호( )를 사용하는 복잡한 연산을 수행할 때는, 괄호 안의 식이 먼저 계산되므로 주의가 필요하다.

기호

의미

( )

더하기

빼기

곱하기

나누기

지수

연산의 순서 정함

<관계 연산자>

관계 연산자는 두 값을 비교하는 등 주로 값들 간의 관계를 설정하는 데 사용합니다.

기호

의미

~보다 지다

~보다 크다

~보다 작거나 같다

~보다 크거나 같다

같다

같지않다

<논리 연산자>

두 개 이상의 관계식을 결합하기 위해 혹은 작성한 조건식을 보다 정교화하기 위하여 논리 연산자를 사용합니다.

기호

의미

& (and)

I (or)

~ (not)

또한

또는

아니면

연산자 외에 다양한 함수들을 이용할 수도 있습니다. SPSS에서는 통계, 산술, 문자, 날짜지정, 분포 등에 관련한 다양한 함수들을 사용할 수 있습니다. 함수들에 관한 상세한 내용이 필요한 경우에는 SPSS에 내장되어 있는 도움말을 참조해보시기 바랍니다.

d. 조건선택 Box: 필요할 경우, 데이터의 변화 과정에 조건식을 사용하여 특정 조건에 적합한 케이스만 선택할 수 도 있습니다. .

2. 변수 계산 실습

이제 ‘변수 계산’의 의미와 실행하는 방법에 대하여 간단히 이해하셨으리라 생각됩니다. 이제 실제 사례들을 가지고 직접 실습을 해보도록 하겠습니다. 본 강의를 들으시면서 ’실습 data 01.sav' 파일을 여신 후 직접 따라해보시면 더 쉽게 이해하실 수 있으리라 생각합니다.

a. 간단한 산술 연산으로 새 변수 만들기

가장 기본적인 변수 계산의 예로서 더하기, 빼하기, 곱하기, 나누기 등의 산술 연산자를 이용하여 하나의 새로운 변수들을 만들어보기로 하겠습니다. 우선 분석하기 전에 어떤 상황에서 이런 변수 만들기가 필요한지 실습용 설문지의 예를 들어보기로 하겠습니다.

실습문제1) C-8번 문항을 보면 연간 평균 테이프 사용 분량에 관한 설문 문항을 가지고 있습니다. 만일 이를 월간 사용량으로 바꾸고 싶은 경우 어떻게 해야 할까요?

(답변 1) : ‘연간사용량 / 12’, 즉 연간 사용량을 12개월로 나누어주면 간단히 구할 수 있을 것입니다. 즉 ‘변수계산’ 대화창에서 다음과 같이 입력을 하면 됩니다. 우선 새롭게 변수가 만들어지기 때문에 새로운 변수명을 임의로 지정합니다. 여기서 변수명은 ‘zzz01'입니다. 그리고 C-8번 문항의 SPSS 변수명은 'c22'이므로 이 변수를 찾아 숫자표현식에 넣고 12개월로 나누어주면 됩니다.

변수계산전과 변수계산후의 결과를 비교해보면, 다음과 같습니다. 연평균 테입 분량은 6.7개 였지만, 월별 소요량으로 변환한 후에는 0.558개로 변한 것을 볼 수 있습니다.

실습문제 2) C-8번 문항을 사용하여 연간 촬영 시간을 구하시오. 단 테입 1개 분량은 60분을 찍을 수 있다고 가정합니다.

답변 2) 연간사용량 * 60을 하면 간단하게 촬영시간을 구할 수 있으며, 분석 결과는 연간 402.2분의 시간을 촬영하고 있는 것으로 나타났습니다.

실습문제 3) 캠코더에 대한 소비자 만족도를 조사하기 위하여 아래와 같은 만족도 문항을 7점 척도로 조사하였습니다.

그러나, 보통 과거에는 만족도를 100점 만점으로 평가하였기 때문에 새로운 조사 결과와 과거 조사 결과를 직접 비교하는 것이 곤란해졌습니다. 이 문제를 해결하기 위해서 7점 척도를 100점 만점으로 환산하고자 합니다. 단, 7점 척도의 1점은 100점 만점의 0점, 4점은 50점, 7점은 100점이 되도록 환산하십시요.

(답변 3) (변수 - 1) * (100 / 6)와 같은 계산식으로 쉽게 구할 수 있습니다. 여기서 (변수 - 1)을 한것은 7점 척도에서 1점을 선택한 사람의 점수를 0점으로 환산하기 위해서입니다. 그리고 (100 / 6)한 값을 곱해줌으로서 0점 ~ 100점 사이의 값을 갖는 100점 척도로 전환이 가능합니다.

3. ‘코딩 변경’의 이해

코딩이란 변수값을 의미합니다. 즉 각 변수들은 구체적으로 변수 값들을 갖습니다. ‘가족내 지위’는 하나의 변수이며, 구체적인 변수값으로는 가장, 주부, 자녀, 기타 등의 값을 갖을 수 있습니다.

변수값의 코딩 변경에서는 범주나 분류를 다시 변경하는 방식으로 새로운 변수를 만들거나 기존 변수들을 변경할 수 있습니다. 즉, ‘가족내 지위’라는 변수를 그대로 유지하면서 변수값만 1(가장), 2(기타)로 간단하게 변경할 수 도 있고, ‘가족내 지위2’라는 새로운 변수를 만들어서 변수값을 1(가장), 2(기타)로 지정할 수도 있습니다.

SPSS는 이 두 가지중 한 방식을 선택하여 변수 값을 변경할 수 있도록 해줍니다. 코딩 변경을 하기위에서는 메뉴 바에서 변환(T) -> 같은 변수로 코딩변경(S), 혹은 다른변수로 코딩변경(R)을 선택하시면 됩니다.

본 수업에서는 다른 변수로 코딩변경하는 방법만을 설명드리도록 하겠습니다. 기본적으로 명령어나 변경 순서가 두가지 방식 모두 동일하기 때문입니다. 아울러, 가능하다면 항상 다른변수로 코딩변경하는 습관을 들이시기 바랍니다. 언제 어떤 상황에서 원본 데이타가 필요할지 모르기 때문에 가능하면 원본 데이타는 훼손하지 않는 것이 좋기 때문입니다.

기존 변수값을 이용하여 새로운 변수로 코딩변경하기 위해서는 우선 변화(T) -> 다른변수로 코딩변경(R)을 차례로 선택하셔서 코딩 변경 대화상자가 나타나도록 해야 합니다.

왼쪽 상자는 데이타에 포함된 모든 변수들을 보여주고 있는데, 이중에서 코딩을 변경할 기존의 변수를 선택한 후, 대화 창의 중앙에 있는 ‘숫자변수(V) ->출력 변수’ Box로 옮깁니다. 여기서는 응답자의 가족내 지위를 표시하는 변수인 'id1'을 선택하였습니다.

변수를 옮긴 후 ‘?’가 표시된 것을 볼 수 있습니다. 이는 코딩을 변경하여 새로운 변수를 만들었기 때문에 새 변수에 필요한 ‘변수명’이 현재 없다는 의미입니다. 이제 변수명을 하나 만들어 주도록 하겠습니다. 변수명을 지정할 때는 대화 창의 좌측에 있는 ‘출력변수’란에 새로운 변수의 이름을 지정해주면 됩니다. 그리고 ‘바꾸기’ 버튼을 눌러 줍니다.

이제 새로운 변수에 기존 변수의 변수값을 코딩만 변경해서 옮겨줄 차례입니다. 이를 위해서는 대화 창 하단의 ‘기존 값 및 새로운 값(O)' 버튼을 눌러주시기 바랍니다.

이를 클릭하면 변수값을 재지정하기 위한 새로운 대화창이 열리게 됩니다. 대화창 좌측의 ‘r기존값(V)' 상자안에 변환 전의 변수값을 입력하고, 창 우측의 ’새로운 값(A)' 상자안에 변환하고자 하는 변수값을 입력한후 ‘추가’ 버튼을 선택합니다. 그러면 기존값이 새로운 값으로 변환된 값이 나타나며, 이를 반복하여 원하는 데로 코딩이 변경된 새로운 변수를 얻습니다. 본 예시에서는, 1=가장, 2=주부, 3=자녀, 4=기타로 되어있던 기존값을 1=가장, 2=기타로 단순화하고자 하였기 때문에 아래 대화창과 같은 결과를 얻을 수 있습니다.

: 청주대학교 이 원준 (meetme77@naver.com)

728x90

저작자표시 비영리 변경금지

'파보자! SPSS&Jamovi 분석 > 2. SPSS로 시작하기' 카테고리의 다른 글

[SPSS 리서치] 6. SPSS 데이타 다루기 (6)	2019.10.31
[SPSS 리서치] 5. SPSS 데이터 입력 및 변수 정리 (8)	2019.10.23

[SPSS 리서치] 6. SPSS 데이타 다루기

2019. 10. 31. 11:03

728x90

1. SPSS 데이타의 편집

입력이 완료된 이후의 데이타라도 데이타 편집기를 활용하여 얼마든지 추후에 이를 수정할 수 있으며, 필요할 경우 다양한 편집 활동을 할 수 있습니다.

즉,

- 입력된 변수 값의 삭제나 수정이 가능합니다. 마이크로소프트 엑셀과 같이 직접 커서를 움직여서 새로운 값을 기존 값 위에 입력하거나, 기존 값을 삭제 후 재입력할 수 있습니다.

- 변수 값을 복사하여 옮겨붙이기도 가능합니다. 하나의 셀이나 여러개의 셀, 혹은 행이나 열 단위의 데이타를 삭제하거나 다른 곳에 복사할 수 있습니다.

이처럼 데이타를 편집하기 위해서는 다음과 같은 절차가 필요합니다.

1) 삭제하거나 복사하고 싶은 셀들을 지정합니다. 마우스 오른쪽 버튼을 누르면 한 개의 셀을 지정할 수 있고, 쉬프트키를 누른상태에서 마우스를 누르면 여러개의 셀을 한번에 지정할 수 있습니다.

2) 마우스 오른쪽 버튼을 누르거나 메뉴의 편집(E)에서 잘라내기(T)나 복사(C)를 선택합니다. 잘라내기는 원래 셀로부터 다른 셀로 데이타를 이동함을 의미하며, 복사는 똑같은 셀의 내용은 다른 셀에 하나 더 만드는 것을 의미합니다.

3) 복사해 붙이기 원하는 셀의 위치에 마우스 커서를 옮깁니다.

4) 마우스 오른쪽 버튼 혹은 메뉴의 편집(E)에서 붙여넣기(P)를 선택합니다.

2. 행과 열의 추가 및 삭제

기존의 파일에 새로운 케이스를 추가하거나 삭제할 수 있습니다. 이를 설명하기 위해서 5차시에서 사용하였던 간단한 설문 문항과 데이타를 다시 보도록 하겠습니다.

문항 1. 당신이 좋아하는 과목은 다음중 무엇입니까? 1) 수학 2) 과학 3) 영어 4) 기타

문항 2. 당신의 평균 기말고사 점수는 몇 점입니까? 직접 입력하여 주시기 바랍니다. ________ 점

문항 3. 당신의 성별은 무엇입니까? 1) 남성 2) 여성

이런 간략한 설문 조사를 통하여 10명의 응답자로부터 얻은 설문 결과를 데이타 윈도우에 정리한 것이 아래 화면입니다. 그런데 만일, 뒤늦게 학생 1명으로부터 추가적으로 설문지를 받게 되었을 때는 어떻게 해야 할까요? 우선 생각해볼 수 있는 가장 간단한 방법은 마지막 행인 11번째 행에 새로 응답을 받는 학생이 데이타를 추가하면 될 것입니다.

하지만 경우에 따라서는 특정 행에 새로 얻은 설문지를 삽입해야 하는 경우도 생깁니다. 예를 들면 데이타가 학번이나 날짜와 같이 일정한 순서를 가지고 있는 경우들입니다. 만일 첫번째 행과 두번째 행 사이에 새로 얻은 데이타를 추가하고자 할 때의 절차를 살펴보도록 하겠습니다.

1) 행을 추가하기 위해서는 추가하고자 하는 행 번호에 마우스를 왼쪽 클릭한다. 그러면 해당 행 전체가 블록으로 지정된다

2) 마우스 오른쪽 버튼을 누르거나 메뉴의 편집(E)에서 ‘케이스 삽입(I)’을 선택하면 새로운 행이 공란으로 추가되며, 공란의 각 셀은 마침표(.)로 나타납니다. 그리고 기존에 있던 행은 다음 행으로 자동적으로 밀려납니다.

3) 새롭게 생긴 행의 셀이 추가하고자하는 데이타를 입력하면 됩니다.

만일 설문 문항이 증가하거나 변수가 추가되었을 경우에는 어떻게 해야 할까요? 변수가 추가되었을 경우에는 열(column)을 증가시키게 되며, 그 과정은 행(raw)을 추가하는 과정과 동일합니다. 첫번째 변수로 V1이 아니고 설문지의 일련번호를 의미하는 'no'라는 새로운 변수를 추가하는 과정을 살펴보도록 하겠습니다.

1) 열을 추가하기 위해서는 추가하고자 하는 열 번호에 마우스를 왼쪽 클릭한다. 그러면 해당 열 전체가 블록으로 지정된다

2) 마우스 오른쪽 버튼을 누르거나 메뉴의 편집(E)에서 ‘변수 삽입(I)’을 선택하면 새로운 열이 공란으로 추가되며, 공란의 각 셀은 마침표(.)로 나타납니다. 그리고 기존에 있던 열은 다음 열로 자동적으로 밀려납니다.

3) 새롭게 생긴 열의 셀의 설문지의 일련번호인 1~11을 입력하면 됩니다.

3. 데이타의 정리

최근에는 온라인을 통한 설문 조사가 많이 진행되고 있습니다. 온라인으로 조사가 진행될 경우, 대부분 응답자의 응답 결과는 자동으로 SPSS에서 직접 읽어들일 수 있는 파일 포맷인 엑셀이나 txt 형태로 저장됩니다. 그 결과 응답 결과는 별다른 처리없이 신속하게 바로 SPSS에서 사용할 수 있습니다.

그러나 아직은 조사원이 직접 응답대상자를 찾아가서 설문지를 받아오는 전통적인 면대면 방식의 조사 방식이 보다 많이 활용되고 있습니다. 면대면 방식이 더 많은 시간과 비용이 소요되지만 응답자들의 협조를 구하는 것이 용이하고, 조사의 신뢰성도 더 높기 때문에 여전히 선호되고 있습니다.

이런 면대면 방식의 응답 결과는 종이로 인쇄된 설문지를 통하여 얻게되기 때문에, SPSS로 분석하기 위해서는 종이에 적힌 응답 결과를 SPSS가 인식할 수 있도록 직접 키보드를 두들겨서 데이타 윈도우에 값을 입력하거나, 엑셀 혹은 TXT 파일로 작성한 이후에 다시 SPSS로 읽어와야 합니다. 우리는 이 과정을 ‘펀칭(punching)’ 이라고 합니다.

펀칭이라고 부르는 이유는 지금은 생소하지만 60~70년대 컴퓨터 초창기에는 실제로 종이 카드에 천공기로 구멍을 뚫어서 직접 데이타를 입력했기 때문에 그런 이름이 붙었다고 합니다.

그러나, 사람의 손을 거쳐 종이에 적힌 데이타가 컴퓨터가 인식할 수 있는 디지털 파일로 바뀌는 과정에서 착오나 오타로 잘못된 정보들이 입력되는 경우들이 종종 있습니다. 데이타 정리, 혹은 데이타 클린싱(cleansing)은 이런 잘못된 데이타들을 교정해서 바로잡는 과정이라고 할 수 있습니다.

우선 아래 설문지와 입력된 데이타 파일을 비교해보면서 입력이 잘못되었다고 의심할 만한 사례가 있는지 확인해 보도록 하겠습니다.

문항 1. 당신이 좋아하는 과목은 다음중 무엇입니까? 1) 수학 2) 과학 3) 영어 4) 기타

문항 2. 당신의 평균 기말고사 점수는 몇 점입니까? 직접 입력하여 주시기 바랍니다. ________ 점

문항 3. 당신의 성별은 무엇입니까? 1) 남성 2) 여성

이미 찾으셨는지요? 이 데이타와 설문지를 비교해보면 10번째 응답자의 V3 변수에 이상이 있는 것을 알 수 있습니다. 실제 V3변수는 응답자의 성별 변수이며, 취할 수 있는 변수 값은 1=남성, 2=여성인데 입력값은‘3’입니다.

이런 오류가 나타날 가능성은 크게 두가지 입니다.

1) 설문 응답자가 실제로 틀리게 ‘3’을 쓴 경우, 혹은

2) 응답자는 1이나 2로 바르게 썼으나 펀칭 과정에서 오타가 발생한 경우입니다.

이를 확인하기 위해서는 실제 종이로된 설문지를 다시 찾아보고 응답 결과를 확인하는 수 밖에 없습니다. 확인시 해당 열에서 오름차순정렬이나 내림차순정렬을 잘 사용하면 이런 작업을 보다 손쉽게 할 수 있습니다.

만일 설문에 응답한 응답자가 수백 혹은 수천명을 넘을 정도로 너무많다면, 이중에서 잘못 펀칭한 설문지를 어떻게 찾느냐고요? 이런 경우를 대비해서 각 설문지에는 설문지 일련번호를 붙일 것을 권장하며, 관습적으로 spss 데이타의 첫번째 변수, 즉 첫번째 열에는 보통 설문지 일련 번호를 부여하게 됩니다.

4. 케이스 선택

이제 데이타의 정리까지 끝났고, 본격적으로 분석할 준비가 되어 있습니다. 그런데 경우에 따라서는 준비된 데이타를 모두 사용하지 않고 데이타 파일의 일부 케이스만 이용하여서 분석을 해야하는 경우가 있습니다.

문항 1. 당신이 좋아하는 과목은 다음중 무엇입니까? 1) 수학 2) 과학 3) 영어 4) 기타

문항 2. 당신의 평균 기말고사 점수는 몇 점입니까? 직접 입력하여 주시기 바랍니다. ________ 점

문항 3. 당신의 성별은 무엇입니까? 1) 남성 2) 여성

일예로, 위와 같은 설문조사를 통하여 조사를 완료하고 데이타를 모두 가지고 있지만, 수학 선생님이 특별히 수학과 관련된 내용을 분석하고 싶어할 수도 있고, 혹은 남자의 성적만이 궁금한 경우가 있을 수 있습니다. 이 경우 특정한 케이스만 선택하여 분석을 할 수 있게 해주는 메뉴가 ‘케이스 선택(S)' 입니다.

예로 남학생만의 기말고사 점수를 보고 싶은 경우를 중심으로, 어떤 단계를 거쳐 케이스 선택이 진행되는지 살펴보겠습니다.

1) 메뉴 바에서 ‘데이타(D)'를 선택한 후 차례로 ’케이스선택(S)'을 클릭합니다. 그려면 아래와 같이 케이스 선택 대화상자가 나타납니다. 케이스 대화상자의 왼쪽 창에서는 데이타 파일에 있는 모든 변수들을 보여주고 있습니다.

2) 여기서 선택가능한 버튼중에서 ‘조건을 만족하는 케이스(C)'를 선택한 후, 다시 바로 밑에 있는 ‘조건(I)' 버튼을 클릭합니다.

3) 조건 버튼을 클릭하면 다시 보다 작은 크기의 ‘조건 대화상자’가 나타나게 됩니다. 여기서 우리는 남학생만을 선택하여 분석할 것이기 때문에 성별을 나타내는 변수인 'V3' 변수를 클릭한 후 화살표 버튼을 눌러 우측으로 옮겨놓습니다. 그리고 변수 값을 지정하게 됩니다. v3의 변수 값을 보면 1=남자, 여자=2이므로, 'V3=1'을 입력하면 남자만 선택되게 됩니다. 입력하는 방법은 직접 키보드로 입력을 해도되고, 대화 상자 중앙의 전자계산기처럼 생긴 버튼들을 이용하여 입력하여도 됩니다.

4) 자 이제 지정이 끝났습니다. 지정이 잘 끝났는지 확인하려면, 다시 데이타 윈도우로 돌아가 보십시요. 만일 모든 과정이 잘 끝났다면, 데이타 윈도우에서 v3=2, 즉 성별 변수가 여자인 경우에는 행 번호를 보여주는 첫번째 박스에 / 표시가 되어 있는 것을 볼 수 있을 것입니다. 아울러 ‘filter_S'라는 변수가 하나 더 생긴 것을 볼 수 있는데, 0인 변수 값은 분석에 사용하지 않는다는 의미이며, 변수 값이 1인 것은 분석에 사용한다는 의미입니다. 이렇게 지정이 된 이후에는 앞으로 어떤 분석을 하더라도 남자만이 분석에 포함되며 여자는 분석에서 제외될 것입니다.

5) 마지막으로, 케이스 선택은 다시 해제하지 않으면 지속적으로 앞으로의 모든 분석들에 동일한 영향을 미치게 됩니다. 따라서, 남학생을 대상으로한 분석이 끝나고, 다시 남녀 전체를 대상으로 분석을 해야할 경우에는 반드시 먼저 케이스 선택을 해제해주셔야만 합니다. 해제하는 방법은 케이스 선택 대화상자에서 ‘모든 케이스’를 선택해주시면 해제가 됩니다.

본 사례에서는 케이스 선택을 이해하기 위하여 남학생만을 선택하는 지극히 간단한 예를 사용하였습니다. 하지만, 케이스 선택 대화상자에서 제공하는 다양한 수식 기호나 함수들을 이용하여 더욱 복잡한 조건들을 사용하여 케이스를 선택하는 것도 가능합니다.

예를 들어서 평균 점수가 80점 이상인 우등생만을 대상으로 분석하고자 할때는 조건 대화상자안에 “v2 > 79'라는 간단한 수식으로 원하는 케이스만을 선택할 수 있으며, 이 수식을 조금 더 응용하면 ‘수학이 50점 미만인 남자’와 같이 여러개의 변수들을 같이 사용하여 보다 복잡한 조건을 충족하는 케이스만을 선택할 수도 있을 것입니다.

: 청주대학교 이 원준 (meetme77@naver.com)

728x90

저작자표시 비영리 변경금지

'파보자! SPSS&Jamovi 분석 > 2. SPSS로 시작하기' 카테고리의 다른 글

[SPSS 리서치] 7. 데이타 변환 및 리코딩 (7)	2019.11.14
[SPSS 리서치] 5. SPSS 데이터 입력 및 변수 정리 (8)	2019.10.23

[SPSS 리서치] 5. SPSS 데이터 입력 및 변수 정리

2019. 10. 23. 15:25

728x90

1. 데이터 파일 생성

SPSS에서 처리할 데이터를 작성하기 위한 방식은 크게 3가지 방식을 사용할 수 있습니다. 첫째 아래한글이나 텍스트 편집기를 이용하여 입력을 받거나, 둘째 엑셀로 준비한 파일을 입력받을 수 있습니다. 그리고 셋째 바로 SPSS의 데이터보기 창에서 직접 데이터를 입력하여 데이터 파일을 만들 수도 있습니다. 세가지 방법 모두 사용 가능하지만,, 보통 사용 목적에 따라 적합한 방식이 있으므로 필요에 따라 선택하여 사용하면 됩니다.

세 가지 문항으로 이루어진 간단한 설문자료를 이용하여 데이터 파일을 생성하는 법을 배워보겠습니다.

문항 1. 당신이 좋아하는 과목은 다음중 무엇입니까?

1) 수학 2) 과학 3) 영어 4) 기타

문항 2. 당신의 평균 기말고사 점수는 몇 점입니까? 직접 입력하여 주시기 바랍니다. ________ 점

문항 3. 당신의 성별은 무엇입니까?

1) 남성 2) 여성

1) 아래한글 혹은 텍스트 입력기를 활용하는 방법

일반적으로 표본의 수가 매우 큰 조사 자료를 입력하는 경우 아래한글 같은 워드프로세서를 입력하여 txt나 ASCII 파일 형태로 자료를 일괄적으로 입력하는 것이 편리합니다. 엑셀이나 SPSS 데이타보기 창에 비하여 이런 워드 프로세서들은 대용량 파일을 빠르게 처리할 수 있기 때문입니다. 간단히 10명의 응답자가 설문에 응답한 예를 들어보면 아래와 같이 설문지의 데이터를 고정 형태로 입력할 수 있을 것입니다.

설문지에 응답한 내용을 아래한글에 옮길 때 주의사항은 미리 각 변수의 자리 수를 생각해두어야 한다는 점입니다. 위 데이타의 첫 번째 응답자를 보면 ‘1 852’로 코딩되어 있습니다. 1은 첫번째 변수인 ‘좋아하는 과목(수학)’이고, ‘85’는 ‘점수’, 2는 ‘성별(여성)’입니다. 85앞에 한 칸이 공란으로 띄어져 있는 이유는 점수는 최대 허용 가능한 점수가 100점으로서 최대 3칸의 자릿 수를 차지하기 때문에 100점 맞는 응답자를 대비해서 공간을 맞추어 놓은 것입니다. 본 데이타의 10번째 응답자를 보면 실제로 100점을 맞아 자리 수가 꽉 차 있음을 볼 수 있습니다.

다음 단계로는 이 파일을 아래 한글에서 새로운 이름으로 저장하면서, 파일 형식을 hwp가 아니라 txt로 저장하시면 SPSS에서 불러올 수 있습니다.

SPSS에서는 txt 파일도 다양한 형태로 불러 올 수 있지만, 가장 빈번하게 사용되는 방식을 위주로 설명드리겠습니다. 이제 SPSS를 열고 파일 -> 열기 -> 데이타열기 메뉴를 차례로 클릭하시면 아래와 같은 메뉴가 나옵니다. 이 데이터열기 창에서 저장해놓은 txt 파일을 열어 보겠습니다.

파일을 열면 자동적으로 ‘텍스트 가져오기 마법사’가 시행되는데, 우선 텍스트 1단계에서는 텍스트 파일이 사전에 정의된 형식과 일치하는지 확인합니다. 사전에 형식을 정의한 것이 없으므로 ‘아니오’를 선택합니다.

그리고 다음 단계로 넘어가면 txt 파일의 데이타가 구분자에 구분되어 있는지 고정 너비인지 묻는 질문이 나옵니다. 각 변수간 구분을 쉼표나 마침 표등 구분자로 하였을 경우에는 ‘구분자에 의한 배열’을 선택하지만, 보통 이렇게 하지 않습니다. 쉼표와 같은 구분자를 일일이 변수 사이에 입력하는 경우에는 그 수고가 적지 않기 때문에 보통 위에서 예를 든 것처럼 공간을 일정하게 배분하여 입력을 하게 됩니다.. 이런 경우 마법사 창에서 ‘고정 너비로 배열’을 선택하게 됩니다. 아울러 본 텍스트 파일에는 변수 이름이 포함되어 있지 않으므로 변수 이름이 파일의 처음에 있는지 묻는 질문에는 ‘아니오’를 선택하면 됩니다.

그 다음에도 몇 가지 단계가 남아 있지만 중요한 사항들은 아니므로 무시하고 계속해서 다음을 누르시면 4단계로 갑니다. 4단계에서는 읽어온 데이터의 자릿수를 구분해서 나눔으로써 변수의 개수를 지정하게 됩니다. 변수를 지정하는 방법은 박스 하단에 있는 데이타에 가서 각 변수에 해당하는 자리에서 마우스를 오른 클릭하면 변수 구분선이 자동 생성됩니다.. 이때 사전에 지정된 변수의 자릿수에 맞게 구분선을 클릭하시면 원하는 변수들을 얻을 수 있습니다. 구분선이 잘못되었을 경우에는 ‘구분 삭제’ 버튼을 누르셔서 취소할 수 있습니다.

완료하시면 이제 아래와 같이 SPSS의 데이타보기 창에 데이터 입력이 자동으로 완성된 것을 볼 수 있습니다. 이를 SPSS상에서에서 다른 이름으로 저장하여 SPSS만의 고유한 확장자인 data.sav로 다시 저장하시면 데이타 불러오기가 완료됩니다.

2) 엑셀을 활용하는 방법

최근에는 보다 보편적으로 엑셀을 활용하여 데이터 파일을 작성한 후 SPSS에서 읽어들이는 방법이 보다 많이 사용되고 있습니다. 그 이유는 우선 엑셀의 경우 엑셀의 열(칼럼) 하나가 하나의 변수에 해당되기 때문에 초보자가 입력 실수를 할 가능성이 아래한글을 이용한 경우보다 적다는 점입니다. 그리고 또다른 이유로 구글이나 인터넷을 활용하여 설문을 실시할 경우 이런 프로그램들은 기본적으로 설문 응답 결과를 엑셀 파일 형태로 저장해주기 때문에 매우 편리하기 때문입니다.

엑셀을 이용하는 경우 엑셀 한 개의 열이 SPSS에서 한개의 변수로 자동적으로 인식됩니다. 즉 아래와 같이 설문 응답한 데이터를 엑셀 차트에 저장한 이후에 data.xls 파일로 저장하면 됩니다. 아래의 엑셀 챠트를 살펴보면 10개의 응답자가 응답한 설문 결과 외에 맨 첫 번째 줄에 a1, a2, a3의 추가된 데이타가 있는 것을 볼 수 있습니다. 엑셀로 저장된 데이타를 불러올 때는 선택적으로 엑셀의 맨 첫 줄에 있는 내용을 변수 명으로 지정하여 불러들일 수 있습니다. 즉 이 엑셀 파일을 SPSS로 불러들이면 SPSS는 자동적으로 a1, a2, a3라는 이름을 가진 세개 변수를 자동으로 만들 것입니다.

이제 SPSS를 열고 파일 -> 열기 -> 데이타열기 메뉴를 차례로 클릭하시면 아래와 같은 메뉴가 나옵니다. 파일 유형을 xls로 변경하신 후 데이터 파일을 열 수 있습니다.

이때, ‘첫행에서 변수 이름 읽기’ 옵션을 선택하시면 엑셀의 첫 줄에 있는 데이터는 데이터가 아니라 변수 이름으로 읽힐 것입니다. 이 과정을 거치면 SPSS의 데이타보기 창에 데이터 입력이 완성된 것을 볼 수 있습니다.

3) SPSS를 활용하는 방법

SPSS의 ‘데이타보기’ 창을 엑셀 창처럼 활용해서 데이터를 직접 입력할 수 있습니다. SPSS의 데이타보기창의 각 셀에 직접 원하는 데이터를 입력하거나 삭제할 수 있습니다. 이 방법은 가장 간단한 방법이지만, SPSS의 데이타데이터 입력 속도가 아래 한글이나 엑셀에 비하여 현저하게 느리기 때문에 많은 양의 데이터를 처리할 때는 적합하지 않습니다. 다만, 기존의 데이타에 내용을 변경하거나 일부 추가할 때는 유용하게 사용될 수 있습니다.

또한 각 열의 이름인 변수 명이나 각 행의 번호에서 마우스를 오른 클릭하면 특정 열이나 줄을 삽입하거나 삭제할 수 있으며, 정렬할 수 있는 메뉴가 나타납니다. 이를 이용하여 데이터를 정리하는 것도 가능합니다.

2. 변수의 정의

SPSS의 ‘데이타 보기’ 창은 엑셀과 마찬가지로 데이터 파일을 수정하거나 편집하는 데 있어서 편리합니다. 데이타 보기창은 크게 3가지로 구성되어 있습니다.

1) 행(row) : 각 행은 설문에 응답한 개인을 나타냅니다. 일예로 100명이 응답한 경우 기본적으로 100개의 행이 생성됩니다.

2) 열(column) : 각 열은 변수를 나타냅니다. 설문지 문항에 10개의 변수가 있는 경우 기본적으로 10개의 열이 생성됩니다.

3) 셀(cell)“ 각 설문 응답자들이 응답한 변수의 값을 의미합니다.

SPSS를 이용하여 분석하기 이전에 각 변수들은 변수의 이름(변수명), 데이터의 형식, 변수의 속성, 속성 값 들이 정의될 필요가 있습니다. 변수와 관련된 이런 작업들은 메뉴 창의 데이터-> 변수특성 정의를 선택하는 방식으로 이루어질 수 있지만, 보다 직관적이고 편리한 방식으로 SPSS에서는 ‘변수 보기’ 탭을 별도로 제공하고 있습니다.

변수의 정의를 설명하기 위하여 다시 앞부분에서 제시되었던 설문지의 예를 들어 설명하기로 하겠습니다.

문항 1. 당신이 좋아하는 과목은 다음 중 무엇입니까?

1) 수학 2) 과학 3) 영어 4) 기타

문항 2. 당신의 평균 기말고사 점수는 몇 점입니까? 직접 입력하여 주시기 바랍니다. ________ 점

문항 3. 당신의 성별은 무엇입니까?

1) 남성 2) 여성

위와 같은 설문지에 응답한 응답자 두 사람의 응답 값을 SPSS의 데이타보기 창에 직접 입력하였다고 합시다. 응답자1은 각각 1) 수학, 89점, 1) 남성을, 응답자 2는 2) 과학, 90점, 2) 여성으로 답하였습니다. 이를 데이터 보기 창에 아래와 같이 직접 입력해 봅시다. 데이타의 입력을 완료할 경우, 문항 1)을 하나의 변수로 간주하게 되며, 문항2와 문항 3 역시 각각 하나의 변수로 정의함으로써 총 3개의 변수가 생성되게 됩니다. 변수 이름은 SPSS에서 자동으로 Var00001처럼 부여하게 됩니다.

그러나 자동으로 부여되는 Var00001같은 변수 이름은 자신이 보다 잘 이해할 수 있는 변수 이름으로 변경하는 것이 편리하며, 아울러 향후 분석을 위해서는 변수의 특성들을 다시 정리할 필요가 있습니다. 이런 작업들은 프로그램 하단의 ‘변수보기’ 탭을 누르면 할 수 있습니다.

‘변수 보기’.

우선 첫번째 열에는 변수 이름이 있습니다. 변수 이름은 영어 알파벳과 숫자를 조합하여 직접 입력함으로써 변경할 수 있습니다. 그외 특별한 규칙은 없지만 보통 연구자가 알아보기 쉬운 규칙을 정하여 이름을 붙이게 되며, 단, 한글 이름은 권장되지 않습니다. 한글SPSS 버전에는 이용이 가능하지만 영문판 SPSS에서 구현이 되지 않아 향후에 데이터를 교환하거나 공유할 때 호환성 문제가 발생되기 때문입니다.

두번째 열에는 유형이 있습니다. 데이타의 유형은 크게 여러 가지가 있습니다. 유형칸에 있는 셸을 클릭하면 선택할 수 있는 여러 가지 유형이 나타나면 자기에게 적합한 유형을 선택하면 됩니다. 이중에서 가장 빈번하게 사용되는 변수의 유형은 숫자와 문자입니다.. 숫자는 데이터 보기 탭에 있는 데이터가 아라비아 숫자로 이루어져 있을 경우 선택하게 됩니다. 이때 주의하여야 할 점은 여기서 이야기하는 숫자는 사칙연산이 가능한 숫자와 더불어 특정 이름을 지목하는 단순한 기호 형태의 숫자도 포함한다는 점입니다. 일예로, 위의 설문에서 문항 2)는 평균 점수로서 계산이 가능한 명백한 숫자이지만, 문항 1)의 경우처럼 숫자 1이 단지 특정 과목을 지칭하는 기호에 불과함에도 불과하고 여기서는 숫자로 지정해야 합니다. 즉 변수 유형에서는 단순히 데이터 보기 창에서 어떤 외형적인 형태로 데이터가 입력되어 있는지만을 기준으로 합니다. 아울러 선택할 수 있는 변수 유형중에 문자는 데이터 형태가 한글이나 영문 문자인 경우에 해당됩니다. 일예로 응답자에게 ‘Kim’이나 ‘이 원준’직접 자기 이름을 쓰도록 설문 문항이 되어 있다면 이 문항의 변수는 문자로 지정해야 할 것입니다. 그외 변수 유형은 자주 사용되지 않으므로 차차 알아보도록 합시다.

셋째 열과 넷째 열은 데이터의 크기를 지정할 수 있습니다. 즉 데이타의 자릿수와 소수점 이하 자릿수를 지정합니다. 너비가 8이라는 것은 최대 8자리까지 입력이 가능하며, 소수점 이하가 2라는 것은 소수점 둘째 자리까지 허용한다는 의미입니다. 즉 이런 경우에는 99999999.99가 최대 허용값이 될 것입니다. 다만 유형이 문자인 경우에는 다소 주의가 필요합니다. 영어 알파벳 한글자는 한 자리를 차지하지만 한글은 한 글자가 두 자리를 차지합니다. 그 결과 너비가 8로 지정된 경우 영어는 ‘abcdefgh'의 8글자까지만 입력이 가능하고, 한글은 ’가나다라‘의 4글자만 입력이 가능합니다. 더 길이가 긴 문자를 입력하기 위해서는 해당 셀을 클릭해서 원하는 크기만큼 변수의 너비를 늘리거나 줄일 수 있습니다.

다음은 다섯 번째 열의 ‘설명’ 입니다. 설명은 말 그대로 변수에 대하여 상세하게 설명을 붙일 수 있습니다. 영어와 숫자로만 구성된 변수 이름만을 보고 그 변수가 어떤 변수인지 알기는 어렵습니다. 그 결과 분석자의 이해를 돕기 위하여 설명을 첨가하게 됩니다. 변수의 의미에 대하여 자유롭게 설명을 첨가할 수 있습니다.

여섯 번째 열은 ‘변수 값’ 입니다. 변수 값에 대한 이해를 하기 위해서는‘변수’와 ‘변수 값’의 차이를 간단히 알아야 합니다. 변수는 설문의 문항이라고 생각하시면 되고 변수 값은 문항에서 선택 가능한 혹은 입력 가능한 답변이라고 생각하시면 됩니다. 즉, 위 설문지의 예에서 성별을 물어보는 문항 3)은 하나의 변수가 되고, 문항 3)의 보기인 1. 남자, 2. 여자는 변수 값이 됩니다. 그러나 변수 값이 각각 남자나 여자와 같은 구체적인 내용을 담고 있지만 SPSS에서는 1과 2로만 입력이 되었습니다. 향후 분석시 분석 결과가 1, 혹은 2로 표시된다면 이것이 무슨 의미인지 파악하기가 어려울 수 있습니다. 변수 값을 붙이지 않더라도 분석은 이루어지지만, 분석 결과의 이해를 편리하기 위해서 보통 변수 값을 붙이게 됩니다.

변수 값을 지정하는 방식은 간단합니다. 변수 값에 해당되는 셸을 클릭하시면 아래와 같이 대화창이 나타납니다. 여기에 변수에 해당되는 값을 입력한 후,, 추가로 변수 값에 대한 설명을 입력하고 ‘추가’‘추가’ 버튼을 누르시면 됩니다. 모든 변수 값에 대한 입력이 완료되면 ‘확인’ 버튼을 누르시면 됩니다.

마지막으로 일곱 번째 열의 결측 값을 설명드리겠습니다. SPSS에서 처리가능한 결측 값은 시스템상의 결측치와 응답자의 결측 값으로 구분됩니다. 시스템 결측치는 데이타가 기록될 셀이 공백인 경우로서 보통 마침표로 표시됩니다. 그러나 응답자 결측치는 해당 문항이 누락되었음을 표시하기 위하여 어떤 특정한 값을 부여한 것입니다. 보통 9 혹은 99 등의 값을 응답자 결측치로 부여하게 됩니다. 일단 여기서 9혹은 99를 결측치로 지정하게 되면 ‘‘데이터 보기’ 창에’창에 9나 99 같은 값이 있더라도 숫자로 인식하지 않고 무응답으로 인식하여 각종 계산에서 제외되게 될 것입니다.

: 청주대학교 이 원준 (meetme77@naver.com)

728x90

저작자표시 비영리 변경금지

'파보자! SPSS&Jamovi 분석 > 2. SPSS로 시작하기' 카테고리의 다른 글

[SPSS 리서치] 7. 데이타 변환 및 리코딩 (7)	2019.11.14
[SPSS 리서치] 6. SPSS 데이타 다루기 (6)	2019.10.31

PREV 1 NEXT

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

EduNow. 디지털마케팅 교육