728x90

3. Jamovi 데이터 핸들링

1) 데이터 핸들링의 목적

통계분석의 시작은 분석에 적합한 원천 데이터(raw data)를 확보하고, 이를 통계분석에 적합한 형태로 정리하는 작업이다. 원천 데이터는 설문 조사나 외부 2차 데이터 등을 통하여 확보할 수 있지만, 보통 이들 데이터들을 그대로 쓰는 경우는 거의 없으며, 통계분석에 적합하도록 코딩(coding), 데이터 클린싱(cleansing) 같은 전 처리 과정을 거친다. 또한 전 처리 과정 이후에도 분석 과정중에서 기존 변수들을 다시 구간화하여 정리한다든지, 두개 이상의 변수를 결합하여 새로운 변수를 만드는 등의 경우가 빈번하다. 이와 같은 데이터 핸들링 과정을 통하여 통계 분석의 편리성을 증대시킬 수 있으며, 데이터를 타 연구자와 공유하는 등 협업의 가능성을 높일 수 있다. 잘 정리된 데이터는 굳이 설문지나 데이터에 대한 자세한 설명없이도 어떤 목적으로 수집된 데이터인지 스스로 말할 수 있어야 한다.

2) 데이터 입력하기

Jamovi에서 데이터 입력하는 방법은 기존 SPSS와 동일하다. 이미 SPSS에 익숙하다면 별다른 지침이나 설명없이도 직관적으로 입력이 가능하다. 처음 통계 프로그램을 접하는 경우를 가정하고 설명하면 다음과 같다. Jamovi 에서는 데이터 입력창에 직접 데이터를 입력할 수 있으며, 이 경우 변수명은 자동적으로 A, B, C, D와 같은 알파벳 순서로 생선된다. 엑셀 시트와 닮은 데이터 입력창은 column(열)과 row(줄)로 이루어져 있는데, 쉽게 생각하면 column은 변수명, row는 개별 응답자로 생각하면 된다. 즉 총 10개의 변수가 포함된 설문 문항을 5명이 응답하였다면 10개의 컬럼(열)과 5개의 로(줄)가 필요하다.

그러나, 대부분의 경우 데이터 입력창에 직접 입력하기 보다는 이미 다른 도구에서 정리한 데이터 파일을 불러오는 것이 일반적이다. 종이나 온라인 설문지로 받은 설문 결과를 통계 프로그램이 이해할 수 있도록 입력하는 과정을 펀칭(punching), 그리고 입력된 데이터에 변수명과 변수 값을 부여하는 과정을 코딩(coding), 입력된 데이터중 오류나 이상치(outlinear)를 찾아서 정정하거나, 도량형 등 사전에 정의된 데이터 기준에 부합되도록 데이터를 정리하는 과정인 데이터 클린싱(cleansing) 과정을 통계 분석 전에 처리하여야 하는데, 이런 데이터 핸들링 작업을 수행할때는 보통 SPSS나 Jamovi 같은 통계 프로그램이 제공하는 데이터 에디터 창보다는 엑셀이나 워드, 텍스트 에디터 등을 이용하는 것이 더 빠르고 편리하기 때문이다.

Jamovi 역시 다양한 입력 파일을 지원한다. Jamovi와 SPSS, R, JASP 등 통계 패키지의 데이터 파일은 물론이고, 엑셀 파일 포맷(csv)과 텍스트 파일 포맷(txt)를 지원한다. 데이터 입력 기능을 사용하기 위해서는 파일 탭 ->열기(open)-> 본 컴퓨터에서 열기(This PC) -> 파일찾기(Browse)를 차례로 선택하면 된다. 파일을 불러오면 데이터 파일이 열리게 된다. 엑샐 파일(csv)로 파일을 준비하여 여는 경우에 엑셀의 첫 행이 변수들의 이름으로 되어 있다면 Jamovi는 이를 자동으로 변수명으로 인식한다. 변수명은 데이터 입력후 변경이나 생성이 가능하므로 변수명이 확정되어 있지 않다면 나중에 명명하여주어도 상관없다.

Jamovi에서 지원하는 데이터 포맷

3) 변수명 및 속성 지정

불러온 데이터는 통계분석에 적합하도록 편집이나 변수명 부여하기 등 관리 활동이 필요할 수 있다. 변수 관리는 데이터 관리 탭에서 제공되는 메뉴들을 활용하여 변수명 및 속성 지정(Setup), 새로운 변수의 계산(Compute),  변수 다시 코딩하기(Transform),  필터와 그외 기능들에 대하여 살펴본다.

데이터 관리 탭의 주요 메뉴

우선 통계분석을 위해서는 필수적으로 변수명을 지정해주고, 변수의 속성 역시 지정해주어야 한다. 변수명은 엑셀 시트의 첫줄에서 지정해준채로 불러올수도 있지만, 변수의 속성은 엑셀에서는 지정할 수 없으며 Jamovi에서 지정해주어야 한다.  변수의 속성은 적용가능한 통계분석방법론의 종류에 영향을 미치기 때문에 가급적 정확하게 부여해주는 것이 좋다. 

가) Setup: 변수명 및 속성 지정

   우선 데이터 입력창을 보명 1명의 응답자가 3개의 질문에 응답한 결과, 즉 1개의 줄(row)과 3개의 열(column)으로 구성된 데이터를 볼 수 있다. 설문조사를 통하여 응답자의 이름, 연령, 성별(1=남자, 2-여자)를 차례로 물어본 결과를 데이터로 정리한 것이다. 그러나 이런 문항이었음을 우리는 현재의 데이터 창만을 보고는 잘 알 수가 없다. 변수명도 A,B,C와 같이 문항의 내용을 알아보기 힘들게 자동부여된 상태이며, 변수에 대한 설명이 잘 되어 있지 않기 때문이다. 이런 문제를 해결하기 위하여 변수명을 각각 name, age, gender로 수정하고, 변수에 대한 추가적인 설명을 달 수 있다면 데이터를 접하는 누구나 손쉽게 데이터를 이해할 수 있다.

변수명/변수설명의 변경 전과 후

변수명과 변수 설명 이외에 추가적으로 변수의 척도 유형(type)을 4가지중 하나로 지정해주어야 한다. Jamovi에서는 연속척도(continuous scale), 서열척도(ordinal scale), 명목척도(nominal scale), 그리고 구분번호(ID)의 4가지 유형을 구분한다. 척도의 구분은 통계 분석과 방법론 결정에서 매우 중요하기 때문에 별도로 설명이 필요하지만, 우선 간단하게 표로 그 차이를 제시하면 다음과 같다(상세 설명은 추후 설문지 만들기에서 다룸). Jamovi에서는 비율척도와 연속척도 간의 실질적인 차이가 크지 않다고 보고 있기 때문에 연속척도에서 비율척도 까지 포괄하고 있다고 생각하면 된다. 그리고 구분번호(ID)는 단순히 응답자에 일련번호를 붙이는 것을 말하며 특별히 분석에 사용되는 경우가 적기 때문에 일단은 무시하여도 좋다. 즉, 변수 설정에서는 주로 1) 연속척도 혹은 2) 명목척도인지 2개중 하나를 선택하면 대부분의 경우 문제가 없다.

4대 주요 척도 설명

척도 유형을 결정한 이후에는 데이터 유형도 지정하여 주어야 한다. 데이터 유형은 크게 텍스트(text), 정수(decimal), 소수점(decimal)의 3가지인데, 텍스트는 주로 문자로 받는 입력값(이름,의견등)인 경우이며, 정수는 소수점 없는 숫자(예:7), 소수점은 소수점을 가진 숫자(예: 7.22)의 경우에 사용한다. 데이터 유형 규칙에 맞지 않는 경우에는 입력이 제한될 수 있다. 즉, 정수 데이터유형인 경우에는 소숫점을 가진 숫자는 입력되지 않는다.

모든 변수에 대한 설정이 완료된 이후에는 엔터키나 화면 우측상단의 윗화살표 아이콘을 클릭하면 변경사항을 저장할 수 있다

나) Compute: 변수의 계산

변수를 계산하는 'Compute' 아이콘은 이미 획득한 데이터를 기반으로 새로운 변수를 만들때 주로 사용된다. 실제로 이 기능을 이용하면 설문 조사나 원 데이터에 없었던 새로운 변수를 계산을 통하여 만들어낼 수 있기 때문에 설문지의 문항 갯수를 감소하거나, 분석의 다양성을 확보하는 등의 장점이 있다. 일 예로, 어린이가 연간 마시는 음료수의 갯수를 조사하는 설문조사를 한다고 가정하자. 이럴 때 "일년에 몇병의 음료수를 마시는가?"라고 물어보게된다면 대부분의 응답자들은 연간 음료구매량에 대해서 생각해본 적이 없기 때문에 답변을 할 수 없다. 반면에 "일주일에 몇병의 음료수를 마시는가?"라고 물어본다면 비교적 최근의 기억을 토대로 정확하게 응답할 수 있고, 연구자는 물어본 결과는 아니지만 주간 음료의 양을 연간으로 환산하여 손쉽게 원하는 결과를 찾아낼 수 있다. 비슷한 예로 현재 이용중인 스마트폰의 이용기간을 월로 물어본다고 가정하자. "몇개월이나 사용하였는가?"라고 물어보기 보다는 "언제 가입하였는가?"를 물어본 뒤, 가입 이후 현재까지의 경과 기간을 물어보는 것이 더 효율적이다.

이러한 예를 설명하기 위하여 본 예제에서는 '비만도(BMI) 조사'의 예를 살펴보자. '비만도(BMI)는 BMI=몸무게(kg)/(키m*키m)'로 산출한다. 즉 키와 몸무게만으로도 산출이 가능하다. BMI를 계산하는 방법은 다음과 같다.

우선, 데이터 관리 탭의 'Compute' 아이콘을 클릭하면, 새로운 변수가 자동으로 생성된다. 이는, 변수의 계산을 통하여 과거에 없던 새로운 변수가 하나 더 생기기 때문에 새로운 변수에 대하여 변수명과 속성 지정이 필요함을 의미한다. 물론 자동으로 주어진 변수명을 사용하여도 분석은 가능하지만, 우리는 연구자의 편의를 위하여 앞서 배운바대로 변수명, 변수설명 등의 속성을 지정해준다. 이를 통하여 목표로 하는 BMI 값을 확인할 수 있다. 변수 계산은 보통 계산식 입력창에 직접 계산 수식을 넣어서 사용할 수도 있고, 화면 우측하단의 'Fomular'를 선택하면 엑셀에서 익숙한 함수 형태의 수식 적용도 가능하다. 

변수계산을 통한 새로운 변수 만들기

다) Transform: 변수의 변환

기존의 변수를 다른 변수로 바꾸어주는 'Transform' 아이콘은 이미 획득한 데이터를 기반으로 새로운 특성의 변수를 만들때 주로 사용된다. 일예로, 설문문항에서는 명목척도로 물어보았지만, 통계분석을 위하여 다시 연속척도로 변경하는 경우가 있다. 일예로 주관식 질문으로 성별을 물어본 경우에는 '남성', 혹은 '여성'으로 응답이 들어오지만, 이후의 통계 분석의 편의성을 의하여 남성=1, 여성=2의 값으로 바꾸는 경우가 많다. 또 다른 사례로, 기존의 데이터를 기준으로 새로운 변수를 만들고 싶은 경우가 있다. 일예로, 응답자의 몸무게를 주관식 문항으로 물어본다면 매우 다양한 응답치가 입력되지만, 연구자는 단순히 몸무게를 60키로 미만, 61키로 이상의 집단으로만 보고 싶은 경우도 생긴다. 변수 변환 기능은 얼핏 변수 계산 기능과 유사해보이지만 기존의 변수값을 단순히 재분류하거나 명명을 달리하는 것이라는 점에서 새로운 변수의 계산과는 차이가 있다. 이 기능 역시 실무 분석시 활용도가 높은 기능이므로 잘 익힐 필요가 있다.

이러한 예를 설명하기 위하여 본 예제에서는 응답자의 몸무게를 단지  60키로 미만, 61키로 이상의 2개 집단으로 재분류하는 예를 살펴보자. '즉 60키로 미만 = 1, 60키로 이상 = 2의 값으로 다시 코딩을 하게되며, 이를 변환하는 방법은 다음과 같다.

우선 메뉴 창의 Transform 아이콘을 클릭한다. 혹은 데이터 보기 창에서 마우스 오른클릭 후  Transform을 클릭하여도 동일다. 그러면 자동으로 변수가 하나 생기는데, 이 변수에도 변수명과 변수설명을 달아준다. 본 예시에서는 변수명은 'weight_group'으로 설정한다. 그리고 source variable을 지정해주어야 하는데, 이는 변환할때 참조하고자 하는 원래 데이터 변수명을 의미한다. 우리는 weight 변수를 다시 코딩하는 것이기 때문에 weight 변수를 선택한다. 그리고, 바로 아래의 드롭다운 메뉴를 보면 'using transform'에서 'create new transform'을 설정해준다. 그러면 Transform의 내용에 대하여 설명을 달 수 있고, 하단의 "+Add recode condition" 버튼을 2번 클릭한다. 2번 클릭하는 이유는 2개 집단을 만들기 위해서이며, 만일 3개 집단이면 3번 클릭하면 된다. 이후 등장하는 함수버튼(f)의 수식을 입력하면 된다. 본 예제의 경우에는 60kg 미만과 이상의 2개 집단이므로, "if $source < 60"을 먼저 입력한 후 새로운 변수 값 1을, 이후 "if $source >= 60"을 먼저 입력한 후 새로운 변수 값 2를 입력해주면 된다. 이후 생성된 새 변수를 보면, 바르게 변환된 것을 볼 수 있다. 간혹 이름과 같은 문자로 표시된 명목 척도값을 숫자로 변경하여 줄 필요가 발생하는데, 이때 해당 문자 값은 반드시 작은따옴표를 사용하여야 한다. 즉 '남자', '여자'처럼 함수버튼에 입력해야 한다. 본 수식은 다소 복잡해 보이지만 일반 엑셀에서 사용하는 등호 수식과 거의 동일하며, 직접 입력할 필요없이 마우스 클릭만으로 설정이 가능하다. 유의할 점은 Jamovi는 R에서 출발하였기 때문에 등호 수식중에서 같다(eqaul)를 표현하기 위하여  "=="를 사용하며 같지 않다(not equal)를 표현하기 위하여 "!="를 사용한다는 점 정도는 엑셀과 차이가 있다. 기타 다양한 수식은 필요에 따라서 익혀 사용하기를 권한다.

변수값 변경 Transfromation

라) Filter: 특정 케이스의 선택 

Jamovi에서 제공하는 필토 기능은 특정한 조건을 충족하느 케이스만을 선택하여 분석을 수행할 수 있게 도와준다. 예를 들어서 남자와 여자 모두를 대상으로 데이터를 수집하였으나, 보고서 목적상 여자만을 대상으로 분석하는 경우를 생각해보자. 가장 쉽게 생각할 수 있는 방법은 데이터 보기창에서 남자 데이터를 모두 지우고 여자 데이터만을 가지고 분석하는 방식이다. 이 방법은 얼핏 간단하고 효과적으로 보일지 모르지만, 나중에 연구 목적에 따라 남자도 추가로 분석해야 되는 상황이 되면 데이터 삭제에 따른 문제가 발생한다. 이럴때 필터 기능을 사용하면 데이터의 삭제 없이 필요한 분석을 할 수 있도록 도와준다.  그외에도 필터를 이용할 경우 복잡한 조건을 충족해야 하는 분석(예: 남성이면서 대학생인 응답자의 나이)을 간단히 할 수 있도록 도와줄 수 있으므로 꼭 익히도록 하자.

이러한 예시처럼, 이번에는 남자만을 대상으로 데이터 분석을 하기위한 필터를 적용해보자. 우선 데이터 탭의 메뉴 아이콘 중에서 'Filters'를 선택한다.  그리고 편집창의 'Filter 1' 칸에 필터로 사용할 변수명을 클릭한후, 필터로 사용한 변수 값을 지정해준다. 즉 변수명은 gender, 변수값은 '여성'을 지정해준다. 그러면 데이터 보기 창에 보기와 같이 응답자가 남성인 경우에는 x표시가 뜨며, 향후 분석에서 제외됨을 표시한다. 변수 지정 등 이 과정 역시 직접 입력하지 않고 마우스 클릭만으로 처리가 가능하다.

필터 적용 효과

필터는 필요에 따라서 추가하여 복수의 필터를 선택할 수 있다. 즉, 본 사례 데이터 값은 경우 필터에 사용할 변수로 gender와 height의 2개를 사용하여 키 170cm 이상의 여성이라는 조건을 충족하는 응답자에 대한 분석만도 가능하다.

마) 기타 기능들 

Jamovi 데이터 입력창에서는 데이터를 다루는데 필요한 기타 기능들을 제공한다. 변수를 추가하거나 삭제할 수 있는 Add와 Delete 기능, 변수나 데이터를 복제하거나 붙일 수 있는 기능들을 제공한다. 이들 기능들은 기본적으로 엑셀, 워드의 기능과 동일하므로 별다른 설명없이 바로 사용이 가능할 것이다.

4) 직접 데이터 핸들링을 해보자

앞에 배운 내용을 중심으로 직접 데이터 핸들링을 해보자. 변수(이름)과 변수에 대한 설명(레이블)은 통상적 SPSS에서 사용되었던 전형적인 데이터 분석 창이다. 이를 보면 본 데이터는 코로나 바이러스가 생활에 미치는 영향을 살펴보기 위하여 총 8개의 설문문항으로 이루어진 설문조사를 통하여 얻어진 것임을 알 수 있다. 즉.

1. Id 변수: 응답자 일련번로 (응답자 중복방지를 위하여 설문응답자에게 번호를 붙여다. 본 데이터는 1~546까지의 아이디가 부여되어 있다. 즉 546명의 데이터다)

2. a1~a3 변수: 코로나 이후 1) 인터넷, 2) 스트리밍 서비스, 3) SNS의 이용이 증가 혹은 감소하였는지를 등간척도의 하나인 5점척도로 물어보고 있다. 

2. b1~b3: 로나 이후 1) 인터넷, 2) 스트리밍 서비스, 3) SNS의 이용시간을 시간 단위의 주관식 문항(비율척도)으로 물어보았다.

3. gender: 응답자의 성별은 객관식 문항(명목척도)인 1과 2로 물어보았다. 1=남성, 2=여성

4. age: 응답자 연령을 주관식 문항(비율척도)으로 물어보았다.  

예제: 데이타 정의

아래는 이런  설문지를 통하여 얻은 총 546명의 데이터를 엑셀 시트로 정리한 것이다. 이 파일을 가지고 실습을 해보자

실습 1) 이 변수들을 가지고, 어떤 설문지를 사용하였는지 역으로 추산해서 설문지를 만들어보자

실습 2) 제공된 엑셀 CSV 파일 포멧의 데이터를 가지고, Jamovi에 데이터를 불어오기를 한다. 그리고, SPSS의 변수정의와 동일하도록 정리해보자(엑셀 파일의 첫줄은 자동적으로 변수명이 되므로, 불러오기 전에 첫줄에 변수명을 미리 상빕하는 전 처리를 하는 것이 편하다)

데이타546명.csv
0.02MB

728x90
728x90

2. Jamovi 설치/준비하기 

1) Jamovi 설치하기

오픈소스 통계 패키지중에서도 Jamovi는 SPSS보다 뛰어난 성능과 편의성을 자랑한다. 일 예로 SPSS에서는 데이터보기 창과 분석결과 창이 별개의 윈도우로 제공되지만 Jamovi에서는 하나의 화면에서 데이터와 분석 결과를 실시간 점검할 수 있다. 무료 패키지라는 장점 외에도 업데이트가 빨라 새로운 최신 기능도 다양하게 선택적으로 사용할 수 있다. 

Jamovi를 설치하기 위해서는 우선 프로그램을 다운로드하여야 한다. Jamovi 다운로드를 위한 인터넷 접속은 모든 브라우저에 가능하나, 가급적 구글 크롬의 사용을 권장한다. 다양한 디지털 데이터 분석과 데이터 마케팅 플랫폼이 구글 중심으로 빠르게 재편되고 있기 때문에 평소에 구글 크롬 브라우저는 기본 브라우저로 사용하는 습관이 편리하기 때문이다. 다른 통계 패키지에서 보기 힘든 특징으로 .Jamovi는 클라우드(cloud) 버전도 지원한다. 즉, 프로그램의 설치 없이도 웹(cloud.jamovi.org)에 접속하여도 동일한 기능의 이용이 가능하다. 이는 여러가지 편리함을 제공하는데, 스마트폰의 웹 접속이나 공용 PC 등에서도 간편하게 이용이 가능하다는 것은 큰 장점이다.

Jamovi 웹사이트(https://www.jamovi.org/) 를 방문하면 다양한 버전의 설치 파일을 선택할 수 있는데, 우선 솔리드(solid) 버전과 커런트(current) 버전의 차이점을 알아야 한다.  보통 커런트 버전은 현재까지 개발된 최신판이지만 아직 기능이 다소 불완전할 수 있어서 에러가 발생할 가능성이 있는 반면, 솔리드 버전은 검증을 통하여 보다 안정된 버전이다. 그러나, 실제로 두 버전간의 차이는 사실상 크지 않아서 어느 것을 설치하여도 무방하다. 이하 본 블로그에서는 솔리드 버전을 설치하고 설명한다.

Jamovi 다운로드 버전

설치 파일의 사이즈는 약 200메가 이하이며, 설치 과정은 단순히 안내 창에 따라 따라가면 되기 때문에 어렵거나 고민해야되는 부분은 없다. 설치가 종료되고 실행되면 Jamovi의 기본적인 화면이 등장한다. Jamovi는 하나의 화면에서 데이터분석과 결과 보기를 할 수 있도록 디자인되어 있어서, 화면 좌우를 중심으로 데이터 보기창과 결과보기 창이 동시에 나타난다. 그리고 기본적인 통계 분석 기능이 자동으로 제공된다. Jamovi는 연구자의 필요에 따라서 기타 다양한 통계 분석 도구들을 추가할 수 있다. 이를 위해서는 메뉴 화면 맨 우측의 모듈(+) 이라는 메뉴를 추가하면 현재까지 설치된 통계 모듈과 추가 설치가능한 통계 모듈을 확인할 수 있다. 이 통계 모듈은 오픈소스 개발자들의 노력을 통하여 수시로 업데이트되거나 추가되기 때문에 Jamovi의 기능이 향후 계속 확장될 수 있음을 보여준다.

Jamovi 실행 후 모듈 추가

 

728x90

2) Jamovi 화면과 메뉴

Jamovi 설치가 완료된 후 실행하면 화면 상단에 아이콘 형태로 제시된 메뉴 영역이 있으며, 그 메뉴 화면 아래로는 좌우로 분할된 두개의 윈도우 창이 나타난다. 좌측의 윈도우 창은 분석에 사용되는 데이터들을 보여주는 역할을 하며, 우측의 윈도우 창은 분석된 통계 결과들을 보여주는 역할을 한다. 우선 화면 상단의 메뉴는 '데이터' 탭과 '어날리세스(분석)' 탭을 선택하면 아이콘 메뉴가 탭에 따라서 변경되는 것을 볼 수 있다. Jamovi의 기본적인 작동 방식은 다음과 같이 단순하다.

   가. 분석 업무의 내용에 따라 우선 데이터 탭 혹은 어날리세스 탭을 선택한다. 데이터 탭은 데이터의 정리가 가공 등 분석 이전의 데이터 전 처리를 위하여 주로 사용하게 되고, 어날리세스 탭은 어떤 통계분석을 시행할지를 선택하게 된다.

  나. 메뉴 아래 좌측의 데이터 보기 윈도우에 분석 대상인 데이터와 변수명이 적절하게 표시되었는가를 확인한다.

  다. 분석 탭을 클릭한 후, 원하는 통계분석을 선택한다.

  라. 메뉴 아래 우측의 결과보기 창에 나타난 통계 결과를 확인한다. 

Jamovi 메뉴 및 윈도우 설명

각 탭들의 기본적 메뉴들을 간단히 살펴보면 다음과 같다.

가) 데이터 탭

: 데이터 탭에서는 분석을 위하여 자료를 준비하거나 변수(variable)의 속성값을 지정하고, 기존의 변수와 데이터를 새로 추가, 변경, 삭제하는 기능을 제공한다.

데이터탭 그래픽 메뉴 

나) 어날리세스(분석) 탭

: 분석 탭에서는 적절한 통계 분석을 실시할 수 있게 해준다. 처음 설치하면 기술통계(Exploration, Frequencies)와 그외  많이 쓰이는 기본적인 통계도구(T-test, ANOVA, Regression)들만 이용가능하며, 모듈 투가를 통하여 보다 다양한 통계분석을 이용할 수 있다.

어날리세스탭 그래픽 메뉴

이는 어날리세스 탭의 메뉴의 맨 우측의 'Modiule' 아이콘을 클릭하면 드롭다운(drop-down) 메뉴를 통하여 원하는 기능을 설치하면 추가 기능의 이용이 가능하다. 이들 추가 기능은 고급 통계기능까지 포함하여 매우 다양하며, 오픈소스 개발자 커뮤니티를 통하여 새롭고 강력한 기능이 계속 추가된다는 것은 SPSS 등 사용 프로그램들과 비교시 가장 큰 장점이기도 하다. 특히 모듈을 추가할 경우, 기존 SPSS에서는 값비싼 확장팩을 통해서도 이용할수 없었던 확인적 요인분석(CFA분석), 매개효과(mediation)와 조절효과(moderation) 분석, 메타(Meta) 분석 등의 고급 통계 기능들도 손쉽게 이용가능하다는 점은 Jamovi만의 매우 큰 매력이 아닐 수 없다.

모듈의 추가 기능

다) 파일 관리 메뉴

: 화면 상단의 맨 좌측의 파일관리 탭을 클릭하면 불러오기, 저장하기, 파일이름 바꾸기 등 기본적인 파일관리 기능을 활용할 수 있다.

728x90
728x90

1. Jamovi 와 오픈소스 통계 패키지

1) 통계 패키지 소프트웨어

컴퓨터를 이용한 통계분석이 보편화된 이후, 주변에서 통계 소프트웨어를 사용하는 경우를 보는 것은 어려운 일이 아니다. 통계분석자들이 가장 흔하게 사용하는 통계 팩키지 프로그램은 SPSS를 필두로 SAS, Minitab 과 같은 상용 프로그램들이 있으며, 최근에는 r 등 새로운 프로그램들이 인기를 끌고 있다. 가장 잘 알려지고 보편적으로 사용중인 프로그램은 여전히 SPSS지만 각자 프로그램들은 자신의 영역에서 활약을 하고 있다. SPSS는 GUI (graphic user interfeace) 기반으로 오피스 프로그램에 익숙하다면 쉽게 조작할 수 있으며, 매년 버전 업을 통해서 방대하고 강력한 통계분석 기능을 자랑하고 있다. 최근에는 SAS나 MINITAB 등 경쟁 패키지도 점차 사용편리성 개선을 위하여 노력하고 있는 실정이다. 

그러나 이런 강점과 편리성에도 불구하고 일반인이 손쉽게 구매하기 힘든 고가의 패키지라는 것이 가장 큰 제약사항이다. 개인적 목적으로 구매할 경우 최소 수백만원을 호가하며, 기업이 구매할 경우 억 단위가 넘어간다. 또한 확장 기능을 부가할때마다 더 많은 추가 비용을 지불하여야 한다. 대부분의 대학들은 50인 내외의 소규모 라이센스 계약을 통하여 교육에 활용하고는 있지만, 대학을 벗어나는 순간 이런 고가 패키지를 이용하기는 쉽지 않다. 일반적인 중소규모의 기업은 물론이고, 대기업에서도 특별한 용도로 구매한 경우가 아닌 다음에야 현업에서 구경하기가 쉽지 않다. 여론조사나 마케팅 리서치 업체 정도에서나 갖추어놓은 경우가 많다. 전문적인 교육을 받고도 가격적 장벽으로 현업에서 사용하지 못하는 문제점들을 극복하기 위해서 누구나 무료로 사용할 수 있는 오픈소스 기반의 통계프로그램들이 등장하고 있으며, 대표적인 운동이 R project이다 (https://www.r-project.org). R은 통계 분석과 관련 그래픽 도출을 위한 완전한 무료 패키지이며, 윈도우, 맥OS, 그리고 리눅스 같은 다양한 플랫폼에서도 운영이 가능하며, 커뮤니티 중심으로 개발자들이 새로운 패키지를 계속 개발하는 유연한 프로그램 이라는 장점이 있다. 현재 2020년 기준으로 적어도 5,000개 이상의 R 패키지들이 개발되어 있다.

R이 이런 장점을 바탕으로 빅 데이터 분석 등 최근 급부상한 통계 영역에서 인기를 끌고 있지만, SPSS 등 기존 프로그램들을 충분히 대체하고 있지는 못하다. 이는 R이 GUI 형태의 소프트웨어가 아니라 일일이 code를 짜서 입력해야 하는 프로그래밍 개발 도구의 형태를 가지고 있기 때문이다. 최근에는 통합개발환경(IDE)인 'R Studio'의 이용을 통하여 다소 편리해졌다고는 하나, GUI 환경에 비할 바는 아니다. 프로그래밍 방식에 따른 개발의 유연성은 장점이 될 수 있지만, 결국 일반 사용자들에게 외면 받는 이유가 되고 있다. 과거 SPSS가 80년대까지는 지금의 r과 똑같은 프로그램 방식을 취하였지만(지금도 SPSS에서 GUI가 구현되지 않은 일부 고급분석 기능(예: conjoint 분석)을 이용하거나 맞춤형 테이블을 대량 출력할 경우에는 여전히 Syntax 코드를 짜야만 한다), 개선을 거듭하여 편리한 사용환경으로 진화한 것을 고려하면, 대중화를 위해서는 현재의 R은 편의성이 크게 부족하다. 

SPSS의 Syntax 코드

2) 오픈소스 기반 통계 패키지

이에 대한 대안으로 최근에는 무료 공개 통계프로그램들도 R과 같은 강력한 통계분석기능과 다양한 OS 플랫폼 지원의 장점은 그대로 유지하면서, SPSS 처럼 편리한 GUI를 갖추고 공개되고 있다. 이런 프로그램의 대표 주자가 PSPP, JASP, 그리고 Jamovi 이다. PSPP (https://www.gnu.org/software/pspp)는 기존에 SPSS에  익숙하였던 사용자가 SPSS를 대체하기에 적합하다. 기존 SPSS와 100% 동일한 GUI와 메뉴 체계를 가지고 있어서 아무런 추가적 학습이나 노력없이 SPSS 사용 경험을 그대로 이용할 수 있다. 당연히 무료이기 떄문에 SPSS 데모판처럼 시간 제한이나 라이센스 문제는 발생하지 않으며, 기능 역시 SPSS 확장판의 통계분석 기능 대부분을 가지고 있다. 10억개 이상의 변수나 응답자 처리가 가능한 것도 장점이다. 또한 기존 SPSS와 데이타파일의 완벽한 호환이 가능하여 과거 사용하였던 SPSS 파일을 분석하거나 타 SPSS 사용자와 데이터 교환 등이 가능하다.

SPSS와 동일한 경험을 제공하는 PSPP

또 다른 대안은 JASP (https://jasp-stats.org)나 Jamovi (https://www.jamovi.org)를 이용하는 것이다. JASP의 개발자중 일부가 독립하여 Jamovi를 개발에 참여하고 있기 때문에 이들 프로그램의 개발 철학이나 이용방식 등은 매우 유사하다. 이들 프로그램은 모두 무료 공개 프로그램이며 SPSS나 SAS와 비교해서도 더 사용하기 편리한 GUI를 갖추고 있다. 또한 이들 프로그램들은 R 통계 언어에 기반하여 구현되었기 때문에 R의 강력하고 유연한 기능을 모두 사용할 수 있다. 평소에는 GUI 형태로 통계 패키지를 이용하지만, 사용자가 R code를 직접 운용하고 싶은 경우에도 패키지 안에서 R 실행이 가능하다. 또한 비교적 개발자 커뮤니티가 작은 규모인 PSPP에 비하여 큰 규모의 R 커뮤니티가 참여하고 있기 때문에 더 빠르게 업데이트되고 더 다양한 기능 모듈들이 수시로 업데이트되고 있는 것도 큰 장점이다. SPSS 등 유명 통계 패키지와의 데이터 호환성도 갖추고 있다.

Jamovi Project

여러가지 사용 옵션이 있지만, 만일 직장에서 이미 SPSS나 SAS 등의 라이센스를 구입하였고, 많은 데이터 아카이브가 구축되어 있다면 당연히 기존 패키지를 사용하는 것이 최선일 것이다. 그러나 그렇치 않은 경우의 대안으로서 이들 공개 프로그램들은 매우 훌륭하다. SPSS에 익숙한 경험을 버리고 싶지 않은 경우에는 PSPP를, 새롭게 배우기 시작한 경우에는 JASP나 Jamovi를 선택할 수 있다. 특히 Jamovi는 SPSS를 능가할 정도의 다양한 통계 모듈들이 빠르게 추가되고 있고, R 의 확장성을 그대로 가지고 있다는 점에서 추천할 만하다. 윈도우와 맥OS, 그리고 리눅스 등 다양한 환경에서 작동되기 때문에 다양한 운영체제를 가지고 있는 학생들 대상의 교육에 있어서도 적절한 측면이 있다. 본인도 역시 고사양의 PC에는 SPSS를 운영하고 있지만, 저사양의 리눅스에서는 Jamovi를 활용하고 있다.

 

728x90

+ Recent posts