728x90

소셜미디어를 한줄로 정리해보자...  한줄로 보는 소셜 미디어 종류와 특성 정리라고 할수 있지만, 지극히 주관적 생각이니 참조만 바랍니다.

- 한줄로 정리되지 않는 것은 진품이 아니다 -

1) 유튜브 : 시청하기

2) 페이스북 : 친구하기

3) 인스타그램 : 자랑하기

4) 틱톡 : 따라하기

5) 트위터 : 팬질하기

6) 카카오톡 : 잡담하기

7) 핀터레스트 : 덕질하기

8) 블로그 : 기록하기

9) 네이버 밴드 : 단합하기 ..

.. 한줄 정리 결과 페이스북이 제일 애매(?)하다... 조만간 페북에는 큰 위기가 올 듯..

728x90
728x90

처음으로 가졌던 개인용 컴퓨터는 애플2, 정확히 이야기하면 애플2를 그대로 모방한 조립용 PC였다. 아직 개인용 컴퓨터라는 개념이 흔하지 않았던 80년대 중후반이었던지라 컴퓨터 자체도 주변에 많지 않았지만, 컴퓨터에서 돌아갈만한 게임이나 프로그램도 그다지 없었다. 그나마 컴퓨터 잡지를 구입하면 간단한 게임을 돌릴수 있는 프로그램 소스코드가 부록으로 제공되었고, 프로그래밍 언어도 모르면서 한자 한자 따라 입력해서 프로그램을 돌렸던 시절이 기억난다. 그 과정은 매우 느리고, 비효율적이고 고생스로운 과정이었다. 만일 이 당시 컴퓨터에게 바둑이나 체스 같은 게임을 가르치고 싶다면, 컴퓨터가 응대할 수 있는 한 수, 한 수를 모두 수고롭게 가르치고 입력해야만 하던 시절이었던 것이다. 프로그래머가 프로그램 뿐만 아니라 바둑이나 체스에도 달인이지 않고서는 혼자서 해낼 수 없는 일이었다.

그러나 머신러닝이 가져온 인공지능의 시대에는 더 이상 이런 수고로움이 필요하지 않다. 바둑이나 체스에 대한 아무런 배경지식이나 경험이 없더라도 머지않아 당신의 컴퓨터는 스스로 최고의 선수가 될 수 있기 때문이다. 2017년 구글의 인공지능을 개발하는 '딥 마인드(Deep Mind)팀은 스스로 학습이 가능한 체스 프로그램인 AlphaZero를 만들었고, 바둑 프로그램인 AiphaGo도 연이어 개발하였다. 이들 프로그램은 아무런 사전 지식없이도 시행착오를 통해서 처음부터 스스로를 훈련시킬 수 있게 디자인되었다. 알파제로는 체스의 게임법칙을 아무도 가르쳐주지 않는 조건 하에서 스스로 깨우쳤으며, 2016년도 전세계 컴퓨터 체스 프로그램 우승자인 'Stockfish 8'을 격파하기 까지 불과 4시간 밖에 필요하지 않았다. 마케팅 전도사인 말콤 글래드웰은 그의 저서 '아웃라이너(outliner)'에서 1만시간의 법칙을 주장하였다. 어떤 주제나 어떤 임무에서 최고의 전문가로 대성하기까지는 1만시간이 필요하다고 주장하였지만, 이는 오직 인간에 국한된 이야기일 뿐임을 증명하였다. 이제는 머신러닝이 가져온 완전한 자동화의 시대에 돌입하였다. 컴퓨터들은 데이터만 주어진다면 과거를 지배하던 경험이나 지식에 의존하지 않고, 스스로의 시행착오를 통하여 최적의 솔루션을 만들어낼 수 있는 단계까지 진화한 것이다.

인간이 다시 정상에 설 기회가 있을까?

인공지능의 전문가들은 인공지능에 대한 미래나 상상은 지나치게 과장되었다고 주장한다. 이들은 전반적인 수준에서 인간을 뛰어넘는 수준의 인공지능은 현재의 머신러닝으로 당분간 현실화되기 어려우며, 영화 터미네이터를 통하여 인류가 체득한 뿌리깊은 공포는 공상과학에 불과하다고 비판한다. 즉, 아직 인간을 완전히 대체할수 있는 기술이라는 것은 생각보다 먼 미래의 이야기일 수 있다. 동의한다. 그러나, 특정한 영역의 대체, 예를 들어 체스만 잘두는 인공지능이라든지, 사진 판독만 잘하는 인공지능이라든디 특정 영역으로 제한하면 이야기는 달라진다. 머신 러닝이 창출하는 인공지능은 적어도 과업과 관련된 문제해결이라는 국한된 영역에 있어서는 전인적인 성과를 보장한다. 인간은 개미와 마찬가지로 사회적인 동물이다. 혼자서 할 수 있는 일보다는 같이 그룹으로 뭉쳤을 때 보통 더 좋은 성과를 낸다. 게임을 하더라도 탱커, 힐러, 마법사 등 포지션별로 역할이 주어지고 각자 맡은바 역할을 통해서 게임을 클리어한다. 기업이나 군대 역시 각자 독립적 역할을 가진 다수가 모여 하나의 목표 해결을 추구한다. 혼자서 다 잘 해내기는 어렵고 비효율적인 것이 인간 사회이다. 그러나 머신러닝 기반이 되는 인공지능은 이런 제약으로부터도 자유롭다. 머신 러닝은 단 하나의 솔루션을 제공한다. 만일 게임에서 승리하는 것이 목적인 머신 러닝이라면, 혼자서 게임의 모든 포지션과 직업을 모두 소화하면서 자동으로 캐릭터를 육성해나갈 것이다. 머신러닝으로 게임 캐릭터를 육성한 인간 유저는 의자 뒷편에 커파 한잔을 들고 느긋하게 앉아 자신의 게임 캐릭터가 다른 인간 게임 유저를 무참하게 농락하는 것을 그저 지켜보기만 하면 된다.

- 전인적 인간을 능가하는 인공지능은 확정되지 않은 미래다 -

광고인의 일 이라는 것도 유사하게 변화하고 있다. 머신러닝이 적용된 광고는 정확한 시점에 적절한 고객에게 최저의 비용으로 광고 메시지를 전달하기 위하여 쉴 틈없이 일을 하고 있다. 고객에 대한 분석을 통하여 고객 페르소나를 구축하고 광고에 대한 새로운 통찰로 판단을 하며, 결과에 대한 분석과 피드백은 새로운 데이터로 머신 러닝에 다시 투입된다. 맥킨지 글로벌 연구소(McKinsey Global Institude)분석의 시대(The age of Analytics)’라는 보고서를 통하여 인공지능의 도입으로 인간의 개입이 사라질 수 있는 주요 산업들을 설명하였는데(The age of analytics: Competing in a data-driven world (mckinsey.com)), 주로 영향을 받는 부분들이 맞춤형 광고, 소비자 직관 발견, 미디어 관리 등 광고의 주요 영역들이 이에 포함된다.

하지만 여전히 많은 광고인들은 머신러닝을 그다지 미더워하지 못하는 것도 사실이다. 자동화된 셋팅이나 광고 시스템이 추천한 방식으로 광고 캠페인을 자동화하였더니 초반 성과가 기대보다 신통치 못하였다는 경험들이 있기 때문이다. 이는 초반에 일정한 학습량이 필요한 머신 러닝의 특성 상, 대부분 광고 자동화의 도입 초기에 겪기 쉬운 현상이다. 머신 러닝의 학습과정은 최초의 데이터 셋트를 통하여 머신 러닝 알고리듬을 훈련시키고 개선해나가는 과정을 의미한다. 초기 이후에도 광고 셋팅에 변화 요인이 있을 때에는 머신러닝은 새로운 변수나 조건들이 결과에 미치는 영향을 말 그대로 테스트하게 된다. 이 테스트 과정을 통하여 특정 변수나 조건들이 결과 값에 미치는 긍정적 혹은 부정적 영향의 정도와 크기를 계산하고, 이를 반영하여 미래 결과를 예측하게 되는 것이다.

머신 러닝의 기본 원리에 대해서 광고 전문가들도 이제는 크게 낯설지는 않다. 하지만, 그들이 배정한 소중한 광고 예산의 상당 부분이 단지 연습을 위해서 쓰여질 수 있다는 사실을 인지하거나 받아들이는 경우는 많지 않다. 머신러닝이 학습에 사용되는 광고 예산에 대하여 부정적인 인식을 가지고 있으며, 예산의 낭비 요인이라고 치부한다. 그러니 머신러닝에 의한 광고 자동화가 쉽사리 용납될 리가 없다. 그러나 학습 과정 없이 제 몫을 해낼 수 있는 방법은 없다. 사람이나 기계나.. 우리 모두 우리가 학창시절 벌였던, 혹은 성인이 된 후 지금도 벌이고 있을지 모르는 어처구니 없는 일들을 기억해야 한다. 실수를 통하여 배우며, 이는 더 나은 미래를 위한 투자 비용으로 인식하여야만 앞으로 나갈수 있다. 더 나은 광고 성과를 기대하는 광고인들은 이제 광고 자동화를 위한 '교육비'항목을 따로 만들고, 인내심을 가지고 기다리고 지켜봐줄 수 있어야 한다. 그러면 머신러닝에 기반한 광고 자동화는 절대 실망시키는 법 없이 더 나은 성과를 창출하게 될 것이다.  우리는 이미 알파고와 이세돌의 대결에서 정해진 결말을 확인하였다.

 

728x90
728x90

인공지능은 부지런한 머신 러닝에 의하여 창출된 결과물이고, 굳이 4차산업혁명을 호출하지 않더라고 머신러닝이 미래를 결정할 기술임에는 틀림없다. 시중에는 머신러닝을 쉽게 가르치는 책들이 많이 등장하고 있지만, 그렇다고 광고인이나 마케터가 직접 머신러닝을 배울 필요까지는 없다. 물론 알고 있으면 모르는 것보다는 좋을 것이다. 그러나, 우리는 약이 만들어지는 과정에 대해서 전혀 아는 것이 없지만 머리가 아플때는 자연스럽게 타이레놀로 두통을 해결하고, 자동차 엔진이나 구조에 관하여 전혀 관심이 없더라도 운전을 하고 원하는 장소로 간다. 과거 이스라엘의 초대 대통령이 되었던 차임 바이츠만은 아인슈타인과 함께 유람선을 타고 대서양을 건너 미국에 도착하였다. 친분이 있던 두사람은 매일 아침마다 만나 식사를 같이 하였고, 매일 2시간 이상 아인슈타인의 천재적인 상대성이론 이야기를 들었다. 마침내 여행이 끝나갈 때 그는 본인이 여전히 상대성이론을 이해하고 있지는 못하지만 대신 아인슈타인이 상대성이론을 잘 이해하고 있음을 확신하였다.

머신러닝 역시 마케터에게 그런 존재일 뿐이다. 굳이 원리나 빅데이터를 분석하는 빅 통계 기술이 없더라도 충분히 머신러닝의 가져올 결과물을 즐길 수 있을 것이다. 머신 러닝에 대한 본원적인 분석이나 이해는 전문가 집단에게 맡기고, 이를 어떻게 활용할 수 있는가에 대한 고민을 시작해 보자.

- 기술은 메카닉에게, 혜택은 이용자에게 -

대부분의 대학에서의 광고 교육이 아직 그렇듯이 담당하는 과목 역시 ATL 중심의 오랫된 이론이나 광고기법을 가르치는 것이 보통이었고 간간히 디지털 광고에 대한 이야기도 나오지만 여전히 전통적 4대매체에 대한 내용이 중심이었다. 실험적으로 20202학기부터 전통 매체에 대한 논의는 최대한 줄이고 강의 대부분을 디지털 광고나 퍼포먼스 마케팅 중심으로 설명하기 시작하였다.

처음 네이버 키워드 광고를 접하게 되는 학생들에게 청주대학교를 홍보하도록 과제를 주었고, 광고예산을 확보하여 실제 키워드 광고를 집행하였다. 대학 수능철이 가까운 시점이었기 때문에 적절한 광고 주제였고 비교적 광고 초보자가 키워드를 뽑아내기에도 적절하다고 판단되었다. 실제 40명의 학생들이 6개의 팀을 이룬후에 랜딩 페이지를 대학교 홈페이지로 설정한 후 누가 더 높은 클릭률을 달성하는지 경쟁하는 방식으로 진행되었다. 이때 대부분 팀에서 가장 공통적으로 뽑아낸 핵심 키워드는 대학교 이름이었다. 그 이외에도 다양한 키워드 리스트를 작성하였지만 다수의 팀에서 청주대학교는 가장 관심을 끌 수 있는 결정적 키워드로 판단한 것으로 보였다. 그러나 이 키워드는 노출은 잘 되었지만, 클릭률은 처참하였다.

대부분의 검색서비스 이용자들은 자신이 지원하고자하는 대학에 대한 관심으로 키워드를 입력하지만, 공식 홈페이지가 제공하는 뻔한 정보에는 그다지 관심이 없었고, 졸업생이나 다른 이용자들의 비공식적 정보에 관심을 기울이거나, 예비순위 같은 보다 구체적인 정보를 알고 싶어한다는 점을 간과하였기 때문이다. 광고 성과의 중간 점검 이후 각 팀들은 청주대학교 수시등급’, ‘정시 3등급대학등 보다 BOFU(Bottom of Funnel)을 직격할 수 있는 대체 키워드들을 개발하였고, 이들의 광고 성과는 조금 더 개선되기 시작하였다. 일반적인 키워드에서 보다 구체적이고 검색 동기에 근접한 키워드로의 변경은 클릭률을 높였을 뿐만 아니라 광고비가 상대적으로 비싼 키워드 대신 보다 저렴하고 효율적인 키워드를 변경함에 따른 예산의 절약도 가능하게 하였다.

이번 학기를 통하여 학생들이 학습한 것은 이들에게는 새로운 지식이었을지 모르지만 더 이상 광고업계에서 새로운 지식은 아니다. 누구나 그렇게 하고 있다. 네이버광고나 구글 애즈에서는 자체적으로 키워드 선정과 입찰가 결정을 도와주는 키워드 도구들을 제공하고 있고, 그 이외에도 키워드 리서치를 코칭하는 독립적인 광고 지원서비스들도 증가하고 있다. 디지털 광고 시장은 이제 더 이상 누가 가장 똑똑한 아이디어를 가지고 있는가를 경쟁하는 시대가 아니고 누가 가장 똑똑하게 도구를 사용하고 있는가의 시대로 들어서고 있다. 이른바 애드 테크(Ad-tech)의 대항해시대이다.

728x90
728x90

  기업에서 다년간 마케팅 관련 실무를 경험하였고, 이후 프리랜서로서 기업의 시장조사와 컨설팅을 매년 끊임없이 해온 입장에서 코틀러에 의해 정립되었고, 마케팅 공통어가 된 전통적인 마케팅 프레임워크에 대하여 자부심을 가지고 있다. 매우 단순해 보이지만STP 전략은 시장을 바로 이해하는 첫걸음으로서 부족함이 없었기 때문이다. 기업이 당면한 문제를 해결하고 시장을 들여다보기 위한 수단으로써,, 시장을 세분화하고 세분시장 내의 고객을 들여다보면 어느덧 새로운 전략이나 문제 해결방안이 떠오르고는 했다.

<전통적 STP, 여전히 유효한가?>

사실 이 과정은 그리 녹녹하지만은 않았다. 무엇보다도 시장세분화를 하기 위해서는 설문조사나 잡지, 보고서 등의 2차 자료를 수집하고, 수집한 자료를 다양한 통계 도구를 이용하여 분석하고, 시사점을 찾아내는 직관도 상당히 요구되기 때문이다. 동일한 데이터나 동일한 자료를 보더라도, 보는 사람의 식견과 수준에 따라서 도출되는 결과물이 다르기 때문에 마케팅 기획자의 역량이 중요한 역할을 수행한다.

네이버광고나 구글 애즈에서 이런 타기팅 기능을 자동화하여 제공한다는 것을 알았을 때도 그다지 이런 기능을 진지하게 받아들이지는 않았다. 자동화된 기능을 받아들이기보다는 직접 광고를 셋팅하는 것이 분명 더 효과가 높을 것이라고 막연히 생각하고 있었기 때문이다. 이미 알파고가 바둑의 최정상임을 증명한 세상이지만, 아직 광고나 마케팅은 인간의 창의성이 지배하는 영역이고 기계가 따라오려면 아직은 멀었다는 생각도 있었던 것 같다. 설문조사로 얻은 방대한 데이터를 SPSS로 분석하고 포지셔닝 맵을 그려보면서, 마케팅 관련 서적에서 보았던 트렌드 변화를 생각하면서 나름대로 최선의 타겟팅을 하고 있다고 생각하였다. 마케팅 자동화에 대한 논의나 연구가 점점 더 많이 부각되고 있었지만, 자동화는 게으름이라고 생각되었다.

최근에는 구글 광고를 셋팅할 때, 자동화를 선택하지 않으면 구글이 경고를 보내다. 좋은 성과를 기대하기 힘들다고.. 이런 경고를 접하는 순간들이 늘어나면서 차츰 자동화의 가능성에 대해서 인정하지 않을 수 없게 되었다.

<구글 광고 자동화. 수동입찰 권장하지 않음>

우리가 여전히 자동화된 광고, 마케팅에 대해서 거부감을 갖는 이유 중의 하나는 오랫동안 쌓아온 개인의 전문성이나 지식이 무용하게 될지도 모른다는 일종의 공포심도 있을 것이다. 그러나 이런 공포심이 커지던 말던 내일의 자동화는 오늘보다 더욱 정교하고 강력해질 것이며, 궁극적으로는 광고의 결과만을 놓고 보았을 때 인간보다 더 뛰어난 결과를 내놓을 것임을 의심하기는 어렵다. 공장에서 인간 작업공이 조립 로봇의 생산성을 따라갈 수 없는 것처럼 과정보다는 결과만을 중시하는 냉혹한 비즈니스 세계에서 그 일을 할 사람이 꼭 인간일 필요는 없을 것이다. 개인적 믿은 따위는 제쳐 놓고 우리가 자동화된 마케팅과 광고에 관심을 가져야만 하는 이유이다.

- 기차가 인간보다 빠르다고 한탄하는 사람은 없다. 자동화된 광고도 그렇다 -

 

728x90
728x90

이미 전통적인 ATL 광고나 BTL 광고의 시대는 역사 저편으로 사라졌고, 새로운 디지털 광고의 시대가 왔음을 부인하기 어렵다. 최근 광고회사의 광고비 매출액 변화는 이런 변화의 양상을 실시간으로 보여주는 지표이다. 국내 최대 광고 대행사 중 하나인 제일기획의 2020년도 매체별 광고비 지출 예상에 의하면 TV광고로 창출된 광고시장 고작 1.2조 원에 불과할 정도로 쪼그라든 반면 디지털 광고(PC 및 모바일 포함)로 창출된 광고시장은 3.75조 원으로 예상된다. 비율로 따져보면 TV광고가 고작 9.7%라는 초라한 한 자릿수에 머물 동안, 디지털 광고는 44.5%라는 과반수를 육박하고 있는 것이다. 전통적인 ATL(TV, 라디오, 신문, 잡지)을 모두 합치더라도 그 비중은 24.7%에 불과하다. 전통적 광고 플랫폼의 사망이 손에 잡힐듯 시나브로 다가오고 있다.

이러한 충격적 변화의 기본에는 구글, 네이버, 페이스북, 틱톡 등 기존 검색포탈과 콘텐츠 미디어 기업들이 빠르게 광고시장을 장악하고 있는 것과 관련이 크다. 새로운 Ad-tech로 무장한 이들 기업들은 고객 데이터의 축적, 고객 페르소나의 구축, 자동화된 타겟팅과 마케팅, 리마케팅, 그리고 광고 성과의 실시간 퍼포먼스 측정이라는 무기를 가지고 적극적으로 광고 시장을 자동화, 디지털화, 인공 지능화하고 있다. 최근 구글의 광고 플랫폼인 '구글 애즈'에 접속하여 광고 노출 대상을 마케터가 연령, 성별, 주소 등 정보를 이용하여 수동으로 설정하면 감히(?) 구글이 마케팅 전공 박사에게도 훈계하는 세상이 왔다. 구글 애즈에서 광고 타겟을 수동 설정 시에는 "웬만하면 나 믿고 자동으로 설정하시지? 자신있음 함 수동 해보시던가.. ㅋㅋ" 라는 무시무시한 경고 문구가 송출된다(물론 실제는 조금 더 점잖은 투로 경고를 준다). 

이런 변화속에서도 대학의 마케팅, 광고 교육은 크게 변화하지 않았다. 내가 만나 본 현업의 그로스(Growth-hacker) 마케터나 디지털 마케터들은 보통 마케팅의 세계를 크게 1) '브랜드 마케팅', 2) '퍼포먼스 마케팅'이라는 두 개의 갈라진 세계로 이해한다(물론 이 양분론은 개념적으로 불완전하다만...).  브랜드 마케팅은 주로 브랜드 개발, ATL, 광고 카피 등 과거의 유산에 불과하다고 폄하한다. 이들은 최근 유명 대학의 마케팅 교수에게 '픽셀(pixel)'이 무엇이냐고 물어봤더니, DSLR 카메라의 해상도를 설명하더라는 카더라 류의 경험담을 이야기하며 대학 마케팅 교육의 무용론을 주장한다. 

<브랜드 광고: 아무리 재미있어도 '스튜디오 좋'보다 못하더라..>

그러나, 마케팅은 두 날개를 가진 새와 같다. 한 쪽 날개만으로는 날 수 없다. 브랜드 마케팅이나 고객 심리, 카피 작성 이론 등을 잘 이해하지 못한 상태에서 디지털 마케팅만을 배우는 것은 교통법규를 모르고 운전을 배우는 것과 같다. 운 좋으면 차가 그럭저럭 굴러가지만 자신이 얼마나 위험한 운전을 하고 있는지 조차 모르며, 언제 어디서 어떤 사고가 나더라도 이상할 바 없다. 반면에 디지털 마케팅에 무지한 것은 책으로만 배운 운전면허나 같다. 모든 것을 다 알고 있는 것 같지만, 길에 나가는 순간 굴러가지 않는다.

대학이나 광고, 마케팅 교육기관이 추구해야 되는 이상적인 미래 마케팅 교육은 브랜드 마케팅의 개념을 바탕으로 디지털 마케팅의 실전 감각을 키우는 것이다. 이를 위하여 균형있는 커리큘럼이 필요하다. 본 블로그 저자도 2020년도부터 '광고론' 과목을 반으로 나누어서 중간고사 이전의 상반기에는 전통적인 광고이론을, 하반기에는 새로운 디지털 광고이론의 실제를 나누어 강의하고 있다. 궁극적인 목표는 이 둘을 유기적으로 통합한 교재나 교육과정을 개발하는 것이지만, 아직은 단순한 봉합에 불과하다. 향후 디지털 광고를 강의에 접목하는데 관심이 있는 분들을 위하여 이번 학기에 수정하면서 진행중인 하반기 강의안(디지털 광고전략)을 부족한 ing 버전이지만 공유드리고자 한다. 디지털 포스가 함께 하기를...

디지털광고전략의 실제_이원준(청주대교수).pdf
5.06MB

 

728x90
728x90

#08-3. GA 계정 설정과 관리

GA 트랙킹 코드 및 계정 설정

GA를 설정하기 위해서는 우선 구글 계정이나 구글 이메일 계정을 가지고 있어야 한다. 안드로이드 기반의 스마트폰에서 앱 마켓을 이용하기 위해서는 구글 계정이 필수적이기 때문에 대부분 이미 구글 계정을 가지고 있을 것이다. 그러나 개인용 계정과 업무용 계정을 분리하여 사용하는 것을 권장하며, 이를 위하여 새로 업무용 구글 계정을 만드는 것이 필요하다(https://support.google.com/accounts/answer/27441?hl=ko&ref_topic=3382296). 기업에서 개인 계정으로 운영할 경우 직원의 부서 이동이나 퇴사 등 사건이 발생 시, 소중한 데이터 관리에 큰 문제가 생기는 경우가 빈번하기 때문이다.

GA를 통하여 웹사이트에 대한 정보를 획득하기 위해서는 우선 트래킹 코드의 생성이 필요하다. [사용자 계정]을 만들기 위한 첫 단계로 GA 접속 후 톱니바퀴 모양의 '관리(admin)' 아이콘을 클릭하여 후 '관리자' 화면에 접속하여 '계정 만들기'를 클릭한다(관리 아이콘의 위치는 현재 GA버전에서는 웹페이지 왼쪽 최하단에 위치함). 계정 만들기에서는 계정 설정 측정대상 () 설정 속성 설정이 차례로 진행된다. 우선 계정 설정에서는 관리 목적으로 구분하기 위한 적절한 계정 이름을 임의로 설정한다. 그 이후에는 측정하고자 하는 대상이 웹사이트 인지 혹은 앱 등 응용프로그램인지를 선택하여야 한다. GA는 웹사이트 방문자 정보뿐만 아니라 모바일기기에 설치되는 앱 사이트 이용 정보의 수집도 가능하다. 목적에 맞게 설정한 이후에는 구체적인 웹사이트의 속성 값을설정한다. 참고로 웹사이트 선택 시 pc기반의 인터넷은 물론이고 스마트폰이나 반응형 웹으로 이용하는 정보도 확인가능하므로, 스마트폰에서 웹사이트를 이용하는 경우도 웹사이트로 확인가능하다. 앱은 게임 앱, 증권 앱 등 설치되는 앱에 대한 이용만을 추적한다.

이렇게 설정된 속성값은 GA 서버와 웹사이트를 식별할 수 있도록 내 사이트의 URL 정보를 제공한다. 본 저자가 운영하는 정보 블로그 게시판(sooupforlee.tistory.com)이라면 아래와 같이 입력하고 적절한 업종과 국가, 시간대로 입력한다. 특히 기준 시간은 향후 광고 캠페인을 전개할 때 하루치 데이터를 파싱(parsing)하여 축적하는 기준 시간이 되기 때문에 반드시 대한민국이나 마케팅 대상이 되는 국가에 맞도록 조정하여야 한다. 이후 수정이 용이하지 않을 수 있으니, 초기 설정에 주의하자.

<GA 계정만들기>

이런 과정을 완료하고 이후 GA 이용약관에 동의하면 GA는 추적 id와 더불어 html 코드로 작성된 트래킹 코드를 제공한다. 해당 트래킹 코드를 분석 대상 웹 페이지 html 프로그래밍의 <head> 태그 밑에 복사하여 붙여 넣거나, 혹은 추적 id를 입력하면 이후 모든 데이터는 GA 서버에 자동으로 전송하게 된다. 추적 id는 일부 블로그 서비스나 앱에서 GA를 간편한 플러그인 서비스로 제공할 경우에 단지 id를 입력하는 것만으로도 사용이 가능하다. 아래는 GA가 제공하는 일반적인 트래킹 코드이다.

<GA 추적ID와 트래킹 코드>

728x90

Tag Assistant를 통한 데이터 신뢰성 확인

통계 분석에서 자주 언급되는 이야기 중에 쓰레기가 들어오면 나가는 것도 쓰레기(Garbag-in, Garbage-out)’이라는 표현이 있다. 축적된 분석 대상 데이터의 품질이 조악하다면, 그 어떤 전문가가 아무리 최고 수준의 통계분석을 진행하더라도 그 결과물을 신뢰할 수 없다는 의미이다. GA가 웹사이트나 앱으로부터 수집하는 데이터 역시 데이터 품질에 이상이 있다면 이에 기반한 의사결정의 신뢰성이 흔들리며, 분석 자체의 의의를 찾기가 어렵게 된다. 따라서 트랙킹 코드를 설치한 이후에는 유입되는 데이터의 신뢰성이나 정합성을 확인하여야만 한다. 특히 트랙킹 코드가 중복 삽입되는 경우 불필요한 데이터가 유입되거나, 데이터가 중복하여 축적되는 경우들이 발생할 수 있으며, GA 보고서 전반의 신뢰성을 현저하게 떨어뜨리게 된다.

데이터의 신뢰성을 확인하기 위하여 실시간 보고서 등을 보면서 점검할수도 있지만, 그보다는 GA의 확장 프로그램들을 사용하는 것이 효율적이다. 태그 어씨스턴트(Google Tag Assistant)GA의 생산성 확장을 위한 대표적인 프로그램이며, 설치 시 트래킹 코드와 관련하여 자동으로 데이터 검수를 진행해 준다. 해당 웹사이트(c11.kr/drs1)를 방문하여 설치를 진행하면 구글 크롬 브라우저 상단에 확장 기능과 관련된 별도의 썸네일 메뉴가 생성된다. 썸네일 메뉴의 설정(톱니모양 아이콘) 오른쪽에 있는 더보기 메뉴 Auto Validation On을 차례로 선택하면 태그 어씨스턴트의 기능이 활성화되며, 이후부터는 본인이 운영하는 사이트를 포함하여 어떤 사이트에 접속하더라도 자동으로 태그 어씨스턴트가 실행된다. 만일 해당 사이트에 GA 트래킹 코드가 적절하게 삽입되어 있다면 청색의 태그 모양 아이콘과 GA 트랙킹 코드가 표시될 것이다. 사소한 오류가 있는 경우에는 초록색, 심각한 오류가 있는 경우에는 적색이 표시된다. 적색으로 오류가 발생되거나 중복된 GA 트랙킹 코드가 보일 경우에는 GA의 설정에서 중복 값을 점검해야 한다

<태그 매니저의 적용>

계정, 속성, 보기의 이해

다시 구글 계정을 이용하여 GA로그인한 후 GA의 화면 왼쪽 아래의 관리 메뉴를 먼저 확인한다관리 메뉴는 GA에서 핵심적인 구실을 하는데, 관리에서 GA 분석에 필요한 설정값들을 수정하면, 이는 이후 보고서에 반영되어 분석에 사용된다관리 메뉴에 들어가 보GA의 관리 메뉴는 계정(account) 속성(property) 보기(view)의 순서로 수직적으로 연결된 3단계 트리(tree) 구조로 구성된 것을 볼 수 있다

<계정-속성-보기의 관계>

사례로 설명하면 계정으로는 기업명인 '삼성전자'나 프로젝트명으로 '삼성 마케팅스쿨'이라는 계정명을 가질 수 있다. 그 다음 단계로 삼성전자라는 하나의 계정은 PC용 웹페이지(예: www.samsung.com), 모바일용 웹페이지(예:  m.samsung.com) 혹은 특정 브랜드를 위한 마이크로 사이트(예: www.galaxy11.co.kr) 등 한 개 이상의 속성을 가지고 있을 수 있다. 또한 www.samsung.com이라는 하나의 속성은 원본 데이터 세트, 백업용 데이터 세트, 모바일만 모은 데이터 세트, 소셜 미디어로 유입된 데이터 세트 등 다수의 보기를 가질 수 있다. 이처럼 Tree형 구조를 갖게되는 것은, 보통 한 기업의 다수의 웹사이트를 운영중이며, 각각 웹사이트 하나하나 마다 여러개의 데이터셋을 가질 수 있음을 고려한 조치이다. 인터넷 마케팅 증가에 따라 기업의 대표 홈페이지 이외에 이벤트 홈페이지, 브랜드 홈페이지 등으로 웹사이트가 분화되고 있으며, 하나의 웹사이트에 쌓인 정보도 분석 대상과 목적에 따라 원본 이외에 여러벌의 카피본이나 특수목적의 데이터셋이 필요해지고 있음을 생각하자.

실제로 GA 데모 계정의 경우에는 계정명은 'Demo account', 속성 명'Google merchadise store(shop.googlemerchandisestore.com), 보기는 Master view, Test View, Raw Data View3개를 가지고 있다. 속성을 복수로 지정할 경우 다수의 웹이나 앱을 처리할 수 있다. 또한, 보기를 여러 데이터 세트로 구분함으로써 GA의 운영 혹은 다양한 실험의 진행 과정에서 데이터 원본이 손상되거나 변조될 가능성에 대비할 수 있게 하는 것이 목적이다. 이들 각각은 세부적인 설정이 가능하다.

<보기(view)의 추가 만들기>

1) 계정: 기업 전체 또는 프로젝트 단위로서 분석 관리를 하기 위한 최상위 단위 그룹이며, 다른 사용자들에게 GA 사용 권한을 부여하거나 사이트가 속한 동일 업종 내 평균과 벤치마킹 비교를 할지 여부 등을 선택할 수 있다. 권한은 계정뿐만 아니라 속성이나 보기에서도 각각 부여할 수 있는데, 상위 단계에서 부여한 속성은 그 권한이 하위 단계에서도 상속된다. 즉, 계정에서 부여받은 권한은 속성이나 보기에서도 그대로 적용되지만, 반대로 보기에서 부여받은 권한은 그 윗 단계인 속성이나 계정에는 적용되지 않는다.

2) 속성: 데이터 분석의 실제 대상이 되는 웹이나 모바일 앱 단위별로 추가하거나 설정하는 정보 그룹이다. 속성 단위에서 타인에 대한 사용 권한 부여나 세션(session) 시간에 대한 기준 설정도 가능하다. 특히 속성 설정에서는 광고 기능 중 '인구통계 및 관심 분야 보고서 사용' 메뉴를 활성화하고 해당 메뉴의 활성화 기능이 포함된 새로운 html 형식의 추가된 트랙킹 코드(예: ga('require', 'displayfeatures');)를 받아서 웹사이트의 <head>에 삽입할 필요가 있다. 이 메뉴를 활성화하면 구글은 기업의 웹사이트를 방문한 방문객의 PC에 자동으로 쿠키(cookie) 파일을 설치하게 되고, 이를 이용하여 나이, 성별, 관심 분야 등 고객이 회원 가입 시 제공하지 않은 개인적인 인적 정보도 추정함으로써 더욱 세부적인 분석이 가능해진다.

3) 보기(view): 웹이나 앱 단위의 정보 그룹이 산출한 실제 데이터가 축적된 데이터베이스 단위이다. 보기 이름, 웹사이트 URL 주소를 변경할 수 있고  보기 단위에서 타인에 대한 사용 권한을 설정할 수 있다보기는 기본 값으로 '모든 데이터 보기'가 하나 생성되지만, 훈련 중인 신입 사원이나 외부 광고대행사 등 특정인에게 제한된 데이터 세트에만 접근 권한을 주거나 중국과 한국 등 지역적으로 나누어서 개별적으로 캠페인을 전개하는 등 보기를 분리할 필요가 다수 생길 수 있다. 이처럼 발생할 필요 목적에 따라 전체 데이터의 복사본을 추가적인 보기(view)로 만들거나 제한된 데이터 보기(view)를 만듦으로써 GA 운영의 효율성과 원본 데이터의 보호가 가능하다. 이러한 목적을 가진 다양한 데이터를 보유한 보기는 보고 시간대를 달리하거나, 필터(filter)를 적용함으로써 만들 수 있다.

다만 새로 생성된 보기(view)의 데이터 축적은 보기를 만드는 시점을 시작으로 이루어지며, 그 이전의 과거 데이터는 축적되지 않는다. 또한 보기는 보고서를 볼 때 적용함으로써 작동한다. 보기 생성 기능은 원본 데이터베이스를 가공해야만 생성되기 때문에 불특정 다수가 동시에 이용하는 GA 데모 버전에서는 정책상 허용하지 않고 있으므로 자신의 사이트에 GA를 설정한 이후에여 비로서 활성화되는 것을 볼 수 있다그 이외에  기준 시간대(국가), 기준 통화 등에 대한 정보를 수정하거나 더는 필요가 없는 보기는 삭제할 수 있다.

<보기 뷰의 추가 만들기>

사이트검색 기능의 추가 설정

보기 설정중 눈여겨볼 것은 하위 메뉴 중 '사이트 검색(site search) 추적'이다. 이 기능을 활성화할 경우에는 일단 사이트에 유입된 방문객이 사이트 내에서 어떤 내용을 검색하는지 내부 검색어를 추가로 추적할 수 있다. 검색어는 네이버나 구글과 같은 외부 검색엔진을 통하여 들어오는 외부 검색어와 더불러, 도착한 사이트 내의 자체적인 검색 기능을 이용한 내부 검색으로 나누어질 수 있다.

이를 이용하기 위해서는 사이트 내부에서 검색 시 이용하는 검색어 매개변수(query parameter)를 확인하여야 한다. 검색어 매개변수는 검색어를 검색창에 입력하였을 때 웹브라우저의 주소창에서 확인할 수 있다. 보통 URL 주소 내 검색어 앞에 매개변수 구분자가 표시된다. 일례로 청주대학교(www.cju.ac.kr)의 검색 창에서 '마케팅'이라는 단어를 검색하면 url은 아래처럼 변경된다. 즉 'query=마케팅'이라는 부분을 확인할 수 있는데, 이 query가 매개 변수 검색구분자이다.

<검색어 입력 시 uRL 변화>

 이제 확인한 매개변수(query)를 입력하면 이제 부터 방문객이 우리 사이트 내에서 어떤 정보를 주로 검색하고 이용하는지 내부 검색 키워드에 대한 추적과 검색이 가능하다. 

<검색어 매개변수의 설정>

 GA 보고서상의 NP(not provided)의 확인

GA의 유입 보고서나 키워드 보고서 등을 살펴볼 때 상당한 비율의 정보가 제공되지 않음, 즉 Not provided (NP) 형태로 제시되고 있다. 현재 본 저자가 운영하는 사이트의 경우에도 최근 70%에 육박하는 자연어 키워드가 NP 형태로 보고되고 있다. 이처럼 NP로 보고되는 경우에는 GA를 적용하더라도 사용자에 대한 정보를 확인할 수 없다. 이는 일반적으로 사이트의 방문자가 구글 검색 등 SSL 연결상태에서 검색하였을 때 발생한다. SSL 상태로 방문한 경우 보통 URL 주소창이 자물쇠 모양의 잠금 표시와 더불어 보편적인 http:// 가 아니라 https://로 시작되는 경우들이다. 이는 2011년 부터 구글이 적용한 개인정보보호 정책의 일환으로서, SSL인증서가 적용된 상태에서의 검색 등 이용 기록을 더 이상 공개하지 않기로한 정책의 결과이다. 그러나, NP의 증가는 어낼리틱스 분석자가 정확한 정보에 접근할 수 없는 장애요인이 되고 있다.

이를 완전히 해결하기는 어렵지만, 보고서의 필터(filter) 기능을 통하여 우회적인 방법으로 NP에 대한 정보를 모을 수 있다. 필터 기능을 통하여 새로운 필터를 만든 이후, 필터의 맞춤 설정 고급기능을 이용하여 캠페인 용어, 페이지 제목등을 셋팅해주자. 이 필터 셋팅은 여전히 사용자가 어떤 키워드로 검색하고 들어왔는지 등 NP에 대하여 완전한 해결책은 아니지만, 자신이 관리하는 웹 서비스에서 어떤 포스팅을 통하여 검색하여 왔는지에 대한 정보는 추가 제공해준다. 이를 통하여 NP 정보에 대한 부분적 이해가 가능하다.

<필터 선택>
<NP 필터의 세부 설정>

: 이 원준 (meetme77@naver.com)

728x90
728x90

[Jamovi 통계] 4. 기술통계와 그래프 그리기

데이터 입력 과정을 잘 이해하고, 코딩까지 마친 이후에는 이들 데이터를 가지고 본격적인 분석을 시행하게 된다. 이하 별도의 다른 안내가 없을 시, 향후 본 jamovi 실습의 데이터는 여러분이 3장에서 직접 입력한 '코로나 바이러스 이후의 소비자 행동'에 관한 실제 설문자료를 사용하게 될 것이다(본 데이터의 변수 정의와 설문문항은 3장 참조: https://sooupforlee.tistory.com/138?category=882298).

데이타546명.omv
0.01MB

1) 기술통계란?

기술 통계는 표본 자체의 속성을 파악하여 묘사는데 주안점을 두고 있는 분석 방법이며, 기술을 의미하는 description은 이를 잘 표현한다. 기술통계는 주로 표본에 속한 대상자들의 인구통계적 특성이나 데이터가 보여주는 공통적 특성을 요약하여 보여주는 것이 주목적이다. 이를 통하여 방대한 데이터도 합리적으로 요약하고 정보처리의 수고를 덜 수 있다. 일예로, 우리는 미국인들은 진취적이며, 프랑스인들은 예술을 사랑한다고 생각한다. 물론 미국인들중에도 소극적인 사람도 있고 프랑스인들중에도 예술에 무관심한 사람들이 적지 않을 것이다. 우리는 이런 예외가 항상 적지않게 있음을 충분히 알고 있음에도 불구하고, 이들의 국민성을 한 눈에 파악할 수 있는 정보가 유용하다는 것 역시 잘 알고 있다. 나중에 어떤 통계분석을 하더라도 기술통계를 통하여 표본 전체의 전반적인 속성을 정확하게 파악하는 것은 거의 모든 통계분석의 기초가 된다. 

여러가지 기술통계량이 있지만, 주요한 통계량으로는 가) 중심경향성, 나) 산포도, 다) 분포, 라) 백분위수 정도가 이용된다. 각각의 설명은 다음과 같다. ** 본 기술통계량이 중요한 이유는 대학원이나 연구기관의 학술적인 데이터 분석인 경우를 제외하고, 일상적인 데이터 분석이나 소비자 조사 등 리서치에서는 대부분의 데이터 분석들이 기술통계량을 위주로 이루어진다는 점이다. 기술통계량은 분석 자체도 쉽지만, 수학이나 통계에 대한 지식이 없어도 직관적으로 이해가능하기 때문에 사실상 거의 대부분의 일상적 기업실무에서는 기술통계만이 쓰이는 경우도 적지 않다. 물론 회귀분석이나 신경망 분석도 고도의 통계분석의 사용도 증가하고는 있지만, 이는 나중에 필요하다면 추가로 배워나가면 될 뿐이다.**

  가) 중심 경향성

: 중심 경향성이란 용어 그대로  데이터가 중심을 중심으로 퍼져있는 경향을 나타내는 통계량이다. 일예로 100명이 본 시험 점수가 0점부터 100점까지 고르게 분포되어 있다면, 우리는 대부분의 사람들, 특히 중간에 속한 사람의 점수는 0점이나 100점이 아니라는 것을 안다. 기술통계량은 이 중간에 속한 사람이 누구인지 확인하게 도와준다. 이를 확인할 수 있는 대표적인 값은 여러가지가 있는데, 우선 평균(mean), 중위수(median), 최빈값(mode)이다. 평균은 이미 익숙한 개념이고, 중위수는 100명의 성적 서열(순서)을 매겼을때 가장 가운데 위치한 사람의 점수를 의미하는 값이다. 반면에 최빈값은 100명의 성적중 가장 많이 발견되는 빈도의 값이다.

 나) 산포도

: 산포도는 표본의 속성을 나타내는 데이터가 퍼져 있는 정도를 설명하는 통계량으로서 최대값, 최소갑, 범위, 분산, 표준편차, 표준오차 등이 있다. 이중 최댓값(maximum)과 최소값(minimum)은 각각 데이터에서 가장 작은 값과 가장 큰 값을 나타내며, 범위(range)는 최대 및 최소값 간 차이, 즉 '최대값-최소값'을 나타낸다. 그러나 이 세 가지 통계량은 여전히 데이터의 전반적인 흩어짐과 변화량에 대한 정확한 정보를 제공해 주지 못한다. 일예로 두 학급의 평균이 70점으로 동일하더라도, A반은 성적 분포가 0점~100점까지 극단적이고, B반은 성적이 60-80점 사이로 큰 차이가 없을 수 도 있다. 이런 데이터의 흩어짐 정도에 대한 정보가 없다면 우리는 어떤 교사가 더 편애없이 잘 지도했는지 알기가 어려울 것이다. 이를 위해 또 다른 산포도 통계량, 즉 분산, 표준편차, 그리고 표준오차가 필요하다. 분산, 표준편차, 그리고 표준오차는 기본적으로 각 데이터가 평균으로부터 떨어진 거리들에 대한 평균 개념으로 이해하면 무방하다. 자세한 설명은 본 과정의목표를 넘어가므로 생략하며, 통계원론 등에서 찾아보기 바란다.

 다) 분포

: 데이터 분포의 형태와 대칭성을 보여주는 통계량으로, 보통, 첨도(Kurtosis)와 왜도(skweness)를 본다. 첨도는 데이터의 정규분포도가 뾰족한 정도를, 왜도는 데이터의 분포가 뾰족한 정도를 보여준다.

 라) 백분위수

: 데이터를 4분위의 집단으로 나누고 각각에 해당되는 퍼센트를 보여준다

728x90

2) Jamovi 기초적인 기술통계

본 조사에 응답한 응답자의 성별 여부를 확인하여 우리는 남성과 여성의 %, 그리고 응답자의 평균적인 연령을 각각 살펴볼 것이다. 이를 위하여 우선 기본적인 기술통계를 위하여 '데이터546명.omv'라는 데이터 파일을 우선 연다. 그 이후의 단계는 간단하다. 상단의 '어날리세스' 메뉴 탭을 선택하고, 'Exploration(탐색)' -> 'Descriptives(기술)'을 차례로 선택한다.  그러면 다음과 같은 형태로 분석 창이 변화될 것이다. 기술통계의 기술은 '묘사하거나 서술한다(descript)'는 의미로 사용되고 있음을 알 수 있다. 즉 데이터를 요약하여 어떤 응답을 했는지 함축적으로 보여주는 매우 기초적인 분석이며, 주로 평균이나 빈도(%)의 형태로 데이터를 함축적으로 보여준다.

분석창의 설정

Jamovi는 분석과 결과보여주기 모두 매우 직관적인 방식을 택하고 있다. 분석 화면의 좌측에는 분석이 가능한 모든 변수들(변수 전체)를 보여주고 있는데, 이중 분석하고 싶은 변수들만 화면 우측의 'Variables'에 클릭하여 가져자 놓으면 된다. 그러면 친절한 Jamovi는 어떤 결과 값이 나왔는지를 실시간으로 바로 보여주게 된다. 화면의 'split by'는 분석값을 특정한 기준을 중심으로 나누어보고 싶을때 사용하는 메뉴이며, 이는 추후에 설명한다. 바로 그 아래에는 'Frequency table' 옵션을 지정할 수 있으며, 지정 시 빈토(%) 결과값을 보여준다.  추가적으로 분석 화면의 하단에 보면 두개의 옵션 메뉴가 숨겨져 있다. 즉 'Statisics'와 'Plots'이다. 우선 'Statisics'를 클릭하면 평균, 최빈값, 중앙값, 분포값, 퍼센타일 값등 다양한 추가 통계자료를 보여준다.  'Plots'은분석결과를보기좋은그래프형태로보여준다.

우선 테스트로 응답자의 평균 연령을 살펴보자. 이를 위해서는 단지 분석가능한 변수들중에서 연령(age)를 'Variable'창에 옮겨다 놓으면 된다. 결과값은 자동으로 산출된다. 추가적으로 응답자 성별(gender)를 분석해보자. 남녀 성별을 평균으로 본다는 것은 결과 값은 기계적으로 나오긴 하지만 아무런 의미가 없다. 이 경우 gender 변수를 'Variable'창에 옮겨놓은다음 아래의 'Frequency table' 옵션창을 클릭하면 된다. 추가적 통계옵션이 필요한 경우에는 옵션창에서 추가로 선택할 수도 있다. 

분석 케이스

분석 결과를 보면 Jamovi의 오른편 화면에 원하는 통계결과와 관련된 참고문헌이 실시간으로 나타나는 것을 볼 수 있을 것이다. 이로서 간단한 평균이나 빈도(%)의 분석을 할 수 있게 되었다. 분석해보고 싶은 다른 변수들이 있으면 자유롭게 분석해본다. 이를 통하여 우리는 척도의 특성(명목, 등간, 비율 등)에 따라서 어떤 분석방법이 적합한지, 혹은 적합하지 않은지 앞서 배운 내용을 상기하면서 체험할 수 있을 것이다. 일예로, 그래프(plots) 작성은 데이터 특성이 적절하지 않으면 옵션에서 지정을 하더라도 그래프를 산출해주지 않을 것이다(중국집에서 스테이크를 주문하는 경우를 생각해보자. 주문하더라도 결코 스테이크는 나오지 않는다).

 

728x90
728x90

3. Jamovi 데이터 핸들링

1) 데이터 핸들링의 목적

통계분석의 시작은 분석에 적합한 원천 데이터(raw data)를 확보하고, 이를 통계분석에 적합한 형태로 정리하는 작업이다. 원천 데이터는 설문 조사나 외부 2차 데이터 등을 통하여 확보할 수 있지만, 보통 이들 데이터들을 그대로 쓰는 경우는 거의 없으며, 통계분석에 적합하도록 코딩(coding), 데이터 클린싱(cleansing) 같은 전 처리 과정을 거친다. 또한 전 처리 과정 이후에도 분석 과정중에서 기존 변수들을 다시 구간화하여 정리한다든지, 두개 이상의 변수를 결합하여 새로운 변수를 만드는 등의 경우가 빈번하다. 이와 같은 데이터 핸들링 과정을 통하여 통계 분석의 편리성을 증대시킬 수 있으며, 데이터를 타 연구자와 공유하는 등 협업의 가능성을 높일 수 있다. 잘 정리된 데이터는 굳이 설문지나 데이터에 대한 자세한 설명없이도 어떤 목적으로 수집된 데이터인지 스스로 말할 수 있어야 한다.

2) 데이터 입력하기

Jamovi에서 데이터 입력하는 방법은 기존 SPSS와 동일하다. 이미 SPSS에 익숙하다면 별다른 지침이나 설명없이도 직관적으로 입력이 가능하다. 처음 통계 프로그램을 접하는 경우를 가정하고 설명하면 다음과 같다. Jamovi 에서는 데이터 입력창에 직접 데이터를 입력할 수 있으며, 이 경우 변수명은 자동적으로 A, B, C, D와 같은 알파벳 순서로 생선된다. 엑셀 시트와 닮은 데이터 입력창은 column(열)과 row(줄)로 이루어져 있는데, 쉽게 생각하면 column은 변수명, row는 개별 응답자로 생각하면 된다. 즉 총 10개의 변수가 포함된 설문 문항을 5명이 응답하였다면 10개의 컬럼(열)과 5개의 로(줄)가 필요하다.

그러나, 대부분의 경우 데이터 입력창에 직접 입력하기 보다는 이미 다른 도구에서 정리한 데이터 파일을 불러오는 것이 일반적이다. 종이나 온라인 설문지로 받은 설문 결과를 통계 프로그램이 이해할 수 있도록 입력하는 과정을 펀칭(punching), 그리고 입력된 데이터에 변수명과 변수 값을 부여하는 과정을 코딩(coding), 입력된 데이터중 오류나 이상치(outlinear)를 찾아서 정정하거나, 도량형 등 사전에 정의된 데이터 기준에 부합되도록 데이터를 정리하는 과정인 데이터 클린싱(cleansing) 과정을 통계 분석 전에 처리하여야 하는데, 이런 데이터 핸들링 작업을 수행할때는 보통 SPSS나 Jamovi 같은 통계 프로그램이 제공하는 데이터 에디터 창보다는 엑셀이나 워드, 텍스트 에디터 등을 이용하는 것이 더 빠르고 편리하기 때문이다.

Jamovi 역시 다양한 입력 파일을 지원한다. Jamovi와 SPSS, R, JASP 등 통계 패키지의 데이터 파일은 물론이고, 엑셀 파일 포맷(csv)과 텍스트 파일 포맷(txt)를 지원한다. 데이터 입력 기능을 사용하기 위해서는 파일 탭 ->열기(open)-> 본 컴퓨터에서 열기(This PC) -> 파일찾기(Browse)를 차례로 선택하면 된다. 파일을 불러오면 데이터 파일이 열리게 된다. 엑샐 파일(csv)로 파일을 준비하여 여는 경우에 엑셀의 첫 행이 변수들의 이름으로 되어 있다면 Jamovi는 이를 자동으로 변수명으로 인식한다. 변수명은 데이터 입력후 변경이나 생성이 가능하므로 변수명이 확정되어 있지 않다면 나중에 명명하여주어도 상관없다.

Jamovi에서 지원하는 데이터 포맷

3) 변수명 및 속성 지정

불러온 데이터는 통계분석에 적합하도록 편집이나 변수명 부여하기 등 관리 활동이 필요할 수 있다. 변수 관리는 데이터 관리 탭에서 제공되는 메뉴들을 활용하여 변수명 및 속성 지정(Setup), 새로운 변수의 계산(Compute),  변수 다시 코딩하기(Transform),  필터와 그외 기능들에 대하여 살펴본다.

데이터 관리 탭의 주요 메뉴

우선 통계분석을 위해서는 필수적으로 변수명을 지정해주고, 변수의 속성 역시 지정해주어야 한다. 변수명은 엑셀 시트의 첫줄에서 지정해준채로 불러올수도 있지만, 변수의 속성은 엑셀에서는 지정할 수 없으며 Jamovi에서 지정해주어야 한다.  변수의 속성은 적용가능한 통계분석방법론의 종류에 영향을 미치기 때문에 가급적 정확하게 부여해주는 것이 좋다. 

가) Setup: 변수명 및 속성 지정

   우선 데이터 입력창을 보명 1명의 응답자가 3개의 질문에 응답한 결과, 즉 1개의 줄(row)과 3개의 열(column)으로 구성된 데이터를 볼 수 있다. 설문조사를 통하여 응답자의 이름, 연령, 성별(1=남자, 2-여자)를 차례로 물어본 결과를 데이터로 정리한 것이다. 그러나 이런 문항이었음을 우리는 현재의 데이터 창만을 보고는 잘 알 수가 없다. 변수명도 A,B,C와 같이 문항의 내용을 알아보기 힘들게 자동부여된 상태이며, 변수에 대한 설명이 잘 되어 있지 않기 때문이다. 이런 문제를 해결하기 위하여 변수명을 각각 name, age, gender로 수정하고, 변수에 대한 추가적인 설명을 달 수 있다면 데이터를 접하는 누구나 손쉽게 데이터를 이해할 수 있다.

변수명/변수설명의 변경 전과 후

변수명과 변수 설명 이외에 추가적으로 변수의 척도 유형(type)을 4가지중 하나로 지정해주어야 한다. Jamovi에서는 연속척도(continuous scale), 서열척도(ordinal scale), 명목척도(nominal scale), 그리고 구분번호(ID)의 4가지 유형을 구분한다. 척도의 구분은 통계 분석과 방법론 결정에서 매우 중요하기 때문에 별도로 설명이 필요하지만, 우선 간단하게 표로 그 차이를 제시하면 다음과 같다(상세 설명은 추후 설문지 만들기에서 다룸). Jamovi에서는 비율척도와 연속척도 간의 실질적인 차이가 크지 않다고 보고 있기 때문에 연속척도에서 비율척도 까지 포괄하고 있다고 생각하면 된다. 그리고 구분번호(ID)는 단순히 응답자에 일련번호를 붙이는 것을 말하며 특별히 분석에 사용되는 경우가 적기 때문에 일단은 무시하여도 좋다. 즉, 변수 설정에서는 주로 1) 연속척도 혹은 2) 명목척도인지 2개중 하나를 선택하면 대부분의 경우 문제가 없다.

4대 주요 척도 설명

척도 유형을 결정한 이후에는 데이터 유형도 지정하여 주어야 한다. 데이터 유형은 크게 텍스트(text), 정수(decimal), 소수점(decimal)의 3가지인데, 텍스트는 주로 문자로 받는 입력값(이름,의견등)인 경우이며, 정수는 소수점 없는 숫자(예:7), 소수점은 소수점을 가진 숫자(예: 7.22)의 경우에 사용한다. 데이터 유형 규칙에 맞지 않는 경우에는 입력이 제한될 수 있다. 즉, 정수 데이터유형인 경우에는 소숫점을 가진 숫자는 입력되지 않는다.

모든 변수에 대한 설정이 완료된 이후에는 엔터키나 화면 우측상단의 윗화살표 아이콘을 클릭하면 변경사항을 저장할 수 있다

나) Compute: 변수의 계산

변수를 계산하는 'Compute' 아이콘은 이미 획득한 데이터를 기반으로 새로운 변수를 만들때 주로 사용된다. 실제로 이 기능을 이용하면 설문 조사나 원 데이터에 없었던 새로운 변수를 계산을 통하여 만들어낼 수 있기 때문에 설문지의 문항 갯수를 감소하거나, 분석의 다양성을 확보하는 등의 장점이 있다. 일 예로, 어린이가 연간 마시는 음료수의 갯수를 조사하는 설문조사를 한다고 가정하자. 이럴 때 "일년에 몇병의 음료수를 마시는가?"라고 물어보게된다면 대부분의 응답자들은 연간 음료구매량에 대해서 생각해본 적이 없기 때문에 답변을 할 수 없다. 반면에 "일주일에 몇병의 음료수를 마시는가?"라고 물어본다면 비교적 최근의 기억을 토대로 정확하게 응답할 수 있고, 연구자는 물어본 결과는 아니지만 주간 음료의 양을 연간으로 환산하여 손쉽게 원하는 결과를 찾아낼 수 있다. 비슷한 예로 현재 이용중인 스마트폰의 이용기간을 월로 물어본다고 가정하자. "몇개월이나 사용하였는가?"라고 물어보기 보다는 "언제 가입하였는가?"를 물어본 뒤, 가입 이후 현재까지의 경과 기간을 물어보는 것이 더 효율적이다.

이러한 예를 설명하기 위하여 본 예제에서는 '비만도(BMI) 조사'의 예를 살펴보자. '비만도(BMI)는 BMI=몸무게(kg)/(키m*키m)'로 산출한다. 즉 키와 몸무게만으로도 산출이 가능하다. BMI를 계산하는 방법은 다음과 같다.

우선, 데이터 관리 탭의 'Compute' 아이콘을 클릭하면, 새로운 변수가 자동으로 생성된다. 이는, 변수의 계산을 통하여 과거에 없던 새로운 변수가 하나 더 생기기 때문에 새로운 변수에 대하여 변수명과 속성 지정이 필요함을 의미한다. 물론 자동으로 주어진 변수명을 사용하여도 분석은 가능하지만, 우리는 연구자의 편의를 위하여 앞서 배운바대로 변수명, 변수설명 등의 속성을 지정해준다. 이를 통하여 목표로 하는 BMI 값을 확인할 수 있다. 변수 계산은 보통 계산식 입력창에 직접 계산 수식을 넣어서 사용할 수도 있고, 화면 우측하단의 'Fomular'를 선택하면 엑셀에서 익숙한 함수 형태의 수식 적용도 가능하다. 

변수계산을 통한 새로운 변수 만들기

다) Transform: 변수의 변환

기존의 변수를 다른 변수로 바꾸어주는 'Transform' 아이콘은 이미 획득한 데이터를 기반으로 새로운 특성의 변수를 만들때 주로 사용된다. 일예로, 설문문항에서는 명목척도로 물어보았지만, 통계분석을 위하여 다시 연속척도로 변경하는 경우가 있다. 일예로 주관식 질문으로 성별을 물어본 경우에는 '남성', 혹은 '여성'으로 응답이 들어오지만, 이후의 통계 분석의 편의성을 의하여 남성=1, 여성=2의 값으로 바꾸는 경우가 많다. 또 다른 사례로, 기존의 데이터를 기준으로 새로운 변수를 만들고 싶은 경우가 있다. 일예로, 응답자의 몸무게를 주관식 문항으로 물어본다면 매우 다양한 응답치가 입력되지만, 연구자는 단순히 몸무게를 60키로 미만, 61키로 이상의 집단으로만 보고 싶은 경우도 생긴다. 변수 변환 기능은 얼핏 변수 계산 기능과 유사해보이지만 기존의 변수값을 단순히 재분류하거나 명명을 달리하는 것이라는 점에서 새로운 변수의 계산과는 차이가 있다. 이 기능 역시 실무 분석시 활용도가 높은 기능이므로 잘 익힐 필요가 있다.

이러한 예를 설명하기 위하여 본 예제에서는 응답자의 몸무게를 단지  60키로 미만, 61키로 이상의 2개 집단으로 재분류하는 예를 살펴보자. '즉 60키로 미만 = 1, 60키로 이상 = 2의 값으로 다시 코딩을 하게되며, 이를 변환하는 방법은 다음과 같다.

우선 메뉴 창의 Transform 아이콘을 클릭한다. 혹은 데이터 보기 창에서 마우스 오른클릭 후  Transform을 클릭하여도 동일다. 그러면 자동으로 변수가 하나 생기는데, 이 변수에도 변수명과 변수설명을 달아준다. 본 예시에서는 변수명은 'weight_group'으로 설정한다. 그리고 source variable을 지정해주어야 하는데, 이는 변환할때 참조하고자 하는 원래 데이터 변수명을 의미한다. 우리는 weight 변수를 다시 코딩하는 것이기 때문에 weight 변수를 선택한다. 그리고, 바로 아래의 드롭다운 메뉴를 보면 'using transform'에서 'create new transform'을 설정해준다. 그러면 Transform의 내용에 대하여 설명을 달 수 있고, 하단의 "+Add recode condition" 버튼을 2번 클릭한다. 2번 클릭하는 이유는 2개 집단을 만들기 위해서이며, 만일 3개 집단이면 3번 클릭하면 된다. 이후 등장하는 함수버튼(f)의 수식을 입력하면 된다. 본 예제의 경우에는 60kg 미만과 이상의 2개 집단이므로, "if $source < 60"을 먼저 입력한 후 새로운 변수 값 1을, 이후 "if $source >= 60"을 먼저 입력한 후 새로운 변수 값 2를 입력해주면 된다. 이후 생성된 새 변수를 보면, 바르게 변환된 것을 볼 수 있다. 간혹 이름과 같은 문자로 표시된 명목 척도값을 숫자로 변경하여 줄 필요가 발생하는데, 이때 해당 문자 값은 반드시 작은따옴표를 사용하여야 한다. 즉 '남자', '여자'처럼 함수버튼에 입력해야 한다. 본 수식은 다소 복잡해 보이지만 일반 엑셀에서 사용하는 등호 수식과 거의 동일하며, 직접 입력할 필요없이 마우스 클릭만으로 설정이 가능하다. 유의할 점은 Jamovi는 R에서 출발하였기 때문에 등호 수식중에서 같다(eqaul)를 표현하기 위하여  "=="를 사용하며 같지 않다(not equal)를 표현하기 위하여 "!="를 사용한다는 점 정도는 엑셀과 차이가 있다. 기타 다양한 수식은 필요에 따라서 익혀 사용하기를 권한다.

변수값 변경 Transfromation

라) Filter: 특정 케이스의 선택 

Jamovi에서 제공하는 필토 기능은 특정한 조건을 충족하느 케이스만을 선택하여 분석을 수행할 수 있게 도와준다. 예를 들어서 남자와 여자 모두를 대상으로 데이터를 수집하였으나, 보고서 목적상 여자만을 대상으로 분석하는 경우를 생각해보자. 가장 쉽게 생각할 수 있는 방법은 데이터 보기창에서 남자 데이터를 모두 지우고 여자 데이터만을 가지고 분석하는 방식이다. 이 방법은 얼핏 간단하고 효과적으로 보일지 모르지만, 나중에 연구 목적에 따라 남자도 추가로 분석해야 되는 상황이 되면 데이터 삭제에 따른 문제가 발생한다. 이럴때 필터 기능을 사용하면 데이터의 삭제 없이 필요한 분석을 할 수 있도록 도와준다.  그외에도 필터를 이용할 경우 복잡한 조건을 충족해야 하는 분석(예: 남성이면서 대학생인 응답자의 나이)을 간단히 할 수 있도록 도와줄 수 있으므로 꼭 익히도록 하자.

이러한 예시처럼, 이번에는 남자만을 대상으로 데이터 분석을 하기위한 필터를 적용해보자. 우선 데이터 탭의 메뉴 아이콘 중에서 'Filters'를 선택한다.  그리고 편집창의 'Filter 1' 칸에 필터로 사용할 변수명을 클릭한후, 필터로 사용한 변수 값을 지정해준다. 즉 변수명은 gender, 변수값은 '여성'을 지정해준다. 그러면 데이터 보기 창에 보기와 같이 응답자가 남성인 경우에는 x표시가 뜨며, 향후 분석에서 제외됨을 표시한다. 변수 지정 등 이 과정 역시 직접 입력하지 않고 마우스 클릭만으로 처리가 가능하다.

필터 적용 효과

필터는 필요에 따라서 추가하여 복수의 필터를 선택할 수 있다. 즉, 본 사례 데이터 값은 경우 필터에 사용할 변수로 gender와 height의 2개를 사용하여 키 170cm 이상의 여성이라는 조건을 충족하는 응답자에 대한 분석만도 가능하다.

마) 기타 기능들 

Jamovi 데이터 입력창에서는 데이터를 다루는데 필요한 기타 기능들을 제공한다. 변수를 추가하거나 삭제할 수 있는 Add와 Delete 기능, 변수나 데이터를 복제하거나 붙일 수 있는 기능들을 제공한다. 이들 기능들은 기본적으로 엑셀, 워드의 기능과 동일하므로 별다른 설명없이 바로 사용이 가능할 것이다.

4) 직접 데이터 핸들링을 해보자

앞에 배운 내용을 중심으로 직접 데이터 핸들링을 해보자. 변수(이름)과 변수에 대한 설명(레이블)은 통상적 SPSS에서 사용되었던 전형적인 데이터 분석 창이다. 이를 보면 본 데이터는 코로나 바이러스가 생활에 미치는 영향을 살펴보기 위하여 총 8개의 설문문항으로 이루어진 설문조사를 통하여 얻어진 것임을 알 수 있다. 즉.

1. Id 변수: 응답자 일련번로 (응답자 중복방지를 위하여 설문응답자에게 번호를 붙여다. 본 데이터는 1~546까지의 아이디가 부여되어 있다. 즉 546명의 데이터다)

2. a1~a3 변수: 코로나 이후 1) 인터넷, 2) 스트리밍 서비스, 3) SNS의 이용이 증가 혹은 감소하였는지를 등간척도의 하나인 5점척도로 물어보고 있다. 

2. b1~b3: 로나 이후 1) 인터넷, 2) 스트리밍 서비스, 3) SNS의 이용시간을 시간 단위의 주관식 문항(비율척도)으로 물어보았다.

3. gender: 응답자의 성별은 객관식 문항(명목척도)인 1과 2로 물어보았다. 1=남성, 2=여성

4. age: 응답자 연령을 주관식 문항(비율척도)으로 물어보았다.  

예제: 데이타 정의

아래는 이런  설문지를 통하여 얻은 총 546명의 데이터를 엑셀 시트로 정리한 것이다. 이 파일을 가지고 실습을 해보자

실습 1) 이 변수들을 가지고, 어떤 설문지를 사용하였는지 역으로 추산해서 설문지를 만들어보자

실습 2) 제공된 엑셀 CSV 파일 포멧의 데이터를 가지고, Jamovi에 데이터를 불어오기를 한다. 그리고, SPSS의 변수정의와 동일하도록 정리해보자(엑셀 파일의 첫줄은 자동적으로 변수명이 되므로, 불러오기 전에 첫줄에 변수명을 미리 상빕하는 전 처리를 하는 것이 편하다)

데이타546명.csv
0.02MB

728x90
728x90

2. Jamovi 설치/준비하기 

1) Jamovi 설치하기

오픈소스 통계 패키지중에서도 Jamovi는 SPSS보다 뛰어난 성능과 편의성을 자랑한다. 일 예로 SPSS에서는 데이터보기 창과 분석결과 창이 별개의 윈도우로 제공되지만 Jamovi에서는 하나의 화면에서 데이터와 분석 결과를 실시간 점검할 수 있다. 무료 패키지라는 장점 외에도 업데이트가 빨라 새로운 최신 기능도 다양하게 선택적으로 사용할 수 있다. 

Jamovi를 설치하기 위해서는 우선 프로그램을 다운로드하여야 한다. Jamovi 다운로드를 위한 인터넷 접속은 모든 브라우저에 가능하나, 가급적 구글 크롬의 사용을 권장한다. 다양한 디지털 데이터 분석과 데이터 마케팅 플랫폼이 구글 중심으로 빠르게 재편되고 있기 때문에 평소에 구글 크롬 브라우저는 기본 브라우저로 사용하는 습관이 편리하기 때문이다. 다른 통계 패키지에서 보기 힘든 특징으로 .Jamovi는 클라우드(cloud) 버전도 지원한다. 즉, 프로그램의 설치 없이도 웹(cloud.jamovi.org)에 접속하여도 동일한 기능의 이용이 가능하다. 이는 여러가지 편리함을 제공하는데, 스마트폰의 웹 접속이나 공용 PC 등에서도 간편하게 이용이 가능하다는 것은 큰 장점이다.

Jamovi 웹사이트(https://www.jamovi.org/) 를 방문하면 다양한 버전의 설치 파일을 선택할 수 있는데, 우선 솔리드(solid) 버전과 커런트(current) 버전의 차이점을 알아야 한다.  보통 커런트 버전은 현재까지 개발된 최신판이지만 아직 기능이 다소 불완전할 수 있어서 에러가 발생할 가능성이 있는 반면, 솔리드 버전은 검증을 통하여 보다 안정된 버전이다. 그러나, 실제로 두 버전간의 차이는 사실상 크지 않아서 어느 것을 설치하여도 무방하다. 이하 본 블로그에서는 솔리드 버전을 설치하고 설명한다.

Jamovi 다운로드 버전

설치 파일의 사이즈는 약 200메가 이하이며, 설치 과정은 단순히 안내 창에 따라 따라가면 되기 때문에 어렵거나 고민해야되는 부분은 없다. 설치가 종료되고 실행되면 Jamovi의 기본적인 화면이 등장한다. Jamovi는 하나의 화면에서 데이터분석과 결과 보기를 할 수 있도록 디자인되어 있어서, 화면 좌우를 중심으로 데이터 보기창과 결과보기 창이 동시에 나타난다. 그리고 기본적인 통계 분석 기능이 자동으로 제공된다. Jamovi는 연구자의 필요에 따라서 기타 다양한 통계 분석 도구들을 추가할 수 있다. 이를 위해서는 메뉴 화면 맨 우측의 모듈(+) 이라는 메뉴를 추가하면 현재까지 설치된 통계 모듈과 추가 설치가능한 통계 모듈을 확인할 수 있다. 이 통계 모듈은 오픈소스 개발자들의 노력을 통하여 수시로 업데이트되거나 추가되기 때문에 Jamovi의 기능이 향후 계속 확장될 수 있음을 보여준다.

Jamovi 실행 후 모듈 추가

 

728x90

2) Jamovi 화면과 메뉴

Jamovi 설치가 완료된 후 실행하면 화면 상단에 아이콘 형태로 제시된 메뉴 영역이 있으며, 그 메뉴 화면 아래로는 좌우로 분할된 두개의 윈도우 창이 나타난다. 좌측의 윈도우 창은 분석에 사용되는 데이터들을 보여주는 역할을 하며, 우측의 윈도우 창은 분석된 통계 결과들을 보여주는 역할을 한다. 우선 화면 상단의 메뉴는 '데이터' 탭과 '어날리세스(분석)' 탭을 선택하면 아이콘 메뉴가 탭에 따라서 변경되는 것을 볼 수 있다. Jamovi의 기본적인 작동 방식은 다음과 같이 단순하다.

   가. 분석 업무의 내용에 따라 우선 데이터 탭 혹은 어날리세스 탭을 선택한다. 데이터 탭은 데이터의 정리가 가공 등 분석 이전의 데이터 전 처리를 위하여 주로 사용하게 되고, 어날리세스 탭은 어떤 통계분석을 시행할지를 선택하게 된다.

  나. 메뉴 아래 좌측의 데이터 보기 윈도우에 분석 대상인 데이터와 변수명이 적절하게 표시되었는가를 확인한다.

  다. 분석 탭을 클릭한 후, 원하는 통계분석을 선택한다.

  라. 메뉴 아래 우측의 결과보기 창에 나타난 통계 결과를 확인한다. 

Jamovi 메뉴 및 윈도우 설명

각 탭들의 기본적 메뉴들을 간단히 살펴보면 다음과 같다.

가) 데이터 탭

: 데이터 탭에서는 분석을 위하여 자료를 준비하거나 변수(variable)의 속성값을 지정하고, 기존의 변수와 데이터를 새로 추가, 변경, 삭제하는 기능을 제공한다.

데이터탭 그래픽 메뉴 

나) 어날리세스(분석) 탭

: 분석 탭에서는 적절한 통계 분석을 실시할 수 있게 해준다. 처음 설치하면 기술통계(Exploration, Frequencies)와 그외  많이 쓰이는 기본적인 통계도구(T-test, ANOVA, Regression)들만 이용가능하며, 모듈 투가를 통하여 보다 다양한 통계분석을 이용할 수 있다.

어날리세스탭 그래픽 메뉴

이는 어날리세스 탭의 메뉴의 맨 우측의 'Modiule' 아이콘을 클릭하면 드롭다운(drop-down) 메뉴를 통하여 원하는 기능을 설치하면 추가 기능의 이용이 가능하다. 이들 추가 기능은 고급 통계기능까지 포함하여 매우 다양하며, 오픈소스 개발자 커뮤니티를 통하여 새롭고 강력한 기능이 계속 추가된다는 것은 SPSS 등 사용 프로그램들과 비교시 가장 큰 장점이기도 하다. 특히 모듈을 추가할 경우, 기존 SPSS에서는 값비싼 확장팩을 통해서도 이용할수 없었던 확인적 요인분석(CFA분석), 매개효과(mediation)와 조절효과(moderation) 분석, 메타(Meta) 분석 등의 고급 통계 기능들도 손쉽게 이용가능하다는 점은 Jamovi만의 매우 큰 매력이 아닐 수 없다.

모듈의 추가 기능

다) 파일 관리 메뉴

: 화면 상단의 맨 좌측의 파일관리 탭을 클릭하면 불러오기, 저장하기, 파일이름 바꾸기 등 기본적인 파일관리 기능을 활용할 수 있다.

728x90
728x90

1. Jamovi 와 오픈소스 통계 패키지

1) 통계 패키지 소프트웨어

컴퓨터를 이용한 통계분석이 보편화된 이후, 주변에서 통계 소프트웨어를 사용하는 경우를 보는 것은 어려운 일이 아니다. 통계분석자들이 가장 흔하게 사용하는 통계 팩키지 프로그램은 SPSS를 필두로 SAS, Minitab 과 같은 상용 프로그램들이 있으며, 최근에는 r 등 새로운 프로그램들이 인기를 끌고 있다. 가장 잘 알려지고 보편적으로 사용중인 프로그램은 여전히 SPSS지만 각자 프로그램들은 자신의 영역에서 활약을 하고 있다. SPSS는 GUI (graphic user interfeace) 기반으로 오피스 프로그램에 익숙하다면 쉽게 조작할 수 있으며, 매년 버전 업을 통해서 방대하고 강력한 통계분석 기능을 자랑하고 있다. 최근에는 SAS나 MINITAB 등 경쟁 패키지도 점차 사용편리성 개선을 위하여 노력하고 있는 실정이다. 

그러나 이런 강점과 편리성에도 불구하고 일반인이 손쉽게 구매하기 힘든 고가의 패키지라는 것이 가장 큰 제약사항이다. 개인적 목적으로 구매할 경우 최소 수백만원을 호가하며, 기업이 구매할 경우 억 단위가 넘어간다. 또한 확장 기능을 부가할때마다 더 많은 추가 비용을 지불하여야 한다. 대부분의 대학들은 50인 내외의 소규모 라이센스 계약을 통하여 교육에 활용하고는 있지만, 대학을 벗어나는 순간 이런 고가 패키지를 이용하기는 쉽지 않다. 일반적인 중소규모의 기업은 물론이고, 대기업에서도 특별한 용도로 구매한 경우가 아닌 다음에야 현업에서 구경하기가 쉽지 않다. 여론조사나 마케팅 리서치 업체 정도에서나 갖추어놓은 경우가 많다. 전문적인 교육을 받고도 가격적 장벽으로 현업에서 사용하지 못하는 문제점들을 극복하기 위해서 누구나 무료로 사용할 수 있는 오픈소스 기반의 통계프로그램들이 등장하고 있으며, 대표적인 운동이 R project이다 (https://www.r-project.org). R은 통계 분석과 관련 그래픽 도출을 위한 완전한 무료 패키지이며, 윈도우, 맥OS, 그리고 리눅스 같은 다양한 플랫폼에서도 운영이 가능하며, 커뮤니티 중심으로 개발자들이 새로운 패키지를 계속 개발하는 유연한 프로그램 이라는 장점이 있다. 현재 2020년 기준으로 적어도 5,000개 이상의 R 패키지들이 개발되어 있다.

R이 이런 장점을 바탕으로 빅 데이터 분석 등 최근 급부상한 통계 영역에서 인기를 끌고 있지만, SPSS 등 기존 프로그램들을 충분히 대체하고 있지는 못하다. 이는 R이 GUI 형태의 소프트웨어가 아니라 일일이 code를 짜서 입력해야 하는 프로그래밍 개발 도구의 형태를 가지고 있기 때문이다. 최근에는 통합개발환경(IDE)인 'R Studio'의 이용을 통하여 다소 편리해졌다고는 하나, GUI 환경에 비할 바는 아니다. 프로그래밍 방식에 따른 개발의 유연성은 장점이 될 수 있지만, 결국 일반 사용자들에게 외면 받는 이유가 되고 있다. 과거 SPSS가 80년대까지는 지금의 r과 똑같은 프로그램 방식을 취하였지만(지금도 SPSS에서 GUI가 구현되지 않은 일부 고급분석 기능(예: conjoint 분석)을 이용하거나 맞춤형 테이블을 대량 출력할 경우에는 여전히 Syntax 코드를 짜야만 한다), 개선을 거듭하여 편리한 사용환경으로 진화한 것을 고려하면, 대중화를 위해서는 현재의 R은 편의성이 크게 부족하다. 

SPSS의 Syntax 코드

2) 오픈소스 기반 통계 패키지

이에 대한 대안으로 최근에는 무료 공개 통계프로그램들도 R과 같은 강력한 통계분석기능과 다양한 OS 플랫폼 지원의 장점은 그대로 유지하면서, SPSS 처럼 편리한 GUI를 갖추고 공개되고 있다. 이런 프로그램의 대표 주자가 PSPP, JASP, 그리고 Jamovi 이다. PSPP (https://www.gnu.org/software/pspp)는 기존에 SPSS에  익숙하였던 사용자가 SPSS를 대체하기에 적합하다. 기존 SPSS와 100% 동일한 GUI와 메뉴 체계를 가지고 있어서 아무런 추가적 학습이나 노력없이 SPSS 사용 경험을 그대로 이용할 수 있다. 당연히 무료이기 떄문에 SPSS 데모판처럼 시간 제한이나 라이센스 문제는 발생하지 않으며, 기능 역시 SPSS 확장판의 통계분석 기능 대부분을 가지고 있다. 10억개 이상의 변수나 응답자 처리가 가능한 것도 장점이다. 또한 기존 SPSS와 데이타파일의 완벽한 호환이 가능하여 과거 사용하였던 SPSS 파일을 분석하거나 타 SPSS 사용자와 데이터 교환 등이 가능하다.

SPSS와 동일한 경험을 제공하는 PSPP

또 다른 대안은 JASP (https://jasp-stats.org)나 Jamovi (https://www.jamovi.org)를 이용하는 것이다. JASP의 개발자중 일부가 독립하여 Jamovi를 개발에 참여하고 있기 때문에 이들 프로그램의 개발 철학이나 이용방식 등은 매우 유사하다. 이들 프로그램은 모두 무료 공개 프로그램이며 SPSS나 SAS와 비교해서도 더 사용하기 편리한 GUI를 갖추고 있다. 또한 이들 프로그램들은 R 통계 언어에 기반하여 구현되었기 때문에 R의 강력하고 유연한 기능을 모두 사용할 수 있다. 평소에는 GUI 형태로 통계 패키지를 이용하지만, 사용자가 R code를 직접 운용하고 싶은 경우에도 패키지 안에서 R 실행이 가능하다. 또한 비교적 개발자 커뮤니티가 작은 규모인 PSPP에 비하여 큰 규모의 R 커뮤니티가 참여하고 있기 때문에 더 빠르게 업데이트되고 더 다양한 기능 모듈들이 수시로 업데이트되고 있는 것도 큰 장점이다. SPSS 등 유명 통계 패키지와의 데이터 호환성도 갖추고 있다.

Jamovi Project

여러가지 사용 옵션이 있지만, 만일 직장에서 이미 SPSS나 SAS 등의 라이센스를 구입하였고, 많은 데이터 아카이브가 구축되어 있다면 당연히 기존 패키지를 사용하는 것이 최선일 것이다. 그러나 그렇치 않은 경우의 대안으로서 이들 공개 프로그램들은 매우 훌륭하다. SPSS에 익숙한 경험을 버리고 싶지 않은 경우에는 PSPP를, 새롭게 배우기 시작한 경우에는 JASP나 Jamovi를 선택할 수 있다. 특히 Jamovi는 SPSS를 능가할 정도의 다양한 통계 모듈들이 빠르게 추가되고 있고, R 의 확장성을 그대로 가지고 있다는 점에서 추천할 만하다. 윈도우와 맥OS, 그리고 리눅스 등 다양한 환경에서 작동되기 때문에 다양한 운영체제를 가지고 있는 학생들 대상의 교육에 있어서도 적절한 측면이 있다. 본인도 역시 고사양의 PC에는 SPSS를 운영하고 있지만, 저사양의 리눅스에서는 Jamovi를 활용하고 있다.

 

728x90

+ Recent posts