최근 정보기술의 급격한 발전과 디지털 전환은 기업의 경영 환경을 변화시키고 있으며, 인공지능의 도입은 마케팅 관리에 큰 변화를 초래하고 있다. 이미 인공지능은 고객 개인화, 예측 모델링, 신상품 개발 등 다양한 분야에 사용되고 있으며, 향후에 인공지능의 영향력은 더욱 증대할 에정이다. 이에 따라 인공지능과 머신러닝이 적극적으로 도입되는 새로운 시대에 맞추어 기술과 고객, 경쟁에 대한 새로운 이해가 필요한 시점이다. 그러나, 인공지능에 대한 논의가 처음 공학적 논의에서 출발하였으며, 마케팅 관점에서 이를 이해하려는 노력은 여전히 초기에 머물러 있다. 이에 본 연구는 문헌 고찰을 통하여 인공지능이 마케팅 관리에 미치는 영향과 연구 주제를 다각적으로 접근하고자 하였다. 인공지능은 지능적 의사결정을 위하여 기계나 프로그램을 활용하고, 문제해결을 통하여 주어진 목표나 결과를 달성하기 위한 능력이다.
초기 인공지능이 마케팅에 적용되었을때는 단순히 보조적 역할에 머물렀었으나, 이제는 마케팅 활동 전반에서 패러다임의 근본적 변화를 초래하고 있다. 이에 따라 마케팅 관리자의 역할도 그로스 해킹이라는 새로운 접근법을 통하여 빅데이터 분석과 가설 검증이라는 역할이 강조되고 있다. 시장의 선택과 고객 세분화는 목표 집단을 대상으로 하지 않으며, 리마케팅 등 새로운 기법을 통하여 초개인화된 1:1 마케팅을 자동으로 집행하고 있다. 마케팅 4P 믹스의 활동도 크게 변화하였다. 상품은 머신러닝과 자연어 처리를 통하여 신상품 개발의 직관을 얻고 있으며, 콘텐츠 제작은 자동화가 도입되고 있다. 가격 책정은 알고리듬의 적용을 통하여 고정된 정가가 아니라 개인별, 상황별로 변경되는 유동적 가격정책이 보편화되고 있다. 유통에서는 추천시스템이 고도화되고 로봇과 무인화, 셀프서비스 기술이 각광받고 있다. 광고 및 촉진에서는 애드테크가 도입되고 있으며, 매체 경매나 리마케팅을 통하여 예산을 집행하고 광고 유동성을 증가시키고 있다. 마케팅 활동의 결과는 빅데이터의 수집과 분석, 향상된 어낼리틱스를 적용하여 실시간 성과 평가와 피드백, 개선활동이 진행된다. 이는 인공지능이 기업과 소비자 모두에게 큰 혁신이 되고 있음을 의미하며, 마케팅 관리자의 디지털 역량 강화가 필요함을 시사한다.
정제된 데이터의 분석 결과는 텍스트 마이닝, 매트릭스, 담론 분석, 감성분석, 토픽분석, 시계열 분석의 형태로 분석이 진행된다.
1) 텍스트 마이닝: 형태소 분석이 완료되면, 바로 편집하기/업로드를 통해 단어를 보거나 추가 정제할 수 있다. 웹 상에서 빠르고 쉽게 단어 편집을 하고자 할 경우에는 바로편집하기 기능을, 정제 데이터를 내려 받아 작업을 하고자 할 경우 업로드 기능을 사용한다. 원문 데이터 및 정제 데이터를 각각 엑셀이나 텍스트 포맷 형태로 다운로드한다. 데이터 편집 윈도우 창을 통하여 특정 키워드의 변경도 가능하다. 파일 업로드 기능은 원문 데이터가 아닌 정제 데이터를 다운로드하여 단어 편집을 진행 후 정제가 완료된 데이터를 업로드 한다. 이때 엑셀 파일 형식의 데이터를 txt 파일로 변경(UTF-8로 인코딩)하여 단어편집 후 업로드하며, ‘편집된 데이터가 적용되어 있습니다’라는 텍스트가 뜨면 파일 업로드 기능을 사용할 수 있다.
분석 결과는 단어 빈도, N-gram, TF-IDF, 연결 중심성, 개체명 인식 결과를 바로 실시간으로 분석하여 제공한다. 보여주기는 상위 200개 단어까지만 노출되며, 전체를 보기위해서는 별도로 다운로드를 할 수 있다.
2) 매트릭스: 바로선택하기/업로드를 통해 매트릭스로 생성한 단어를 선정할 수 있다. 1-모드 혹은 2-모드중에 선택이 가능하며, 이후 직접 매트릭스의 열과 행을 결정할 단어를 선택해주어여 한다. 선택한 단언간의 매트릭스 결과를 제시하면, 본 결과는 추후 추가 분석을 위하여 사용된다. 분석 결과는 유클리디언 계수, 코사인 계수, 자카드 계수, 상관계수 등으로 결과 값을 제공한다.
3) 담론 분석: 담론은 문서 내에서 동시에 등장(공출현)하는 단어 사이의 관계를 나타내는 분석으로, 상관관계를 이용하여 단어 간의 관계 패턴에 따라 군집화하는 분석 방법이다. CONCOR(CONvergence of iteration CORealtion)분석이라고 부르며, 문서 내에서 동시에 등장(공출현)하는 단어 사이의 관계를 군집화하는 방법으로, 단어 간 상관관계를 통해 분석 키워드에 얽힌 주제들을 쉽게 파악할 수 있어 시민들의 생각 즉, 여론에 대한 분석(오피니언마이닝) 등이 필요한 상황에서 유용하게 사용할 수 있다.
상관관계 분석을 반복적으로 수행하여 적정한 수준의 유사성 집단을 찾아내는 방법이다. 담론분석의 블록(block)은 구분된 구조적 등위성 집단을 말한다. 노드들의 집합에 해당하는 블록들을 파악하고, 이러한 블록 간의 관계도 파악이 가능한 분석 방식이다. 유사도 계산은 상관관계 계수를 이용하여 분석할 수 있다. 바로 전 단계에서 계산한 매트릭스를 사용하며, 담론 개수, 즉 군집화 개수는 2개, 4개, 8개, 16개 중 선택이 가능하다.
4) 감성 분석: 텍스톰의 감성분석은 크게 두가지 기능이 있다. 첫 번째, 문장의 내용을 긍정/중립/부정 으로 구분할 수 있는 감성 분류 분석이며, 두 번째, 원문데이터 안에 감성과 관련된 키워드가 몇 번 들어갔는지 알려주는 감성 단어 빈도 분석이 있다.
우선, 감성 분류 분석은 베이지안 분류기(Bayes Classifier)를 통해 기계학습 기법의 감성분석 기능을 제공한다. 연구자가 직접 학습데이터를 구성하여 적용함으로써 분석 주제의 제한 없이 모든 분야의 데이터에서 감성분석이 가능하다. 감성 분류 분석을 진행하기 위해서 가장 먼저 이뤄져야 하는 단계는 '학습데이터' 만들기이다. '학습데이터'란 전체 데이터를 분류하기 위한 기준이 되는 데이터로 '학습데이터'를 얼마나 정확하게 만드냐에 따라 분류의 질이 달라질 수 있다. 학습데이터는 최소 100건에서 최대 1,000건의 데이터로 만드는 것을 추천하고 있으며, 긍정/중립/부정의 비율이 비슷할 수록 정확한 결과를 얻을 수 있다.
학습데이터 만드는 방법은 분류를 진행하실 원문데이터 Excel 양식을 다운 받아, 우 100 ~ 1,000건(행) 정도 편집하여 업로드 해주면 된다. A열에는 본문, B열에는 해당 본문에 대한 극성(긍정/중립/부정)을 직접 넣어주면 된다 직접 만든 학습데이터를 업로드하고 적용이 되면 극성별로 분류된 결과를 얻으실 수 있다. 기본적인 분석은 끝났지만, 긍정/중립/부정별로 조금 더 심화된 분석을 진행하고 싶을 경우에는 추가분석 기능을 이용하여, 긍정/중립/부정의 데이터를 다시 한번 분석을 진행하실 수 있다. 추가분석을 진행하여 네트워크 그레프를 그리면, 긍정 문서 중 어떤 키워드가 많이 나왔는지, 긍정적인 영향을 주는 이유는 무엇인지 등 다양한 인사이트를 얻을 수 있다.
또 다른 감성 단어 빈도 분석은 원문데이터 중 감성과 관련된 단어를 찾아서 빈도를 보여주는 기능이다. 감성 단어는 텍스톰에서 자체 제작한 감성어 어휘 사전을 이용하여 단어를 분류한다. 텍스톰에서 자체 제작한 감성어 어휘사전은 긍정/ 부정이라는 카테고리 안에, 긍정의 키워드는 흥미/ 호감/ 기쁨 3개의 단어가, 부정의 키워드에는 통증/ 슬픔/ 분노/ 두려움/ 놀람/ 거부감 6개의 단어가 있다. 다시 기쁨이라는 단어안에는 기쁨을 표현하는 수 많은 단어를 강도에 따라 표준화(감성강도/7점 만점)를 시켜놨다. 예를 들어 호감이라는 단어 안에 "행복하다"와 "그저그렇다" 라는 단어가 있을 경우 "행복하다"라는 단어에는 5점, "그저그렇다"라는 단어에는 1점을 주어 같은 호감안에 들어가는 단어라도 감성 강도를 다르게 사전을 구축하였다.
감성 분류 분석을 진행을 위해 학습데이터를 업로드한 경우에는 감성단어 빈도 분석을 바로 확인하실 수 있다. 하지만 감성 분류 분석을 진행하지 않고, 감성단어 빈도 분석만 진행을 원하실 경우에는 엑셀 양식의 파일 업로드하면 결과를 확인할 수 있다. 감성단어 빈도는 키워드의 빈도뿐 아니라 감성 강도도 함께 보여주기 때문에, 다양한 인사이트를 찾을 수 있다. 예를 들어 '특별하다' 키워드의 경우 빈도는 261건으로, '기대하다' 키워드 234건 보다 높은 빈도를 보여주고 있다. 하지만 감성강도를 보면 '특별하다'는 3.77, '기대하다'는 4.66으로 흥미라는 단어에서는 '기대하다'가 더 높은 강도를 갖는다는 것을 알 수 있다. 빈도*감성정도를 보면 '특별하다'는 986, '기대하다'는 1092로 빈도수는 '기대하다'가 낮지만, 전체 문장에서 '흥미'라는 감정에 더 많은 영향을 주는 키워드는 '기대하다'라는 것을 알 수 있다. 뿐만 아니라 시각화 결과를 통해 전체 데이터 중 어떤 감성강도가 많이 차지했는지를 확인이 가능한 강도 감성분석과, 세부감성 중 어떤 감정이 비율이 높은지 확인이 가능한 세부감정 감성분석 시각화를 제공하고 있다.
5) 토픽 분석: 토픽 분석을 알기 전에 토픽모델의 개념을 알고 있어야 한다. 토픽모델(Topic Model)이란 문서 집합의 "주제"를 발견하기 위한 통계적 모델 중 하나로, 텍스트 본문의 숨겨진 의미구조를 발견하기 위해 사용되는 텍스트 마이닝 기법 중 하나이다. 특정 주제에 관한 문서에는 그 "주제"에 관한 단어가 다른 단어들에 비해 더 자주 등장한다. 예를 들어 '강아지'에 대한 문서에서는 '산책', '개밥' 단어가 더 자주 등장하는 반면, '고양이'에 대한 문서에서는 '야옹', '캣타워' 단어가 더 자주 등장한다. 이렇게 함께 자주 등장하는 단어들은 대게 유사한 의미를 지니게 되는데 이를 잠재적인 "주제"로 정의할 수 있다. 즉 '산책'과 '개밥'을 하나의 주제로 묶고, '야옹'과 '캣타워'를 또다른 주제로 묶는 모형을 만드는 것이 토픽 모델의 개략적인 개념이다. 텍스톰에서는 두 가지 종류의 토픽분석을 제공하고 있다.
첫째, 문서 내 단어들의 공출현 관계를 토대로 벡터화하여 인접 단어를 같은 그룹으로 묶어주는 Word-level Semantic Clustering이다. Word-level Semantic Clustering 분석을 진행하기 위해서는 군집 수(K값)와 군집 안에 들어갈 단어의 수를 선택해야한다. 텍스톰에서 기본 값은 군집 수 10개, 군집별 단어 수 20개를 제공하고 있다. 결과로 나올 군집 수가 사용자가 지정한 것 보다 작을 경우에는 임의로 지정된다.
둘째, 대량의 문서군으로부터 주제(토픽)을 자동으로 찾아내기 위한 알고리즘으로, 유사한 의미를 가진 단어들을 집단화하는 LDA Topic Modeling이다. LDA Topic Modeling을 진행하기 위해서는 토픽 수와 토픽에 들어갈 단어의 수를 결정해야 한다. 기본으로 제공하는 토픽의 수는 10개이며, 단어수는 20개다. 다음으로 랜덤 값을 선택해주시면 된다. LDA모델은 토픽수를 입력 받으면 전체 문서에 토픽을 랜덤으로 할당한 후, 토픽의 재할당을 반복 수행하여 문서와 단어의 토픽을 찾은 알고리즘이다 따라서, 토픽모델링은 무작위 토픽 할당이 이루어지는 것을 전제로 하고 있다. 다만, 이렇게 무작위 할당을 진행할 경우 초기 할당 값에 따라서 학습 대상이 되는 데이터가 달라지므로, 분석 결과의 재현성이 떨어지기 때문에 같은 데이터로 같은 분석을 진행했더라도 결과 값이 달라질 수 있다. 따라서 원칙적으로는 무작위 할당 옵션은 사용하는 것이 권장되나, 분석 결과의 재현성을 확보하고 싶은 경우에는 무작위 할당을 하지 않는 옵션을 사용하실 수 있다.
6) 시계열 분석: 수집단위에서 설정한 기간별로, 선택한 단어의 출현 빈도를 분석할 수 있다. 시계열분석은 수집하기에서 수집단위를 사용하여 수집한 데이터만 분석이 가능하다. 기간의 변동에 따른 데이터의 패턴을 확인할 수 있다.
2. 시각화 보기
분석한 결과는 다양한 시각화 결과물로 분류하여 볼 수 있다. 통계적 결과를 시각화를 통하겨 빠르고 직관적으로 이해할 수 있도록 도와준다. 제공되는 시각화 결과물은 워드클라우드, 바챠트, 에고네트워크, 네트웤, 개체명 인식, LDA, 클러스터링, 매트릭스 챠트, 담론 분석, 문서 감성 분석, 감성단어 분석, 감성단어 워드클라우드이다. 각각의 시각화 결과물은 그림 파일 포맷으로 다운로드하거나 크기, 색상, 포함 단어의 수 등을 화면 우측 창을 통하여 조절 가능하다.
텍스톰(Textom)은 텍스트 기반의 빅데이터 수집에서 분석, 시각화까지 일괄된 분석과정을 제공하는 솔루션형 서비스이다. 웹과 소셜 미디어 등 인터넷 자료를 빠르게 수집하여 필요한 데이터 셋을 만들 수 있으며, 혹은 개인이 가지고 있는 문서 자료를 활용한 분석도 가능하다. 분석 단계별로 자동화된 처리 과정을 도입하여 데이터 분석의 알고리듬이나 프로그래밍 능력이 없어도 데이터가 분석되는 과정을 시각적으로 관찰할 수 있고, 실무에 빠르게 적용할 수 있은 분석 결과를 보여준다. 텍스톰은 데이터의 효율적 저장, 관리를 위하여 하둡(Hadoop) 기반의 저장, 관리 분산파일처리 시스템을 적용하고 있다.
수집, 정제, 분석된 데이터의 저장과 관리, 효율적인 실시간 분석을 위하여 데이터 색인 기능을 제공하고 있으며 수집된 데이터를 보관할 수 있다. 특히 단순히 수집 과정의 데이터뿐만 아니라 분석자 개인이 보유한 기타 데이터도 클린싱이 가능하며, 베이지안 분류기를 활용하여 머신 러닝에 의한 한국어 감성 분석이 가능하다. 한국어 클린싱 과정의 애로사항인 조사, 특수문자에 대한 처리가 뛰어나며 지원하는 언어로는 한국어 이외에도 영어, 중국어까지 형태소 분석이 가능하다.
클린싱한 이후에는 분석자의 편의를 고려한 맞춤형 데이터 정제 및 주로 표준적으로 쓰이는 UCINET, NodeXL 등 다양한 분석 프로그램들에서 사용될 수 있는 데이터 포맷을 제공한다. 제공하는 매트릭스 값으로는 유클리디언, 자카드, 코사인 값 등 다양하다. 또한 분석된 값은 에고 네트워크 등 다양한 형태로 시각화한다는 장점이 있다.
텍스톰 시작하기
텍스톰은 웹 기반 서비스를 제공하거나 별도의 프로그램을 다운로드하거나 설치할 필요는 없다. 이용을 위해서는 우선 텍스톰 홈페이지(www.textom.co.kr) 접속과 회원 가입이 필요하다. 텍스트의 서비스 형태는 크게 1) 텍스톰, 2) 텍스톰 에듀, 3) 텍스톰 차이나의 3가지 이며 이중 하나를 선택하여 서비스를 시작한다. 한국어와 영어 등 일반적인 빅 데이터 분석을 위해서는 텍스톰을, 중국어 콘텐츠 분석에는 텍스톰 차이나를, 그리고 대학이나 교육 기관에서 교육용으로 사용할 경우에는 텍스톰 에듀를 사용한다. 단, 자유롭게 실제적인 데이터 분석이 진행되는 타 서비스들이 유료 모델인 것과 달리 달리 텍스톰 에듀는 이미 기수집된 키워드 데이터를 활용하여 교육 목적으로만 제공하는 무료 서비스이다. 본 설명에서는 다양한 키워드 분석이 가능한 일반 텍스톰 유료 서비스를 활용하여 설명한다. 그 외, 상단의 메뉴를 통하여 사용 매뉴얼을 확보하거나, 텍스톰이 사용된 연구나 분석 보고서 사례 등을 확인할 수 있다.
새로 텍스톰 서비스 이용을 위해서는 회원가입이 이루어져야 한다. 서비스 요금은 분석할 수 있는 데이터 용량과 용량의 이용가능기간의 두가지 조건에 따라 가변적으로 요금이 달라진다. 일괄적으로 요금을 적시하기는 어렵다. 기본 수집단위는 10MB 단위로 구매가 가능하며, 이용기간은 3개월, 6개월, 9개월, 12개월 단위로 사용할 수 있다. 기간 종료 후 남은 데이터는 소멸된다. 본인이 필요한 분석 텍스트의 데이터 용량, 서비스 이용 기간을 고려하여 적절한 요금제를 선택한다. 일반적으로 웹 문서 1건당 예상되는 수집 데이터는 약 3KB 정도이며, 대략 1,000건의 웹 콘텐츠를 수집할 경우 300~400KB로 1Mb 이하가 소요된다. 학생과 연구자에 대한 할인율이 별도 적용된다. 서비스 제공은 기본적으로 유료 서비스이나, 최초 가입자에게는 약간의 무료 데이터 용량을 제공하며, 이후 모두 데이터 용량이 모두 소진된 이후에 추가 결제를 할 수 있다. 따라서 우선 체험용으로 제공되는 10Mb 정도의 무료 용량을 가지고 직접 실습해 본 이후에 추가로 분석 요구가 생기면 용량을 구매하도록 하자. 혹은 데이터 수집을 진행하면서 용량을 먼저 확인하고 다음 단계인 분석 단계에서 결제를 하는 방법도 가능하며, 미리 요금을 계산해볼 수 있는 요금 시뮬레이터도 제공하고 있다.
텍스트 분석 단계
텍스톰의 분석 단계는 크게 1) 데이터 수집, 2) 데이터 전처리, 3) 데이터 분석, 4) 시각화의 4 단계를 거친다. 일반적인 코딩이나 프로그래밍을 통하여 진행할 경우 매우 복잡하고 시간이 소요되는 과정이지만, 텍스톰에서는 단지 클릭만으로 이 모든 과정을 진행할 수 있다. 또한, 진행 순서별로 단계가 이동되기 때문에 단계 진행에 따른 암기나 고민은 크게 필요하지는 않다. 진행단계는 웹 화면의 좌측에서 항상 확인할 수 있다.
1. 데이터 수집 단계
텍스톰의 데이터는 네이버, 다음, 구글 등 검색 포탈 혹은 유튜브, 트위터 등 소셜 미디어에서 텍스트 자료를 수집할 수 있다. 텍스톰에서 수집 가능한 데이터는 그 이외에 다양한 뉴스 사이트, 연구자 개인이 보유한 개인 보유 데이터 등에서 자료 수집이 가능하며, 맞춤형 요청 채널에 대한 분석이 가능하다. 데이터 수집은 웹 크롤링 기법을 기반으로 자동적으로 진행된다.
1) 포털/SNS 데이터 수집
: 데이터 수집은 키워드를 입력하는 방식으로 수집되며, 키워드 미리보기 기능을 통하여 수집할 키워드의 검색 추이나 연관 키워드에 대한 정보를 제공한다. 해당 미리보기 기능은 네이버 채널을 기준으로 적용 되며 생략되어도 무방하다. 검색하는 키워드 미리보기를 확인한 이후에는 수집할 키워드를 일벽하여야 한다. 하나의 키워드를 이용하여 수집할 수도 있고 키워드 추가를 통하여 동일한 수집 조건을 저용하여 여러개의 수집리스트를 한번에 생성할 수도 있다. 복수의 키워드를 이용하여 빠르게 수집할 경우에 용이하며 연산자를 통한 키워드 검색도 가능하다. 그리고 데이터 수집의 기간 설정이 필요하다. 자주 적용하는 기간인 1개월, 3개월, 1년중 하나를 버튼 형식으로 선택할 수도 있고, 연월일을 직접 입력하는 방식으로 특정 기간을 선택할 수도 잇다. 수집 단위를 선택할 경우 일, 주, 월, 년 단위로 선택이 가능하다. 수집 단위는 해당 단위별로 수집리스트를 별도 생성한다. 예로 각 단위별 최대 1,000건의 수집이 가능하며, 예 로 7개월 단위 수집시 각 개월별 1,000건씩 문서로 구성된 수집 리스트가 7개가 생성되어 총 7,000건이 수집된다. 사용 안함의 경우 최대 1,000건의 문서가 수집된다. 수집할 수 있는 문서의 종류는 아래와 같다.
포털과 SNS의 데이터 수집은 현재 네이버, 다음, 구글, 바이두, 유튜브, 트위터에서 가능하다. 네어버는 블로그, 뉴스, 카페, 지식IN, 학술정보, 웹문서의 제목, 본문, URL 주소를 수집한다. 다음은 블로그, 뉴스, 카페, 웹문서를 수집하며, 구글은 뉴스, 웹문서를 수집한다. 중국의 포탈 서비스는 바이두는 콘텐츠의 제목, 본문 URL 수집이 가능하다. 페이스북, 유튜브, 트위터의 자료도 제목, 본문, URL 수집이 가능하다. 또한 KBS 등 방송, 조선일보 등 신문 등 국내 주요 언론사 20여 곳으로부터 문서 수집이 가능하다. 수집하는 정보는 제목, 본문, 날짜, URL 주소이다. 다만 뉴스 채널에서는 채널 단위를 사용할 수 없다. 그 외 추가로, 자신이 직접 보유한 문서 데이터를 투입할 수 있다. 입력 가능한 문서 포맷은 txt, pdf, 엑셀(xls, xlsx)이며, 문서 데이터의 특정 시트나 칼럼을 지정하여 입력할 수 있다.
2. 데이터 전처리 단계
향후의 데이터 전처리와 데이터 분석, 시각화 과정의 예시를 위하여 데이터 수집을 시작하였다. 데이터 수집의 키워드는 ‘충북 바이오 산업’이며, 수집 기간은 2022년 1월 1일부터 2022년 2월 24일까지 약 2개월로 설정하였다. 수집 채널로는 네이버와 다음 포탈의 콘텐츠 중에서 ‘뉴스’부터로만 정보를 수집하고자 하였다. 이런 조건을 모두 설정한 이후의 화면 하단의 ‘수집 리스트 생성’을 클릭하면 데이터 수집이 자동적으로 진행된다. 해당 키워드로 데이터 수집시 약간의 시간이 소요되는데, 소요 시간은 분석 대기순위에 따라 결정된다. 많은 분석 요구가 서버에 몰려 있으면 더 긴 시간이 소요될 수 있다. 양이 많은 경우에는 심야 시간에 분석을 시켜놓는 것을 추천하며, 이 단계에서는 로그아웃하거나 PC를 종료하여도 관계없이 분석된다. 수집 완료된 리스트는 30일간 보관 후 삭제된다. 수집 후 30일 이내는 분석까지 이루어지거나 별도로 수집 결과물을 저장하여야 한다. 또한 데이터 수집만으로는 비용이 차감되지 않는 점도 유의하자. 수집이 완료된 이후에는 수집 리스트를 직접 선택한 후에, 화면 상단의 ‘정제/형태소 분석’ 버튼을 클릭하여 다음 단계로 넘어간다.
데이터 수집이 완료된 이후에는 수집된 데이터에 관한 추가 정보가 생성된다. 구체적으로는 데이터 수집 소스와 소스별 수집된 데이터 용량이 표시된다. 이후 단계로 수집된 데이터는 반드시 정제 및 형태소 분석이 이루어져야 한다. 정제 및 형태소 분석에 투입할 데이터를 선택한 후 진행한다.
3. 정제/형태소 분석
정제/형태소 분석은 수집된 빅 데이터를 분석 단위로 정제하기 위하여 필수적인 과정이다. 정제/형태소 분석 단계에서 지정이 필요한 옵션들은 다양하다.
1) 정제 방법: 정제/형태소 분석을 클릭하면 가장 먼저 선택하는 것은 정제방법이다. 정베장법에는 3가지 선택유형이 있다.
. 직접선택 : 이용자가 원하는 정제/형태소 분석 옵션을 선택하여 세밀한 정제가 가능하다
. 자동정제: 텍스톰에서 기본적으로 제공하는 옵션으로 쉽고 빠르게 데이터 정제가 가능하다
. 선택안함: 이미 정제 완료된 데이터를 분석하고자 할 때 사용하는 기능으로, 별도의 정제/형태소 분석 없이 결과를 보여준다.
2) 분리 정제 : 제목과 본문을 분리하거나 통합하여 분석할지 여부를 결정한다. 수집된 원문 데이터는 채널별로 차이가 있기는 하지만, 문서의 제목과 본문 텍스트, URL을 공통적으로 수집한다. '분리정제'에서는 이렇게 수집된 문서 내용을 본문만 정제할 것인지, 전체를 정제할 것인지 선택할 수 있다.
3) 키워드 필터링: 키워드필터링은 특정 키워드가 포함된 문서를 제거하나거나 추출하는 기능이다. 예를 들어 '텍스톰'을 키워드로 데이터 수집을 했는데, 텍스톰에 관련없는 다른 빅데이터 분석 프로그램에 대한 정보가 많이 나와, 내가 중요하게 보고자 하는 텍스톰 키워드가 밑으로 밀려있다면, 키워드 필터링을 '사용'으로 설정하고 '추출'을 선택 후 '텍스톰'을 입력하면 해당 키워드가 포함된 문서만 걸러낸다. '제거'는 반대의 개념으로 제거를 선택 후, 키워드 입력란에 '소비자'를 입력하면 주요키워드로 추출된 문서에서 '소비자'가 포함된 문서는 모두 삭제된다.
4) 중복 제거: 수집 데이터에서 중복되는 문서를 제거합니다. 중복제거의 기준은 URL 또는 내용으로 설정할 수 있다.. 'URL기반'로 선택할 경우 수집된 데이터에서 동일한 URL이 1건 이상 발견되는 경우에 1건을 제외하고 나머지 문서는 삭제한다. '내용 기반'으로 설정하면 문서의 내용이 완전히(100%) 일치한 문서가 1건 이상인 경우 1건을 제외하고 나머지 문서는 삭제한다. 최근 신문 기사 등은 로봇 저널리즘의 영향으로 동일한 기사가 반복되는 경우가 많다. 이런 경우 내용 기반으로 제거할 수 있다.
5) 윈도우 사이즈: 특정 키워드의 앞뒤로 정제할 단어의 개수를 지정합니다. 예를 들어, 키워드를 '텍스톰'로 입력하고 사이즈를 '3'으로 지정할 경우, 수집문서에서 '텍스톰'을 기준으로 앞, 뒤 3개까지의 품사를 정제한. 정제/형태소 분석에서 선택한 품사(명사, 형용사, 동사, 외국어, 숫자)를 정제하며, 기준이 되는 키워드 간의 거리가 가까워서 윈도우 사이즈에 해당되는 단어가 겹치게 되면, 겹치는 그대로 중복 카운트하여 결과 값에 반영된다.
3. 형태소 분석기
정제/형태소 분석 단계에서 추가로 분석 언어와 형태소 분석기를 선택하여야 한다. 분석 대상 언어는 한국어, 영어, 중국어 중에서 선택이 가능하다, 형태소 분석기는 창원대에서 개발한 'Espresso K' 혹은 이에 더해 일본어 형태소 분석 엔진을 가지고 한국어 형태소 분석을 하기 위해 만들어진 소프트웨어인 'Mecab-ko' 가운데 적합한 것을 선택할 수 있다.
두 형태소는 차이가 있다. 우선 에스프레소 케이는 원문에서 띄어쓰기가 되지 않은 '국제간사국', '국제표준화기구', '웨어러블', '세계시장'. '미래성장동력'이라는 단어는 붙어진 채로 나온다. 따라서 고유명사, 복합명사에 대해서는 좋은 결과 값을 보여준다. 하지만, 띄어쓰기가 잘 되어있지 않은 문서를 분석하거나, 감성분석과 같이 일반적인 단어들로 분석을 하기에는 적합하지 않다. 반면에 Mecab-ko는 일본어 오픈소스 형태소 분석엔진인 MeCab을 사용하여, 한국어 형태소 분석을 하기 위한 소프트웨어이다. 말뭉치 학습과 사전목록 일부는 21세기 세종계획의 성과물을 사용하였다. Mecab의 경우 원문의 띄어쓰기에 크게 의존하지 않고, 사전을 참조하여 어휘를 구분한다. 따라서 국제표준화가 ‘국제’, ‘표준화’로, ‘미래성장동력’은 ‘미래’, ‘성장’, ‘동력’으로 떨어져 나타난다. 띄어쓰기에 크게 의존하지 않고 안정적인 결과 값을 보여주지만, 단체명이나 복합명사에 대해서는 분석 이후 떨어진 단어들을 합쳐 줄 필요가 있다. 또한 사용자가 반복 분석할 경우 자신만의 사용자 사전을 만들어서 빠르게 분석하는 것도 가능하다.
빅 데이터 기반 텍스트 분석과 관련된 몇 가지 주요한 소프트웨어와 관련 기술들이 있다. 이러한 기술들은 각각의 분석 및 적용 시나리오별로 공통적으로 적용될 수 있다. 실무에서 자주 사용되는 마이닝 기술과 관련 개념들을 우선 이해한 다음에 분석을 시작할 필요성이 있다.
1) 감성 분석
: 감성 분석은 비정형 텍스트가 전달하거나 내포하고 있는 감정의 식별에 필요하다. 입력 테스트는 다양하다. 제품에 대한 리뷰나 고객의 평점 후기 같은 상호작용 내용, 소셜 미디어의 타임라인, 블로그, 뉴스기사, 지식인 콘텐츠 등 다양하다. 감성 분석은 다양한 유형이 있지만 일반적으로 긍정적 감정 혹은 부정적 감정으로 분류하는 것이 주된 목적이다. 보다 세부적으로 분류 기술이 사용되는데, 분류 기술은 감성 분석을 세분화하여 혼란, 실망, 기대와 같이 호의적 감정과 비호의적 감정을 세부적으로 다시 분류해 준다. 감성 분석의 사용 상황은 특정 제품이나 서비스에 대한 고객의 반응 측정, 기업의 사명, 브랜드에 대한 감성 측정을 통한 브랜드 평가, 소비자 태도의 이해, 고객 불만 요인의 분석, 자사의 강점과 포지셔닝 장단점 분석 등 다양하게 응용되어 사용된다.
2) 토픽 모델링
: 토픽 모델링은 방대한 양의 텍스트로 구성된 빅 데이터에서 언급되는 주요한 주제나 토픽을 발굴하는데 사용된다. 예로, 토픽 모델링은 특정한 장문의 신문 기사에서 핵심 주제가 무엇인지 식별하기 위한 용도로 키워드를 분석하고 주제를 도출해낸다. 토픽 모델링이 사용되는 상황은 바이오 분야의 학술 연구자가 관련 의학 논문 수 백편을 검사하여 어떤 연구주제가 진행되고 있는지 확인할 수 있다. 온라인 미디어를 운영하는 개인은 토픽 모델링을 통하여 최근 인기있는 밈(meme)이나 주제를 확인할 수 있다. 혹은 신제품을 개발하려는 기업은 어떤 고객의 니즈가 부각되고 있는지가 궁금할 수 있다. 이처럼 토픽 모델링은 대규모 텍스트 빅데이터 속에서 의미있는 주제를 찾는 목적으로 주로 사용된다.
3) TF-IDT
: TF-IDT는 특정 키워드가 텍스트 빅데이터 또는 문서에 나타나는 빈도와 문서에 대한 해당 키워드의 상대적 중요도를 결정하는데 사용하다. 중요도를 결정함으로서 의미가 적거나 통찰력을 제공하지 못하는 단어나 다른 키워드, 불필요한 접속사 등을 제거할 수 있다.
4) 이벤트 추출
: 이벤트 추출은 텍스트 빅 데이터에서 언급된 주요한 이벤트를 확인한다. 즉, 기업 대상 콘텐츠의 경우 합병이나 인수, 중요한 회의, 기타 의미있는 이벤트를 선별하여 인식한다. 이벤트 추출에는 텍스트 콘텐츠의 의미에 대하여 연구자의 높은 이해도가 필요하다. 이벤트 추출의 고급 알고리즘은 이벤트 뿐만 아니라 필요한 경우 장소, 참가자, 날짜 및 시간을 인식하려고한다. 고급 분석 기술인 만큼 다양한 분야에서 여러 용도로 사용되는 유익한 기술이다. 이벤트 추출이 적용되는 사례는 링크 분석이다. 소셜 미디어상에서 이루어지는 커뮤니케이션과 상호 작용을 분석하여 어떤 이벤트가 있었는지 확인하고, 이를 통해 누가 언제 어디서 어떤 모임과 만남을 가졌는지 쉽게 파악이 가능하다. 링크 분석은 테러의 예방, 기업 비밀 보호 등 안보 분야에서 유용하게 사용될 수 있다. 그 외 이벤트가 발생한 위치를 추적한 이후 지도력 표시하는 지리공간 분석이 가능하다. 바이오헬스 등 기업에서 활용도는 비즈니스 위험도에 대한 사전 모니터링과 분석이 가능하다. 이벤트 추출 기술을 적용하여 공급망이나 유통망의 파트너의 신뢰성 예측, 도산 등 위험도 예측 등을 할 수 있고 적절한 대응 활동을 선제적으로 진행할 수 있다.
텍스트 마이닝 분석 단계
빅 데이터 기반 텍스트 분석은 비정형의 다양한 데이터를 수집, 정제, 분석하기 위한 일련의 정교한 처리 및 분석 과정이 필요하다. 텍스트 마이닝 분석에 투입되는 주요한 과정을 예시하면 다음과 같다.
1) 데이터 수집 과정
: 텍스트 기반의 데이터는 문서나 웹 콘텐츠 등 다양하다. 우선 문서 형태로는 PDF나 텍스트 포맷으로 변환될 수 있는 거의 모든 자료가 포함된다. 도서, 법령, 기타 고문서 등도 포함된다. 그러나 대부분의 텍스트 빅데이터의 소스는 인터넷이 될 것이다. 인터넷 상에는 신문기사, 블로그, 카페, 소셜 미디어 등 다양한 미디어들이 텍스트 기반으로 구축되어 있다. 내용적으로는 고객과의 채팅, 상담, 이메일, 신제품 리뷰, 인플루언서와 팔로워간 대화 등 내용이 다양하다. 외부 데이터는 존재하지만 모아져있거나 정리되어 있지 않으므로 직접 수집하는 과정이 필요하다. 수집에는 파이손 등 외부 프로그램 자원을 활용한 웹 크롤링(web crawling) 등의 기법이 사용된다. 혹은 팩키지화된 소프트웨어를 활용하여 파이쏜 등 프로그래밍 언어에 대한 숙련도 없이 수집도 가능해지고 있다.
2) 데이터 준비
: 준비된 비정형 데이터를 분석에 투입하기 전에 머신 러닝 알고리즘에서 이를 분석하기 위한 사전 단계가 필요하다. 대부분의 텍스트 분석 소프트웨어에서 데이터 준비 단계는 자동으로 진행된다. 포함되는 데이터 준비 과정은 토큰화, 품사 태깅, 구문 분석, 표제어 및 형태소 분석, 불용어의 제거 과정 등이다.
가) 토큰화 : 텍스트 데이터의 연속 문자열을 전체 단어 또는 구성하는 토큰(token)의 더 작은 단위로 나눈다. 예를 들어 문자 토큰은 ‘낙시’라는 단어의 개별 문자일 수도 있으며, 또는 ‘낙시꾼’과 같은 하위 단어 토큰으로 나누어지기도 한다. 토큰은 모든 자연어 처리(natural language processing, NLP)의 기초 과정이며, 공백 등을 포함하여 텍스트의 원하지 않는 부분의 삭제가 가능하다. 영어와 비교하여 국문은 다양한 조사와 변형된 단어들의 사용이 가능하다. 이런 점은 한국어 자연어 처리의 어려움을 가중시키고 있는 요인중 하나이다.
나) 품사 태깅 : 빅 데이터로 투입된 문서는 다양한 품사들이 포함된 문장이다. 이를 품사 단위로 태깅한다. 데이터의 각 토큰에는 명사, 동사, 형용사, 부사와 같은 문법 범주가 할당된다. 할당된 문법 범주를 데이터에 태그를 붙이는 과정이다.
다) 표제어 추출 및 형태소 분석 : 토큰과 관련된 접미사 및 접미사를 제거하고 사전 형식 또는 보조적 정리를 유지하기 위하여 데이터 분석에 투입되는 프로세스이다.
라) 불용어 처리 : 빈번하게 사용되지만 텍스트 분석에서는 가치가 없는 모든 토큰이 제거되는 단계이다. 영어 문자의 정관사(a, the) 등이 혹은 한국어 문자의 조사(은, 는, 이, 가) 등이 제거된다. 불용처 처리 단계에서는 필요에 따라 특정 불용어를 맞춤하여 제거할 수 있다.
3) 텍스트 분석
: 비정형 텍스트가 데이터 형태로 정제된 이후에는 텍스트 분석 기술을 사용하여 필요한 통찰력을 빅 데이터로부터 획득한다. 사용되는 기술중에 텍스트의 분류와 추출이 많이 활용된다.
가) 텍스트 분류 : 텍스트 태깅(tagging)이라고도 불린다. 이 단계에서는 의미에 따라 특정 태그가 텍스트에 할당된다. 예를 들어, 사용자간의 대화를 분석하는 동안에 ‘호의적’, ‘비판적’ 과 같은 특정 태그자 지정되어 할당된다. 텍스트 분류 과정은 종종 규칙 기반 알고리듬 혹은 머신러닝 기반 시스템을 사용하여 수행된다. 규칙기반 알고리듬에서 인간은 언어 패턴과 태그 간의 연과성을 정의한다. 예로 ‘양호’는 긍정적 리뷰를, ‘나쁜’은 부정적 리뷰를 식별할 수 있다. 머신 러닝 알고리듬을 통하여 텍스트 분류를 하고 새로운 데이터 세트에 태그를 할당할 때, 빅 데이터 세트로 구성된 학습 데이터는 정확한 태깅 결과를 제공하는데 도움이 된다.
나) 텍스트 추출 : 비정형 입력 데이터에서 인식이 가능하고 구조화된 정보를 추출하는 과정이다. 이 정보에는 주요한 키워드, 인명, 장소, 이벤트 등이 포함된다. 텍스트 추출을 위한 간단한 방법중 하나는 정규식을 활용하는 것이다. 이는 입력 데이터의 양과 복잡성이 동시에 증가할 때 유지 관리를 도와주는 복잡한 방법이다.
4) 결과 시각화
: 텍스트 분석 결과를 보다 잘 이해하기 위하여 결과는 데이터 시각화 과정을 통하여 보여줄 수 있다. 그래프, 표, 챠트, 의미연결망 등이 데이터 시각화에 사용된다. 이는 빠른 데이터 이해와 의사결정의 신속성을 도와준다. 특히, 데이터 분석자가 아니라 의사결정자에게 빅 데이터의 의의와 시사점을 한 눈에 보여줄 필요가 있을 때 사용한다. 복잡한 분석 결과를 요약하여 성과를 경영자에게 설득시키기 위한 과정으로서, 화룡정점에 해당하는 절차이다.
빅 데이터 분석중 하나인 텍스트 마이닝 웹 콘텐츠의 일반화에 따라 점점 중요성이 강조되고 있다. 텍스트 분석은 인공지능과 머신 러닝, 통계 및 언어 기술을 결합하여 대량의 비정형 텍스트를 처리하여, 통찰력과 패턴을 분석하고 그 결과를 시각화하여 도출한다. 이를 통하여 바이오헬스 분야의 기업과 스타트업들은 마음대로 사용할 수 있는 방대한 양의 콘텐츠를 다루는 것이 가능해졌고, 의사결정의 효율성을 높일 수 있다. 일 예로, 바이오헬스 기업의 담당자는 지난 코로나 팬데믹 기간 동안에 ‘코로나’와 관련된 모든 신문기사, 블로그, 인터넷 웹 콘텐츠를 수집한 이후, 코로나와 관련된 동향을 분석하여 의사결정에 반영할 수 있다. 또한 텍스트 분석은 단순히 최빈 단어의 빈도 뿐만 아니라 감성 분석, 주제 모델링 등 다양한 세부적 기술을 사용한 분석이 가능하다.
특히 인터넷의 발전과 사용자 증가는 텍스트 마이닝의 필요성을 증가시키고 있다. 오늘날 2021년 기준으로 최소 45억명 이상의 사람들이 인터넷에 접속하고 있으며, 이들중 49%는 소셜 미디어를 동시에 활용하고 있다. 이들의 이런 인터넷과 소셜 미디어 활동의 결과로 블로그, 메시지, 트위터 트윗, 그리고 다양한 신문기사와 지식인 답변 등 거대한 양의 텍스트 데이터가 매일 생산되는 시대에 살고 있다. 또한 인터넷 이용자 간에 나누는 커뮤니티 메시지는 또다른 거대한 텍스트 기반의 데이터베이스로 변화하고 있다. 그러나 이런 막대한 양의 텍스트 데이터는 귀중한 정보적 값어치를 가지고 있음에도 불구하고 구조화되지 않은 채 웹의 여러 곳에 널려있다. 구조화되어 있지 않다는 것은 쉽게 표현하면 제대로 정리, 요약되거나 가공되지 않은채 있으며, 이는 이들 텍스트 데이터가 서로 같은 내용을 반복하여 가지고 있는 데이터의 중복 문제, 중요 키워드 도출의 미진행 등의 문제점을 가지고 있다는 점이다. 만일 이 방대한 양의 텍스트 데이터를 제대로 수집, 정렬하고 구조화하여 분석할 수 있다면 콘텐츠를 통한 정보수집이 가능하다. 바이오헬스 기업은 이런 통찰력을 활용함으로서 수익 창출, 신사업 기회 발굴, 고객 만족도 제고 등 긍정적 효과를 거둘 수 있다. 빅 데이터 기반 텍스트 분석의 이점은 다음과 같다.
1) 신속한 의사결정
: 바이오헬스 기업이 고객과 경쟁사의 동향, 제품과 서비스의 품질과 성과를 객관적으로 이해할 수 있도록 돕는다. 그 결과 신속한 의사결정, 효과적인 비즈니스 인텔리전스 향상, 비용 절감과 생산성 향상이 가능하다.
2) 빠른 정보 요약
: 짧은 시간에 많은 양의 기존 문헌을 탐색하여 마케팅에 필요한 자료를 추출할 수 있다. 누락없는 전수 데이터의 분석을 통하여 균형잡힌 정보 파악이 가능하다.
3) 추세 이해
: 사회 전반의 추세를 이해할 수 있다. 설문조사나 인터뷰가 일부만의 의견이 반영될 수 있으나 텍스트 마이닝은 광범위한 의견 반영이 가능하다.
수익 창출이나 구독자 증가 등 구체적인 전환 목표를 가지고 디지털 마케팅 캠페인을 진행할 경우 다양한 미디어들을 동시에 홍보나 광고의 수단으로 이용할 수 있다. 실제로 전환을 촉진하는 최종 랜딩 페이지의 url 주소는 하나지만, 이 url 주소를 이용하여 네이버 포탈에 홍보를 하거나 페이스북 페이지나 블로그, 트위터 등에 게시하는 여러 미디어들을 활용하여 마케팅을 전개할 수 있다.
이런 경우 GA는 랜딩 페이지로 발생된 트래픽이 어느 미디어에서 유입된 것인지에 대하여 트래픽 소스를 통하여 확인할 수 있도록 도와준다. 실시간 보고서의 '트래픽 소스'에서는 이런 유입 소스에 관한 정보를 GA가 자동으로 분류하여 실시간으로 제공한다. 그러나 GA가 제공하는 트래픽 소스의 자동화된 분류 정보는 너무 광범위하거나 모호한 경우가 있다. 자동화된 분류는 구글이 아닌 네이버 등 다른 검색엔진이 진행하는 대부분의 CPC 광고나 이메일, 배너 광고, 온라인 팜플렛으로부터 들어온 유입 트래픽에 대하여는 정확한 추적에 한계가 있다. QR코드를 활용하는 인쇄물이나 오프라인 광고, PDF 문서의 링크 등도 정확하게 파악하는 것이 쉽지 않다. 오프라인 매장에 인쇄된 QR코드를 촬영한 링크로 들어온 경우처럼 오프라인에서 유입되는 것도 가능하다.
따라서 보다 정교한 캠페인을 진행하기 위해서는 구글이 직접 제공하지 않는 미디어들로부터도 보다 세분화된 데이터를 얻을 필요가 있으며, 이를 위해서는 수작업을 통하여 매뉴얼로 캠페인 태그를 적용한다. 캠페인 태그는 배너 광고, 광고용 이메일, 검색광고, pdf 문서로된 팜플렛, 소셜 미디어 채널, 오프라인 매장 부착물 등 거의 모든 유형의 링크(link)에 적용이 가능하며, GA는 방문자 페이지에 캠페인 태그만 있다면 거의 모든 유형의 미디어들을 통한 방문 내용을 정확하게 구분해낼 수 있다. 또한 랜딩 페이지 내에 유입된 이후 어떤 페이지들을 둘러보며, 어떤 행동을 하는지에 대한 정보도 세밀한 파악이 가능하다.
■ GA 캠페인 태그 활용
랜딩 페이지로 유입되는 트래픽이 소셜미디어나 검색엔진 등 다양한 소스로 부터 발생된다면 적극적으로 캠페인 태그를 고려할 필요가 있다. 캠페인 태그는 굳이 번역하자면(안하는게 낫다..) '악동추적기(?)'인 UTM(urchin tracking module)를 의미하며, url에 추가로 추적 모듈 추가된 형태이다. 보통 url에 추적 모듈인 UTM을 부착하기 위해서는 랜딩 페이지 URL 뒤에 ?를 추가하고 UTM 태그를 지정할 수 있다. 즉 광고 이벤트를 진행하는 가상의 기업인 zzz사의 랜딩 페이지의 주소가 'www.zzz.co.kr/promotion.html' 이라면 캠페인 태그는 'www.zzz.co.kr/promotion.html?utm_....' 과 같은 형태로 태그가 지정된다.
자주 사용되는 UTM 태그는 모든 UTM 태그에 적용되는 필수적 태그와 선택적으로 적용가능한 선택적 태그로 구분된다. 필수 태그인 utm_source, utm_medium, utm_campaign의 3가지를 모두 포함하지 않은 경우에는 UTM태그가 작동하지 않는다. source는 트래픽이 어디에서 왔는가(where), medium은 트래픽이 어떻게 왔는가(how), 그리고 마지막으로 campaign은 마케팅 행사의 이름은 무엇인가(what) 를 의미하는 것으로 이해할 수 있다. 즉 '네이버'에서 '디스플레이 광고'를 통하여 '크리스마스 세일' 행사를 홍보하는 경우에는 utm_source=네이버, utm_medium=디스플레이광고, utm_campaign=크리스마스세일 처럼 이해할 수 있다.
이용 가능한 utm 태그는 총 5가지이며, 각 태그의 종류는 다음과 같다.
1) 캠페인 소스(utm_source) : 캠페인 미디어의 원천(예: 네이버, 구글, 다음, 페이스북 등) 식별에 사용되는 필수 태그이다.
2) 캠페인 미디어(utm_medium) : 캠페인 채널의 구체적인 광고 매체(cpc, 배너광고, 카페, 뷰탭, 블로그 등) 구분에 사용되는 필수 태그이다.
3) 캠페인 명칭(utm_campaign) : 현재 진행중인 캠페인의 이름을 통한 식별(예: '블랙 프라이데이 세일이벤트' 등)에 사용되는 필수 태그이다.
4) 캠페인 콘텐츠(utm_content) : 필요시 선택적으로 사용되는 선택 태그이며, 2개 이상의 광고 집행시 광고의 구분, AB테스트 진행 목적으로 사용된다. 선택항목이다.
5) 캠페인 키워드(utm_term) : 웹사이트 방문자가 외부 검색 시 사용한 특정 키워드를 추적하기 위한 목적으로 사용된다. 선택 항목이다.
이들 태그를 가지고 url을 구성하는 사례를 들어보자. 우선 zzz라는 가상의 기업은 현재 온라인으로 회원모입을 하는 이벤트를 자사의 홈페이지에서 진행하고 있으며, 이 온라인 이벤트의 url 주소는 'www.zzz.co.kr/promotion.html' 이다. 이 이벤트 랜딩 페이지를 자사 홈페이지가 아닌 네이버 카페에 동시에 광고를 하고 난 후 얼마나 많은 사람들이 네이버 카페를 통하여 유입되었는지 보고싶어 한다. 이 경우 캠페인 명칭은 회원 가입(get_member)이며, 캠페인 미디어는 카페(cafe), 캠페인 소스는 네이버(네이버)가 된다. 카페에 게재된 광고에는 이미지01(image01)이라는 구분용 명칭을 부여하였다. 이런 경우 UTM 태그는 다음과 같이 구성될 수 있다. 이때 각 utm의 명칭(예: utm_medium=cafe에서 cafe)은 정해진 규칙이 아니라 단지 구분을 위해 사용하는 명칭이므로, 식별가능하도록 적절하게 부여하면 된다.
이처럼 구성된 UTM 링크 주소는 네이버 카페에 게재된 광고 이미지 혹은 이벤트를 설명하는 게시 글 등에 연동시켜놓아야 한다. 즉, 네이버 카페의 이미지 광고를 클릭하면 위 링크가 활성화되면서 방문자는 랜딩 페이지는 zzz사의 홈페이지로 연결될 것이다. 동시에 구글 GA는 방문자의 유입경로가 네이버 카페를 통하였음을 정확하게 인지하고 기록하게 된다.
■ URL빌더를 이용한 태그 관리
이처럼 캠페인 태그에는 수작업을 통하여 utm 관련 정보를 지정할 수 있다. 그러나 실제로 다양한 캠페인이 동시에 진행되거나 하는 경우에는 수작업의 효율성이 떨어지며, 혼동 등 오류가 발생할 수 있다. 따라서 보통 대량의 캠페인을 보다 편리하게 관리하기 위해서는 'URL Builder'(https://ga-dev-tools.appspot.com/campaign-url-builder/)라는 구글이 제공하는 캠페인 UTM 관리 도구를 활용하기도 한다. 특히 다수의 캠페인을 동시다발적으로 진행하는 경우에는 URL 빌더 이외에 엑셀 매크로를 작성하여 활용하는 모습도 볼 수 있다.
또한 utm 태그를 사용할 경우 일반적으로 url 주소가 지나치게 길어지기 때문에 필요 시 url 단축서비스(예: https://c11.kr)들을 활용하여 정리해주는 작업이 필요할 수도 있다. 특히 utm이 적용된 url을 트위터 등 단문형 소셜 서비스에 제공할 경우에 url 단축 서비스는 필수적으로 적용될 필요가 있다.
■ 캠페인 테스트 결과의 확인
캠페인 태그를 적용하고 데이터가 축적된 이후에 실시간 보고서의 트래픽 소스를 확인하거나 획득 보고서의 캠페인 → 모든 캠페인을 확인하면 내가 부여한 UTM 태그 정보를 기준으로 최적화된 캠페인 보고서가 제공되는 것을 확인할 수 있다. 캠페인 상단의 메뉴 탭을 클릭하면 차례로 캠페인, 소스, 매체, 그리고 소스/매체, 기타 utm_content의 적용 결과 순서별로 UTM이 적용된 결과값을 확인할 수 있다. 즉 UTM 각각은 ABC 보고서 내의 차원(dimension) 정보로 제공된다.
■ GA 기반의 A/B 테스트 전개
추가적으로 utm_content 태그의 적용을 통하여 간단한 A/B테스트를 진행하고 마케팅 의사결정의 효과성을 높일 수 있다. AB테스트는 간혹 스플릿(split) 테스트라고 불리기도 하는데, 보통 동일한 디지털 채널을 대상으로 두 가지 이상의 마케팅 자극물로 나누어 제시한 후 어느 쪽이 더 효과적인지 파악하는 일종의 간단한 실험기법이다. 일 예로 칼라 콘텍트렌즈를 제조하는 기업의 경우에는 아이돌인 트와이스(A안), BTS(B안) 혹은 블랙핑크(C안)을 가상의 광고 모델로 설정한 세개의 독립적인 랜딩 페이지를 구축한 후 어느 페이지를 방문한 방문객이 더 많은 제품을 구매하는지 평가하는 형태로 사용될 수 있다. A/B 테스트는 전통적으로 마케팅 실험에 사용해왔던 통계분석 방법인 분산분석(ANOVA)에 비하여 통계적 유의성을 입증하기 어렵다는 제약이 있다. 그러나 간단하고 빠르게 실험을 시행하고 더 나은 대안을 선택할 수 있다는 장점을 기반으로 활용도가 증대하고 있다. 또한 구글이 제공하는 구글 옵티마이즈(optimize.google.com)와 같은 테스트 최적화 도구들을 활용하면 보다 손쉽게 A/B테스트, 다변수(multi-variate) 테스트, 리디렉션(redirection) 테스트 등을 설계하고 진행할 수 있다.
구글 트렌드를 활용하여 전반적인 시장 변화나 관김 사항들을 주기적으로 확인할 수 있지만, 평소 관심 주제나 점검이 필요한 사항에 대하여 꾸준하게 모니터링할때는 구글 알리미를 사용할 수 있다. 이처럼 경쟁사나 신제품과 기술에 대하여 꾸준히 모니터링하는 일은 마켓 리서치와 달리 상시적으로 이루어진다고 하여 마켓 센싱(market sensing) 활동으로 불린다. 환경 변화에 대한 대응 노력 필요성이 커지면서 마케팅 리서치 활동의 무게는 예방적 활동이 가능한 센싱 위주로 변화하고 있는 상황이다.
마켓 센싱의 방법은 다양하지만, 주로 경쟁사나 인플루언서의 소셜 미디어를 팔로워하거나 뉴스나 웹 콘텐츠의 새로운 관련 소식이 새로 나오는대로 즉각적으로 받아보는 방식이 유용하다. 과거 인터넷 미디어가 보편화되기 이전에 기업에는 홍보실이라는 부서가 있었다. 홍보실의 가장 중요한 업무중 하나는 새벽에 나오는 활자 신문의 초판을 누구보다 가장 먼저 받아서 보고, 기업에 불리한 기사가 있다면 이를 삭제하거나 비판의 톤을 낮추기 위하여 모든 수단을 강구하는 것이었다. 마케팅 부서 역시 비슷한 방식으로 필요한 정보를 습득하였다. 그러나 이런 모든 정보는 구글 알리미(Google Alert) 서비스를 활용하여 별다른 노력없이 정보의 획득이 가능하다.
가) 알리미 사이트 접속: 구슬 접속창에 알리미 사이트(www.google.co.kr/alerts)를 입력하거나, ‘구글 알리미’를 검색하여 주소를 확인한다.
나) 알리미 옵션: 구글 접속 후 나타나는 알리 사이트의 검색창에 관심사 키워드를 입력한다. 키워드를 입력하면 화면 하단에 즉각적으로 관련 주제의 기사나 정보가 최근 자료 기준 미리보기 형태로 나타난다. 가장 단순하게는 현재 상황에서 ‘알림 만들기’ 버튼을 클릭하여 알리미를 만들 수 있지만, 보다 편리하게 사용하기 위하여 ‘옵션 표시’ 버튼을 클릭하여 필요한 옵션을 설정한다. 주요한 옵션은 수신빈도, 출처, 언어, 지역, 개수, 수신 위치 등을 설정할 수 있다. 해당 옵션은 알리미 사용을 보다 편리하게 해주며, 필요시 언제라도 수정이 가능하다.
주요한 옵션은 수신빈도, 출처, 언어, 지역, 개수, 수신 위치 등을 설정할 수 있다. 해당 옵션은 알리미 사용을 보다 편리하게 해주며, 필요시 언제라도 수정이 가능하다.
○ 수신빈도 : 수시, 매일, 주 단위로 선택이 가능하다. 정보의 긴급성, 언급되는 정보의 화제성, 메일함의 잔여 크기, 관심 정도에 따라서 선정이 필요하다.
○ 출처: 정보를 가져오는 소스를 설정한다. 뉴스, 블로그, 웹, 토론, 비디오, 도서 등에서 가져올 수 있으며, 자동으로 설정시 대부분의 정보 소스를 사용한다.
○ 언어: 수집되는 자료의 언어 형태이다.
○ 지역: 국가단위로 수집이 가능하다. 언어와 지역을 혼합하면 미국지역 한인교포에 대한 정보등으로 규정하여 획득할 수 있다.
○ 개수 : 모든 정보를 받거나 구글이 선정한 우수한 검색 결과만을 받을 수 있다.
○ 수신 위치 : 개인 이메일 혹은 RSS(갸초 site summary) feed로 받을 수 있다. RSS feed는 뉴스나 블로그 사이트의 정보를 요약하여 보여주는 서비스이며, RSS를 이용한 자동 문서 수집이 가능하다. 브라우저에 rss feed reader 앱을 설치하거나 웹 기반의 rss feed에 가입하여 활용할 수 있다.
다) 알리미 설정: 주요 키워드에 대하여 설정 완료된 현황을 보여준다. 현재 예시에서는 ‘머신러닝’은 RSS feed 형태로 알리미가 전송되며, ‘디지털 마케팅’은 지정된 이메일로 수신위치가 지정되었다. RSS feed로 지정된 경우 와이파이형 아이콘치 표시된다. 추가로 ‘웹세상의 나’에서는 자기 자신이 웹에서 어떻게 언급되고 있는지 확인할 수 있다. 표시된 이름과 주소는 변경이 불가하며, 가입시 정보를 토대로 제안된다.
라) 기타: 알리미 서비스는 유용하지만 여러개의 키워드를 설정한 경우 너무 많은 알리미 메일로 메일함 관리가 어려워지거나, 특정 주제의 키워드가 더 이상 필요하지 않은 경우도 발행한다. 알리미가 너무 많아 메일함이 복잡해질 경우에는 전체 알리미를 하나의 메일로 요약하여 받아보는 형태로 수신 메일의 수를 감소시킬 수 있다. 그리고 더 이상 필요하지 않은 알리미 서비스는 해제할 수 있다. ‘내 알림’ 대시보드의 설정(톱니바퀴)을 통하여 전송시간과 요약 여부, 알리미 설정 등의 조정이 가능하다.
구글 트렌드는 구글에서 이루어지는 키워드 검색과 유튜브 등 동영상 검색 추세를 지수화하여 이를 도표로 만들어 실시간으로 보여주는 검색 기반 빅데이터 서비스이다. 처음 2006년 개발되어 제공되고 있으며, 빅데이터의 활용성을 앞서 보여준 서비스이다.
구글 트렌드는 특정한 키워드에 대한 대중적 관심도를 보여주는 것으로 대상 기간중 검색 획수가 가장 적었던 때를 0, 반대로 많았던 때를 100으로 정하고 시기별로 상대적 수치로 환산하여 보여주는 상대적 지표이다. 다만 검색량을 중심으로 보여주기 때문에 긍정 혹은 부정 평가와 같은 가치 평가는 포함되어 있지 않아 주의가 필요하다. 지난 2022 대선 때 특정 후보의 검색량이 상대 후보보다 많다는 구글 트렌드 자료를 바탕으로 우세를 주장하기도 하였으나, 이는 옳치 않았다. 해당 후보에 대한 이용자의 관심을 반영하기는 하지만, 관심도가 호의도나 선호도는 아니다. 오히려 비호감 후보에 대한 비방이나 공격목적으로 검색량이 증가하는 경우에도 구글 트랜드는 증가한다. 구글 트렌드 빅데이터는 관심도를 보여주지만, 관심 자체는 긍정과 부정을 모두 포함하는 가치 중립적 개념이다.
가) 사이트 접속하기 : 구글 트랜드의 사용은 매우 간단하다. 우선 구글 트랜드 사이트(trends.google.co.kr)에 접속한 후, 구글 계정으로 로그인한다. 이후 초기화면에서 조사 목적에 따라 원하는 검색어 또는 주제를 입력하면 바로 검색 결과가 제시된다. 검색어(terms)는 검색어와 매치되는 모든 결과값들을 포함하여 보여준다. 만약 ‘사과’를 입력하였다면 ‘사과’는 물론이고 ‘사과농장’, ‘사과쥬스’ 등 다양한 연관 검색어를 포함하여 결과를 제시하여 준다. 만일 조금 더 범위를 좁혀서 ‘사과쥬스’라고 한정적으로 입력하였다면, 구글은 ‘사과쥬스’의 연관 키워드인 ‘키위쥬스’, ‘사과쥬스 다이어트’, ‘사과즙’ 등을 포함하여 검색해준다. 반면에 주제(topics)는 언어의 종류에 상관없이 동일한 개념을 공유하는 키워드의 집단의 결과를 검색해준다. 만일 ‘서울’을 주제로 입력한다면 영어로 표현된 ‘seoul’, ‘한국의 수도’, ‘서울시장’ 등을 포함하여 결과를 제시해준다.
나) 트랜드 검색하기: 초기화면에서 희망하는 검색어를 입력하면 결과 창으로 변경된다. 결과창에서는 트랜드 분석의 초기값을 보여주는 동시에, 보다 정교한 결과를 위하여 수정, 비교할 수 있는 기능을 보여준다.
다) 검색결과 비교하기: 구글 트랜드는 2개 이상의 복수 키워드를 동시에 검색하여 대중의 관심도를 평가할 수 있다. 이는 경합하는 두 개 이상의 대상에 대하여 직접적인 비교가 가능하다는 점에서 트랜드 이해에 편리하다.
라) 검색결과 정교화하기: 검색 빅데이터는 단어 그대로 다양한 데이터들이 혼재되어 있다. 그 결과 특정한 목적을 가지고 트렌드를 볼 때 다양한 잡음(noise)가 끼어든다. 예로, 유튜버인 정상수와 잇섭을 비교한다고 가정하자. 단순 비교를 한다면, 동명이인이 많은 정상수가 더 유리한 검색 결과를 보여주어 비교에 오류가 생긴다. 자동화된 분석 결과를 보여주는 구글 트랜드 특성상 이를 완벽하게 통제하기는 어렵지만, 보다 정확한 결과가 되도록 조정할 수는 있다. 검색어의 우측에 마우스를 가져가면 설정을 할 수 있는 아이콘이 활성화된다. ‘수정’을 선택한 후, 해당 키워드와 관련 있는 설명을 참조하여 유튜버로 한정한다. ‘필터’를 선택하여 지역과 기간을 조정할 수도 있다.
마) 검색옵션 변경: 검색 옵션은 지역, 분석 기간, 관심 카테고리, 검색 소스 등을 지정할 수 있다. 지역은 국가별 지정이 가능하며, 기간은 2004년부터 현재까지중에서 특정 기간을 지정할 수 있다. 관심 카테고리는 이용자의 라이프스타일을 보여주는 특정한 주제 영역으로 지정이 가능하며, 검색 소스는 웹, 이미지 검색, 뉴스 검색, 구슬 쇼핑, 유튜브 검색중에서 선택할 수 있다.
바) 관련 주제 및 관련 검색어 활용: 관련 주제 및 검색어는 트랜드 이해에 소중한 인사이트를 제공한다. 이는 연관 주제나 연관 키워드의 개념으로, 동일한 이용자가 같이 검색한 키워드를 급상승 순위 혹은 인기 순위 중 하나를 선택에 따라 보여준다. 급상승은 검색 기간중 보다 최근의 결과를 더 반영하고, 인기는 평균적 결과를 반영하여 순위를 결정한다. 이를 통하여 관심있는 주제나 키워드와 관련한 사람들의 태도나 보다 구체적인 세부 트랜드를 찾도록 노력하여야 한다.
노션이 다양하고 방대한 기능을 제공하고 있지만, 특히, 노션을 상업용 웹페이지처럼 운영하고자 할 때 다소 아쉬운 기능도 있다. 대표적 기능이 바로 구글 어낼리틱스 등 어낼리틱스 도구를 심어서 퍼포먼스를 측정하거나 노션이 기본 제공하는 웹사이트 링크 주소(www.notion.so/wonjunlee/87715....)를 회사의 도메인 URL형태(www.cju.ac.kr)로 대체하여 사용하는 일이다. 이런 부분들이 가능해지면 노션은 가장 강력하고 손쉬운 홈페이지 저작 도구로도 손색이 없다. 아쉽게도 현재 이런 기능은 노션에서 제공하고 있지 않지만, 이런 욕구는 우피(www.oopy.io)외부 서비스를 연결하여 보완할 수 있다. 우피는 노션을 홈페이지처럼 운영하는 다양한 기능을 제공한다.
1) SEO 지원
구글이나 네이버의 검색봇에 더 잘 검색되도록 메타태그 설정,robot.txt. 제공 등 검색엔진 최적화를 지원한다.
2) 스타일 개선
테마를 제공하고 있으며, 노션의 필수요소중 불필요한 부분을 선택적으로 숨겨준다. 예로, 노션 페이지 경로, 공유 버튼, 일부 데이터베이스 등을 숨겨서 노션처럼 보이지 않게 해준다. 특히 원하는 페이지에 CTA(call to action) 버튼 생성이 가능하다.
3) HTML 편집
웹사이트의 HTML 편집을 지원한다. 글자 폰트, 페이지 폭, CTA 버튼, 배경 이미지 등 세부적인 설정이 가능해진다. 또한 상단 메뉴바에 서브 메뉴를 추가하는 것도 가능하다. 이는 또한 HTML 코드를 수정해야 운영할 수 있는 구글 어낼리틱스, 페이스북 픽셀 등 외부 플러그인 도구들을 사용할 수 있게 됨을 의미한다.
4) 클린 URL 지원
노션이 기본제공하는 긴 노션 URL 주소가 아니라 나만의 URL을 적용할 수 있다.
5) 기본 통계 지원
방문자 등 기본적인 웹사이트 현황 통계를 기본 제공한다.
6) 기타
이미지나 갤러리 등 노션 항목에 링크 걸기, 이미지 슬라이드 만들기등이 가능하다.
우피를 이용하기 위해서는 베이직 플랜(5,900원), 프로 플랜(9,900원)별로 약간의 월 단위 구독료 지불이 필요하다. 우피를 이용함으로서 노션은 완전한 홈페이지 기능을 구현할 수 있게되므로, 사업자 입장에서는 큰 부담은 아니다.
노션은 사용하기 편하며, 언제든지 새롭게 워크스페이스와 페이지를 만들거나 지울 수 있다. 그리고 윈도우 휴지통처럼 휴지통 기능이 있어서 삭제된 페이지도 완전 삭제되기 전에는 복원이 가능하다. 필요하다면 복사 페이지를 만들어놓는 것도 가능하다. 두려움 없이 직접 만들어보고 지워보는 것이 가장 빠르게 익힐 수 있는 길이다.
1) 회원 가입과 설치
무료 요금제 혹은 유료 요금제에 가입할 수 있다. 유료 요금제의 경우 파일 업로드 크기가 커지고 보안 등 추가된 기능을 이용할 수 있다. 처음에는 무료포 제공되는 개인 요금제로 가입하여 사용해보자. 회원 가입을 위해서는 노션 사이트(www.notion.so) 접속 후, 통상적 회원 가입 절차를 따라가도록 하자. 가입의 첫 단계화면에서 팀용 혹은 개인용 중 하나를 선택하고 진행하여야 한다. 적합한 것을 선택하면 되며, 나중에 변경이 가능하다. 특이 사항은 학생 및 교육계 종사자에게는 유료 요금제의 엔트리 상품인 ‘개인 프로 요금제’를 무료로 제공한다. 해당된다면 가급적 학교 공식 메일로 가입하여 사용한다.
노션은 별도의 앱이나 프로그램 설치 없이 웹 접속을 통하여 바로 이용하여도 무방하다. 그러나 이동중 스마트폰이나 패드를 통하여 이용하고자 할때는 앱 설치가 권장되며, PC 환경에서도 공동작업자로부터의 실시간 알람 등을 편하게 수신하기 위해서는 윈도우 앱 설치가 권장된다.
2) 사이드바의 주요 메뉴
워크스페이스나 페이지에 관한 전반적 설정을 담당하는 사이드바는 노션 화면 좌측의 메뉴바 형태로 존재한다. 사이드바는 감추거나 보이도록 설정할 수 있다.
가) 워크스페이스 생성 : 로그인, 새로운 워크스페이스 생성이나 참여, 사이드바 닫기 등이 가능하다. 노션에서는 설정이나 메뉴 설정을 위해서는 ‘...’ 아이콘을 클릭하면 된다.
나) 빠른 검색: 현재 워크스페이스에 포함된 페이지의 내용을 검색해준다.
다) 모든 업데이트: 자신의 페이지에서 받은 멘션(@), 댓글 답장, 페이지 초대 알림이 여기에 표시된다. 타인이 작성한 페이지에서는 해당 페이지의 업데이트 메뉴를 눌러서 팔로잉이 가능하다.
라) 설정과 멤버: 워크 스페이스 단위로 설정이 적용된다. 워크스페이스를 공유할 멤버 추가, 알림, 공유, 테마 등의 설정이 가능하고, 유료 서비스 이용 시 결제가 가능하다.
라) 시작하기: 새로운 페이지를 시작할 수 있다. 노션에서는 페이지 내에 하위 페이지를 무한대로 중첩할 수 있으며, 페이지간에 연결도 자유롭다. 설정 아이콘(...)을 클릭하여 페이지의 복제, 삭제, 이름 바꾸기, 즐겨찾기 추가, 옮기기 등이 가능하다.
마) 빠른 메모: 별다른 꾸미기 작업 없이 빠른 메모를 할 수 있는 기본 양식을 제공한다.
바) 작업 목록: 작성중인 페이지 목록을 보여준다.
사) 템플릿: 작성에 참조할 수 있는 템플릿을 인사, 엔지니어, 마케팅 등 주요한 업무 영역별로 구분하여 제시한다. 처음 노션 페이지 디자인을 할 때 유용한 팁이 된다.
아) 가져오기: 노션이 아닌 다른 툴에 저장한 데이터, 문서, 메모 등을 노션으로 가져와서 모든 데이터 관리를 일원화할 수 있다. 에버노트나 트렐로 같은 메모 앱, 워드나 구글 독스 같은 문서, 그리고 HTML 가져오기가 가능하다. 단 가져오기 기능은 현재 모바일에서는 지원하지 않고, 데스크톱 앱이나 웹에서만 가능하다.
아) 휴지통: 삭제된 페이지는 휴지통에 보관되며, 필요시 복구할 수 있다.
2) 페이지 만들기
노션은 블록(block)으로 필요한 구성 요소를 배치하고, 워드처럼 직접 텍스트를 입력하는 직관적 구조를 가지고 있다. 블록은 텍스트, 이미지, 블록선, 수학공식, 표 등 다양하게 지원되며, 페이지 내에서 하위 페이지를 하나 더 만드는 경우로 블록으로 처리된다. 노션은 전반적인 블록의 기능과 역할만 이해하면 페이지내 필요한 공간에 블록을 배치하고, 필요한 정보를 블록에 기입하는 방식으로 활용된다. 블록은 매우 다양하지만, 크게 1) 기본 블록, 2) 인라인, 3) 데이터베이스, 4) 미디어, 5) 임베드, 6) 고급 블록으로 구성되어 있다. 실질적으로 가장 많이 사용되는 블록은 기본 블록, 인라인, 미디어 정도이다. 블록안에 또다시 블록을 삽입하는 방식으로 사용할 수 있다. 예로, 토글 블록을 만든이후에 토글의 본문 내용은 번호매기기 블록을 중첩하여 사용할 수 있다.
블록을 호출하는 방법은 페이지 어디서나 슬래시(/)를 입력하면 볼록 선택이 가능하다. 혹은 페이지의 빈 라인의 좌측 끝에 마우스를 가져가면 블록을 추가할 수 있는 메뉴가 음영으로 표시된다. 메뉴를 활용하여 블록의 삭제, 복제할 수 있으며, 다른 블록으로 전환하기, 하위페이지 만들기, 색상 등 꾸미기도 가능하다. 블록은 마우스를 이용하여 페이지 내 자유롭게 배치가 가능하고 탭으로 이동도 가능하다. 일반 워드 프로세스에서 사용하는 복사하기(ctrl-c), 붙여넣기(ctrl-v), 복구하기(ctrl-z), 삭제 키(Del) 등 대부분의 명령어도 동일하게 사용할 수 있다.
페이지를 시각적으로 개별화하기 위하여 커버 이미지를 삽입하는 것이 좋다. 커버 이미지는 페이지 상단의 페이지 메목에 마우스 커버를 위치하면 ‘커버 추가’ 버튼이 나타난다. 갤러리를 통하여 노션에서 준비된 사진이나 소유한 이미지, 혹은 사진 공유 사이트인 언스플래시(www.unsplash.com)가제공하는 다양한 무료 이미지를 선택할 수도 있다. ‘위치 변경’ 메뉴를 활용하여, 사진이 가장 효가적으로 보이도록 위치를 조정한다.
3) 기본 블록
가) 텍스트: 단순 텍스트 문자를 입력할 때 사용한다. 블록을 호출하지 않고 바로 타이핑을 하여도 텍스트 입력과 동일하며, 입력된 텍스트는 이후 마우스로 텍스트의 범위를 지정하면 나타나는 옵션 창에서 링크 삽입, 댓글 달기, 수학공식 넣기, 코드로 표시, 멘션하기, 폰트 꾸미기 등을 할 수 있다. 이런 방식의 텍스트 꾸미기는 향후 노션의 대부분 블록에서도 동일한 방식으로 이용할 수 있다.
나) 페이지: 현재 페이지에 소속된 다수의 페이지들을 추가할 수 있다. 목차를 만들어서 소주제별로 내용을 분류하여 정리하거나, 명료하고 깔끔한 페이지 작성을 위하여 사용한다.
다) 할 일 목록: 체크 박스를 작성하며 할 일의 수행 여부를 점검할 때 편리하다.
라) 제목 1/제목 2/제목 3: 폰트 크기별 대중소의 제목을 입력할 수 있다.
마) 표: 데이터베이스 기능이 없는 단순한 표를 만들 수 있다. 표의 열과 행을 추가하거나 음영을 넣을 수 있다. 데이터베이스 기능이 필요한 표는 이후 데이터베이스 블록에서 생성하면 된다.
바) 글머리 기호 / 번호 매기기: 첫 글머리를 꾸미기 위한 동그라미 기호, 혹은 순서를 메기는 번호를 삽입할 수 있다.
사) 토글: 토글 텍스트는 평소에 보이지 않지만, 삼각형 화살표를 누르면 세부 내용이 나타난다. 선택적으로 확인해야되는 상세한 내용에 사용하여 깔끔하게 운영할 수 있다.
아) 인용: 책의 문장, 타인의 내용 등을 인용할떄 사용할 수 있는 기호이나, 이에 한정하지 않고 특정한 내용을 강조할 때 자유롭게 사용할 수 있다.
자) 구분선: 필요시 블록 사이를 시각적으로 구분해 준다.
차) 페이지에 대한 링크: 이미 작성된 노션 워크스페이스내 다른 페이지로 이동하는 링크를 만든다. 하부 페이지가 많을 때 페이지간 이동 목적으로 사용하면 편리하다.
파) 콜아웃: 특정 콘텐츠를 강조할 때 사용하는 강조 박스이다. 인용과 주 용도는 같으나 강조 블록의 색상 등에 변화를 주어 하이라이트할 수 있다.
4) 인라인 블록
가) 사용자 멘션하기: 워크스페이스를 공유하고 싶은 특정 팀원을 멘션한다. 직접 사용자 이름을 입력하거나(@둘리), 선택창에서 선택한다.
나) 페이지 멘션하기: 워크스페이스내 다른 페이지를 멘션할 수 있다. 기본 블록의 ‘페이지에 대한 링크’와 유사하게 사용된다.
다) 날짜 또는 리마인더: 특정 날짜와 시간대 알람을 설정할 수 있다.
라) 이모지: 꾸미기에 필요한 다양한 이모지를 삽입한다.
마) 인라인 수학 공식: 텍스트에 수학 기호를 넣어줄 때 사용한다.
4) 미디어 블록
다양한 미디어 포맷을 업로드하거나 링크 임베드가 가능하다. 지원하는 블록은 이미지, 동영상, 오디오, 북마크, 코드, 파일 등 다양하다. 이중 코드는 자바스크립트 등 다양한 코딩 언어를 입력할 수 있는 코드 스니펫을 제공한다. 북마크는 관심있는 웹사이트를 북마크처럼 보여준다.
5) 데이터베이스 블록
노션은 편리한 데이터베이스 기능을 블록 형태로 제공하고 있다. 데이터베이스 블록을 이용은 엑셀의 표만들기 기능과 유사하며, 일정이나 프로젝트 관리 등에서 유용하게 사용되는 기능이다. 총 6가지의 데이터베이스 블록을 제공하며, 각 블록은 필요시 서로 호환될 수 있다. 또한 데이터베이스 위치는 현재 작업중인 페이지(인라인) 혹은 하위 페이지에 선택적으로 추가할 수 있다.
가) 표: 가장 자주 쓰이는 기본 표 형태이다. 표를 만들면 기본적으로 2개의 열과 3개의 줄을 가진 표를 제공하는데, 열과 줄은 ‘+ 새로 만들기’ 버튼을 클릭하여 변경할 수 있다. 또한 표의 첫 줄은 표에 삽입되는 내용의 항목이다. 클릭하여 항목의 이름을 바꾸거나 속성을 변경할 수 있다. 속성은 표에 들어가는 정보(내용)의 포맷을 의미하며, 텍스트, 숫자, 선택, 다중선택, 날짜, 사람, 파일과 미디어, 체크박스, URL, 이메일 전화번호, 그리고 수식, 날짜 등 고급 기능까지 가능하다. 속성값에 따라서 표에서 할 수 있는 기능이 결정된다. 예로 숫자를 속성값으로 선택한 경우 자동 합계 등을 낼 수 있으나 텍스트는 빈도(값세기)는 가능하나 평균은 불가하다. 자동 합계등 집계를 내기 위해서는 표 바로 밑에 회색으로 표시된 ‘계산’을 활성화해주면 된다. 선택과 다중선택을 통하여 입력될 값을 객관식 보기 형태로 설정할 수 있다. 선택은 보기중 하나만, 다중선택은 여러개를 선택할 수 있다. 속성값 활용은 이하 모든 데이터베이스 표에서 동일하게 적용된다.
나) 보드: 생산관리나 업무 상황표 작성에 유용한 카드 형태의 칸반 보드를 제공한다. 어떤 정보가 표시될 지는 속성유형 선택으로 결정한다. 표의 칸 하나하나 각각이 독립적인 카드이며, 원할 시 하위 페이지로 변환 후 변형하여 사용할 수 있다.
다) 갤러리: 사진 이미지 데이터베이스 표 구축에 용이한 형태이다.
라) 리스트: 리스트 형태로 나열된 데이터베이스 표이다.
마) 캘린더: 월간 달력 형태로 일정과 할 일을 보여준다.
바) 타임라인: 프로젝트 관리에 최적화된 형태의 표이다
6) 임베드 블록
노션은 다양한 앱과 웹 서비스들을 임베드할 수 있는 블록을 제공한다. 임베드는 타 외부 서비스를 불러와서 포함시키는 것을 말한다. 노션이 개발되면서 임베드할 수 있는 블록은 계속 증가할 것으로 전망되는데, 현재는 구글 드라이브, 트위트, PDF 파일, 구글 맵, 지트허브(GitHub), 피그마 등 다양한 임베딩을 지원한다. 희망하는 임베드 블록을 선택한 후 제시되는 팝업창에서 계정과 대상을 선택하면 된다.
7) 기타 설정하기
노션 화면의 우측 상단은 공유, 댓글 사이드바, 업데이트 사이드바, 페이지 고정하기 기타 설정 등 노션 설정하기에 필요한 메뉴들을 확인할 수 있다.
가) 공유: 웹에서 게시하고 원하는 사람과 링크를 공유할지 여부를 결정한다. 활성화할 경우 공유가능한 URL 링크가 생성되고 링크를 아는 사람은 누구나 다 접속이 가능하다. 노션을 홈페이지와 다름없이 사용할 수 있게 된다. 또한 편집, 댓글, 템플릿 복제 허용 여부를 결정하고, 내 노션사이트가 포털 서비스의 검색 엔진에 노출되도록 허용할 것인지 여부를 결정한다.
나) 댓글 사이드바: 댓글을 주고받은 이력, 미해결 댓글을 보여준다.
다) 업데이트 사이드바: 소유자의 노션 사이트 변경 이력을 보여준다.
라) 즐겨찾기: 즐겨찾기한 노션 사이트는 화면 좌측 사이드바에 즐겨찾기로 고정된다.
마) 기타 설정: 글씨체 스타일을 기본, 세리프, 모노체 중에서 선택가능하다. 또한 페이지가 팝업되는 모양을 결정하는 페이지 사용자 지정, 페이지 수정을 허락하거나 거부하느 페이지 잠금, Slack 채널 연결하기가 가능하다. 제작된 노션 사이트를 PDF나 HTML 파일 포맷으로 외부 내보내기나 가져오기도 가능하다.