'웹스크래핑' 태그의 글 목록

웹스크래핑

Textom으로하는 웹 스크래핑 Big data 분석 (4) 2022.05.01 977
Textom으로하는 웹 스크래핑 Big data 분석 (2) 2022.05.01 639
Textom으로하는 웹 스크래핑 Big data 분석 (1) 2022.05.01 635

Textom으로하는 웹 스크래핑 Big data 분석 (4)

2022. 5. 1. 21:10

728x90

Textom으로하는 웹 스크래핑 Big data 분석

1. 데이터 분석

정제된 데이터의 분석 결과는 텍스트 마이닝, 매트릭스, 담론 분석, 감성분석, 토픽분석, 시계열 분석의 형태로 분석이 진행된다.

1) 텍스트 마이닝: 형태소 분석이 완료되면, 바로 편집하기/업로드를 통해 단어를 보거나 추가 정제할 수 있다. 웹 상에서 빠르고 쉽게 단어 편집을 하고자 할 경우에는 바로편집하기 기능을, 정제 데이터를 내려 받아 작업을 하고자 할 경우 업로드 기능을 사용한다. 원문 데이터 및 정제 데이터를 각각 엑셀이나 텍스트 포맷 형태로 다운로드한다. 데이터 편집 윈도우 창을 통하여 특정 키워드의 변경도 가능하다. 파일 업로드 기능은 원문 데이터가 아닌 정제 데이터를 다운로드하여 단어 편집을 진행 후 정제가 완료된 데이터를 업로드 한다. 이때 엑셀 파일 형식의 데이터를 txt 파일로 변경(UTF-8로 인코딩)하여 단어편집 후 업로드하며, ‘편집된 데이터가 적용되어 있습니다’라는 텍스트가 뜨면 파일 업로드 기능을 사용할 수 있다.

분석 결과는 단어 빈도, N-gram, TF-IDF, 연결 중심성, 개체명 인식 결과를 바로 실시간으로 분석하여 제공한다. 보여주기는 상위 200개 단어까지만 노출되며, 전체를 보기위해서는 별도로 다운로드를 할 수 있다.

2) 매트릭스: 바로선택하기/업로드를 통해 매트릭스로 생성한 단어를 선정할 수 있다. 1-모드 혹은 2-모드중에 선택이 가능하며, 이후 직접 매트릭스의 열과 행을 결정할 단어를 선택해주어여 한다. 선택한 단언간의 매트릭스 결과를 제시하면, 본 결과는 추후 추가 분석을 위하여 사용된다. 분석 결과는 유클리디언 계수, 코사인 계수, 자카드 계수, 상관계수 등으로 결과 값을 제공한다.

3) 담론 분석: 담론은 문서 내에서 동시에 등장(공출현)하는 단어 사이의 관계를 나타내는 분석으로, 상관관계를 이용하여 단어 간의 관계 패턴에 따라 군집화하는 분석 방법이다. CONCOR(CONvergence of iteration CORealtion)분석이라고 부르며, 문서 내에서 동시에 등장(공출현)하는 단어 사이의 관계를 군집화하는 방법으로, 단어 간 상관관계를 통해 분석 키워드에 얽힌 주제들을 쉽게 파악할 수 있어 시민들의 생각 즉, 여론에 대한 분석(오피니언마이닝) 등이 필요한 상황에서 유용하게 사용할 수 있다.

상관관계 분석을 반복적으로 수행하여 적정한 수준의 유사성 집단을 찾아내는 방법이다. 담론분석의 블록(block)은 구분된 구조적 등위성 집단을 말한다. 노드들의 집합에 해당하는 블록들을 파악하고, 이러한 블록 간의 관계도 파악이 가능한 분석 방식이다. 유사도 계산은 상관관계 계수를 이용하여 분석할 수 있다. 바로 전 단계에서 계산한 매트릭스를 사용하며, 담론 개수, 즉 군집화 개수는 2개, 4개, 8개, 16개 중 선택이 가능하다.

4) 감성 분석: 텍스톰의 감성분석은 크게 두가지 기능이 있다. 첫 번째, 문장의 내용을 긍정/중립/부정 으로 구분할 수 있는 감성 분류 분석이며, 두 번째, 원문데이터 안에 감성과 관련된 키워드가 몇 번 들어갔는지 알려주는 감성 단어 빈도 분석이 있다.

우선, 감성 분류 분석은 베이지안 분류기(Bayes Classifier)를 통해 기계학습 기법의 감성분석 기능을 제공한다. 연구자가 직접 학습데이터를 구성하여 적용함으로써 분석 주제의 제한 없이 모든 분야의 데이터에서 감성분석이 가능하다. 감성 분류 분석을 진행하기 위해서 가장 먼저 이뤄져야 하는 단계는 '학습데이터' 만들기이다. '학습데이터'란 전체 데이터를 분류하기 위한 기준이 되는 데이터로 '학습데이터'를 얼마나 정확하게 만드냐에 따라 분류의 질이 달라질 수 있다. 학습데이터는 최소 100건에서 최대 1,000건의 데이터로 만드는 것을 추천하고 있으며, 긍정/중립/부정의 비율이 비슷할 수록 정확한 결과를 얻을 수 있다.

학습데이터 만드는 방법은 분류를 진행하실 원문데이터 Excel 양식을 다운 받아, 우 100 ~ 1,000건(행) 정도 편집하여 업로드 해주면 된다. A열에는 본문, B열에는 해당 본문에 대한 극성(긍정/중립/부정)을 직접 넣어주면 된다 직접 만든 학습데이터를 업로드하고 적용이 되면 극성별로 분류된 결과를 얻으실 수 있다. 기본적인 분석은 끝났지만, 긍정/중립/부정별로 조금 더 심화된 분석을 진행하고 싶을 경우에는 추가분석 기능을 이용하여, 긍정/중립/부정의 데이터를 다시 한번 분석을 진행하실 수 있다. 추가분석을 진행하여 네트워크 그레프를 그리면, 긍정 문서 중 어떤 키워드가 많이 나왔는지, 긍정적인 영향을 주는 이유는 무엇인지 등 다양한 인사이트를 얻을 수 있다.

또 다른 감성 단어 빈도 분석은 원문데이터 중 감성과 관련된 단어를 찾아서 빈도를 보여주는 기능이다. 감성 단어는 텍스톰에서 자체 제작한 감성어 어휘 사전을 이용하여 단어를 분류한다. 텍스톰에서 자체 제작한 감성어 어휘사전은 긍정/ 부정이라는 카테고리 안에, 긍정의 키워드는 흥미/ 호감/ 기쁨 3개의 단어가, 부정의 키워드에는 통증/ 슬픔/ 분노/ 두려움/ 놀람/ 거부감 6개의 단어가 있다. 다시 기쁨이라는 단어안에는 기쁨을 표현하는 수 많은 단어를 강도에 따라 표준화(감성강도/7점 만점)를 시켜놨다. 예를 들어 호감이라는 단어 안에 "행복하다"와 "그저그렇다" 라는 단어가 있을 경우 "행복하다"라는 단어에는 5점, "그저그렇다"라는 단어에는 1점을 주어 같은 호감안에 들어가는 단어라도 감성 강도를 다르게 사전을 구축하였다.

감성 분류 분석을 진행을 위해 학습데이터를 업로드한 경우에는 감성단어 빈도 분석을 바로 확인하실 수 있다. 하지만 감성 분류 분석을 진행하지 않고, 감성단어 빈도 분석만 진행을 원하실 경우에는 엑셀 양식의 파일 업로드하면 결과를 확인할 수 있다. 감성단어 빈도는 키워드의 빈도뿐 아니라 감성 강도도 함께 보여주기 때문에, 다양한 인사이트를 찾을 수 있다. 예를 들어 '특별하다' 키워드의 경우 빈도는 261건으로, '기대하다' 키워드 234건 보다 높은 빈도를 보여주고 있다. 하지만 감성강도를 보면 '특별하다'는 3.77, '기대하다'는 4.66으로 흥미라는 단어에서는 '기대하다'가 더 높은 강도를 갖는다는 것을 알 수 있다. 빈도*감성정도를 보면 '특별하다'는 986, '기대하다'는 1092로 빈도수는 '기대하다'가 낮지만, 전체 문장에서 '흥미'라는 감정에 더 많은 영향을 주는 키워드는 '기대하다'라는 것을 알 수 있다. 뿐만 아니라 시각화 결과를 통해 전체 데이터 중 어떤 감성강도가 많이 차지했는지를 확인이 가능한 강도 감성분석과, 세부감성 중 어떤 감정이 비율이 높은지 확인이 가능한 세부감정 감성분석 시각화를 제공하고 있다.

5) 토픽 분석: 토픽 분석을 알기 전에 토픽모델의 개념을 알고 있어야 한다. 토픽모델(Topic Model)이란 문서 집합의 "주제"를 발견하기 위한 통계적 모델 중 하나로, 텍스트 본문의 숨겨진 의미구조를 발견하기 위해 사용되는 텍스트 마이닝 기법 중 하나이다. 특정 주제에 관한 문서에는 그 "주제"에 관한 단어가 다른 단어들에 비해 더 자주 등장한다. 예를 들어 '강아지'에 대한 문서에서는 '산책', '개밥' 단어가 더 자주 등장하는 반면, '고양이'에 대한 문서에서는 '야옹', '캣타워' 단어가 더 자주 등장한다. 이렇게 함께 자주 등장하는 단어들은 대게 유사한 의미를 지니게 되는데 이를 잠재적인 "주제"로 정의할 수 있다. 즉 '산책'과 '개밥'을 하나의 주제로 묶고, '야옹'과 '캣타워'를 또다른 주제로 묶는 모형을 만드는 것이 토픽 모델의 개략적인 개념이다. 텍스톰에서는 두 가지 종류의 토픽분석을 제공하고 있다.

첫째, 문서 내 단어들의 공출현 관계를 토대로 벡터화하여 인접 단어를 같은 그룹으로 묶어주는 Word-level Semantic Clustering이다. Word-level Semantic Clustering 분석을 진행하기 위해서는 군집 수(K값)와 군집 안에 들어갈 단어의 수를 선택해야한다. 텍스톰에서 기본 값은 군집 수 10개, 군집별 단어 수 20개를 제공하고 있다. 결과로 나올 군집 수가 사용자가 지정한 것 보다 작을 경우에는 임의로 지정된다.

둘째, 대량의 문서군으로부터 주제(토픽)을 자동으로 찾아내기 위한 알고리즘으로, 유사한 의미를 가진 단어들을 집단화하는 LDA Topic Modeling이다. LDA Topic Modeling을 진행하기 위해서는 토픽 수와 토픽에 들어갈 단어의 수를 결정해야 한다. 기본으로 제공하는 토픽의 수는 10개이며, 단어수는 20개다. 다음으로 랜덤 값을 선택해주시면 된다. LDA모델은 토픽수를 입력 받으면 전체 문서에 토픽을 랜덤으로 할당한 후, 토픽의 재할당을 반복 수행하여 문서와 단어의 토픽을 찾은 알고리즘이다 따라서, 토픽모델링은 무작위 토픽 할당이 이루어지는 것을 전제로 하고 있다. 다만, 이렇게 무작위 할당을 진행할 경우 초기 할당 값에 따라서 학습 대상이 되는 데이터가 달라지므로, 분석 결과의 재현성이 떨어지기 때문에 같은 데이터로 같은 분석을 진행했더라도 결과 값이 달라질 수 있다. 따라서 원칙적으로는 무작위 할당 옵션은 사용하는 것이 권장되나, 분석 결과의 재현성을 확보하고 싶은 경우에는 무작위 할당을 하지 않는 옵션을 사용하실 수 있다.

6) 시계열 분석: 수집단위에서 설정한 기간별로, 선택한 단어의 출현 빈도를 분석할 수 있다. 시계열분석은 수집하기에서 수집단위를 사용하여 수집한 데이터만 분석이 가능하다. 기간의 변동에 따른 데이터의 패턴을 확인할 수 있다.

2. 시각화 보기

분석한 결과는 다양한 시각화 결과물로 분류하여 볼 수 있다. 통계적 결과를 시각화를 통하겨 빠르고 직관적으로 이해할 수 있도록 도와준다. 제공되는 시각화 결과물은 워드클라우드, 바챠트, 에고네트워크, 네트웤, 개체명 인식, LDA, 클러스터링, 매트릭스 챠트, 담론 분석, 문서 감성 분석, 감성단어 분석, 감성단어 워드클라우드이다. 각각의 시각화 결과물은 그림 파일 포맷으로 다운로드하거나 크기, 색상, 포함 단어의 수 등을 화면 우측 창을 통하여 조절 가능하다.

728x90

'높이자! 비즈니스 생산성' 카테고리의 다른 글

Textom으로하는 웹 스크래핑 Big data 분석 (3) (904)	2022.05.01
Textom으로하는 웹 스크래핑 Big data 분석 (2) (639)	2022.05.01
Textom으로하는 웹 스크래핑 Big data 분석 (1) (635)	2022.05.01
Google로 하는 마켓센싱(2 (623)	2022.03.21
Google로 하는 마켓센싱(1) (545)	2022.03.21

Textom으로하는 웹 스크래핑 Big data 분석 (2)

2022. 5. 1. 20:54

728x90

Textom으로하는 웹 스크래핑 Big data 분석 (2)

텍스트 마이닝 기술

빅 데이터 기반 텍스트 분석과 관련된 몇 가지 주요한 소프트웨어와 관련 기술들이 있다. 이러한 기술들은 각각의 분석 및 적용 시나리오별로 공통적으로 적용될 수 있다. 실무에서 자주 사용되는 마이닝 기술과 관련 개념들을 우선 이해한 다음에 분석을 시작할 필요성이 있다.

1) 감성 분석

: 감성 분석은 비정형 텍스트가 전달하거나 내포하고 있는 감정의 식별에 필요하다. 입력 테스트는 다양하다. 제품에 대한 리뷰나 고객의 평점 후기 같은 상호작용 내용, 소셜 미디어의 타임라인, 블로그, 뉴스기사, 지식인 콘텐츠 등 다양하다. 감성 분석은 다양한 유형이 있지만 일반적으로 긍정적 감정 혹은 부정적 감정으로 분류하는 것이 주된 목적이다. 보다 세부적으로 분류 기술이 사용되는데, 분류 기술은 감성 분석을 세분화하여 혼란, 실망, 기대와 같이 호의적 감정과 비호의적 감정을 세부적으로 다시 분류해 준다. 감성 분석의 사용 상황은 특정 제품이나 서비스에 대한 고객의 반응 측정, 기업의 사명, 브랜드에 대한 감성 측정을 통한 브랜드 평가, 소비자 태도의 이해, 고객 불만 요인의 분석, 자사의 강점과 포지셔닝 장단점 분석 등 다양하게 응용되어 사용된다.

2) 토픽 모델링

: 토픽 모델링은 방대한 양의 텍스트로 구성된 빅 데이터에서 언급되는 주요한 주제나 토픽을 발굴하는데 사용된다. 예로, 토픽 모델링은 특정한 장문의 신문 기사에서 핵심 주제가 무엇인지 식별하기 위한 용도로 키워드를 분석하고 주제를 도출해낸다. 토픽 모델링이 사용되는 상황은 바이오 분야의 학술 연구자가 관련 의학 논문 수 백편을 검사하여 어떤 연구주제가 진행되고 있는지 확인할 수 있다. 온라인 미디어를 운영하는 개인은 토픽 모델링을 통하여 최근 인기있는 밈(meme)이나 주제를 확인할 수 있다. 혹은 신제품을 개발하려는 기업은 어떤 고객의 니즈가 부각되고 있는지가 궁금할 수 있다. 이처럼 토픽 모델링은 대규모 텍스트 빅데이터 속에서 의미있는 주제를 찾는 목적으로 주로 사용된다.

3) TF-IDT

: TF-IDT는 특정 키워드가 텍스트 빅데이터 또는 문서에 나타나는 빈도와 문서에 대한 해당 키워드의 상대적 중요도를 결정하는데 사용하다. 중요도를 결정함으로서 의미가 적거나 통찰력을 제공하지 못하는 단어나 다른 키워드, 불필요한 접속사 등을 제거할 수 있다.

4) 이벤트 추출

: 이벤트 추출은 텍스트 빅 데이터에서 언급된 주요한 이벤트를 확인한다. 즉, 기업 대상 콘텐츠의 경우 합병이나 인수, 중요한 회의, 기타 의미있는 이벤트를 선별하여 인식한다. 이벤트 추출에는 텍스트 콘텐츠의 의미에 대하여 연구자의 높은 이해도가 필요하다. 이벤트 추출의 고급 알고리즘은 이벤트 뿐만 아니라 필요한 경우 장소, 참가자, 날짜 및 시간을 인식하려고한다. 고급 분석 기술인 만큼 다양한 분야에서 여러 용도로 사용되는 유익한 기술이다. 이벤트 추출이 적용되는 사례는 링크 분석이다. 소셜 미디어상에서 이루어지는 커뮤니케이션과 상호 작용을 분석하여 어떤 이벤트가 있었는지 확인하고, 이를 통해 누가 언제 어디서 어떤 모임과 만남을 가졌는지 쉽게 파악이 가능하다. 링크 분석은 테러의 예방, 기업 비밀 보호 등 안보 분야에서 유용하게 사용될 수 있다. 그 외 이벤트가 발생한 위치를 추적한 이후 지도력 표시하는 지리공간 분석이 가능하다. 바이오헬스 등 기업에서 활용도는 비즈니스 위험도에 대한 사전 모니터링과 분석이 가능하다. 이벤트 추출 기술을 적용하여 공급망이나 유통망의 파트너의 신뢰성 예측, 도산 등 위험도 예측 등을 할 수 있고 적절한 대응 활동을 선제적으로 진행할 수 있다.

텍스트 마이닝 분석 단계

빅 데이터 기반 텍스트 분석은 비정형의 다양한 데이터를 수집, 정제, 분석하기 위한 일련의 정교한 처리 및 분석 과정이 필요하다. 텍스트 마이닝 분석에 투입되는 주요한 과정을 예시하면 다음과 같다.

1) 데이터 수집 과정

: 텍스트 기반의 데이터는 문서나 웹 콘텐츠 등 다양하다. 우선 문서 형태로는 PDF나 텍스트 포맷으로 변환될 수 있는 거의 모든 자료가 포함된다. 도서, 법령, 기타 고문서 등도 포함된다. 그러나 대부분의 텍스트 빅데이터의 소스는 인터넷이 될 것이다. 인터넷 상에는 신문기사, 블로그, 카페, 소셜 미디어 등 다양한 미디어들이 텍스트 기반으로 구축되어 있다. 내용적으로는 고객과의 채팅, 상담, 이메일, 신제품 리뷰, 인플루언서와 팔로워간 대화 등 내용이 다양하다. 외부 데이터는 존재하지만 모아져있거나 정리되어 있지 않으므로 직접 수집하는 과정이 필요하다. 수집에는 파이손 등 외부 프로그램 자원을 활용한 웹 크롤링(web crawling) 등의 기법이 사용된다. 혹은 팩키지화된 소프트웨어를 활용하여 파이쏜 등 프로그래밍 언어에 대한 숙련도 없이 수집도 가능해지고 있다.

2) 데이터 준비

: 준비된 비정형 데이터를 분석에 투입하기 전에 머신 러닝 알고리즘에서 이를 분석하기 위한 사전 단계가 필요하다. 대부분의 텍스트 분석 소프트웨어에서 데이터 준비 단계는 자동으로 진행된다. 포함되는 데이터 준비 과정은 토큰화, 품사 태깅, 구문 분석, 표제어 및 형태소 분석, 불용어의 제거 과정 등이다.

가) 토큰화 : 텍스트 데이터의 연속 문자열을 전체 단어 또는 구성하는 토큰(token)의 더 작은 단위로 나눈다. 예를 들어 문자 토큰은 ‘낙시’라는 단어의 개별 문자일 수도 있으며, 또는 ‘낙시꾼’과 같은 하위 단어 토큰으로 나누어지기도 한다. 토큰은 모든 자연어 처리(natural language processing, NLP)의 기초 과정이며, 공백 등을 포함하여 텍스트의 원하지 않는 부분의 삭제가 가능하다. 영어와 비교하여 국문은 다양한 조사와 변형된 단어들의 사용이 가능하다. 이런 점은 한국어 자연어 처리의 어려움을 가중시키고 있는 요인중 하나이다.

나) 품사 태깅 : 빅 데이터로 투입된 문서는 다양한 품사들이 포함된 문장이다. 이를 품사 단위로 태깅한다. 데이터의 각 토큰에는 명사, 동사, 형용사, 부사와 같은 문법 범주가 할당된다. 할당된 문법 범주를 데이터에 태그를 붙이는 과정이다.

다) 표제어 추출 및 형태소 분석 : 토큰과 관련된 접미사 및 접미사를 제거하고 사전 형식 또는 보조적 정리를 유지하기 위하여 데이터 분석에 투입되는 프로세스이다.

라) 불용어 처리 : 빈번하게 사용되지만 텍스트 분석에서는 가치가 없는 모든 토큰이 제거되는 단계이다. 영어 문자의 정관사(a, the) 등이 혹은 한국어 문자의 조사(은, 는, 이, 가) 등이 제거된다. 불용처 처리 단계에서는 필요에 따라 특정 불용어를 맞춤하여 제거할 수 있다.

3) 텍스트 분석

: 비정형 텍스트가 데이터 형태로 정제된 이후에는 텍스트 분석 기술을 사용하여 필요한 통찰력을 빅 데이터로부터 획득한다. 사용되는 기술중에 텍스트의 분류와 추출이 많이 활용된다.

가) 텍스트 분류 : 텍스트 태깅(tagging)이라고도 불린다. 이 단계에서는 의미에 따라 특정 태그가 텍스트에 할당된다. 예를 들어, 사용자간의 대화를 분석하는 동안에 ‘호의적’, ‘비판적’ 과 같은 특정 태그자 지정되어 할당된다. 텍스트 분류 과정은 종종 규칙 기반 알고리듬 혹은 머신러닝 기반 시스템을 사용하여 수행된다. 규칙기반 알고리듬에서 인간은 언어 패턴과 태그 간의 연과성을 정의한다. 예로 ‘양호’는 긍정적 리뷰를, ‘나쁜’은 부정적 리뷰를 식별할 수 있다. 머신 러닝 알고리듬을 통하여 텍스트 분류를 하고 새로운 데이터 세트에 태그를 할당할 때, 빅 데이터 세트로 구성된 학습 데이터는 정확한 태깅 결과를 제공하는데 도움이 된다.

나) 텍스트 추출 : 비정형 입력 데이터에서 인식이 가능하고 구조화된 정보를 추출하는 과정이다. 이 정보에는 주요한 키워드, 인명, 장소, 이벤트 등이 포함된다. 텍스트 추출을 위한 간단한 방법중 하나는 정규식을 활용하는 것이다. 이는 입력 데이터의 양과 복잡성이 동시에 증가할 때 유지 관리를 도와주는 복잡한 방법이다.

4) 결과 시각화

: 텍스트 분석 결과를 보다 잘 이해하기 위하여 결과는 데이터 시각화 과정을 통하여 보여줄 수 있다. 그래프, 표, 챠트, 의미연결망 등이 데이터 시각화에 사용된다. 이는 빠른 데이터 이해와 의사결정의 신속성을 도와준다. 특히, 데이터 분석자가 아니라 의사결정자에게 빅 데이터의 의의와 시사점을 한 눈에 보여줄 필요가 있을 때 사용한다. 복잡한 분석 결과를 요약하여 성과를 경영자에게 설득시키기 위한 과정으로서, 화룡정점에 해당하는 절차이다.

728x90

'높이자! 비즈니스 생산성' 카테고리의 다른 글

Textom으로하는 웹 스크래핑 Big data 분석 (4) (977)	2022.05.01
Textom으로하는 웹 스크래핑 Big data 분석 (3) (904)	2022.05.01
Textom으로하는 웹 스크래핑 Big data 분석 (1) (635)	2022.05.01
Google로 하는 마켓센싱(2 (623)	2022.03.21
Google로 하는 마켓센싱(1) (545)	2022.03.21

Textom으로하는 웹 스크래핑 Big data 분석 (1)

2022. 5. 1. 20:52

728x90

Textom으로하는 웹 스크래핑 Big data 분석 (1)

인터넷 시대 텍스트 마이닝의 필요성

빅 데이터 분석중 하나인 텍스트 마이닝 웹 콘텐츠의 일반화에 따라 점점 중요성이 강조되고 있다. 텍스트 분석은 인공지능과 머신 러닝, 통계 및 언어 기술을 결합하여 대량의 비정형 텍스트를 처리하여, 통찰력과 패턴을 분석하고 그 결과를 시각화하여 도출한다. 이를 통하여 바이오헬스 분야의 기업과 스타트업들은 마음대로 사용할 수 있는 방대한 양의 콘텐츠를 다루는 것이 가능해졌고, 의사결정의 효율성을 높일 수 있다. 일 예로, 바이오헬스 기업의 담당자는 지난 코로나 팬데믹 기간 동안에 ‘코로나’와 관련된 모든 신문기사, 블로그, 인터넷 웹 콘텐츠를 수집한 이후, 코로나와 관련된 동향을 분석하여 의사결정에 반영할 수 있다. 또한 텍스트 분석은 단순히 최빈 단어의 빈도 뿐만 아니라 감성 분석, 주제 모델링 등 다양한 세부적 기술을 사용한 분석이 가능하다.

특히 인터넷의 발전과 사용자 증가는 텍스트 마이닝의 필요성을 증가시키고 있다. 오늘날 2021년 기준으로 최소 45억명 이상의 사람들이 인터넷에 접속하고 있으며, 이들중 49%는 소셜 미디어를 동시에 활용하고 있다. 이들의 이런 인터넷과 소셜 미디어 활동의 결과로 블로그, 메시지, 트위터 트윗, 그리고 다양한 신문기사와 지식인 답변 등 거대한 양의 텍스트 데이터가 매일 생산되는 시대에 살고 있다. 또한 인터넷 이용자 간에 나누는 커뮤니티 메시지는 또다른 거대한 텍스트 기반의 데이터베이스로 변화하고 있다. 그러나 이런 막대한 양의 텍스트 데이터는 귀중한 정보적 값어치를 가지고 있음에도 불구하고 구조화되지 않은 채 웹의 여러 곳에 널려있다. 구조화되어 있지 않다는 것은 쉽게 표현하면 제대로 정리, 요약되거나 가공되지 않은채 있으며, 이는 이들 텍스트 데이터가 서로 같은 내용을 반복하여 가지고 있는 데이터의 중복 문제, 중요 키워드 도출의 미진행 등의 문제점을 가지고 있다는 점이다. 만일 이 방대한 양의 텍스트 데이터를 제대로 수집, 정렬하고 구조화하여 분석할 수 있다면 콘텐츠를 통한 정보수집이 가능하다. 바이오헬스 기업은 이런 통찰력을 활용함으로서 수익 창출, 신사업 기회 발굴, 고객 만족도 제고 등 긍정적 효과를 거둘 수 있다. 빅 데이터 기반 텍스트 분석의 이점은 다음과 같다.

1) 신속한 의사결정

: 바이오헬스 기업이 고객과 경쟁사의 동향, 제품과 서비스의 품질과 성과를 객관적으로 이해할 수 있도록 돕는다. 그 결과 신속한 의사결정, 효과적인 비즈니스 인텔리전스 향상, 비용 절감과 생산성 향상이 가능하다.

2) 빠른 정보 요약

: 짧은 시간에 많은 양의 기존 문헌을 탐색하여 마케팅에 필요한 자료를 추출할 수 있다. 누락없는 전수 데이터의 분석을 통하여 균형잡힌 정보 파악이 가능하다.

3) 추세 이해

: 사회 전반의 추세를 이해할 수 있다. 설문조사나 인터뷰가 일부만의 의견이 반영될 수 있으나 텍스트 마이닝은 광범위한 의견 반영이 가능하다.

4) 고객에 대한 이해와 제안

: 고객에 대한 이해를 바탕으로 이들이 원하는 상품을 추천하거나 제안할 수 있다.

728x90

'높이자! 비즈니스 생산성' 카테고리의 다른 글

Textom으로하는 웹 스크래핑 Big data 분석 (3) (904)	2022.05.01
Textom으로하는 웹 스크래핑 Big data 분석 (2) (639)	2022.05.01
Google로 하는 마켓센싱(2 (623)	2022.03.21
Google로 하는 마켓센싱(1) (545)	2022.03.21
1-3. 더 고급지게 노션 활용하기 (445)	2022.03.11

PREV 1 NEXT

EduNow. 디지털마케팅 교육