728x90

Textom으로하는 웹 스크래핑 Big data 분석 (2)

텍스트 마이닝 기술

빅 데이터 기반 텍스트 분석과 관련된 몇 가지 주요한 소프트웨어와 관련 기술들이 있다. 이러한 기술들은 각각의 분석 및 적용 시나리오별로 공통적으로 적용될 수 있다. 실무에서 자주 사용되는 마이닝 기술과 관련 개념들을 우선 이해한 다음에 분석을 시작할 필요성이 있다.

1) 감성 분석

: 감성 분석은 비정형 텍스트가 전달하거나 내포하고 있는 감정의 식별에 필요하다. 입력 테스트는 다양하다. 제품에 대한 리뷰나 고객의 평점 후기 같은 상호작용 내용, 소셜 미디어의 타임라인, 블로그, 뉴스기사, 지식인 콘텐츠 등 다양하다. 감성 분석은 다양한 유형이 있지만 일반적으로 긍정적 감정 혹은 부정적 감정으로 분류하는 것이 주된 목적이다. 보다 세부적으로 분류 기술이 사용되는데, 분류 기술은 감성 분석을 세분화하여 혼란, 실망, 기대와 같이 호의적 감정과 비호의적 감정을 세부적으로 다시 분류해 준다. 감성 분석의 사용 상황은 특정 제품이나 서비스에 대한 고객의 반응 측정, 기업의 사명, 브랜드에 대한 감성 측정을 통한 브랜드 평가, 소비자 태도의 이해, 고객 불만 요인의 분석, 자사의 강점과 포지셔닝 장단점 분석 등 다양하게 응용되어 사용된다.

2) 토픽 모델링

: 토픽 모델링은 방대한 양의 텍스트로 구성된 빅 데이터에서 언급되는 주요한 주제나 토픽을 발굴하는데 사용된다. 예로, 토픽 모델링은 특정한 장문의 신문 기사에서 핵심 주제가 무엇인지 식별하기 위한 용도로 키워드를 분석하고 주제를 도출해낸다. 토픽 모델링이 사용되는 상황은 바이오 분야의 학술 연구자가 관련 의학 논문 수 백편을 검사하여 어떤 연구주제가 진행되고 있는지 확인할 수 있다. 온라인 미디어를 운영하는 개인은 토픽 모델링을 통하여 최근 인기있는 밈(meme)이나 주제를 확인할 수 있다. 혹은 신제품을 개발하려는 기업은 어떤 고객의 니즈가 부각되고 있는지가 궁금할 수 있다. 이처럼 토픽 모델링은 대규모 텍스트 빅데이터 속에서 의미있는 주제를 찾는 목적으로 주로 사용된다.

3) TF-IDT

: TF-IDT는 특정 키워드가 텍스트 빅데이터 또는 문서에 나타나는 빈도와 문서에 대한 해당 키워드의 상대적 중요도를 결정하는데 사용하다. 중요도를 결정함으로서 의미가 적거나 통찰력을 제공하지 못하는 단어나 다른 키워드, 불필요한 접속사 등을 제거할 수 있다.

4) 이벤트 추출

: 이벤트 추출은 텍스트 빅 데이터에서 언급된 주요한 이벤트를 확인한다. , 기업 대상 콘텐츠의 경우 합병이나 인수, 중요한 회의, 기타 의미있는 이벤트를 선별하여 인식한다. 이벤트 추출에는 텍스트 콘텐츠의 의미에 대하여 연구자의 높은 이해도가 필요하다. 이벤트 추출의 고급 알고리즘은 이벤트 뿐만 아니라 필요한 경우 장소, 참가자, 날짜 및 시간을 인식하려고한다. 고급 분석 기술인 만큼 다양한 분야에서 여러 용도로 사용되는 유익한 기술이다. 이벤트 추출이 적용되는 사례는 링크 분석이다. 소셜 미디어상에서 이루어지는 커뮤니케이션과 상호 작용을 분석하여 어떤 이벤트가 있었는지 확인하고, 이를 통해 누가 언제 어디서 어떤 모임과 만남을 가졌는지 쉽게 파악이 가능하다. 링크 분석은 테러의 예방, 기업 비밀 보호 등 안보 분야에서 유용하게 사용될 수 있다. 그 외 이벤트가 발생한 위치를 추적한 이후 지도력 표시하는 지리공간 분석이 가능하다. 바이오헬스 등 기업에서 활용도는 비즈니스 위험도에 대한 사전 모니터링과 분석이 가능하다. 이벤트 추출 기술을 적용하여 공급망이나 유통망의 파트너의 신뢰성 예측, 도산 등 위험도 예측 등을 할 수 있고 적절한 대응 활동을 선제적으로 진행할 수 있다.

텍스트 마이닝 분석 단계

빅 데이터 기반 텍스트 분석은 비정형의 다양한 데이터를 수집, 정제, 분석하기 위한 일련의 정교한 처리 및 분석 과정이 필요하다. 텍스트 마이닝 분석에 투입되는 주요한 과정을 예시하면 다음과 같다.

1) 데이터 수집 과정

: 텍스트 기반의 데이터는 문서나 웹 콘텐츠 등 다양하다. 우선 문서 형태로는 PDF나 텍스트 포맷으로 변환될 수 있는 거의 모든 자료가 포함된다. 도서, 법령, 기타 고문서 등도 포함된다. 그러나 대부분의 텍스트 빅데이터의 소스는 인터넷이 될 것이다. 인터넷 상에는 신문기사, 블로그, 카페, 소셜 미디어 등 다양한 미디어들이 텍스트 기반으로 구축되어 있다. 내용적으로는 고객과의 채팅, 상담, 이메일, 신제품 리뷰, 인플루언서와 팔로워간 대화 등 내용이 다양하다. 외부 데이터는 존재하지만 모아져있거나 정리되어 있지 않으므로 직접 수집하는 과정이 필요하다. 수집에는 파이손 등 외부 프로그램 자원을 활용한 웹 크롤링(web crawling) 등의 기법이 사용된다. 혹은 팩키지화된 소프트웨어를 활용하여 파이쏜 등 프로그래밍 언어에 대한 숙련도 없이 수집도 가능해지고 있다.

2) 데이터 준비

: 준비된 비정형 데이터를 분석에 투입하기 전에 머신 러닝 알고리즘에서 이를 분석하기 위한 사전 단계가 필요하다. 대부분의 텍스트 분석 소프트웨어에서 데이터 준비 단계는 자동으로 진행된다. 포함되는 데이터 준비 과정은 토큰화, 품사 태깅, 구문 분석, 표제어 및 형태소 분석, 불용어의 제거 과정 등이다.

) 토큰화 : 텍스트 데이터의 연속 문자열을 전체 단어 또는 구성하는 토큰(token)의 더 작은 단위로 나눈다. 예를 들어 문자 토큰은 낙시라는 단어의 개별 문자일 수도 있으며, 또는 낙시꾼과 같은 하위 단어 토큰으로 나누어지기도 한다. 토큰은 모든 자연어 처리(natural language processing, NLP)의 기초 과정이며, 공백 등을 포함하여 텍스트의 원하지 않는 부분의 삭제가 가능하다. 영어와 비교하여 국문은 다양한 조사와 변형된 단어들의 사용이 가능하다. 이런 점은 한국어 자연어 처리의 어려움을 가중시키고 있는 요인중 하나이다.

) 품사 태깅 : 빅 데이터로 투입된 문서는 다양한 품사들이 포함된 문장이다. 이를 품사 단위로 태깅한다. 데이터의 각 토큰에는 명사, 동사, 형용사, 부사와 같은 문법 범주가 할당된다. 할당된 문법 범주를 데이터에 태그를 붙이는 과정이다.

) 표제어 추출 및 형태소 분석 : 토큰과 관련된 접미사 및 접미사를 제거하고 사전 형식 또는 보조적 정리를 유지하기 위하여 데이터 분석에 투입되는 프로세스이다.

) 불용어 처리 : 빈번하게 사용되지만 텍스트 분석에서는 가치가 없는 모든 토큰이 제거되는 단계이다. 영어 문자의 정관사(a, the) 등이 혹은 한국어 문자의 조사(, , , ) 등이 제거된다. 불용처 처리 단계에서는 필요에 따라 특정 불용어를 맞춤하여 제거할 수 있다.

3) 텍스트 분석

: 비정형 텍스트가 데이터 형태로 정제된 이후에는 텍스트 분석 기술을 사용하여 필요한 통찰력을 빅 데이터로부터 획득한다. 사용되는 기술중에 텍스트의 분류와 추출이 많이 활용된다.

) 텍스트 분류 : 텍스트 태깅(tagging)이라고도 불린다. 이 단계에서는 의미에 따라 특정 태그가 텍스트에 할당된다. 예를 들어, 사용자간의 대화를 분석하는 동안에 호의적’, ‘비판적과 같은 특정 태그자 지정되어 할당된다. 텍스트 분류 과정은 종종 규칙 기반 알고리듬 혹은 머신러닝 기반 시스템을 사용하여 수행된다. 규칙기반 알고리듬에서 인간은 언어 패턴과 태그 간의 연과성을 정의한다. 예로 양호는 긍정적 리뷰를, ‘나쁜은 부정적 리뷰를 식별할 수 있다. 머신 러닝 알고리듬을 통하여 텍스트 분류를 하고 새로운 데이터 세트에 태그를 할당할 때, 빅 데이터 세트로 구성된 학습 데이터는 정확한 태깅 결과를 제공하는데 도움이 된다.

) 텍스트 추출 : 비정형 입력 데이터에서 인식이 가능하고 구조화된 정보를 추출하는 과정이다. 이 정보에는 주요한 키워드, 인명, 장소, 이벤트 등이 포함된다. 텍스트 추출을 위한 간단한 방법중 하나는 정규식을 활용하는 것이다. 이는 입력 데이터의 양과 복잡성이 동시에 증가할 때 유지 관리를 도와주는 복잡한 방법이다.

4) 결과 시각화

: 텍스트 분석 결과를 보다 잘 이해하기 위하여 결과는 데이터 시각화 과정을 통하여 보여줄 수 있다. 그래프, , 챠트, 의미연결망 등이 데이터 시각화에 사용된다. 이는 빠른 데이터 이해와 의사결정의 신속성을 도와준다. 특히, 데이터 분석자가 아니라 의사결정자에게 빅 데이터의 의의와 시사점을 한 눈에 보여줄 필요가 있을 때 사용한다. 복잡한 분석 결과를 요약하여 성과를 경영자에게 설득시키기 위한 과정으로서, 화룡정점에 해당하는 절차이다.

728x90

+ Recent posts