728x90

Textom으로하는 웹 스크래핑 Big data 분석 (3)

텍스트 분석 도구 텍스톰

텍스톰(Textom)은 텍스트 기반의 빅데이터 수집에서 분석, 시각화까지 일괄된 분석과정을 제공하는 솔루션형 서비스이다. 웹과 소셜 미디어 등 인터넷 자료를 빠르게 수집하여 필요한 데이터 셋을 만들 수 있으며, 혹은 개인이 가지고 있는 문서 자료를 활용한 분석도 가능하다. 분석 단계별로 자동화된 처리 과정을 도입하여 데이터 분석의 알고리듬이나 프로그래밍 능력이 없어도 데이터가 분석되는 과정을 시각적으로 관찰할 수 있고, 실무에 빠르게 적용할 수 있은 분석 결과를 보여준다. 텍스톰은 데이터의 효율적 저장, 관리를 위하여 하둡(Hadoop) 기반의 저장, 관리 분산파일처리 시스템을 적용하고 있다.

수집, 정제, 분석된 데이터의 저장과 관리, 효율적인 실시간 분석을 위하여 데이터 색인 기능을 제공하고 있으며 수집된 데이터를 보관할 수 있다. 특히 단순히 수집 과정의 데이터뿐만 아니라 분석자 개인이 보유한 기타 데이터도 클린싱이 가능하며, 베이지안 분류기를 활용하여 머신 러닝에 의한 한국어 감성 분석이 가능하다. 한국어 클린싱 과정의 애로사항인 조사, 특수문자에 대한 처리가 뛰어나며 지원하는 언어로는 한국어 이외에도 영어, 중국어까지 형태소 분석이 가능하다.

클린싱한 이후에는 분석자의 편의를 고려한 맞춤형 데이터 정제 및 주로 표준적으로 쓰이는 UCINET, NodeXL 등 다양한 분석 프로그램들에서 사용될 수 있는 데이터 포맷을 제공한다. 제공하는 매트릭스 값으로는 유클리디언, 자카드, 코사인 값 등 다양하다. 또한 분석된 값은 에고 네트워크 등 다양한 형태로 시각화한다는 장점이 있다.

텍스톰 시작하기

텍스톰은 웹 기반 서비스를 제공하거나 별도의 프로그램을 다운로드하거나 설치할 필요는 없다. 이용을 위해서는 우선 텍스톰 홈페이지(www.textom.co.kr) 접속과 회원 가입이 필요하다. 텍스트의 서비스 형태는 크게 1) 텍스톰, 2) 텍스톰 에듀, 3) 텍스톰 차이나의 3가지 이며 이중 하나를 선택하여 서비스를 시작한다. 한국어와 영어 등 일반적인 빅 데이터 분석을 위해서는 텍스톰을, 중국어 콘텐츠 분석에는 텍스톰 차이나를, 그리고 대학이나 교육 기관에서 교육용으로 사용할 경우에는 텍스톰 에듀를 사용한다. , 자유롭게 실제적인 데이터 분석이 진행되는 타 서비스들이 유료 모델인 것과 달리 달리 텍스톰 에듀는 이미 기수집된 키워드 데이터를 활용하여 교육 목적으로만 제공하는 무료 서비스이다. 본 설명에서는 다양한 키워드 분석이 가능한 일반 텍스톰 유료 서비스를 활용하여 설명한다. 그 외, 상단의 메뉴를 통하여 사용 매뉴얼을 확보하거나, 텍스톰이 사용된 연구나 분석 보고서 사례 등을 확인할 수 있다.

새로 텍스톰 서비스 이용을 위해서는 회원가입이 이루어져야 한다. 서비스 요금은 분석할 수 있는 데이터 용량과 용량의 이용가능기간의 두가지 조건에 따라 가변적으로 요금이 달라진다. 일괄적으로 요금을 적시하기는 어렵다. 기본 수집단위는 10MB 단위로 구매가 가능하며, 이용기간은 3개월, 6개월, 9개월, 12개월 단위로 사용할 수 있다. 기간 종료 후 남은 데이터는 소멸된다. 본인이 필요한 분석 텍스트의 데이터 용량, 서비스 이용 기간을 고려하여 적절한 요금제를 선택한다. 일반적으로 웹 문서 1건당 예상되는 수집 데이터는 약 3KB 정도이며, 대략 1,000건의 웹 콘텐츠를 수집할 경우 300~400KB1Mb 이하가 소요된다. 학생과 연구자에 대한 할인율이 별도 적용된다. 서비스 제공은 기본적으로 유료 서비스이나, 최초 가입자에게는 약간의 무료 데이터 용량을 제공하며, 이후 모두 데이터 용량이 모두 소진된 이후에 추가 결제를 할 수 있다. 따라서 우선 체험용으로 제공되는 10Mb 정도의 무료 용량을 가지고 직접 실습해 본 이후에 추가로 분석 요구가 생기면 용량을 구매하도록 하자. 혹은 데이터 수집을 진행하면서 용량을 먼저 확인하고 다음 단계인 분석 단계에서 결제를 하는 방법도 가능하며, 미리 요금을 계산해볼 수 있는 요금 시뮬레이터도 제공하고 있다.

텍스트 분석 단계

텍스톰의 분석 단계는 크게 1) 데이터 수집, 2) 데이터 전처리, 3) 데이터 분석, 4) 시각화의 4 단계를 거친다. 일반적인 코딩이나 프로그래밍을 통하여 진행할 경우 매우 복잡하고 시간이 소요되는 과정이지만, 텍스톰에서는 단지 클릭만으로 이 모든 과정을 진행할 수 있다. 또한, 진행 순서별로 단계가 이동되기 때문에 단계 진행에 따른 암기나 고민은 크게 필요하지는 않다. 진행단계는 웹 화면의 좌측에서 항상 확인할 수 있다.

1. 데이터 수집 단계

텍스톰의 데이터는 네이버, 다음, 구글 등 검색 포탈 혹은 유튜브, 트위터 등 소셜 미디어에서 텍스트 자료를 수집할 수 있다. 텍스톰에서 수집 가능한 데이터는 그 이외에 다양한 뉴스 사이트, 연구자 개인이 보유한 개인 보유 데이터 등에서 자료 수집이 가능하며, 맞춤형 요청 채널에 대한 분석이 가능하다. 데이터 수집은 웹 크롤링 기법을 기반으로 자동적으로 진행된다.

1) 포털/SNS 데이터 수집

: 데이터 수집은 키워드를 입력하는 방식으로 수집되며, 키워드 미리보기 기능을 통하여 수집할 키워드의 검색 추이나 연관 키워드에 대한 정보를 제공한다. 해당 미리보기 기능은 네이버 채널을 기준으로 적용 되며 생략되어도 무방하다. 검색하는 키워드 미리보기를 확인한 이후에는 수집할 키워드를 일벽하여야 한다. 하나의 키워드를 이용하여 수집할 수도 있고 키워드 추가를 통하여 동일한 수집 조건을 저용하여 여러개의 수집리스트를 한번에 생성할 수도 있다. 복수의 키워드를 이용하여 빠르게 수집할 경우에 용이하며 연산자를 통한 키워드 검색도 가능하다. 그리고 데이터 수집의 기간 설정이 필요하다. 자주 적용하는 기간인 1개월, 3개월, 1년중 하나를 버튼 형식으로 선택할 수도 있고, 연월일을 직접 입력하는 방식으로 특정 기간을 선택할 수도 잇다. 수집 단위를 선택할 경우 일, , , 년 단위로 선택이 가능하다. 수집 단위는 해당 단위별로 수집리스트를 별도 생성한다. 예로 각 단위별 최대 1,000건의 수집이 가능하며, 예 로 7개월 단위 수집시 각 개월별 1,000건씩 문서로 구성된 수집 리스트가 7개가 생성되어 총 7,000건이 수집된다. 사용 안함의 경우 최대 1,000건의 문서가 수집된다. 수집할 수 있는 문서의 종류는 아래와 같다.

포털과 SNS의 데이터 수집은 현재 네이버, 다음, 구글, 바이두, 유튜브, 트위터에서 가능하다. 네어버는 블로그, 뉴스, 카페, 지식IN, 학술정보, 웹문서의 제목, 본문, URL 주소를 수집한다. 다음은 블로그, 뉴스, 카페, 웹문서를 수집하며, 구글은 뉴스, 웹문서를 수집한다. 중국의 포탈 서비스는 바이두는 콘텐츠의 제목, 본문 URL 수집이 가능하다. 페이스북, 유튜브, 트위터의 자료도 제목, 본문, URL 수집이 가능하다. 또한 KBS 등 방송, 조선일보 등 신문 등 국내 주요 언론사 20여 곳으로부터 문서 수집이 가능하다. 수집하는 정보는 제목, 본문, 날짜, URL 주소이다. 다만 뉴스 채널에서는 채널 단위를 사용할 수 없다. 그 외 추가로, 자신이 직접 보유한 문서 데이터를 투입할 수 있다. 입력 가능한 문서 포맷은 txt, pdf, 엑셀(xls, xlsx)이며, 문서 데이터의 특정 시트나 칼럼을 지정하여 입력할 수 있다.

2. 데이터 전처리 단계

  향후의 데이터 전처리와 데이터 분석, 시각화 과정의 예시를 위하여 데이터 수집을 시작하였다. 데이터 수집의 키워드는 충북 바이오 산업이며, 수집 기간은 202211일부터 2022224일까지 약 2개월로 설정하였다. 수집 채널로는 네이버와 다음 포탈의 콘텐츠 중에서 뉴스부터로만 정보를 수집하고자 하였다. 이런 조건을 모두 설정한 이후의 화면 하단의 수집 리스트 생성을 클릭하면 데이터 수집이 자동적으로 진행된다. 해당 키워드로 데이터 수집시 약간의 시간이 소요되는데, 소요 시간은 분석 대기순위에 따라 결정된다. 많은 분석 요구가 서버에 몰려 있으면 더 긴 시간이 소요될 수 있다. 양이 많은 경우에는 심야 시간에 분석을 시켜놓는 것을 추천하며, 이 단계에서는 로그아웃하거나 PC를 종료하여도 관계없이 분석된다. 수집 완료된 리스트는 30일간 보관 후 삭제된다. 수집 후 30일 이내는 분석까지 이루어지거나 별도로 수집 결과물을 저장하여야 한다. 또한 데이터 수집만으로는 비용이 차감되지 않는 점도 유의하자. 수집이 완료된 이후에는 수집 리스트를 직접 선택한 후에, 화면 상단의 정제/형태소 분석버튼을 클릭하여 다음 단계로 넘어간다.

 데이터 수집이 완료된 이후에는 수집된 데이터에 관한 추가 정보가 생성된다. 구체적으로는 데이터 수집 소스와 소스별 수집된 데이터 용량이 표시된다. 이후 단계로 수집된 데이터는 반드시 정제 및 형태소 분석이 이루어져야 한다. 정제 및 형태소 분석에 투입할 데이터를 선택한 후 진행한다.
 

3. 정제/형태소 분석

  정제/형태소 분석은 수집된 빅 데이터를 분석 단위로 정제하기 위하여 필수적인 과정이다. 정제/형태소 분석 단계에서 지정이 필요한 옵션들은 다양하다.

1) 정제 방법: 정제/형태소 분석을 클릭하면 가장 먼저 선택하는 것은 정제방법이다. 정베장법에는 3가지 선택유형이 있다.

 . 직접선택 : 이용자가 원하는 정제/형태소 분석 옵션을 선택하여 세밀한 정제가 가능하다

. 자동정제: 텍스톰에서 기본적으로 제공하는 옵션으로 쉽고 빠르게 데이터 정제가 가능하다

. 선택안함: 이미 정제 완료된 데이터를 분석하고자 할 때 사용하는 기능으로, 별도의 정제/형태소 분석 없이 결과를 보여준다.

2) 분리 정제 : 제목과 본문을 분리하거나 통합하여 분석할지 여부를 결정한다. 수집된 원문 데이터는 채널별로 차이가 있기는 하지만, 문서의 제목과 본문 텍스트, URL을 공통적으로 수집한다. '분리정제'에서는 이렇게 수집된 문서 내용을 본문만 정제할 것인지, 전체를 정제할 것인지 선택할 수 있다.

3) 키워드 필터링: 키워드필터링은 특정 키워드가 포함된 문서를 제거하나거나 추출하는 기능이다. 예를 들어 '텍스톰'을 키워드로 데이터 수집을 했는데, 텍스톰에 관련없는 다른 빅데이터 분석 프로그램에 대한 정보가 많이 나와, 내가 중요하게 보고자 하는 텍스톰 키워드가 밑으로 밀려있다면, 키워드 필터링을 '사용'으로 설정하고 '추출'을 선택 후 '텍스톰'을 입력하면 해당 키워드가 포함된 문서만 걸러낸다. '제거'는 반대의 개념으로 제거를 선택 후, 키워드 입력란에 '소비자'를 입력하면 주요키워드로 추출된 문서에서 '소비자'가 포함된 문서는 모두 삭제된다.

4) 중복 제거: 수집 데이터에서 중복되는 문서를 제거합니다. 중복제거의 기준은 URL 또는 내용으로 설정할 수 있다.. 'URL기반'로 선택할 경우 수집된 데이터에서 동일한 URL1건 이상 발견되는 경우에 1건을 제외하고 나머지 문서는 삭제한다. '내용 기반'으로 설정하면 문서의 내용이 완전히(100%) 일치한 문서가 1건 이상인 경우 1건을 제외하고 나머지 문서는 삭제한다. 최근 신문 기사 등은 로봇 저널리즘의 영향으로 동일한 기사가 반복되는 경우가 많다. 이런 경우 내용 기반으로 제거할 수 있다.

5) 윈도우 사이즈: 특정 키워드의 앞뒤로 정제할 단어의 개수를 지정합니다. 예를 들어, 키워드를 '텍스톰'로 입력하고 사이즈를 '3'으로 지정할 경우, 수집문서에서 '텍스톰'을 기준으로 앞, 3개까지의 품사를 정제한. 정제/형태소 분석에서 선택한 품사(명사, 형용사, 동사, 외국어, 숫자)를 정제하며, 기준이 되는 키워드 간의 거리가 가까워서 윈도우 사이즈에 해당되는 단어가 겹치게 되면, 겹치는 그대로 중복 카운트하여 결과 값에 반영된다.

 
 

3. 형태소 분석기

  정제/형태소 분석 단계에서 추가로 분석 언어와 형태소 분석기를 선택하여야 한다. 분석 대상 언어는 한국어, 영어, 중국어 중에서 선택이 가능하다, 형태소 분석기는 창원대에서 개발한 'Espresso K' 혹은 이에 더해 일본어 형태소 분석 엔진을 가지고 한국어 형태소 분석을 하기 위해 만들어진 소프트웨어인 'Mecab-ko' 가운데 적합한 것을 선택할 수 있다.

 

두 형태소는 차이가 있다. 우선 에스프레소 케이는 원문에서 띄어쓰기가 되지 않은 '국제간사국', '국제표준화기구', '웨어러블', '세계시장'. '미래성장동력'이라는 단어는 붙어진 채로 나온다. 따라서 고유명사, 복합명사에 대해서는 좋은 결과 값을 보여준다. 하지만, 띄어쓰기가 잘 되어있지 않은 문서를 분석하거나, 감성분석과 같이 일반적인 단어들로 분석을 하기에는 적합하지 않다. 반면에 Mecab-ko는 일본어 오픈소스 형태소 분석엔진인 MeCab을 사용하여, 한국어 형태소 분석을 하기 위한 소프트웨어이다. 말뭉치 학습과 사전목록 일부는 21세기 세종계획의 성과물을 사용하였다. Mecab의 경우 원문의 띄어쓰기에 크게 의존하지 않고, 사전을 참조하여 어휘를 구분한다. 따라서 국제표준화가 국제’, ‘표준화, ‘미래성장동력미래’, ‘성장’, ‘동력으로 떨어져 나타난다. 띄어쓰기에 크게 의존하지 않고 안정적인 결과 값을 보여주지만, 단체명이나 복합명사에 대해서는 분석 이후 떨어진 단어들을 합쳐 줄 필요가 있다. 또한 사용자가 반복 분석할 경우 자신만의 사용자 사전을 만들어서 빠르게 분석하는 것도 가능하다.

 
728x90

+ Recent posts