728x90

Textom으로하는 웹 스크래핑 Big data 분석 (1)

인터넷 시대 텍스트 마이닝의 필요성

  빅 데이터 분석중 하나인 텍스트 마이닝 웹 콘텐츠의 일반화에 따라 점점 중요성이 강조되고 있다. 텍스트 분석은 인공지능과 머신 러닝, 통계 및 언어 기술을 결합하여 대량의 비정형 텍스트를 처리하여, 통찰력과 패턴을 분석하고 그 결과를 시각화하여 도출한다. 이를 통하여 바이오헬스 분야의 기업과 스타트업들은 마음대로 사용할 수 있는 방대한 양의 콘텐츠를 다루는 것이 가능해졌고, 의사결정의 효율성을 높일 수 있다. 일 예로, 바이오헬스 기업의 담당자는 지난 코로나 팬데믹 기간 동안에 코로나와 관련된 모든 신문기사, 블로그, 인터넷 웹 콘텐츠를 수집한 이후, 코로나와 관련된 동향을 분석하여 의사결정에 반영할 수 있다. 또한 텍스트 분석은 단순히 최빈 단어의 빈도 뿐만 아니라 감성 분석, 주제 모델링 등 다양한 세부적 기술을 사용한 분석이 가능하다.

특히 인터넷의 발전과 사용자 증가는 텍스트 마이닝의 필요성을 증가시키고 있다. 오늘날 2021년 기준으로 최소 45억명 이상의 사람들이 인터넷에 접속하고 있으며, 이들중 49%는 소셜 미디어를 동시에 활용하고 있다. 이들의 이런 인터넷과 소셜 미디어 활동의 결과로 블로그, 메시지, 트위터 트윗, 그리고 다양한 신문기사와 지식인 답변 등 거대한 양의 텍스트 데이터가 매일 생산되는 시대에 살고 있다. 또한 인터넷 이용자 간에 나누는 커뮤니티 메시지는 또다른 거대한 텍스트 기반의 데이터베이스로 변화하고 있다. 그러나 이런 막대한 양의 텍스트 데이터는 귀중한 정보적 값어치를 가지고 있음에도 불구하고 구조화되지 않은 채 웹의 여러 곳에 널려있다. 구조화되어 있지 않다는 것은 쉽게 표현하면 제대로 정리, 요약되거나 가공되지 않은채 있으며, 이는 이들 텍스트 데이터가 서로 같은 내용을 반복하여 가지고 있는 데이터의 중복 문제, 중요 키워드 도출의 미진행 등의 문제점을 가지고 있다는 점이다. 만일 이 방대한 양의 텍스트 데이터를 제대로 수집, 정렬하고 구조화하여 분석할 수 있다면 콘텐츠를 통한 정보수집이 가능하다. 바이오헬스 기업은 이런 통찰력을 활용함으로서 수익 창출, 신사업 기회 발굴, 고객 만족도 제고 등 긍정적 효과를 거둘 수 있다. 빅 데이터 기반 텍스트 분석의 이점은 다음과 같다.

1) 신속한 의사결정

: 바이오헬스 기업이 고객과 경쟁사의 동향, 제품과 서비스의 품질과 성과를 객관적으로 이해할 수 있도록 돕는다. 그 결과 신속한 의사결정, 효과적인 비즈니스 인텔리전스 향상, 비용 절감과 생산성 향상이 가능하다.

2) 빠른 정보 요약

: 짧은 시간에 많은 양의 기존 문헌을 탐색하여 마케팅에 필요한 자료를 추출할 수 있다. 누락없는 전수 데이터의 분석을 통하여 균형잡힌 정보 파악이 가능하다.

3) 추세 이해

: 사회 전반의 추세를 이해할 수 있다. 설문조사나 인터뷰가 일부만의 의견이 반영될 수 있으나 텍스트 마이닝은 광범위한 의견 반영이 가능하다.

4) 고객에 대한 이해와 제안

: 고객에 대한 이해를 바탕으로 이들이 원하는 상품을 추천하거나 제안할 수 있다.

 
728x90

+ Recent posts