728x90

#06-2. 검색 어뷰징과 검색엔진 로직

■ 검색 엔진과 어뷰징

사이트나 콘텐츠들은 검색 엔진으로부터 좋은 평가를 받고, 높은 순위로 소개되는 것이 필요하다. 포탈이 운영하는 검색 엔진이 어떤 방식으로 콘텐츠를 검색하고, 검색 결과에 순위를 부여하는 방식을 파악하것은 검색엔진 최적화를 이해하기 위하여 매우 요긴한 정보이다. 지피지기가 필요한 부분이다. 그러나, 검색엔진의 작동 방식을 상세하게 공개하는 것은 각 포탈 업체들이 보유한 핵심적 기술의 유출이기도 하고, 또한 사이트들이 편법으로 손쉽게 검색 순위를 올릴  수 있는 우려가 있기 때문에 이를 공개하는 포탈 서비스 기업은 거의 없다. 수익의 대부분을 광고 수입에 의존하는 검색 엔진의 특성상 진성 사용자가 몰리는 고품질의 콘텐츠를 확인하고 광고를 게시하여야 하기 때문에 이들은 지속적으로 검색 방식을 개선하면서 큰 변화를 주고 있다. 

특히 과거에는 다소 허술하였던 검색 엔진의 알고리즘 때문에 단순히 해당 사이트의 트래픽을 증가시키는 양적인 노력만으로도 상위 노출이 가능하였던 시절이 있었다. 매크로 프로그램을 돌려서 기계적으로 트래픽을 증가시키거나, IP 주소가 수시로 변동되는 다수의 단말기와 스마트폰을 이용하여 허위 트래픽을 증대시키는 것이 효과적 전략으로 여겨지던 시절도 있었다. 인건비가 저렴한 국가에 설치한 클릭 농장(click farm)이라고 불리는 불법적인 시설들을 통하여 소셜 미디어의 댓글이나 평점을 조작하는 것이 손쉬웠던 시기도 있었다. 이런 기만적 기법들은 개인 정보 유출과 같은 과거의 해킹 범죄들과 다르게 기업의 광고비를 불법적으로 찬탈하는 것이 주요 목적이므로 보통 광고 해킹이라고도 불린다.  아무런 실제 광고 효과도 없는 광고 효과에 적지 않은 예산을 낭비하게 만드는 광고 해킹은 퍼포먼스 마케팅의 큰 위협중 하나였다. 

 

<클릭 농장>

 

이런 광고 해킹의 주요 수법들은 클릭 농장(click farm), 클릭 밀어넣기(click injection), 클릭 스패밍(click spamming), SDK 스푸핑(SDK spoofing)으로 진화되어 왔다. 클릭 농장은 값싼 노동력 혹은 지능화된 봇(bot)을 활용하여 '좋아요'나 앱 설치 수 등을 조작하는 가장 오래된 방식이며, 클릭 밀어놓기는 누군가 앱을 인스톨할 때 '가짜 클릭'을 밀어넣어서 마치 자신이 수행한 마케팅 성과인 것처럼 속여 타인이 받아야할 정당한 광고비를 가로채는 기법이다. 클릭 스패밍은 대규모로 '가짜 클릭'을 진짜로 발생한 클릭인 것처럼 위장하여 광고비를 청구하며, 가장 진보된 광고 해킹의 하나인 SDK 스푸핑은 광고주의 소프트웨어 개발 도구인 SDK(s/w development kit)를 직접 공격하여 허위인 가입회원, 로그인 기록, 가공의 구매 기록 등을 조작하는 기법이다.

 

<유통되는 트래픽 증가기>

 

 

■ 실시간 검색 마케팅의 악용

어뷰징이나 광고 해킹에 대한 원천적인 봉쇄가 강력해지자 최근에는 그 대안으로 ‘실검(실시간) 마케팅’이라는 변칙적 기법이 등장하기도 하였다. 이 기법은 순전히 광고를 목적으로 한 ‘광고용 퀴즈’를 제출하는 방식을 이용한다. 검색 엔진에서 실시간 검색 순위의 상위에 노출 시키기 위하여 기업들이 현금이나 포인트 등 환금성이 강한 이벤트성 선물을 걸고 광고용 퀴즈를 만들어 이용자들의 자발적인 검색을 유도하는 것이다. 보통 광고용 퀴즈는 실검 상위 랭크를 원하는 기업이 홍보성 퀴즈를 대행해 줄 마케팅 광고대행사에게 의뢰하는 형태로 진행된다. 캐시슬라이드(site.cashslide.co.kr), OK캐쉬백(www.okcashbag.com) 등 퀴즈 진행에 특화된 퀴즈 전문 대행사들도 존재한다. 금액은 계약 조건에 따라 달라질 수 있으나 평균적으로 건당 4,000만원 ~ 5,000만원 정도의 진행 비용이 지급되며, 대행사는 이 비용을 퀴즈 정답자에게 줄 선물의 구매 비용과 행사 대행비로 사용한다.

 

<실검 마케팅과 실검 순위>

 

보통 퀴즈 문제는 ‘우리 집 강아지 사료는 퓨OOO’, ‘여름 커피 신 메뉴, OOOO치노’처럼 빈칸 채우기 형태 혹은 ‘쇼핑몰의 이름은 ㅅㅅㄱ’의 초성 퀴즈 형태로 제시되어 손쉽게 인터넷 검색을 유도할 수 있다. 그 결과 일단 퀴즈 행사가 진행되면 이용자들은 정답을 찾기 위하여 자연스럽게 네이버, 다음 등에서 검색을 하게된다. 이용자들은 검색엔진에서 홍보용 퀴즈 관련 검색어를 단 시간내에 집중적으로 입력하기 시작하고, 사전에 확보된 일부 언론사가 광고성 기사까지 동시에 작성하면서 입력한 검색어가 각 검색 엔진의 실검판을 장악하여 광고 효과를 극대화하는 방식으로 진행된다. 검색 유도 후 실검판 상위에 검색어가 올라오면 해당 퀴즈나 상품에 관심이 없던 사람들도 호기심에 클릭을 하기 시작하고 홍보 효과는 배가 된다. 이런 과정을 통하여 검색어는 짧게는 몇 시간, 길게는 하루 정도까지 실검판을 장악하게 된다. 특히 이 방식은 광고비 투자 대비 효율성이 높으며, 이용자들이 자발적 의사로 진행되기 때문에 불법적인 행위에 대한 제재로부터도 어느 정도 자유로울 수 있다. 그러나 검색 순위의 의의에 진정성이 없을 수 있고, 특정 상품이나 브랜드의 인기를 조작하여 대중을 호도할 수 있다는 점에서 검색 엔진의 허점을 이용한 마케팅의 일환이라고 할 수 있다.

 

<실검 마케팅 원리>

 

■ 검색 엔진 알고리즘의 이해

그러나 이제 이런 방식의 광고 부정행위나 편법적 접근은 많은 규제를 받고 있으며, 특히 클릭 농장과 같은 단순한 트래픽 조회 수 올리기는 더 이상 유효하지 않다. 검색 엔진들이 더욱 정교하고 까다로운 방식으로 광고를 집행하게 되었으며 단순 트래픽 작업으로는 검색 상위에 올라가거나 소위 '최적화 블로그'가 되는 것이 매우 어려운 일이 되고 있다. 

그러나, 결과적으로 어뷰징에 대한 검색 엔진들의 대응 노력은 광고주나 광고사들이 검색 엔진의 알고리즘을 이해하고 광고 전략을 수립하는 데 큰 어려움으로 작용한다. 검색 엔진 상위 랭크의 비밀은 단편적으로만 알려져 있으며, 장기간 검색 엔진을 대상으로 프로그래밍을 진행하였던 전문가들이 상위 랭킹에 필요한 검색 알고리즘을 추측하여 대응하고 있을 뿐이다. 본 장에서는 국내 대표적 포탈이자 검색 엔진 서비스인 네이버(www.naver.com)와 네이버가 배포한 콘텐츠 가이드를 중심으로 검색 알고리즘이 어떻게 운영되는지 알려진 정보를 정리하여 제시하고자 한다.

1) 리브라(Libra) 검색 로직

2012년말 부터 운영되고 있으며(https://blog.naver.com/naver_diary/150153092435), 믿을 수 있는 출처에서 좋은 정보가 나온다는 믿음을 전제로 한다. 사용자의 검색 결과를 바탕으로 검색 만족도가 높았던 문서와 그렇치 못하였던 문서들의 특징을 찾아낸 후, 이를 유형화하여 만들어낸 로직이다. 리브라 기준의 좋은 콘텐츠란 신뢰할 수 있는 정보, 본인이 직접 경험하여 작성한 사용 후기, 타 콘텐츠에 대한 복사나 짜깁기가 아닌 콘텐츠, 해당 주제에 도움이 될 만한 충분한 길이와 정보의 분석 내용, 쉽고 이해하기 쉬운 콘텐츠, 그리고 공공연하게 네이버 랭킹 로직을 고려하여 작성되지 않은 콘텐츠(예: 특정 정보를 유통하기 위한 목적만으로 기계적으로 생성된 내용)를 의미하였다. 결과적으로 리브라 로직은 장기간 건실하게 운영된 사이트가 좋은 평가를 받는 기준이다.

또한 숨겨놓은 키워드(폰트 사이즈를 0으로 하거나 배경과 유사한 글자색을 사용하여 특정 키워드를 은폐한 경우), 클록킹(검색 엔진에서 인식되는 내용과 실제 내용이 다른 경우), 강제 리다이렉트(위젯이나 스크립트를 이용하여 질의와 상관없는 목적 사이트로 사용자를 강제 이동시키는 사이트), 낚시성 글(검색 의도와 상관없는 내용을 검색 결과에 노출시키기 위하여 의도적으로 특정 키워드를 포함한 글), 도배성 글(동일한 내용을 여러 블로그에 걸쳐 중복 생성), 조작행위(여러 ID를 사용하여 댓글 작성), 키워드 반복(검색 상위 노출만을 위하여 의도적으로 불필요하게 키워드를 반복), 신뢰성 부족(거짓 상품 경험담) 등을 스팸/어뷰징 콘텐츠로 분류하여 패널티를 줌으로서 부정과 속임수를 줄이는데 주력하였다.

2) 소나(Sonar) 로직

기존의 리브라 검색 로직을 개선한 것으로 2013년부터 운영되고 있다. 이는 기존의 리브라 검색 로직의 기본 원칙을 유지하면서 타인의 글에 대한 불펌(불법으로 퍼옴)이나 불법 복제에 대한 단속을 강화한 로직이다. 당시 많은 콘텐츠들이 타인의 글을 불법으로 복제해와서 자신의 워터마크를 삽입하는 형태로 가장하였고, 이런 불펌 글들이 원글보다 더 상위에 랭크되는 결과가 빈번하였다. 이에 이런 불법, 불펌 글에 대항하기 위하여 여러 문서 간의 인용 관계를 파악하고 중요도를 분석해 내는 방식을 도입하였고, 유사 문서로 판단될 경우에 대한 제재가 강화되었다. '원본반영 신청센터'를 설치하여 원본 창작자들의 당연한 권리를 보호하는 조치를 취하였으며, 기존에 사용하던 유사문서판독 시스템을 보강하여 '소나(Sonar: source navigation and retrieval)'라는 알고리즘 로직을 추가하여 통합 검색의 최상단에는 원본 문서만이 노출되도록 서비스를 제공하였다.

3) 씨랭크(C-Rank) 로직

2017년부터  본격적으로 운영되고 있는 대표적인 로직이며, 콘텐츠의 인기도, 전문가 점수, 타 유저와의 소통 점수를 포괄적으로 반영하고 있다. 인기도란 해당 글의 노출빈도와 검색 노출의 빈도를 말하며, 이는 과거 리브라나 소나 로직에서 사용되었던 방식이다. 양적인 트래픽 지표라는 점에서 과거의 잔재이기는 하나 여전히 검색 엔진에서 노출 빈도의 중요성을 간과할 수 없음을 보여준다. 전문가 점수는 하나의 주제를 중심으로 얼마나 오랫동안 글을 써왔는지, 즉 특정 주제에의 전문성을 평가한다. 전문성이 높을 수록 더 큰 점수를 주며 기존의 신뢰도가 높은 블로그에 더 높은 점수를 제공하기 때문에 일관성 있는 주제와 키워드로 작성된 사이트들이 더 높은 점수를 받는 방식으로 변경된 것이다. 소통 점수는 페이스북, 트위터, 인스타 등 다양한 소셜 미디어이 방식을 차용하여 좋아요가 많거나 댓글이 많이 달린 콘텐츠를 우수 콘텐츠로 판단하는 것이다. 결과적으로 씨랭크가 도입됨으로서 짧고 무의미한 게시 글을 양산하는 것보다는 단 하나의 글이라도 전문적이며 정성스러운 게시 글이 더 좋은 평가를 받는 것이 당연하게 되었다.

4) 다이아(D.I.A) 로직

2018년부터 추가되어 운영되고 있는 다이어(D.I.A: deep intent analysis) 로직은 최근의 인공지능(A.I)과 기계 학습 기법을 검색 엔진에 적극 도입하였다. 인공지능이 콘텐츠가 담고 있는 내용을 분석해서 그 글이 어떤 정보, 경험, 의견을 담고 있는지 이해하고 판단한다. 과거 씨랭크(C-Rank)만이 적용되던 시기에는 질적으로는 다소 부족한 콘텐츠라도 네이버 블로그 지수가 높거나 타인의 씨랭크 블로그에서 링크를 걸어주면 순위권 내에 포스팅이 될 수 있었는데, 다이아 로직이 도입된 이후에는 콘텐츠의 질적 품질을 검색 순위에 반영할 수 있게 되었다고 한다. 콘텐츠의 질이 매우 우수하고, 독창적인 경우라면 블로그 지수가 낮은 신규 콘텐츠도 보다 쉽게 검색 상위권에 진입할 수 있는 길을 열어 놓은 것으로 이해된다.

 

<네이버 다이아 로직 설명회>

 

현재는 리브라, 소나, 씨랭크, 그리고 다이아 등 과거와 현재 사용되었던 검색 로직들이 혼용되고 있으나 점차 개선된 로직으로 통합될 것으로 전망된다. 이상의 로직들의 변천사를 살펴보면 한 가지 공통되고 주요한 변화 흐름을 볼 수 있는데 다이아 로직으로 부분적으로 보완이 되었음에도 불구하고, 새로 콘텐츠 영역에 진입한 초보자보다는 초기에 진입한 기 시장진입자에게 결과적으로 더 유리하다는 점이다. 하나의 주제를 가지고 얼마나 오랫동안 콘텐츠를 생산하여 왔는가는 결국 시간의 변수이며, 후발주자에게는 불리하게 작용할 수 밖에 없다. 결과적으로 네이버에서 초보자가 빠르게 검색 엔진의 상위를 차지하는 것은 다이아 로직의 등장에도 불구하고 결코 쉬운 일이 아니다. 검색 엔진이 지향하는 기본적인 알고리즘을 잘 분석하고 파악함으로서 콘텐츠 경쟁력을 높이는 방법에 대한 접근이 가능할 것이다. 네이버의 매년 업데이트되는 검색 로직을 확인하기 위해서는 검색 로직의 변경이나 예정 사항을 실시간으로 제공하는 공식 블로그(blog.naver.com/naver_search)를 상시 방문하여 변화 트랜드에 익숙해져야 한다.

: 청주대학교 이 원준 (meetme77@naver.com)

728x90

+ Recent posts