MARKETING/SEO

네이버의 검색엔진의 특징과 알고리즘

idLAB 2020. 12. 29. 18:38

네이버 검색엔진의 특징

네이버는 구글(Google)이나 빙(Bing), 야후(Yahoo) 등과 같은 해외 검색엔진과 다르게 독특한 검색엔진 알고리즘을 가지고 있다. 네이버와 다른 검색엔진(ex 구글)의 차이점은 크게 5가지로 구분된다.(1)

 

첫 번째는 언어처리 능력의 차이이다. 네이버의 경우 '개똥부스러기까먹헛소리쟁이'라는 복합명사이자 신조어인 검색어를 검색하면 아무 결과를 보여주지 않지만 구글은 복합명사를 분해하여 '개똥'이라는 단어가 있는 문서도 보여주고 접미사 '쟁이'도 이해하여 관련 단어가 있는 문서를 보여준다.

 

두 번째 차이는 검색 결과의 폐쇄성이다. 구글, 야후 등의 검색엔진이 외부 문서를 검색 결과에 적극적으로 노출하고 자사 플랫폼에 올라온 콘텐츠와 검색결과에 차별을 두지 않는 데 반해 네이버는 네이버 블로그나 네이버 카페에 올라오는 자사 플랫폼의 콘텐츠 위주로 검색 결과를 노출하는 경향이 있다. 최근에는 네이버도 외부 사이트의 콘텐츠를 적극적으로 수집하려는 경향을 보이고 있다.

 

세 번째는 콘텐츠 분류 차이다. 네이버의 경우 콘텐츠가 올라온 플랫폼에 따라 콘텐츠를 영역별로 구분하여 보여준다. 네이버 통합 검색 결과는 네이버 블로그와 네이버 카페에 올라온 콘텐츠를 보여주는 'VIEW 영역'과 질문과 답변으로 구성되는 '지식iN 영역', '뉴스 영역' 등으로 분류된다. 반면 구글은 전체 검색 결과에서 콘텐츠 별로 보여지는 영역을 나누지 않고 모든 콘텐츠를 한 페이지에 보여준다.

 

네이버와 구글의 검색 결과 내 콘텐츠 분류 차이

 

네 번째는 중복 콘텐츠를 방지하는 정도의 차이다. 네이버 검색엔진은 어떤 글이 원문이고, 어떤 글이 복사 글인지 파악하지 못하여 무단으로 복사한 글이 원본 글보다 상위에 노출되는 경우가 있다. 네이버는 동일한 콘텐츠를 배포할 때 원래 글을 검색엔진이 알 수 있도록 하는 캐노니컬 태그를 입력하는 방법을 자사 플랫폼에서 제공하지 않는다.

 

마지막으로 광고 노출 섹션 크기에 차이가 있다. 네이버의 경우 파워링크 영역이 통합 검색 결과의 최상위에 위치하여 넓은 영역을 차지하는 반면, 구글의 경우 광고 영역이 전체 검색 결과에서 많은 영역을 차지하지 않는다.

네이버의 검색 알고리즘

네이버는 크게 2가지의 알고리즘을 적용한다. 출처의 신뢰도를 분석하는 C-Rank(Creator Rank)와 문서의 정보성을 분석하는 D.I.A(Deep Intent Analysis)이다.(2)

네이버 검색 랭킹 알고리즘을 이해하기 위해서는 먼저 '검색 모델(search model)'이라는 개념을 이해해야 한다. 이는 시스템이 모든 문서의 내용을 검토해서 문서가 좋은지 나쁜지 판단하기는 어렵기 때문에 이를 평가할 수 있는 다양한 정보와 패턴을 이용하여, 검색 이용자가 찾고자 하는 문서와 그렇지 않은 문서의 표본을 구성한 것을 말한다. 이처럼 검색엔진은 문서에서 파악할 수 있는 요소를 바탕으로 각각의 조건별 가중치를 부여하여 순서를 정하게 된다.

 

C-Rank는 검색 랭킹의 정확도를 높이기 위해 사용되는 기술 중 문서 자체보다는 해당 문서의 출처인 블로그의 신뢰도를 평가하는 알고리즘이다.(3)

 

네이버 C-Rank 알고리즘 (출처: NAVER Search & Tech)

 

네이버는 C-Rank 알고리즘을 통해 해당 블로그가 1) 주제별 관심사의 집중도는 얼마나 되고(Context), 2) 생산되는 정보의 품질은 얼마나 좋으며(Content), 3) 생산된 콘텐츠는 어떤 연쇄반응을 보이며 소비/생산되는지(Chain)를 파악해 이를 바탕으로 해당 블로그가얼마나 믿을 수 있고 인기 있는 블로그인지(Creator)를 계산한다.  C-Rank 알고리즘에서 블로그의 신뢰도와 인기도를 측정하는 핵심은 해당 블로그가 특정한 주제, 즉 '특정 관심사에 대해서 얼마나 깊이가 있는 좋은 콘텐츠를 생산해 내는가'이다. 이에 따라 일상 글보다는 전문성 있는 하나의 글이 블로그 검색 결과 노출에 더 도움 될 것이다. 2017년 네이버 서치앤테크 블로그 글에 따르면 네이버 블로그 주제는 총 31개로 분류되며, 작성한 글은 문서의 제목과 내용을 바탕으로 어떤 주제에 해당하는지 딥러닝이 판단하여 주제를 부여하게 된다.

 

C-Rank 주제분류 (출처: NAVER Search & Tech)

 

네이버는 주제에 대한 문서의 수 외에도 다른 사람들과 소통하는 정도 등의 요소도 함께 고려하여 해당 주제에서 좋은 블로그인지 판단한다. 하나의 블로그에서도 여러가지 주제를 다룰 수 있다. 요리, 인테리어, 영화 3개의 주제 모두에 대해서 정보력 있는 글을 지속적으로 작성하시면 3개 주제 모두 C-Rank가 높아질 수 있다.(4)

 

또한 네이버 검색엔진은 출처의 신뢰도를 검색결과 랭킹에 반영하는 C-Rank를 보완하기 위해 문서 자체의 경험과 정보성을 분석해 랭킹에 반영하는 D.I.A. 로직이 적용된다. D.I.A. (다이아, Deep Intent Analysis)란, 네이버의 데이터를 기반으로 키워드별로 사용자들이 선호하는 문서들에 대한 점수를 랭킹에 반영한 모델이다. D.I.A. 모델은 문서의 주제 적합도, 경험 정보, 정보의 충실성, 문서의 의도, 상대적인 어뷰징 척도, 독창성, 적시성 등의 여러 요인들이 복합적으로 반영된다.(5) 최근에는 기존 D.I.A. 모델에서 사용자의 구체적인 의도에 맞는 더 정확한 진성 정보와 출처를 찾아 내기 위해, 딥 매칭과 패턴 분석, 동적 랭킹 등에 대한 새로운 연구들이 반영된 D.I.A.+ 모델이 적용된다.(2)

 

 

D.I.A.+ 는 경험, 의견, 리뷰를 찾고자 하는 사용자 질의에서 더 좋은 검색결과를 제공하기 위해 기존 보다 강화된 질의 의도 분석 결과가 사용된다. ​예를 들어 정해진 정가가 없는 시가(예. 비행기 표 가격, 수산물 시가, 핸드폰 수리비 등)나 다양한 서비스 옵션에 따른 경험적 가격(예. 입주청소 비용, 이사업체 가격, 한달여행 경비 등)을 포함한 정보를 찾는 사용자 질의 패턴이 많은데, D.I.A.+ 모델은 사용자의 이러한 질의 의도를 파악하여 검색결과에 반영한다. D.I.A.+ 알고리즘에서 분석된 정보들은 사용성과 가독성을 높이기 위해서 구글처럼 일부 검색 결과의 스니펫에서도 함께 활용된다. 다음 글에서는 네이버 검색 알고리즘에 대한 자세한 내용과 네이버 검색엔진 최적화 방안을 담아보도록 하겠다.

 

참고:

(1) 트래픽을 쓸어 담는 검색엔진 최적화, 김건오, e비즈북스

(2) VIEW 검색에서 진짜 정보를 찾기 위한 D.I.A.+ 알고리즘의 변화를 소개합니다., NAVER Search & Tech

(3) 주제별 출처의 신뢰도와 인기도를 반영하는 C-Rank 알고리즘, NAVER Search & Tech

(4) 블로그 검색 C-Rank알고리즘에 대해 궁금한 점 알아보기, NAVER Search & Tech

(5) 네이버 검색에 새롭게 적용된 D.I.A 랭킹을 소개합니다, NAVER Search & Tech

'MARKETING > SEO' 카테고리의 다른 글

검색엔진 최적화(SEO)의 기본 개념과 분류  (0) 2020.12.23