구글에 있던 기술자가 이야기하는 구글 검색 순위 작동 7가지 방식에 대해 공유해봅니다. 2023년 미국 법무부에서 독점금지 관련 재판을 통해 공개된 내용입니다. 개인적으로 2021년에 주장했던 내용들이 보고서에 실려있네요. 색인 생성, 알고리즘, 딥 러닝, 평가, 클릭, 검색 데이터 관련하여 구글이 어떻게 검색 순위를 형성하는지 공유해봅니다.
구글 검색 순위 작동 7가지 방식
Pandu Nayak은 구글 기술자였습니다. 10월에 미국에서 구글의 독점 금지 재판에서 증언을 하고 11월 16일에 증언관련 문서를 만들었습니다. 이 문서에는 여러가지 내용이 있기에 구글 검색 순위 작동 방식이 궁금하신 분들에게 도움지 될 듯 합니다.
구글의 독점 금지 재판이 재미있는 이유는 여기에서 구글의 알고리즘이 오픈 되었기때문에 관심을 가져볼만한데요. 아래 2021년에 제가 쓴 글과 비교해보시길 바랍니다.
구글의 독점 금지 재판에 나왔던 순위를 결정하는 요소들부터 정리를 해볼께요. 미국 법무부에서 공개한 내용중 검색 순위의 요소 몇 가지를 공유했습니다.
1. 클릭 수명 (사용자 상호작용)
- 본문: 문서 자체에 대해 말하는 내용입니다.
- 앵커: 웹에서 문서에 대해 말하는 내용입니다.
- 사용자 상호 작용: 사용자가 문서에 대해 말하는 내용입니다.
어떤 곳에서는 ‘사용자 상호작용’을 대신하여 ‘클릭’을 사용할 수도 있습니다. 사용자 상호작용에는 클릭, 결과에 대한 관심, 캐러셀 스와이프, 새 쿼리 입력 등이 포함됩니다.
출처 : 독점 금지 재판 전시회에서 꼭 봐야 할 Google 검색 순위 문서 7가지
위와 같이 표기 표기가 되어있습니다. EEAT에도 이러한 내용이 있었죠. 그런데 “사용자 상호작용”이라는 것에 관심을 가져야 합니다.
구글은 품질 좋은 문서는 단순하게 사용자들의 상호작용이 반드시 있다는 것입니다. 위에 노란색에 있는 내용은 본문의 내용이 사용자들에게 도움이 되었다면 상호작용이 있는데 캐러셀 스와프나 새쿼리 입력은 사용자들이 다른 결과를 이어서 찾기위해 움직이는 행위들 예를 이야기하였다고 보시면 됩니다.
위 도표는 검색 결과에 따른 사용자 상호작용 및 검색 결과의 관계를 보여주는 것입니다.
- 읽다.
- 클릭
- 스크롤
- 마우스 호버
독점 금지 재판에서 Lehman은 순위 검색에 이러한 요소들을 사용한다고 증언했다고 합니다. 그러나 이런 개별 클릭 수가 순위 결정에 방해가 되는 신호라고 구글은 공개적으로 밝혔습니다.
(그러면서 개인화를 위해 클릭 데이터를 사용한다고 말했습니다. 여기서 데이터란 클릭을 위해 사용자 행동 관련 데이터를 이야기하는 듯 합니다.)
한마디로 개별 클릭 수 자체로 순위를 먹이지 않는다고 이야기를 한것입니다.
2. 순위
Google은 “우리는 문서를 이해하지 못합니다. 우리는 그것을 가짜로 만듭니다.”
- 오늘날 문서를 직접 이해하는 능력은 미미합니다.
- 그래서 우리는 사람들이 문서에 어떻게 반응하는지 관찰하고 그들의 반응을 기억합니다.
몇가지 배경부터 시작해 보겠습니다.
하루에 수십억 번 사람들은 검색어와 관련된 문서를 찾아달라고 요청합니다.
미친 것은 우리가 실제로 문서를 이해하지 못한다는 것입니다. 몇 가지 기본적인 것 외에는 문서를 거의 보지 않습니다.
우리는 사람을 봅니다.
문서가 긍정적인 반응을 얻으면 우리는 그것이 좋다고 생각합니다. 반응이 부정적이라면 아마도 나쁜 것입니다.
엄청나게 단순화된 것이 Google의 마법의 원천입니다
출처 : 독점 금지 재판 전시회에서 꼭 봐야 할 Google 검색 순위 문서 7가지
위에 내용을 보시면 문서의 질을 판단하는 것은 사람들의 상호작용 데이터를 이야기합니다.
제가 2021년에 이야기한 사용자 데이터가 바로 이런 반응을 이야기하는것 입니다.
글에 대한 것은 검색엔진이 이해를 하지 못합니다. 하지만 콘텐츠 품질에 대한 평가는 검색엔진이 하는것이 아니라 사용자 데이터가 한다는 것입니다.
구글은 개인이 아니라 사용자’들’의 검색 결과와 상호작용 데이터를 이용하여 결과치를 만든다는 내용입니다.
3. 검색 순위에 영향을 주는 요소들
- 관련성
- 페이지 품질
- 인기
- 신선도 (최신정보)
- 위치 (지역 기반)
- 언어
- 중심성
- 주제의 다양성
- 개인화 (독창성)
- 웹 생태계
- 모바일 친화적
- 사회적 공정성
- 선택화
- 포르노 강등
- 스팸
- 권한
- 개인정보
- 철자 교정에 대한 사용자 제어
본질적으로 Google은 클릭이 해석하기 어렵기 때문에 좋은 신호가 아니라고 말하고 있습니다. 관찰된 사용자 행동과 검색 결과 품질 사이의 연관성은 약합니다. 결론을 내리려면 많은 트래픽이 필요하고 개별 사례는 해석하기 어렵습니다.
- 검색 결과를 조작하려는 시도는 지속적이고 정교하며 자금이 풍부합니다. 검색이 어떻게 작동하는지에 대한 정보는 계속해서 알아야 합니다.
- 알 필요가 있는 경우 검색이 어떻게 작동하는지 계속 이야기하세요. 우리가 유출하는 모든 것은 SEO, 특허, 경쟁사 등이 우리에게 불리하게 사용될 것입니다
- 이 주제에 대해 외부에서 이야기하지 않는 것을 이해하는 사람들과 꼭 알아야 할 경우를 제외하고 검색에서 클릭 사용에 대해 논의하지 마십시오. Google은 공개적인 입장을 갖고 있습니다. 논쟁의 여지가 있습니다. 하지만 직접 제작하지는 마세요.
상위 내용 관련하여 자세히 보고 싶다면, Google 프레젠테이션: 연구 순위(2018년 11월 16일)를 참고하세요.
출처 : 독점 금지 재판 전시회에서 꼭 봐야 할 Google 검색 순위 문서 7가지
한마디로 구글 검색 순위에 트래픽 데이터를 사용하지만, 얼마든지 조작을 하려고 할 수 있기때문에 위와 같은 시스템을 도입하여 문서의 질을 판단하고 있고, 여기에 사용자 데이터로 문서의 질을 검증한다고 보시면 됩니다.
이미 이러한 계획은 2018년부터 구글은 가지고 있었던 것입니다.
4. 검색 작동 원리
질문을 받습니다. 다양한 채점 시스템이 데이터를 내보내면 UX를 적용하여 사용자에게 전달합니다.
이것은 거짓이 아니라 단지 불완전할 뿐입니다. 너무 불완전해서 이런 방식으로 구축된 검색 엔진은 제대로 작동하지 않습니다.
출처 : 독점 금지 재판 전시회에서 꼭 봐야 할 Google 검색 순위 문서 7가지
핵심은 반대 방향으로의 두 번째 정보 흐름입니다.
사람들이 검색과 상호작용할 때 그들의 행동을 통해 세상에 대해 알 수 있습니다.
예를 들어, 클릭은 이미지가 웹 결과보다 낫다는 것을 알려줄 수 있습니다. 또는 길게 보면 KP가 흥미로웠음을 의미할 수도 있습니다.
우리는 이러한 행동을 기록하고, 득점 팀은 좁은 패턴과 일반적인 패턴을 모두 추출합니다
출처 : 독점 금지 재판 전시회에서 꼭 봐야 할 Google 검색 순위 문서 7가지
Google 마법의 원천은 사용자와의 양방향 대화입니다.
모든 쿼리를 통해 우리는 약간의 지식을 제공하고 약간의 보상을 받습니다. 그러면 우리는 조금 더 주고, 조금 더 돌려받게 됩니다.
이 비트는 합산됩니다. 수천억 번의 라운드 후에 우리는 꽤 똑똑해 보이기 시작합니다!
이것이 우리가 배우는 유일한 방법은 아니지만 가장 효과적인 방법입니다.
출처 : 독점 금지 재판 전시회에서 꼭 봐야 할 Google 검색 순위 문서 7가지
한마디로 문서의 단순 데이터로 구글 검색 순위를 만들지 않는다는 것입니다. 구글은 검색 순위를 만들때 아래와 같은 방법으로 만든다고 합니다. 이것이 바로 양방향 대화를 뜻하는 것입니다.
예를 들어, 10개의 파란색 링크는 암묵적으로 ‘어떤 결과가 가장 좋은가?’라는 질문을 제기합니다.
결과 미리보기는 배경을 제공합니다. 그리고 대답은 클릭입니다.
이것은 학습을 위한 훌륭한 UX입니다. 수년 동안 Google은 평범한 UI로 뛰어난 검색 결과를 제공한다는 조롱을 받았습니다.
하지만 이 평범한 UI는 검색 결과를 훌륭하게 만들었습니다.
썸네일 역시 배경 정보를 제공하며 사용자의 대답은 호버, 클릭 또는 추가 상호 작용으로 기록됩니다.
출처 : 독점 금지 재판 전시회에서 꼭 봐야 할 Google 검색 순위 문서 7가지
구글의 검색 순위 줄세우는 방법은 단순하게 데이터만을 하는것이 아닙니다. 타이틀과 메타데스크립션에 얼마나 사용자들이 원하는 정보가 있느냐를 보고 이때의 사용자 데이터, 호버(마우스 갔다 뎄을때 색이 변함) 클릭, 스크롤, 기타등등의 데이터를 이용합니다.
내 글이 아래에 있더라도 사용자들이 원하는 정보가 눈에 보였을 때의 행위 데이터도 순위에 사용을 한다는 것입니다. 이에 관련된 정보는 아래의 글을 보시길 바랍니다.
5. 로깅과 순위의 연관성
구글 검색 순위를 지정할 때 Dialogue가 왜 중요한지에 대한 설명을 해줍니다.
Dialogue 뜻
출처 : 위키백과
- 둘 이상의 개인 간의 대화 또는 기타 형태의 담화 입니다 .
- Bill과 Melinda는 장거리 관계 동안 이메일을 통해 대화를 유지했습니다.
- 대화 시작
- ( 저작자 ) 극적이거나 문학적인 표현에서 대본 이나 텍스트의 언어적 부분; 배우나 등장인물의 언어 화 .
- 영화는 특수효과는 훌륭했지만 대사는 부진했다.
- ( 철학 ) 표현이 대화와 유사한 문학적 형식
- 문학사가인 그녀는 고대 그리스 철학자들의 대화를 전문적으로 연구했습니다 .
- ( 컴퓨팅 ) 대화 상자.
- 내 컴퓨터 대화 상자 가 열리면 로컬 디스크(C:)를 선택한 다음 마우스 오른쪽 버튼을 클릭하고 아래로 스크롤합니다.
Dialoque는 사용자와의 양방향 소통을 이야기하면 되며, 이러한 사용자 행위에 대한 사용자 데이터를 뜻합니다.
검색은 모든 사람이 음식 한 접시를 가져와 함께 나누는 포트럭과 비슷합니다. 남녀노소 누구나 즐길 수 있는 훌륭하고 다양한 음식입니다. 하지만 모든 사람이 조금씩 기여하기 때문에 효과가 있습니다.
마찬가지로, 검색은 엄청난 양의 지식을 기반으로 합니다. 하지만 그것은 우리가 만들어내는 것이 아닙니다.
오히려 검색을 하러 오는 모든 사람은 모두가 혜택을 받을 수 있는 시스템에 약간의 지식을 기여합니다.로그에는 명시적인 가치 판단이 포함되어 있지 않습니다. 이것은 좋은 검색 결과였고, 이것은 나쁜 검색 결과였습니다.
따라서 우리는 기록된 사용자 행동을 가치 판단으로 변환하는 방법을 찾아야 합니다.
그리고 번역은 정말 까다롭습니다. 사람들이 15년 넘게 꾸준히 노력해 온 문제입니다.
가치 판단이 Google 검색의 기초이기 때문에 사람들은 이를 위해 노력합니다.
세션에서 좀 더 많은 의미를 짜낼 수 있다면 바로 다음날 그 의미의 수십억 배를 얻게 될 것입니다.
기본 게임은 검색 페이지에 있는 이 항목이 좋다, 이건 나쁘다, 저것보다 낫다고 말하는 소량의 ‘실측’ 데이터로 시작하는 것입니다.
그런 다음 관련된 모든 사용자 행동을 보고 “아, 이게 사용자가 좋은 일을 하는구나! “라고 말합니다. 이것은 사용자가 ‘나쁜 짓을 하는 일입니다! 이것이 사용자가 선호하는 방식입니다!’
물론 사람들은 저마다 다르고 변덕스럽습니다. 그래서 우리가 얻는 것은 통계적 상관관계뿐이고 실제로 신뢰할 수 있는 것은 없습니다.
만약 누군가 검색결과 3개를 클릭했다면, 어떤 것이 나쁜 것인가? 글쎄요, 아마도 모두 그럴 것입니다. 왜냐하면 그들이 3개의 결과를 클릭했다면 아마도 어려운 쿼리일 것이기 때문입니다. 도전은 어느 것이 가장 유망한지 알아내는 것입니다.
그리고 제가 경고한 부분이 있습니다.
뭔가를 팔고 있어요. 나는 순위 팀의 요구 사항을 염두에 두고 로그 용어에 대한 아이디어를 판매하고 있습니다. 위에 설탕을 얹어주세요.
하지만 근본적인 이유는 순위팀이 또 다른 면에서 정말 이상하고, 그것이 비즈니스 영향이기 때문입니다.
앞서 언급했듯이 하나의 시스템이 아니라 순위 내의 수많은 시스템이 로그를 기반으로 구축됩니다.
이는 앞서 보여드린 것과 같은 기존 시스템뿐만 아니라 우리가 외부에 발표한 RankBrain, RankEmbed 및 DeepRank와 같은 가장 최첨단 기계 학습 시스템이기도 합니다.
웹 순위는 검색의 일부일 뿐이지만 많은 검색 기능은 웹 결과를 사용하여 쿼리를 해석하고 그에 따라 실행됩니다.
따라서 순위를 지원하면 검색이 전체적으로 지원됩니다.
하지만 이 외에도 검색 분야에서 개발된 기술은 회사 전체에 광고, YouTube, Play 등으로 확산되었습니다.
저는 금융 분야에 종사하는 사람은 아니지만, 총체적으로 말하면 Google 비즈니스의 상당 부분이 순위에 로그를 사용하는 것과 연관되어 있다고 생각합니다.
위에서 이야기 했듯이 구글 검색 순위는 로깅과 연관이 있다고 합니다. 구글 검색 뿐만 아니라 구글의 비즈니스, 유튜브, play, adsense 역시 이러한 사용자 상호작용 데이터를 기반으로 평가가 내려지게 된다는 것입니다.
이러한 상호작용 데이터를 이해를 하게된다면, 당연히 블랙햇 기반의 무엇인가를 하면 안될 겁니다. 2021년까지는 기술적 한계가 있었지만, 이제는 많은 데이터를 이용하여 AI까지 출시한 회사입니다.
이런 데이터 연관성에 대한 부분을 사람이 하지 않고, 시스템에서 여려 방향성을 두고 결과 추론을 할 수 있다는 것이죠!
6. 모바일 vs 데스크톱 순위
측정항목
- CTR
- 수동 개선
- 작업당 쿼리
- 쿼리 길이(문자)
- 쿼리 길이(워드)
- 포기
- 평균 클릭 위치
- 중복
다른 의도를 반영한 별도의 모바일 순위 신호 또는 평가. 모바일 검색어에는 종종 다른 의도가 있으므로 이러한 의도를 반영하는 추가 또는 보충 신호를 순위 프레임워크에 통합해야 할 수도 있습니다. 앞에서 설명한 것처럼 이러한 신호는 로컬 수준의 고장을 적절하게 처리하는 것이 바람직합니다.
7. BERT와 검색 순위 연관성
웹 순위를 포함하여 검색의 다른 여러 영역에 적용된 BERT의 초기 실험은 쿼리, 문서 및 의도에 대한 이해가 매우 크게 향상되었음을 시사합니다. BERT는 혁명적이지만 자연어 이해 기술의 도약의 시작일뿐입니다.
BERT 관련해서 쓴 글이 있으니 아래에서 확인을 해보시길 바랍니다. 이 부분때문에 많은 분들이 논란이 있는데, BERT에 들어가있는 기술은 언어, 위치, 자연어 처리, 여러가지가 들어가 있습니다.
그렇기때문에 이러한 부분을 A-Z까지 모든것을 신경쓰면서 콘텐츠를 만들기가 어려울 것이지만, 이해하시고 만드신다면 분명히 도움이 될 것입니다.
구글 검색 순위를 이해하기 위해 알아야하는 색인
2022년 유용한 콘텐츠 시스템이 들어오면서 저는 프리미엄 페이지에 중심적으로 쓴 내용들은 아래와 같습니다.
- 유용한 콘텐츠 시스템
- EEAT
- 색인
- 사용자 데이터
왜 색인이 중요한가?
구글은 웹을 Crawling 하고 사본을 만듭니다. 이를 index라고 하죠. 이 사본을 이용하여 검색엔진에서 많은 데이터를 생성합니다.
하지만 이러한 웹에는 굉장히 많은 중복 내용들이 있습니다. 최근 업데이트가 되면서 제3자 호스팅 도메인에 불이익을 준다는 내용들이 있었죠.
이러한 알고리즘이 나오는 가장 큰 이유는 엄청나게 많은 문서 중 띄어줄 문서만 띄어주기 위함입니다. 구글에는 약 4,000억개의 문서가 올라왔다고 합니다.
그런데 이 많은 문서들을 Index를 시키고, 인덱스의 데이터를 통해 쿼리와 일치하는 결과값을 찾아야 하는데, 정크 문서가 많으면 이러한 결과값을 찾아낼 수가 없습니다.
그렇기때문에 처음 Crawling부터 index가 되지 않게되면, 노출 조차도 안되는 것입니다.
거기에 구글은 색인 용량을 줄이고있기때문에 너무너무 중요해진 요소입니다.
위에 글을 한번 읽어보시길 바랍니다. 관련된 내용을 8월에 적었는데, 이 부분이 노출에 상당한 영향을 주었을거라 예상합니다.
따라서 쿼리가 있으면 쿼리와 일치하는 인덱스에서 문서를 검색해야 합니다.
그 핵심은 인덱스 자체입니다.
색인은 모든 단어에 대한 것이며 해당 단어가 나타나는 페이지는 무엇인지 기억하십시오.
그래서 이것은 여러 가지 이유로 반전된 지수라고 불립니다. 따라서 검색 메커니즘의 핵심은 쿼리의 단어를 보고 목록(게시 목록이라고 함)을 따라 이동하여 게시 목록을 교차하는 것입니다.
이것이 핵심 검색 메커니즘입니다. 그리고 목록이 너무 길어서 목록을 끝까지 살펴볼 수 없기 때문에 품질이 좋을 가능성이 높은 페이지가 페이지 순위에 따라 정렬되는 방식으로 색인을 정렬합니다.
예를 들어, 그것은 과거에 행해진 일이고, 그 일의 초기 단계에 있습니다. 그리고 수만 개로 줄일 수 있을 만큼 충분한 문서를 검색한 후에는 충분한 문서가 있기를 바랍니다. 따라서 이것이 검색 메커니즘의 핵심입니다.
인덱스를 사용하여 이러한 게시 목록을 살펴보고 쿼리의 모든 단어가 검색되도록 교차하는 것입니다.
Google이 “수백 개의 알고리즘과 기계 학습 모델을 사용하는데, 그 중 어느 것도 단일의 대형 모델에 전적으로 의존하지 않습니다”라고 쓴 이유가 바로 이것입니다 .
이러한 알고리즘과 기계 학습 모델은 본질적으로 가장 관련성이 높은 문서에 대한 색인을 “추출”한다고 설명
출처 : Nayak이 2021년에 쓴 블로그 게시물
구글 검색 순위에 영향을 주는 다른 요소
이번 사태로 인해 공유하게된 구글의 알고리즘을 더 알아보겠습니다.
마케팅 관련 정보
마케팅 관련 정보
마케팅 관련 정보
마케팅 관련 정보
마케팅 관련 정보
마케팅 관련 정보
마케팅 관련 정보
마케팅 관련 정보
결론
결론으로 이야기를 하자면, 구글 검색 순위의 요소는 상당히 많습니다. 하지만 이렇게 많은 알고리즘 시스템 위에 반드시 검증이 되는 것이 사용자 데이터입니다.
이러한 사용자 데이터는 조작이 불가능합니다.
그렇기때문에 쉽게 무엇인가를 이루려고 하실려는 분들은 위에 내용을 이해하시고, 빠르게 포기하시길 바랍니다.
이제는 이러한 알고리즘 요소의 조합과 사용자 데이터를 끌어내어서 트래픽을 모을 수 있도록 해야합니다.
참고적으로 위에 내용을 보시면 아시겠지만, 많은 분들이 트래픽 종류에 따른 것을 분류하시는데, 이미 여러 링크를 통해서 들어오는 트래픽의 사용자 양방향 데이터가 수집이 되고 있기때문에 트래픽 종류를 신경쓰지 마세요.
모든 트래픽을 받으려고 애써야하고, 이러한 트래픽을 받더라도, 사람들이 반응할 수 있는 콘텐츠를 만들어 내는것이 정말 중요해졌습니다.
- 백링크 수가 이제 중요한 것이 아님.
- 백링크와 트래픽, 그리고 트래픽 질을 분석하여 검증
- 이런 사용자 데이터를 이용하게되면, 링크의 dofollow 개념이 필요없음.
- 콘텐츠 질을 검증하는데 사용자들의 반응은 필수이기에 유용한 콘텐츠 시스템이 작동할 수 있게 된것임.
- 사용자 데이터는 구글의 모든 비즈니스에서 사용됨!
이러한 방법적인 요소들과 알고리즘 분석을 통한 방향성을 프리미엄 페이지에서 공유하고 있으니 많은 관심 부탁드립니다.^^