구글이 검색 결과 순위를 결정할 때 알고리즘이 고려하는 요소를 개발, 조정하고 알고리즘 변경이 검색 결과에 영향을 어떻게 주는지를 모니터링하기 위해 검색 품질 평가 측정항목 요소들을 사용한다고 합니다. 이는 이번 미국 독점금지 재판에서 나왔던 내용입니다.
관련 내용은 아래를 확인하시길 바랍니다.
어떠한 검색 품질 평가 측정항목 요소들이 있는지 공유해봅니다.
구글이 검색 품질 평가하는데 사용하는 측정항목 요소
구글이 검색 품질 평가하는데 사용하는 측정항목은 IS점수, PQ(페이지 퀄리티), Side-by-Sides, Live experiments, Freshness가 있습니다. 특히 이중에서 IS점수가 많은 영향을 주는 듯 합니다.
1. IS 점수
이 점수는 구글의 검색 품질에 대한 최상위 측정항목이라고 합니다. 이 점수는 검색 품질 평가자 순위를 기준으로 계산된다고 합니다. 이 점수는 사용자들의 데이터를 측정한 것입니다.
Google이 할 수 있는 일 중 하나는 개선해야 할 사항에 대한 영감을 얻기 위해 쿼리를 살펴보는 것입니다. 그래서 우리는 IS 측정항목을 사용하여 전반적으로 얼마나 잘 수행하고 있는지 평가하는 쿼리 샘플을 만듭니다.
그리고 종종 IS가 낮은 쿼리를 살펴서 무슨 일이 일어나고 있는지 이해하려고 노력합니다. 이것이 우리 알고리즘을 개선할 수 있는 방법을 알아내는 방법입니다.
Wikipedia는 웹에서 매우 중요한 소스이며 훌륭한 정보가 많이 있습니다. 사람들은 그것을 많이 좋아합니다. Wikipedia를 색인에서 완전히 제외하면 IS 손실이 약 0.5포인트 정도 발생하게 됩니다. 0.5점은 Wikipedia의 풍부한 정보 전체를 나타낸다면 꽤 중요한 차이입니다.
때로는 IS 점수가 매겨진 문서가 Google 검색 스택의 다양한 모델을 교육하는 데 사용됩니다. 순위 섹션에서 언급했듯이 IS 평가자 데이터는 Google이 사용하는 여러 딥 러닝 시스템을 훈련하는 데 도움이 됩니다.
특정 사용자는 IS 개선에 만족하지 않을 수 있지만 “[Google 사용자 전체에서] IS는 전체 사용자에 대한 유용성과 밀접한 상관관계가 있는 것으로 보입니다”라고 Nayak은 말했습니다.
나약은 증언에서 구글은 순위 변화에 대해 “신속하게” 실험하기 위해 인간 평가자를 활용할 수 있다고 말했다.
“변화가 모든 것을 바꾸지는 않습니다. 그다지 좋은 상황은 아닐 것입니다. 따라서 대부분의 변경 사항은 몇 가지 결과를 변경합니다. 어쩌면 그들은 결과의 순서를 변경할 수도 있습니다. 이 경우에는 새로운 평가를 받을 필요조차 없으며 때로는 새로운 결과를 추가하고 이에 대한 평가를 받게 됩니다. 따라서 이는 실험적 변화를 신속하게 반복할 수 있는 매우 강력한 방법입니다.”
Nayak은 또한 평가자가 쿼리 세트에 점수를 할당하는 방법에 대한 추가 통찰력을 제공했습니다.
“그래서 우리는 평가자가 평가한 결과가 있는 쿼리 스트림의 샘플로 다양한 방법으로 생성된 쿼리 세트를 가지고 있습니다. 그리고 우리는 순위 변화를 빠르게 실험하는 방법으로 이러한 쿼리 세트를 사용합니다.”
“15,000개의 쿼리로 구성된 쿼리 세트가 있다고 가정해 보겠습니다. 우리는 이 15,000개의 쿼리에 대한 모든 결과를 살펴봅니다. 그리고 우리는 평가자들로부터 평가를 받습니다.”
“이것들은 일반적으로 지속적으로 실행되므로 평가자들은 이미 일부 항목에 대해 등급을 부여했습니다. 추가 결과를 가져오는 실험을 실행하면 해당 결과에 대한 평가를 받을 수 있습니다.”
“그들이 생산하는 많은 결과는 이미 과거의 평가를 받았습니다. 그리고 평가를 받지 못한 결과도 있을 것입니다. 그래서 우리는 이에 대해 알려주기 위해 평가자에게 이를 보낼 것입니다. 이제 모든 결과에 다시 등급이 부여되므로 실험 세트에 대한 IS 점수를 얻게 됩니다.”
또 다른 흥미로운 발견: Google은 다음 슬라이드에 따라 모든 평가자 실험을 모바일로 수행하기로 결정했습니다.
출처 : https://searchengineland.com/how-google-search-ranking-works-pandu-nayak-435395
IS 점수(0~100점)는 검색을 개발하고 개선하는데 매우 중요한 기준 역할을 해줍니다. 여기서 이야기하는 평가자들은 익명으로 평가되기에 구글이 데스트하고 있는지 알수가 없습니다.
이 점수는 인식된 품질을 반영할 뿐만 아니라 RankBrain 및 RankEmbed BERT와 같은 분류 알고리즘을 포함하여 Google 검색 시스템 내에서 다양한 모델을 훈련하는 데에도 사용됩니다.
구글은 검색을 하였을 때 나오는 5위까지(광고 제외)의 글에 초점을 맞춰 검색 결과의 품질을 측정하는데 사용된다고 합니다.
2. PQ (페이지 퀄리티)
이 부분은 공개가 되지 않았습니다. 하지만 PQ가 페이지 퀄리티를 이야기하는 것으로 보입니다. 이 부분은 검색 품질 지침서가 있는데, 전에도 공유를 하였습니다. EEAT에 대한 내용도 자세하게 나와 있습니다.
시간이 되신다면, 아래의 내용을 꼭 한번 읽어보시길 바랍니다.
3. Side-by-Sides
이 내용 역시 공개가 되지 않았지만, 품질 비교를 하는 테스트를 의미한다고 보여집니다. 특정 키워드에 대해 어떤 결과가 더 관련성이 높거나 유용한지를 비교하여 결정하는 것이 아닐까 합니다. (개인적 생각)
서치콘솔이 결과가 소수점으로 나오는 이유는 검색 결과 위치가 틀리기때문인데, 최적화가 되어 올라가게 되면 소수점이 아니라 소수점이 없는 숫자로 표기되죠.
아마도 소수점이 나오는 이유가 있는데 이 부부은 프리미엄 페이지에 공유해봅니다.
4. Live experiments
실시간 실험은 암암리 SEO를 하는 사람들이 인정을 하는 부분이 있습니다. 구글은 새로운 시스템이나 기능을 배포하기전에 사람들의 반응을 살피기 위해 부분적으로 배포합니다.
그래서 가끔 다른 사람들은 변하지 않던 부분이 나만 변하는 부분을 경험해보셨을 수도 있습니다. 몇몇의 사용자에게 이러한 기능을 배포하고 데이터를 모으고 비교해봅니다.
그리고 데이터 결과를 비교하고 수정해야할 부분이 있으면 수정이나 개선을 합니다. 그뒤 테스트 반응이 좋으면 그 다음 실제 기능들을 배포합니다.
AB 테스트와 같다고 생각하시면 됩니다.
5. Freshness
최신 관련해서는 구글 검색 순위 가이드에도 나와있는 항목입니다.
Google에서는 사용자가 최신 콘텐츠를 기대하는 경우 검색어에 대하여 최신 콘텐츠를 제공할 수 있도록 ‘검색결과를 최신 상태로 유지하는’ 여러 가지 시스템을 갖추고 있습니다.
예를 들어 최근에 개봉한 영화를 검색하는 사용자가 있다면 프로덕션이 시작되었을 때의 이전 기사가 아닌 최근 리뷰가 필요할 것입니다. 다른 예를 들어볼까요.
‘지진’을 검색하면 지진에 대비하는 방법 및 리소스에 관한 자료가 표시되는 경우가 많습니다. 그러나 최근에 지진이 발생했다면 뉴스 기사 및 최신 콘텐츠가 표시될 것입니다.
출처 : https://developers.google.com/search/docs/appearance/ranking-systems-guide?hl=ko#freshness
최근 크롤링 빈도를 줄인 구글이므로 모든 문서를 색인화할 수 없는 기술 및 비용 제약이 있습니다. 인덱싱 시스템은 별도의 경로에서 문서의 우선순위를 지정하여 대시 시간, 비용 품질 간의 다양한 균형을 제공할 것이라고 봅니다.
Freshness Node와 Instant Glue가 최신 정보의 비중을 높이는 장치인데, 이 부분이 사용자 데이터를 이용하여 최신 정보의 비중을 높이는 우선순위를 결정하지 않을까 합니다.
이 부분은 개인적으로 TEST를 해보았을 때 거의 맞지 않을까 생각을 하고 있습니다.
미국 독점금지 재판에서 공개된 내용
구글이 검색 품질 평가하는데 사용하는 측정항목 역시 사람들의 상호작용 (사용자 데이터)가 사용이 되는 부분으로 해석이 됩니다.
어떠한 부분에 사람들의 검색 결과에 따른 클릭이 일어나고 상호작용이 있는지를 머신러닝으로 학습하고 이를 데이터화하여 품질 평가에 다시 사용이 된다고 봐야합니다.
이때 구글은 품질이 낮은 페이지를 일부로 보여주고 관련 데이터를 학습하는 듯 합니다.
구글은 클릭 예측 작업을 위해 사용자들의 반응을 계속 수집하고 있다는 것입니다. 올해 품질이 낮은 Spam 문서가 자주 등장하였는데, 어느순간 보이지 않고 있습니다.
구글이 TEST를 위해 일부로 노출시키고, 이에 대해서 사용자 의도를 파악하기 위해 데이터를 수집한것이라고 보여집니다.
역시 구글은 계획이 있었던 것 같습니다.