자연어를 이해하는 BERT 시스템에서 한단계 더 나아가 검색 의도와 문장을 더 잘 이해해주게하는 시스템입니다. DeepRank는 BERT 시스템안에 있는 알고리즘입니다. 이 알고리즘은 대량의 문서 데이터를 사전에 학습하고 클릭수와 사용자 데이터를 분석하여 구글 검색을 할 때 사용자가 더욱 관련성이 높은 결과를 보여줍니다.
DeepRank 알고리즘
DeepRank 알고리즘은 구글의 기존 머신러닝과 자연어 처리 기능(BERT)를 기반으로 구축되어있습니다. 현재의 AI 채팅에 들어가있는 기술이기도 합니다.
BERT 알고리즘만으로는 검색엔진은 인간처럼 언어의 세부적인 내용을 이해할 수 없습니다. 그래서 딥랭크를 이용하여 인간이 사용하는 단어와의 관계를 이해하는 신호를 제공하는 역할을 해줍니다.
이는 검색을 보다 직관적으로 사용하고 검색이 검색의 질문을 이해하고 답변을 주는 것처럼 보여집니다. 지금의 AI 프롬프트도 이런식으로 개발이 되어있다고 생각하시면 됩니다.
미국 독점금지 재판에서 공개된 DeepRank 알고리즘
Rankbrain의 기능과 함께 많이 활용하고 있는 알고리즘이라고 합니다. 사용자 데이터에 대한 교육을 받고 IS 등급 데이터를 미세 조정합니다.
- “DeepRank는 상당한 관련성을 제공할 뿐만 아니라 순위를 더 넓은 언어 이해 분야와 더욱 긴밀하게 연결합니다.”
- “효과적인 순위를 매기려면 가능한 한 많은 세계 지식과 함께 어느 정도의 언어 이해가 필요한 것 같습니다.”
- “일반적으로 효과적인 언어 이해에는 심층적인 계산과 적당한 양의 데이터가 필요한 것 같습니다.”
- “반면, 세계 지식은 모두 데이터에 관한 것입니다. 많을수록 좋습니다.”
- “DeepRank는 평가자가 관련성을 추측하기 위해 의존하는 언어 및 상식에 대한 이해를 학습할 수 있는 능력을 갖고 있는 것으로 보이지만, 사용자 선호도를 완전히 인코딩하는 데 필요한 방대한 양의 세계 지식을 학습할 수 있는 능력은 거의 없는 것 같습니다.”
DeepRank는 문서 순위를 매기려면 언어 이해와 세계 지식이 모두 필요하다고 Nayak은 확인했습니다. (“언어를 이해하면 순위가 결정됩니다. 따라서 DeepRank도 순위를 매깁니다.”) 그러나 그는 DeepRank가 “블랙박스” 같다고 지적했습니다.
“그래서 언어 이해에 관해 뭔가를 배웠고, 세계 지식에 대해서도 배웠다고 확신합니다. 하지만 이에 대해 명확하게 설명하기는 어려울 것입니다. 이것은 일종의 추론된 것입니다.”라고 Nayak은 설명했습니다.
세계 지식이란 정확히 무엇이며 DeepRank는 이를 어디서 얻나요? 나약은 다음과 같이 설명했습니다.
“흥미로운 점 중 하나는 웹에서 세계의 많은 지식을 얻는다는 점입니다.
그리고 오늘날에는 웹에서 훈련된 이러한 대규모 언어 모델을 통해 ChatGPT, Bard 등을 본 적이 있으며 웹에서 훈련을 받았기 때문에 많은 세계 지식을 보유하고 있습니다.
그래서 그 데이터가 필요합니다. 그들은 그것에 관한 모든 종류의 구체적인 사실을 알고 있습니다. 하지만 이런 것이 필요합니다.
검색에서는 색인이 있고 문서를 검색하기 때문에 세계 지식을 얻을 수 있으며, 검색한 문서는 무슨 일이 일어나고 있는지에 대한 세계 지식을 제공합니다.
하지만 세계 지식은 깊고 복잡하고 복잡하기 때문에 그에 도달하려면 어떤 방법이 필요합니다.”
출처 : https://searchengineland.com/how-google-search-ranking-works-pandu-nayak-435395
위에 내용은 딥랭크가 순위에 영향을 주고 있으며, 순위에 영향을 주기 위해서는 언어의 이해를 해야하고, 전세계의 지식 그리고 언어를 이해를 해야한다고 합니다.
이 이야기를 자세히 보면, 딥랭크는 영어로된 문서를 그대로 복사를 하고 옮겨 적게되면, 중복문서를 판단할 수 있다는 내용으로도 볼 수 있습니다.
그렇기때문에 구글 가이드에도 중복문서는 권하지 않는다고 나옵니다. 물론 내 문서의 순위에 영향을 주기 위해서는 트래픽 그리고 사용자 데이터가 필요하지만, 출처 표기가 없는 문서에 대해서 어떤 제약을 걸지 알수가 없는것입니다.
관련해서 아래의 글을 읽어주시길 바랍니다.