요새 블로그하는 사람들도 늘어나다보니 검색 엔진 색인 관련하여 이런저런 정보를 사람들이 많이 찾고 있다.
그런데 자기가 처한 문제만 찾으려고하다보니, 답을 찾지 못하고 여기저기 포럼에 자기할말만 하는 사람들이 늘어나서 여기에 그 문제에 대해 이야기를 해볼까 한다.
검색 엔진 색인(index)이란
검색 엔진 색인이라는 것은 쉽게 이해를 시키자면 내 사이트의 글 URL을 검색 엔진에 노출이 되도록 등록일 시키는 것이라고 이해하면 된다.
검색 엔진 색인 또는 검색 엔진 인덱싱(Search engine indexing)은 빠르고 정확한 정보 검색을 촉진하기 위해 데이터를 수집, 구문 분석 및 저장하는 것이다.
이 색인이 왜 중요하냐면 검색 엔진에 내 글이 노출이 되려면 2가지 방법이 있는데,
- 이미 노출이 되어 있는 페이지에 링크 달기 (백링크)
- 검색엔진 등록해서 노출 시키기
이 2가지가 안되면 검색 엔진에 글을 노출 시킬 수 있는 방법이 없다.
대부분의 사람들은 1번은 누군가가 달아주거나 내가 어딘가에 1번더 수고스러움을 해야하기때문에 2번을 원하는 사람들이 많다.
그래서 2번이 되기위해서는 사이트맵이나 rss, feed 와 같은 기술을 이용하여 검색엔진에 등록을 한다.
검색 엔진 색인(index)에서 왜 봇과 크롤링을 중요시하는가?
검색 엔진 색인에서 내 글을 검색 엔진이 인지를 하기 위해서 봇(bot)을 보낸다. 이 봇은 내 URL을 타고 들어와 내 페이지의 정보를 모두 읽어간다.
이때 이 정보를 읽어간 봇이 검색 엔진에 신호를 주고 URL과 함께 문서 정보를 가져가는 것이다.
여기서 크롤링이라는 것은 봇이 정보를 읽어갔을때를 말하는 것이다.
한마디로 검색 엔진 색인이 되기 위해서는 봇이 내 페이지를 방문해야하고, 이 봇이 크롤링이라는 일을 해야한다.
네이버든 구글이든 bing이든 마찬가지이다.
봇이 방문하고, 내 페이지를 크롤링하는 방식은 어딜가든 똑같다.
단지 이 크롤링을 하고, 정보를 가져왔을 때 페이지에 자기회사 규칙을 적용시키느냐 안시키느냐의 문제이지 “봇과 크롤링이라는 행위”는 IT의 기본 기술이고 가장 중요한 행위기술이다.
그래서 검색 엔진에서 노출이 안된다. 이러한 문제가 있다면, 가장 먼저 색인을 살펴본다.
- 색인을 살펴본다.
- bot이 제대로 방문을 하는지 살펴본다.
- bot이 방문을 못하게하는 noindex 문구가 있는지 확인한다.
- 문제가 없다면 crawling에 문제가 되는 무엇인가가 있는지 확인한다.
이러한 봇의 문제를 가볍게 생각하는 사람들이 많은데…
adsense와 같은 광고 기술도 bot이 들어와서 그 페이지의 상태를 읽어가고, 페이지 컨디션에 따라 더 좋은 광고를 보여주기도 하고 좋은 제안이 들어오기도 한다.
애드센스 뿐만 아니라 서치콘솔, ga4와 같은 데이터 프로그램도 bot이 들어와 정보를 가져가고 이 데이터를 기반으로 페이지에 표기를 해주는 것이다.
근데 봇이 막히면, 사이트에 내가 달은 JS나 프로그램이 제대로 가동을 못할 수도 있는것이다.
대부분의 문제는 이 봇이 어디선가 막혀서 못들어오는 경우가 많다.
예를 들어서 티스토리의 문제를 이야기하였을 때 가장 큰 문제가 사이트 크롤링 실패율이 가장 컸다.
위 문제는 아주 간단하다.
티스토리의 서버와 서치콘솔과의 연결 실패가 늘어난 그래프를 보여준것이다.
작년 이후에는 티스토리는 사용을 거의 하지 않는데, 자료가 있어서 이렇게 가져와봤다.
위와 같이 서버 실패가 높아진다는 것은 봇이 티스토리 페이지를 읽지 못하고 튕겼다는 것이고, 이렇게 자꾸 튕기게 되면 색인자체가 어렵게 될 수가 있다.
이 뿐만 아니라 다른 봇. 광고와 같은 봇도 이런식으로 튕기게 되면 반반의 확율로 좋지 않는 영향을 받을 수도 있다.
(반대로 티스토리 메인 광고 봇은 색인이 잘될테니 잘 못읽는 Sub 계정의 정보에서 메인 계정 정보 적용이 되면서 단가가 좋지 않았었나 라는 생각도 해본다.)
아무튼 티스토리 자체만 보았을 때 위와 같은 크롤링 실패를 하게되면 다른 방식으로 색인을 시켜야하기때문에 불리할 수 있다. (방법이 없는게 아니다. 귀찮을 뿐이지)
검색 엔진 색인(index)의 문제 해결을 위해서
색인 문제 해결을 위해서는 다른 것을 볼 필요가 없다.
봇 그리고 봇이 제대로 행위를 하는지 (Crawling:크롤링)만 보면 다음 단계로 넘어갈 수 있다.
그래서 구글의 SEO 가이드에 보면 봇과 크롤링이 SEO에 가장 먼저 나와있는것이다.
이 2개가 없이는 SEO라는 것이 되지 않기때문에
이 2개가 문제가 생겼을 때, 노출이 어렵기때문이다.
그래서 색인의 문제가 있다면, 봇과 크롤링이 제대로 작동하는지를 보고, 이 봇과 크롤링이 연관되어진 것들을 하나두개씩 찾아내면 높은 확율로 문제는 해결된다.