검색 엔진 색인(index)에서 왜 봇과 크롤링을 중요시 하는가?

요새 블로그하는 사람들도 늘어나다보니 검색 엔진 색인 관련하여 이런저런 정보를 사람들이 많이 찾고 있다.

그런데 자기가 처한 문제만 찾으려고하다보니, 답을 찾지 못하고 여기저기 포럼에 자기할말만 하는 사람들이 늘어나서 여기에 그 문제에 대해 이야기를 해볼까 한다.

검색 엔진 색인(index)이란

검색 엔진 색인이라는 것은 쉽게 이해를 시키자면 내 사이트의 글 URL을 검색 엔진에 노출이 되도록 등록일 시키는 것이라고 이해하면 된다.

검색 엔진 색인 또는 검색 엔진 인덱싱(Search engine indexing)은 빠르고 정확한 정보 검색을 촉진하기 위해 데이터를 수집, 구문 분석 및 저장하는 것이다.

이 색인이 왜 중요하냐면 검색 엔진에 내 글이 노출이 되려면 2가지 방법이 있는데,

  1. 이미 노출이 되어 있는 페이지에 링크 달기 (백링크)
  2. 검색엔진 등록해서 노출 시키기

이 2가지가 안되면 검색 엔진에 글을 노출 시킬 수 있는 방법이 없다.

대부분의 사람들은 1번은 누군가가 달아주거나 내가 어딘가에 1번더 수고스러움을 해야하기때문에 2번을 원하는 사람들이 많다.

그래서 2번이 되기위해서는 사이트맵이나 rss, feed 와 같은 기술을 이용하여 검색엔진에 등록을 한다.

검색 엔진 색인(index)에서 왜 봇과 크롤링을 중요시하는가?

검색 엔진 색인에서 내 글을 검색 엔진이 인지를 하기 위해서 봇(bot)을 보낸다. 이 봇은 내 URL을 타고 들어와 내 페이지의 정보를 모두 읽어간다.

이때 이 정보를 읽어간 봇이 검색 엔진에 신호를 주고 URL과 함께 문서 정보를 가져가는 것이다.

여기서 크롤링이라는 것은 봇이 정보를 읽어갔을때를 말하는 것이다.

한마디로 검색 엔진 색인이 되기 위해서는 봇이 내 페이지를 방문해야하고, 이 봇이 크롤링이라는 일을 해야한다.

네이버든 구글이든 bing이든 마찬가지이다.

봇이 방문하고, 내 페이지를 크롤링하는 방식은 어딜가든 똑같다.

단지 이 크롤링을 하고, 정보를 가져왔을 때 페이지에 자기회사 규칙을 적용시키느냐 안시키느냐의 문제이지 “봇과 크롤링이라는 행위”는 IT의 기본 기술이고 가장 중요한 행위기술이다.

그래서 검색 엔진에서 노출이 안된다. 이러한 문제가 있다면, 가장 먼저 색인을 살펴본다.

  1. 색인을 살펴본다.
  2. bot이 제대로 방문을 하는지 살펴본다.
  3. bot이 방문을 못하게하는 noindex 문구가 있는지 확인한다.
  4. 문제가 없다면 crawling에 문제가 되는 무엇인가가 있는지 확인한다.

이러한 봇의 문제를 가볍게 생각하는 사람들이 많은데…

adsense와 같은 광고 기술도 bot이 들어와서 그 페이지의 상태를 읽어가고, 페이지 컨디션에 따라 더 좋은 광고를 보여주기도 하고 좋은 제안이 들어오기도 한다.

애드센스 뿐만 아니라 서치콘솔, ga4와 같은 데이터 프로그램도 bot이 들어와 정보를 가져가고 이 데이터를 기반으로 페이지에 표기를 해주는 것이다.

근데 봇이 막히면, 사이트에 내가 달은 JS나 프로그램이 제대로 가동을 못할 수도 있는것이다.

대부분의 문제는 이 봇이 어디선가 막혀서 못들어오는 경우가 많다.

예를 들어서 티스토리의 문제를 이야기하였을 때 가장 큰 문제가 사이트 크롤링 실패율이 가장 컸다.

출처 : 티스토리가 직면한 가장 큰 문제

위 문제는 아주 간단하다.

티스토리의 서버와 서치콘솔과의 연결 실패가 늘어난 그래프를 보여준것이다.

작년 이후에는 티스토리는 사용을 거의 하지 않는데, 자료가 있어서 이렇게 가져와봤다.

위와 같이 서버 실패가 높아진다는 것은 봇이 티스토리 페이지를 읽지 못하고 튕겼다는 것이고, 이렇게 자꾸 튕기게 되면 색인자체가 어렵게 될 수가 있다.

이 뿐만 아니라 다른 봇. 광고와 같은 봇도 이런식으로 튕기게 되면 반반의 확율로 좋지 않는 영향을 받을 수도 있다.

(반대로 티스토리 메인 광고 봇은 색인이 잘될테니 잘 못읽는 Sub 계정의 정보에서 메인 계정 정보 적용이 되면서 단가가 좋지 않았었나 라는 생각도 해본다.)

아무튼 티스토리 자체만 보았을 때 위와 같은 크롤링 실패를 하게되면 다른 방식으로 색인을 시켜야하기때문에 불리할 수 있다. (방법이 없는게 아니다. 귀찮을 뿐이지)

검색 엔진 색인(index)의 문제 해결을 위해서

색인 문제 해결을 위해서는 다른 것을 볼 필요가 없다.

봇 그리고 봇이 제대로 행위를 하는지 (Crawling:크롤링)만 보면 다음 단계로 넘어갈 수 있다.

그래서 구글의 SEO 가이드에 보면 봇과 크롤링이 SEO에 가장 먼저 나와있는것이다.

이 2개가 없이는 SEO라는 것이 되지 않기때문에

이 2개가 문제가 생겼을 때, 노출이 어렵기때문이다.

그래서 색인의 문제가 있다면, 봇과 크롤링이 제대로 작동하는지를 보고, 이 봇과 크롤링이 연관되어진 것들을 하나두개씩 찾아내면 높은 확율로 문제는 해결된다.

위 글 내용 중에 궁금한 내용이나 더 알고 싶은 내용은 문의해주세요. (인스타그램 또는 쓰레드에 DM이나 문의사항을 남겨주세요. 연세가 있으신 분들은 유선으로도 가능합니다.)

  • 이 블로그의 목적은 경쟁에서 이길 수 있는 정보를 공유하는 것입니다.
  • 반드시 최신 정보를 보세요. 기술이라는것은 몇개월만 지나도 안먹힐 수 있습니다. 그만큼 세상이 빠르게 변하고 있습니다.

SEO 최적화된 사이트 구조 설정을 원하신다면, 아래 문의 톡을 넣어주세요. 참고로 워드프레스일 경우에는 직접 설정이 가능하고, 제로보드나 그누보드일 경우에는 협의가 필요합니다. 아래 "제이키 문의 톡"으로 상담 요청해주세요.

소통창URL
제이키 문의 톡http://pf.kakao.com/_xgcqxjs/chat
쓰레드https://www.threads.net/@jaykee_lj
인스타그램https://www.instagram.com/jaykee_lj/
제이키 서비스 소개https://itgit.co.kr/2025servicejaykee/
SW 문의 톡http://pf.kakao.com/_xfERnG/chat
IT 문의 톡http://pf.kakao.com/_ClHxjG/chat

최신글

위 글은 Jaykee 본인의 생각과 AI로 정리된 글이 짬뽕되어있습니다. 참고로 위 글을 쓴 이유는 본질과 관련 내용의 문제점을 찾아내고 그 틈새를 파고들어 나에게 유리한 기회를 맞이하기위한 글이라고 생각해주세요.

세상은 그만큼 복잡해지고, 세밀해졌습니다. 자동화로 생각이라는 것을 점점 하기 싫어지는 세상입니다.

그만큼 현재 세상에 일어나는 일들이 왜, 어떻게, 무엇을 변화시키는지에 대해 유심히 살펴보고 "실행"하지 않는다면 기회는 나에게 다가오지 않을것입니다.