서버 다운이 되는 또 하나의 원인, AI 크롤러

AI 크롤러가 사이트 운영자들한테 완전 골칫거리가 되고 있어. 먼저 AI 크롤러가 뭐내고?

  • AI 크롤러 : 웹사이트를 돌아다니면서 데이터를 긁어모아 AI 모델을 훈련시키는 봇이야.

검색 엔진 크롤러(예: 구글봇)랑 비슷해 보이지만, 행동 패턴이 훨씬 더 공격적이고 목적이 달라.

검색 엔진은 사이트를 인덱싱해서 검색 결과에 띄우는 게 목표라면, AI 크롤러는 데이터를 수집해서 AI 학습에 써먹는 게 목적이야.

왜 문제가 되냐고?

1. 리소스 고갈 (서버 터질 지경이야)

이 놈들이 웹사이트를 쑥대밭으로 만들어버려. (진짜 욕하고 싶어!)

예를 들어, OpenAI의 GPTBot이 한 달에 5억 6,900만 번 요청을 날렸다고 쿼리에 나와 있잖아.

이게 어느 정도냐면, 구글 검색 크롤러 트래픽의 20% 수준이야.

엄청난 트래픽이지. 사이트 대역폭을 갉아먹고 서버에 부담을 줘서 느려지거나 다운되는 경우도 생겨.

거의 뭐 작은 DDOS 급이야!

  • 호스팅 서비스가 AI 크롤러 차단했더니 트래픽이 75% 줄고, 대역폭 비용이 월 1,500달러 절감됐다고 해.
  • 이건 돈으로 환산해도 엄청난 손해를 끼친다는 뜻이야.
  • 서버 비용이 그냥 날아가는 거지.

2. 분석 데이터 왜곡

사이트 운영자들은 사용자 행동을 분석해서 사이트를 개선하거나 광고 전략을 세우는데, AI 크롤러 트래픽이 사용자 트래픽으로 오해받으면 이 데이터가 뒤죽박죽 돼.

DoubleVerify 보고서 보니까, AI 크롤러 때문에 무효 트래픽(GIVT)이 86%나 늘었다고 하잖아.

광고주 입장에서는 광고비를 낭비하는 셈이고, 운영자는 실제 유저가 뭘 원하는지 파악할 수가 없어.

  • Read the Docs라는 프로젝트는 AI 크롤러 차단했더니 트래픽이 하루 800GB에서 200GB로 뚝 떨어졌대.
  • 이건 분석 데이터가 얼마나 왜곡됐었는지 보여주는 거야.

3. 공격적인 행동

검색 엔진 크롤러는 예측 가능한 패턴으로 움직이는데, AI 크롤러는 달라.

같은 페이지를 반복해서 긁거나, 사이트의 모든 페이지를 깊이 파고들어.

디아스포라 소셜 네트워크 유지보수하는 데니스 슈버트 말대로, “6시간마다 돌아온다”면서 왜 이러는지 모르겠다고 한탄했잖아.

SourceHut 설립자 Drew DeVault도 크롤러가 “모든 git 로그와 커밋을 다 뒤진다고” 했고. 이건 리소스 소모가 배로 늘어나는 거야.

진짜 문제가 뭔지 알아?

1. 막을 방법이 마땅치 않아

이 새끼들, 차단하기가 존나 어렵다.

사용자 에이전트를 바꾸거나 주거용 IP를 프록시로 써서 기존 차단 방법을 다 피해버려.

Xe Iaso라는 개발자가 “AI 크롤러 차단은 무의미하다”고 한 것도 이 때문이야.

기술이 발전하면서 차단이 점점 더 힘들어지고 있어. 운영자 입장에서는 속수무책인 상황이지.

클라우드플레어로도 솔직히 힘들어.

그래서 개인적으로 다른 방법으로 하고있는데 얼마나 버틸지~ㅠㅠ

2. 내 콘텐츠가 멋대로 쓰여

AI 크롤러가 긁어간 데이터로 AI 모델을 훈련시키는데, 사이트 운영자가 원치 않아도 콘텐츠가 사용될 수 있어.

Google-Extended 같은 도구로 구글 AI 훈련에 데이터 안 쓰이게 막을 수는 있지만, 모든 크롤러에 적용되는 것도 아니고, 이건 그냥 콘텐츠 통제권을 뺏기는 거나 다름없어.

3. 크롤러만 배불려

AI 회사들은 이 데이터를 써서 돈 벌고 모델을 똑똑하게 만들지만, 사이트 운영자는 서버 비용만 늘고 분석도 망가져서 손해만 봐.

이건 공정하지 않잖아.

SourceHut처럼 비용 절감 사례는 차단에 성공한 극히 일부일 뿐이고, 대부분은 그냥 당하고만 있는 실정이지.

결과적으로

AI 크롤러는 사이트 리소스를 갉아먹고, 분석 데이터를 엉망으로 만들고, 콘텐츠를 멋대로 써버리는 골칫덩이야.

본질적인 문제는 통제 불가능함과 이익 불균형에 있어.

운영자 입장에서는 서버 터지고 돈 날아가는 걸 막으려 발버둥 치고 있지만, 현실적으로 완벽한 대책이 없다는 게 제일 빡치는 부분이야.

이건 앞으로도 계속 싸워야 할 문제고, AI 회사들이 좀 더 책임감 있게 나서지 않으면 상황은 더 나빠질 거야.

일단 나도 현재 WAF로 이 부분을 해결하고 있지만 얼마나 버틸지 알수가 없어. ㅠㅠ

관련 기사 : https://www.searchenginejournal.com/ai-crawlers-draining-site-resources/543011/

위 글 내용 중에 궁금한 내용이나 더 알고 싶은 내용은 문의해주세요. (인스타그램 또는 쓰레드에 DM이나 문의사항을 남겨주세요. 연세가 있으신 분들은 유선으로도 가능합니다.)

  • 이 블로그의 목적은 경쟁에서 이길 수 있는 정보를 공유하는 것입니다.
  • 반드시 최신 정보를 보세요. 기술이라는것은 몇개월만 지나도 안먹힐 수 있습니다. 그만큼 세상이 빠르게 변하고 있습니다.

SEO 최적화된 사이트 구조 설정을 원하신다면, 아래 문의 톡을 넣어주세요. 참고로 워드프레스일 경우에는 직접 설정이 가능하고, 제로보드나 그누보드일 경우에는 협의가 필요합니다. 아래 "제이키 문의 톡"으로 상담 요청해주세요.

소통창URL
제이키 문의 톡http://pf.kakao.com/_xgcqxjs/chat
쓰레드https://www.threads.net/@jaykee_lj
인스타그램https://www.instagram.com/jaykee_lj/
제이키 서비스 소개https://itgit.co.kr/2025servicejaykee/
SW 문의 톡http://pf.kakao.com/_xfERnG/chat
IT 문의 톡http://pf.kakao.com/_ClHxjG/chat

최신글

위 글은 Jaykee 본인의 생각과 AI로 정리된 글이 짬뽕되어있습니다. 참고로 위 글을 쓴 이유는 본질과 관련 내용의 문제점을 찾아내고 그 틈새를 파고들어 나에게 유리한 기회를 맞이하기위한 글이라고 생각해주세요.

세상은 그만큼 복잡해지고, 세밀해졌습니다. 자동화로 생각이라는 것을 점점 하기 싫어지는 세상입니다.

그만큼 현재 세상에 일어나는 일들이 왜, 어떻게, 무엇을 변화시키는지에 대해 유심히 살펴보고 "실행"하지 않는다면 기회는 나에게 다가오지 않을것입니다.