Cloudflare에서 획기적인 전환점이 도래했습니다: 인터넷 인프라의 거대 기업이 주요 AI 크롤러를 차단하여 온라인 콘텐츠를 보호합니다. 이 결정은 창작자, 기술 기업 및 소비자 간의 균형을 재정의하며, 웹상의 데이터 관리 및 보호를 혁신할 것을 약속합니다.
Summary
AI 크롤러와의 싸움: Cloudflare의 결정
Cloudflare는 7월 1일부터 주요 인공지능 기업들이 웹사이트에서 무단으로 데이터를 수집하는 것에 대한 공격을 시작했습니다. 회사에 따르면, AI 크롤러는 Cloudflare를 채택하는 모든 신규 사이트에서 기본적으로 차단되며, 소유자가 명시적으로 허가하지 않는 한 차단이 유지됩니다. 과거에는 사이트 관리자들이 자신의 데이터 수집에서 AI 봇을 적극적으로 제외해야 했습니다.
이 논리의 반전은 Cloudflare 고객이 차지하는 웹의 20% 이상을 보호하며, OpenAI의 GPTBot과 Anthropic의 ClaudeBot 같은 AI의 큰 이름들로부터 오는 자동화된 요청의 비정상적인 흐름으로 인한 지연 및 서비스 장애에 대한 증가하는 보고에 대응합니다.
AI 크롤러의 영향: 현상의 숫자
AI 크롤링 봇에 의해 생성된 트래픽의 양이 인상적인 수준에 도달했습니다. 예를 들어, GoogleBot은 클라우드 호스팅 서비스인 Vercel이 이러한 소프트웨어로부터 매달 45억 건 이상의 요청을 받는다고 감지했습니다. 일반적인 검색 엔진 크롤러와 달리, AI 봇은 서버에 대해 공격적인 처리를 하며, 몇 시간 내에 동일한 페이지를 여러 번 방문하거나 초당 수백 건의 요청으로 사이트를 폭격합니다.
결과는? 더 느린 사이트, 실제 사용자에 대한 접근성 문제, 그리고 규칙이나 보상 없이 콘텐츠가 실제로 “추출”되고 있다는 널리 퍼진 느낌입니다. The Associated Press에서 Condé Nast, Ziff Davis에 이르기까지 많은 출판사와 기업들이 AI의 대규모 무단 수집 관행을 빅 테크에 대해 비난했습니다.
콘텐츠를 보호하기 위한 새로운 규칙과 기술
Cloudflare의 조치는 단순한 금지에 그치지 않습니다. 회사는 소위 “shadow scrapers”, 즉 전통적인 차단을 우회하려는 위장된 봇을 찾아내기 위해 기계 학습과 행동 분석을 사용할 것이라고 발표했습니다. 이렇게 하면 선언된 크롤러뿐만 아니라 더 정교한 스크래핑 시도도 차단됩니다.
또한, AI 공급업체는 이제 데이터에 접근하기 전에 허가를 요청해야 하며, 알고리즘 훈련이나 단순 검색 기능을 위한 사용 목적을 명확히 밝혀야 합니다. Cloudflare는 이렇게 해서 퍼블리셔에게 자신의 정보와 상호작용할 수 있는 대상을 결정할 수 있는 권한을 되돌려줍니다.
주요 출판 그룹의 항의는 이 새로운 정책의 탄생을 촉진했습니다. 전통적인 robots.txt와 같은 현재의 배제 시스템은 종종 AI 봇에 의해 무시되며, 이들은 디지털 지적 재산권에 대한 존중 규범을 따르지 않고 웹을 “채굴”하는 경향이 있습니다.
Pay Per Crawl: 콘텐츠를 위한 새로운 경제 모델로
Cloudflare가 주도하는 혁신은 또 다른 새로운 기능을 도입합니다: Pay Per Crawl 프로그램. 이 시스템은 현재 비공개 베타 단계에 있으며, 출판사들이 AI 훈련 목적으로 그들의 콘텐츠를 사용하고자 하는 사람들에게 접근 가격을 설정할 수 있게 해줍니다. 접근은 지불이 이루어진 경우에만 허가되며, 그렇지 않으면 거부됩니다.
기술적 관점에서, Cloudflare는 비활성화된 크롤러에게 반환되는 HTTP 402 “Payment Required” 코드를 사용할 것입니다. 기존 웹 시스템과의 호환성 덕분에 이미 구현 준비가 된 잠재적으로 효과적인 솔루션입니다.
AI 세계의 반응과 규제 문제
Cloudflare의 결정은 지금까지 라이선스나 보상을 지불하는 것을 꺼려했던 AI 기업에 직접적인 영향을 미칩니다. Nicholas Thompson, The Atlantic의 CEO는 지금까지 기업들이 처벌 없이 행동할 수 있었던 반면, 이제는 협상하고 콘텐츠의 소유권을 인정해야 한다고 강조했습니다. 반면, Meta의 Nick Clegg와 같은 기술 분야의 일부 리더들은 엄격한 제약의 도입이 AI 분야의 성장과 혁신을 위험에 빠뜨릴 수 있다고 경고합니다.
논쟁은 규제 측면으로도 확장됩니다. Copyright Office의 보고서는 특정 생성 기술의 사용이 “변형적”일 수 있음을 인정했습니다. 그러나 동의 없이 대량 수집하는 것은 공정 사용으로 간주될 수 없습니다. 이 입장은 트럼프 행정부에 의해 지적 재산권 사무소 책임자의 즉각적인 교체를 포함하여 중대한 기관적 영향을 미쳤습니다.
온라인 콘텐츠 보호의 미래
Cloudflare의 이니셔티브는 온라인 콘텐츠를 생성하는 사람과 이를 활용하는 사람 간의 균형을 재조정합니다. 데이터 접근을 차단하고 수익화할 수 있는 가능성은 퍼블리셔에게 자신의 작품이 어디에서 어떻게 사용되는지에 대한 실질적인 권한을 제공합니다. 결과적으로, 많은 AI 기업들은 데이터 수집 전략과 프로세스를 재조정해야 하며, 출판계와의 더 큰 투명성과 협력을 추진하게 될 것입니다.
디지털 생태계가 이 패러다임의 변화에 적응함에 따라, 다른 주요 인프라 부문의 플레이어들도 Cloudflare의 예를 따를 가능성이 높습니다. 이렇게 하면 가치를 창출하는 사람들이 장려되고 보호받는 디지털 권리 방어의 새로운 시대가 촉발될 수 있습니다. Pay Per Crawl 모델의 채택 시기와 방식, 그리고 그것이 인공지능 개발에 미칠 영향에 대한 질문은 여전히 남아 있습니다.
계속 변화하는 환경에서 전략 anti-crawler AI의 발전을 모니터링하고 토론에 적극적으로 참여하는 것은 관련된 모든 현실에 필수적입니다. 무단 bot에 대한 전쟁은 웹을 집단적이고 지속 가능한 자산으로 가치 있게 만드는 새로운 시즌의 시작일 수 있습니다.