Anthropic의 새로운 연구는 스마트 계약 보안을 위해 훈련된 현대 AI 도구가 탈중앙화 금융 애플리케이션 전반에 걸쳐 고가치 취약점을 체계적으로 발견할 수 있음을 강조합니다.
Summary
Anthropic 벤치마크, AI 에이전트가 DeFi 계약을 신뢰성 있게 악용할 수 있음을 보여줍니다
MATS 및 Anthropic Fellows와 협력하여, 회사는 SCONE-bench (Smart CONtracts Exploitation)에서 자율 AI 에이전트를 평가했습니다. 이 벤치마크는 2020년부터 2025년까지 성공적으로 해킹된 405개의 실제 스마트 계약으로 구성되어 있습니다. 데이터셋에는 온체인 익스플로잇이 문서화된 계약만 포함됩니다.
연구자들이 10개의 주요 모델을 통제된 환경에서 실행했을 때, AI 에이전트는 계약의 절반 이상을 악용할 수 있었습니다. 또한, 도난당한 자금의 시뮬레이션된 가치는 약 $550.1m에 달했으며, 이는 원칙적으로 유능한 AI 시스템이 취약한 DeFi 프로토콜에 대해 달성할 수 있는 피해 규모를 강조합니다.
모델이 단순히 훈련 데이터에서 과거 사건을 회상하는 가능성을 줄이기 위해, 팀은 단 34개의 계약으로 초점을 좁혔습니다. 그러나 이 계약들은 중요한 속성을 가지고 있었습니다: 각각은 평가된 시스템의 최신 지식 컷오프 날짜인 2025년 3월 1일 이후에만 악용되었습니다.
Opus 4.5와 GPT-5, 새로운 익스플로잇 가치에서 수백만 달러 발견
이 더 깨끗한 포스트 컷오프 세트에서, Claude Opus 4.5, Claude Sonnet 4.5 및 GPT-5는 여전히 19개의 계약에서 작동하는 익스플로잇을 생성했습니다. 이러한 공격의 결합된 시뮬레이션된 가치는 $4.6m에 달했으며, 이는 에이전트가 알려진 전략을 반복하는 것이 아니라 실행 가능한 전략을 발견하고 있음을 시사합니다.
놀랍게도, Opus 4.5는 그 총액 중 약 $4.5m를 차지했습니다. 그러나 결과는 모델에 따라 크게 달랐으며, 점진적인 능력 향상이 적대적 환경에서 더 높은 익스플로잇 수익으로 직접 변환될 수 있음을 강조합니다.
Anthropic은 이러한 AI 시스템이 생산 스타일 코드에서 완전히 새로운 약점을 드러낼 수 있는지 물었습니다. 2025년 10월 3일, 연구자들은 Sonnet 4.5와 GPT-5를 시뮬레이션에서 다시 실행하여, 테스트 당시 알려진 취약점이 없는 2,849개의 최근 배포된 Binance Smart Chain 계약을 대상으로 했습니다.
Binance Smart Chain 계약에서 제로데이 버그 발견
이 대규모 신규 계약 세트에서, 두 에이전트는 독립적으로 두 개의 이전에 알려지지 않은 제로데이 버그를 발견하고 해당 공격 전략을 생성했습니다. 또한, 이러한 공격의 시뮬레이션된 수익은 $3,694에 달했으며, 이는 새로운 배포조차도 자동화된 익스플로잇의 실행 가능한 대상이 될 수 있음을 보여줍니다.
실행의 경제성도 드러났습니다. GPT-5는 약 $3,476의 추정 API 비용으로 결과를 달성했습니다. 이 비용 프로파일은 검색 공간을 좁히고 추론을 개선하는 것이 이미 대규모로 더 효율적인 ai 생성 익스플로잇으로 균형을 기울일 수 있음을 보여줍니다.
중요하게도, 모든 테스트는 라이브 네트워크가 아닌 포크된 블록체인과 로컬 시뮬레이터에서 수행되었으며, 실제 자금은 건드리지 않았습니다. Anthropic은 목표가 안전한 조건에서 오늘날 기술적으로 가능한 것을 측정하는 것이지, 생산 DeFi 시스템에 간섭하거나 인지하지 못한 프로토콜을 스트레스 테스트하는 것이 아님을 강조합니다.
SCONE-bench가 달러 단위로 익스플로잇 파워를 측정하는 방법
스마트 계약은 실제 금융 가치를 보유하고 온체인에서 결정론적으로 실행되기 때문에 자연스러운 테스트 베드입니다. 계약이 잘못 작동할 때, 공격자는 종종 자산을 직접 인출할 수 있습니다. 또한, 연구자들은 정확한 공격 경로를 재생하고 도난당한 토큰을 역사적 가격을 사용하여 달러로 변환할 수 있습니다.
이 구조는 SCONE-bench가 결과를 구체적인 용어로 정량화할 수 있게 합니다. 벤치마크는 단순한 예/아니오 지표가 아닌 달러 가치로 성공을 평가합니다. 에이전트는 계약 코드, 배포 컨텍스트 및 대화형 도구가 있는 샌드박스에 배치된 후, 버그를 식별하고 익스플로잇을 구현하며 이를 끝까지 실행하는 임무를 맡습니다.
실행은 에이전트가 최소 0.1 ETH 또는 0.1 BNB 이상을 잔액에 추가할 때만 계산됩니다. 그러나 이 임계값은 의도적입니다: 이는 사소한 결함이나 실행 불가능한 경계 사례를 걸러내어 측정된 결과가 의미 있는 공격에 해당하도록 합니다.
토큰 및 컴퓨팅 비용이 하락함에 따라 공격 경제성 개선
지난 1년 동안, Anthropic은 2025년 문제 하위 집합에서 잠재적인 익스플로잇 수익이 약 1.3개월마다 두 배로 증가했다고 관찰했습니다. 동시에, 작동하는 익스플로잇을 생성하는 토큰 비용은 새로운 모델 세대가 도입되고 정제됨에 따라 급격히 감소했습니다.
실제로, 이 추세는 모델이 개선됨에 따라 공격자가 동일한 컴퓨팅 예산으로 더 많은 작동하는 익스플로잇을 얻을 수 있음을 의미합니다. 게다가, 쿼리 가격이나 계산 오버헤드가 더 감소함에 따라, 계약 익스플로잇 경제성은 자원이 풍부한 적대자나 자동화된 공격 에이전트에게 더욱 유리해질 수 있습니다.
작업이 DeFi 프로토콜에 중점을 두고 있지만, Anthropic은 기본 기능이 대부분 도메인에 구애받지 않는다고 주장합니다. 상태 전환을 분석하고, 경계 사례에 대해 추론하며, 다단계 익스플로잇을 연결하는 데 필요한 기술은 노출된 공공 API에서부터 적대적인 기계 추론을 염두에 두고 설계되지 않은 내부 서비스에 이르기까지 전통적인 소프트웨어 대상에 전이될 수 있습니다.
DeFi에서 공격자이자 수비자로서의 AI
회사의 핵심 메시지는 암호화폐 개발자 및 프로토콜 팀에게 명시적으로 이중 용도입니다. defi 스마트 계약 익스플로잇을 탐색할 수 있는 동일한 AI 시스템은 감사자 및 보안 엔지니어가 책임감 있게 사용할 때 코드베이스를 강화할 수도 있습니다.
그러나 Anthropic은 빌더들이 공격자의 정신 모델을 업데이트해야 한다고 강조합니다. 스마트 계약 행동에 대해 자율적으로 추론하고, 페이로드를 구성하며, 피드백에 적응할 수 있는 시스템은 효과적인 스마트 계약 보안 및 운영 방어 관행의 기준을 높입니다.
앞으로, 연구자들은 감사 및 모니터링을 위한 자율 에이전트의 적극적인 사용이 표준 방어 계층이 될 수 있다고 제안합니다. 팀이 강력한 모델로 시뮬레이션에서 계약을 지속적으로 테스트하면, 동일한 기술을 사용하는 악의적인 행위자가 발견하기 전에 중요한 취약점을 잡을 수 있을 것입니다.
요약하자면, Anthropic은 고급 AI가 이미 대규모로 실제 스마트 계약 결함을 식별하고 악용할 수 있음을 보여주며, DeFi 빌더가 자본을 배치하기 전에 위험을 줄이는 데 도움이 되는 보다 엄격한 자동화된 감사를 제공하는 경로를 제공합니다.
주요 키워드: 스마트 계약 보안

