ASIAWORLDVIEW – OpenAI telah memperkenalkan tolok ukur keamanan kontrak pintar baru seiring dengan peningkatan kemampuan pemrograman agen Artificial Intelligence di sektor kripto. Bersama Paradigm, tolok ukur yang disebut EVMbench ini menguji bagaimana sistem AI mendeteksi, memperbaiki, dan memanipulasi celah keamanan serius pada kontrak Ethereum.
Dalam pengumumannya, OpenAI mengatakan EVMbench mengacu pada 120 kelemahan yang dikurasi, dikumpulkan dari 40 audit kontrak cerdas profesional. Sebagian besar masalah berasal dari kompetisi audit terbuka, termasuk Code4rena.
OpenAI juga menyebutkan bahwa standar ini mencakup skenario kelemahan yang terkait dengan pekerjaan audit keamanan untuk blockchain Tempo. Upaya ini merespons risiko keuangan yang semakin meningkat, mengingat kontrak pintar secara rutin melindungi aset kripto sumber terbuka senilai lebih dari USD100 miliar.
Tempo digambarkan sebagai jaringan Layer-1 yang dirancang khusus untuk pembayaran stablecoin berkapasitas tinggi dan biaya rendah. Karena itu, skenario ini memperluas benchmark ke kode kontrak yang berfokus pada pembayaran. Perusahaan juga mengatakan bahwa mereka memperkirakan aktivitas pembayaran stablecoin berbasis agen akan meningkat.
Baca Juga: Ethereum Menjadikan Luka Lama The DAO, Sumber Perlindungan Masa Depan
Untuk membangun lingkungan benchmark, OpenAI mengatakan telah menyesuaikan tes proof-of-concept eksploitasi dan skrip deployment yang sudah ada jika tersedia. Namun, insinyur secara manual menulis komponen yang hilang jika tidak ada skrip. OpenAI menambahkan bahwa mereka memastikan tugas patch tetap dapat dieksploitasi sambil tetap dapat diperbaiki tanpa merusak kompilasi.
OpenAI mengatakan EVMbench mengevaluasi agen kecerdasan buatan dalam tiga mode. Yaitu deteksi, perbaikan, dan eksploitasi. Dalam mode deteksi, agen mengaudit repositori kontrak pintar dan diberi skor berdasarkan kemampuan mendeteksi kerentanan yang dikonfirmasi dan hadiah audit. Dalam mode perbaikan, agen harus memodifikasi kontrak yang rentan sambil menjaga fungsi yang dimaksud tetap utuh.
Mode eksploitasi berfokus pada serangan pengurasan dana end-to-end penuh dalam lingkungan blockchain sandbox. Perlu dicatat, tugas eksploitasi dijalankan dalam lingkungan Anvil lokal yang terisolasi, bukan di jaringan kripto langsung.
Pihaknya juga mengatakan kerentanan yang digunakan dalam benchmark bersifat historis dan terdokumentasi secara publik. OpenAI menambahkan bahwa harness membatasi metode RPC yang tidak aman untuk mencegah penyalahgunaan.
Dalam pengujian eksploitasi, OpenAI menyatakan bahwa GPT-5.3-Codex yang dijalankan melalui Codex CLI memperoleh skor 72,2%. Namun, model GPT-5 yang lebih awal memperoleh skor 31,9%, meskipun dirilis lebih dari enam bulan sebelumnya. OpenAI juga mencatat bahwa deteksi recall dan keberhasilan patch masih di bawah cakupan penuh.
