Daily Akamuga – Dalam dunia ilmu data yang semakin kompleks, pemanfaatan agen berbasis model bahasa besar (LLM) untuk mengotomatisasi berbagai tugas menjadi semakin penting. Namun, tantangan utama yang dihadapi adalah sifat masalah ilmu data di dunia nyata yang tidak terstandarisasi dan dapat bervariasi secara luas. Dalam konteks ini, DSAEval muncul sebagai referensi baru untuk menilai performa berbagai agen data science, dengan memanfaatkan 641 masalah nyata yang berkaitan dengan 285 dataset beragam.
Penggunaan DSAEval dalam Evaluasi Agen Data Science
DSAEval merupakan sebuah benchmark yang dirancang untuk menilai kemampuan agen data science dalam menangani berbagai tugas yang meliputi analisis data hingga pembelajaran mendalam. Benchmark ini mengedepankan tiga fitur unik, yaitu: Penginderaan Lingkungan Multimodal, Interaksi Multi-Tanya, dan Evaluasi Multi-Dimensi. Dengan Penginderaan Lingkungan Multimodal, agen dapat memahami informasi dari berbagai sumber, termasuk teks dan gambar. Interaksi Multi-Tanya mencerminkan sifat proyek data science dunia nyata yang iteratif dan kumulatif, sementara Evaluasi Multi-Dimensi memberikan penilaian menyeluruh pada aspek logika, kode, dan hasil.
Deskripsi Fitur Utama DSAEval
Fitur pertama, Penginderaan Lingkungan Multimodal, bertujuan untuk meningkatkan kemampuan agen dalam menginterpretasikan data yang datang dari berbagai jenis, baik terstruktur maupun tidak terstruktur. Hal ini sangat penting mengingat banyak data di dunia nyata, seperti gambar dan teks, dapat memberikan konteks tambahan yang diperlukan dalam pengambilan keputusan.
Fitur kedua, Interaksi Multi-Tanya, memungkinkan pengguna untuk berinteraksi secara bertahap dengan agen, mirip dengan cara manusia melakukan eksplorasi terhadap masalah. Keberadaan fitur ini membantu dalam mencerminkan dinamika proyek data science yang kompleks dan multifaset.
Terakhir, Evaluasi Multi-Dimensi menawarkan cara untuk menilai kinerja agen secara menyeluruh. Dengan pendekatan ini, evaluasi tidak hanya terfokus pada hasil akhir, tetapi juga mencakup proses berpikir dan pengkodean yang dilakukan agen.
Hasil Evaluasi Berdasarkan DSAEval
Dalam evaluasi yang dilakukan, ditemukan bahwa Claude-Sonnet-4.5 menunjukan performa terbaik secara keseluruhan. Sementara itu, MiMo-V2-Pro dan GPT-5.2 mengungguli dalam hal efisiensi waktu dan langkah, masing-masing. MiMo-V2-Flash juga menonjol sebagai agen yang paling cost-effective.
Berdasarkan hasil yang diperoleh, terlihat bahwa persepsi multimodal secara konsisten memberikan peningkatan kinerja pada tugas-tugas yang berkaitan dengan visi. Kenaikan performa dalam kategori ini berkisar antara 2.04% hingga 11.30%. Namun, meskipun banyak agen berhasil dengan baik dalam data terstruktur dan alur kerja analisis data rutin, masih ada tantangan yang signifikan dalam domain data tidak terstruktur.
Dampak DSAEval pada Penelitian Masa Depan
Perkembangan ini menjadi perhatian penting bagi para peneliti dan praktisi di lapangan, karena memberikan wawasan yang lebih jelas mengenai potensi dan keterbatasan agen berbasis model bahasa dalam konteks ilmu data. DSAEval tidak hanya menambah peta evaluasi yang ada, tetapi juga mendorong penelitian lebih lanjut untuk mengatasi masalah yang ada.
Kesimpulan
DSAEval menandai langkah maju dalam evaluasi agen data science, menyediakan rangkaian masalah dunia nyata yang komprehensif untuk dipecahkan. Dengan fitur-fitur inovatif yang dimiliki, DSAEval membantu memastikan bahwa agen yang dikembangkan tidak hanya efektif dalam analisis data, tetapi juga mampu beradaptasi dengan kompleksitas yang ditemukan dalam konteks dunia nyata. Perkembangan ini diharapkan dapat memfasilitasi pembelajaran dan penemuan lebih lanjut dalam bidang ilmu data, membuka jalan bagi solusi yang lebih kuat dan adaptif ke depannya.