Model LLM Siap Pakai Sebagai Penilai Proses untuk Penalaran Matematis

Akamugamin

2 days ago

Daily Akamuga – Dalam dunia pemrosesan bahasa alami, pemilihan jawaban terbaik dari beberapa sampel model kecil menggunakan penilai yang lebih kuat selama inferensi kadang kala tidak cukup efisien. Hal ini terutama terjadi ketika model kecil telah terjebak pada jalur penalaran yang salah. Penelitian terbaru memperkenalkan pendekatan yang inovatif dengan mengadopsi metode “Chunk-Level Guided Generation,” yang menawarkan alternatif tanpa pelatihan untuk meningkatkan akurasi pemilihan jawaban.

Table of Contents

Toggle

Pendahuluan Metode Baru

Chunk-Level Guided Generation menggunakan model bahasa besar yang sudah ada untuk menilai kualitas dari potongan teks yang dihasilkan oleh model kecil. Pada setiap langkah, model kecil memilih sejumlah kandidat potongan teks dengan panjang tetap, sementara model besar melakukan penilaian terhadap kandidat tersebut berdasarkan probabilitas tanpa perlu menghasilkan teks baru. Proses ini menghilangkan ancaman kesalahan yang bisa menyebar dari langkah sebelumnya dalam proses generasi.

Proses dan Pemilihan

Di dalam penelitian ini, dua aturan seleksi diterapkan: Likelihood-Guided Selection (LGS) dan Contrastive-Guided Selection (CGS). LGS memilih potongan teks berdasarkan probabilitas log yang dinormalisasi sesuai panjang dari model besar, sedangkan CGS mengurangi probabilitas log dari model kecil untuk lebih menekankan pada potongan yang disukai oleh model besar namun tidak oleh model kecil. Metode ini menunjukkan bahwa penilaian langkah penalaran yang bervariasi menggunakan probabilitas model besar sering kali tidak dapat diandalkan karena adanya bias sistematis terhadap panjang yang tetap.

Dampak Penelitian

Metode ini telah diuji pada berbagai benchmark, seperti GSM8K, MATH, dan Minerva Math. Pengujian dengan menggunakan model Qwen2.5 yang dipandu oleh model Qwen2.5-32B menunjukkan bahwa CGS mampu mengungguli hasil suara mayoritas hingga 28 poin persentase. Dalam kondisi anggaran panduan yang setara, metode ini juga berhasil menyamai atau bahkan melampaui keberhasilan pencarian terarah pada berbagai pengujian yang dilakukan.

Kelebihan dan Efisiensi

Penggunaan teknis chunk tetap dalam proses generasi tidak hanya meningkatkan akurasi tetapi juga menghasilkan jejak penalaran yang jauh lebih singkat dibandingkan dengan metode pencarian terarah sebelumnya. Hal ini menjadi penting, mengingat dalam aplikasi dunia nyata di mana efisiensi dan kecepatan sangat dibutuhkan. Dengan model Qwen2.5-7B yang dipandu oleh model Qwen2.5-72B, CGS mencapai akurasi 81.8% pada MATH dan 63.6% pada Minerva Math dengan k=16, menandakan kemajuan signifikan dibandingkan suara mayoritas.

Kesimpulan

Penelitian ini menunjukkan potensi besar dari metode Chunk-Level Guided Generation dalam meningkatkan performa model pemrosesan bahasa alami tanpa perlu pelatihan tambahan. Dengan memanfaatkan model besar untuk penilaian potongan, proses generasi dapat dioptimalkan, mengurangi risiko kesalahan yang mungkin terjadi saat penalaran. Inovasi ini memberikan harapan baru dalam pengembangan teknologi bahasa yang lebih efisien dan akurat.