Microsoft AI Luncurkan MAI-Transcribe-1.5, Transkripsi Lebih Cepat dan Akurat

Daily Akamuga – Microsoft baru saja mengumumkan peluncuran MAI-Transcribe-1.5, generasi kedua dari keluarga model pengenalan suara (speech-to-text) yang dikembangkan secara internal. Model ini menyasar akurasi tinggi dan dapat menangani 43 bahasa serta dialek, bahkan dalam lingkungan yang bising. Pengenalan model ini bertujuan untuk meningkatkan kapasitas transkripsi di berbagai bidang, termasuk konten media, analisis percakapan, dan alat kolaborasi.

Apa itu MAI-Transcribe-1.5?

MAI-Transcribe-1.5 adalah model pengenalan ucapan otomatis (ASR) yang dirancang untuk mengonversi input audio menjadi teks. Berbeda dengan model sebelumnya, MAI-Transcribe-1.5 dibangun secara independen oleh Microsoft, tanpa mengandalkan pihak ketiga. Model ini mampu menangani ratusan kombinasi bahasa sambil mempertimbangkan berbagai aksen dan kondisi akustik di dunia nyata.

Model ini akan diintegrasikan ke dalam berbagai platform Microsoft, seperti Copilot, Teams, GitHub, dan Dynamics 365 Contact Centre, serta tersedia di Foundry, platform model perusahaan Microsoft.

Akurasi dan Kinerja MAI-Transcribe-1.5

Akurasi MAI-Transcribe-1.5 diukur berdasarkan tingkat kesalahan kata (Word Error Rate/WER), di mana semakin rendah nilainya menunjukkan semakin sedikit kesalahan dalam transkripsi. Berdasarkan laporan Microsoft, model ini telah menunjukkan akurasi terbaik di 43 bahasa menurut standar multibahasa FLEURS. Di papan peringkat Analisis Buatan, skor WER model ini adalah 2.4%, yang menempatkannya di peringkat ketiga dalam benchmark terbuka.

Perluasan dalam hal bahasa juga menjadi salah satu cerita keberhasilan MAI-Transcribe-1.5. Model ini telah memperluas cakupan bahasa dari 25 ke 43, dengan penambahan 18 bahasa baru tanpa mengorbankan akurasi. Sebanyak 10 bahasa baru adalah bahasa Asia Selatan, termasuk Bengali dan Tamil, sementara 8 lainnya adalah bahasa Eropa.

Kecepatan Transkripsi

Salah satu fitur menonjol dari MAI-Transcribe-1.5 adalah kecepatan transkripsinya. Model ini dapat beroperasi hingga lima kali lebih cepat dibandingkan dengan model lain yang memiliki akurasi setara, terutama saat menangani file audio berdurasi panjang. Sebagai contoh, MAI-Transcribe-1.5 dapat mentranskripsi satu jam audio dalam waktu kurang dari 15 detik.

Microsoft mengklaim bahwa model ini menawarkan kecepatan eksekusi yang lebih baik dibandingkan dengan Gemini 3.1, Scribe v2, dan GPT-4o-Transcribe, terutama saat memproses arsip besar di dalam pipeline batch.

Fitur Penyesuaian Kata Kunci

Fitur lain yang menjadi perhatian adalah penyesuaian kata kunci atau biasing entitas. Dalam banyak kasus, transcriber umum sering kali mengalami kesulitan dalam mengenali istilah khusus, seperti nama orang dan istilah medis. MAI-Transcribe-1.5 memungkinkan pengguna untuk menyediakan daftar kata kunci spesifik domain hingga 200 kata. Model ini akan menyesuaikan prediksinya berdasarkan daftar tersebut dan menggunakan konteks bersama untuk memutuskan kapan biasing seharusnya diterapkan. Microsoft melaporkan adanya pengurangan hingga 30% dalam WER ketika biasing ini diaplikasikan.

Contoh Kasus Penggunaan

Model ini telah dirancang dengan berbagai skenario produksi yang nyata. Beberapa penggunaannya meliputi:

– Penyajian caption video untuk platform media.
– Alat aksesibilitas yang memerlukan caption yang akurat.
– Transkripsi pertemuan untuk alat kolaborasi seperti Teams.
– Analisis panggilan untuk pusat dukungan dan analitik.
– Alur kerja pembuatan konten yang membutuhkan transkripsi cepat.
– Agen suara yang mengonversi ucapan menjadi teks sebelum diterapkan analisis.

Selain itu, model ini juga dilengkapi dengan kemampuan identifikasi bahasa otomatis, yang memungkinkan pengenalan bahasa tanpa pengaturan manual.

Perbandingan MAI-Transcribe-1.5 dan MAI-Transcribe-1

Perbandingan antara kedua generasi model menunjukkan peningkatan signifikan. MAI-Transcribe-1.5 mampu mendukung 43 bahasa dibandingkan dengan 25 pada versi sebelumnya. Selain itu, fitur seperti penyesuaian kata kunci dan kecepatan transkripsi yang jauh lebih tinggi menjadikan versi terbaru ini lebih unggul.

Kekuatan dan Keterbatasan

Kekuatan:
– Cakupan 43 bahasa dari satu model, meningkat dari 25.
– Penyesuaian kata kunci menghasilkan pengurangan WER hingga 30%.
– Waktu transkripsi kurang dari 15 detik untuk satu jam audio.
– Tersedia secara umum melalui Azure AI Foundry.
– Kinerja yang kuat di kondisi audio bising.

Keterbatasan:
– Saat ini tidak ada diarization, sehingga label pembicara tidak tersedia.
– Tidak ada API streaming bawaan, membatasi penggunaan secara waktu nyata.
– Beberapa klaim terkait akurasi dan biaya merupakan data dari pihak pertama.
– Peringkat ketiga di papan peringkat Analisis Buatan, tertinggal dari dua pesaing lainnya.

Kesimpulan

MAI-Transcribe-1.5 dari Microsoft menawarkan solusi pengenalan suara yang lebih canggih, terutama dalam hal akurasi dan kecepatan. Melalui serangkaian peningkatan dan fitur baru, model ini bertujuan untuk memenuhi kebutuhan business dan enterprise di era digital. Dengan integrasi ke dalam berbagai platform Microsoft, keberadaan MAI-Transcribe-1.5 diharapkan dapat membawa dampak signifikan, baik dalam efisiensi kerja maupun aksesibilitas informasi.