Meta meluncurkan AudioCraft, program berbasis teknologi kecerdasan buatan (AI) terbaru yang mampu menghasilkan audio dan musik dari teks.
“Bayangkan seorang musisi profesional dapat menjelajahi komposisi baru tanpa harus memainkan satu nada pun pada instrumen. Atau pemilik usaha kecil menambahkan soundtrack ke video iklan terbaru mereka di Instagram dengan mudah,” kata Meta dalam sebuah unggahan dilansir Antara pada Kamis (3/8/2023).
AudioCraft terdiri atas tiga model yaitu, MusicGen yang dapat membuat musik, AudioGen yang menghasilkan efek suara, dan EnCodec sebagai dekoder AI generatif.
Model MusicGen dilatih menggunakan 400 ribu rekaman musik bersama dengan teks deskripsi dan metadata.
Meta menyebutkan memiliki koleksi musik dengan total durasi 20 ribu jam yang dilisensikan khusus untuk melatih MusicGen.
“Dengan lebih banyak kontrol, kami rasa MusicGen dapat berubah menjadi jenis instrumen baru seperti synthesizer ketika pertama kali muncul,” kata Meta.
Untuk menggunakan MusicGen, pengguna hanya perlu memasukkan deskripsi tentang instrumen yang ingin dihasilkan.
Contohnya “instrumen jazz, tempo menengah, piano bersemangat” atau “musik elektronik 80-an dengan ketukan drum”.
Sedangkan AudioGen dilatih menggunakan efek suara yang umum digunakan dan mampu menghasilkan berbagai suara seperti gonggongan anjing, bunyi klakson mobil, atau suara langkah kaki di lantai kayu.
Meta juga menghadirkan versi terbaru EnCodec yang menghasilkan musik dengan kualitas tinggi menggunakan komponen yang lebih sedikit.
Meta meluncurkan AudioCraft sebagai model open-source agar dapat dimanfaatkan peneliti dan praktisi untuk melatih model mereka menggunakan dataset yang dimilikinya serta memajukan ranah pembuatan musik dan audio menggunakan AI.
Walau terlihat canggih, Meta mengakui kumpulan data yang digunakan untuk melatih model AudioCraft masih kurang beragam, khususnya pada kumpulan data musik.
Sebagian besar data yang digunakan untuk melatih MusicGen adalah musik bergaya barat. Selain itu, teks dan metadata yang digunakan terbatas hanya dalam bahasa Inggris.
“Dengan membagikan kode untuk AudioCraft, kami berharap peneliti lain dapat lebih mudah menguji pendekatan baru untuk membatasi atau menghilangkan potensi bias dan penyalahgunaan model generatif,” ujar perusahaan yang dipimpin Mark Zuckerberg itu.(ant/saf/rid)