Veo 3.1 Google: Lompatan Kuantum dalam Sintesis Video yang Menantang Batasan Realitas Digital

Diedit oleh: gaya ❤️ one

Peluncuran model generasi video bertenaga kecerdasan buatan (AI) terbaru dari Google, Veo 3.1, pada tanggal 15 Oktober 2025, menandai sebuah titik pencapaian signifikan dalam lanskap kreasi digital. Model canggih ini dirancang untuk menghasilkan rekaman visual berdefinisi tinggi dari input teks dan visual, dengan kemampuan menyinkronkan secara mulus elemen audio, dialog, dan efek suara yang kompleks. Peningkatan ini mencakup produksi audio asli yang lebih kaya, pemahaman yang lebih baik tentang gaya sinematik, dan kontrol naratif yang lebih besar.

Kemajuan ini segera diuji oleh komunitas daring melalui sebuah tantangan ikonik: simulasi aktor peraih Oscar, Will Smith, sedang menyantap spageti. Skenario 'Will Smith makan spageti' ini, yang pada tahun 2023 menyoroti keterbatasan parah dalam ekspresi wajah dan gerakan AI—menghasilkan visual yang sering digambarkan sebagai 'mimpi buruk' atau 'menyeramkan'—kini berhasil diatasi oleh Veo 3.1. Model baru ini mampu mereplikasi detail halus seperti perubahan ekspresi wajah dan bahkan suara kunyahan yang menyertainya, menunjukkan lompatan besar dalam pemahaman nuansa interaksi manusia. Perjalanan dari video AI awal yang sering kali menampilkan distorsi mengerikan pada tahun 2023 hingga hasil Veo 3.1 yang sangat meyakinkan dalam waktu kurang dari dua tahun menunjukkan percepatan evolusi teknologi. Meskipun demikian, beberapa pengamat mencatat bahwa elemen efek suara yang dihasilkan masih terasa sedikit artifisial, seperti adanya suara 'kriuk' yang tidak biasa saat adegan makan spageti tersebut.

Veo 3.1, yang juga tersedia dalam versi Veo 3.1 Fast, membawa peningkatan signifikan pada kepatuhan terhadap perintah (prompt adherence) dan kemampuan menghasilkan video dari gambar. Pengguna kini dapat memandu proses generasi dengan menyediakan hingga tiga gambar referensi untuk menjaga konsistensi karakter atau menerapkan gaya tertentu. Selain itu, fitur 'Scene extension' memungkinkan pengguna membuat video AI yang lebih panjang dari satu menit, dan pengguna bahkan dapat menentukan bingkai pertama dan terakhir untuk memandu AI dalam menyambungkan adegan.

Sebagai respons terhadap potensi penyalahgunaan dan tantangan etika seputar kreasi digital yang semakin sulit dibedakan dari kenyataan, Google mengambil langkah proaktif. Mereka mengintegrasikan penandaan digital tak terlihat melalui teknologi SynthID, yang secara halus menyematkan tanda air ke dalam setiap bingkai video yang dihasilkan oleh Veo. Teknologi SynthID, yang dikembangkan oleh Google DeepMind, berfungsi menyisipkan penanda yang tidak dapat dilihat oleh mata manusia namun dapat dideteksi oleh sistem mereka, bahkan setelah konten mengalami modifikasi seperti pemotongan atau kompresi. Selain itu, konten yang dibuat oleh model ini akan diberi label eksplisit 'Veo' untuk memastikan transparansi. Penerapan penandaan ini merupakan upaya untuk menumbuhkan kepercayaan dalam ekosistem AI yang berkembang pesat.

Penyebaran dan Ketersediaan

Model Veo 3.1 dan Veo 3.1 Fast saat ini tersedia dalam pratinjau berbayar melalui Gemini API, serta di aplikasi Gemini dan Flow. Model ini dibangun di atas Veo 3 yang diluncurkan pada Google I/O 2025. Meskipun kemajuan ini membuka cakrawala baru bagi produksi multimedia yang realistis, hal ini juga memperkuat refleksi kolektif mengenai batas antara representasi dan realitas itu sendiri, mendorong setiap individu untuk lebih waspada dalam menerima informasi visual yang disajikan.

Sumber-sumber

  • Webtekno

  • PetaPixel

  • South China Morning Post

  • Quartz

Apakah Anda menemukan kesalahan atau ketidakakuratan?

Kami akan mempertimbangkan komentar Anda sesegera mungkin.