Giải mã Gemini Veo 3.1: tiêu chuẩn mới của video AI? Gemini Veo 3.1 tập trung vào chất lượng và tốc độ, thêm chèn/xóa vật thể, kéo dài video, chuyển cảnh từ hai ảnh tĩnh, âm thanh nền sát ngữ cảnh; đối chiếu với Sora 2.

Cuộc đua giữa Google và OpenAI trong không gian video AI đang phân hóa rõ rệt. Trong khi OpenAI tung Sora 2 như một bản cập nhật lớn đầu tiên sau hơn một năm, thúc đẩy tăng trưởng người dùng bằng cách nới lỏng rào chắn nội dung, Google đưa ra Gemini Veo 3.1 với định hướng thực dụng: cải thiện chất lượng, tốc độ và khả năng kiểm soát kết quả đầu ra. Bài viết này phân tích kỹ thuật các khả năng cốt lõi của Veo 3.1, nêu ưu/nhược điểm và so sánh trực diện với Sora 2.

YouTube video thumbnail

Những khả năng cốt lõi của Veo 3.1 và ý nghĩa kỹ thuật

Veo 3.1 tập trung vào chất lượng và tốc độ, đồng thời bổ sung một loạt công cụ chỉnh sửa ở cấp độ cảnh và đối tượng, giúp người dùng tham gia sâu hơn vào quá trình dựng:

Chèn hoặc xóa vật thể khỏi bất kỳ cảnh quay nào: cho phép can thiệp trực tiếp vào thành phần hình ảnh trong khung hình.

Kéo dài video vượt điểm kết thúc ban đầu: mở rộng dòng thời gian để tiếp tục nội dung đã tạo.

Tạo các chuyển cảnh giữa hai khung hình tĩnh: liên kết hai ảnh tĩnh thành đoạn chuyển động liền mạch.

Điều khiển giao diện và cảm xúc của cảnh bằng tham chiếu: sử dụng hình ảnh, vật thể và “tâm trạng” làm tín hiệu định hướng phong cách.

Bên cạnh hình, Veo 3.1 còn cải thiện âm thanh: thêm âm thanh nền phong phú và chính xác hơn về mặt ngữ cảnh. Việc nâng chất lượng và tốc độ xử lý cho thấy sản phẩm nhắm vào quy trình tạo dựng thực tế, nơi tính ổn định và khả năng tinh chỉnh kết quả là trọng tâm.

Ưu điểm nổi bật: chất lượng, kiểm soát và định hướng “thực dụng”

Tập trung chất lượng hình và tiếng: các cập nhật hướng vào việc nâng mức trung thực của video và âm thanh nền bám sát ngữ cảnh của cảnh quay.

Bộ công cụ can thiệp chi tiết: khả năng chèn/xóa vật thể, kéo dài thời lượng, tạo chuyển cảnh từ ảnh tĩnh và điều khiển cảm xúc bằng tham chiếu cho phép người dùng “định hình” sản phẩm cuối.

Định hướng sử dụng thực tế: Veo được mô tả là phục vụ các mục đích thực dụng, thay vì chạy theo tính lan truyền.

Rào chắn nội dung rõ ràng: hạn chế tạo người thật và giới hạn hình ảnh bạo lực/nguy hiểm, giảm rủi ro nội dung không phù hợp.

Những đánh đổi và thách thức khi triển khai

Định hướng kiểm soát chặt chẽ của Veo đồng nghĩa với việc hạn chế hơn trong một số kịch bản sáng tạo (chẳng hạn tạo người thật hoặc nội dung có yếu tố bạo lực/nguy hiểm). Mặt khác, việc tăng quyền can thiệp của người dùng vào sản phẩm cuối đặt ra yêu cầu cao hơn về quy trình, tài nguyên và kỹ năng chỉnh sửa của nhóm triển khai.

Hai triết lý đối nghịch: Veo 3.1 đối chiếu Sora 2

Sora 2 của OpenAI theo đuổi tốc độ và tính lan truyền, hoạt động tương tự nền tảng phát video dạng ngắn như Instagram Reels hoặc TikTok. OpenAI ban đầu cho phép sử dụng người nổi tiếng thật trong nội dung, dẫn tới tranh cãi; sau đó cập nhật yêu cầu người nổi tiếng phải “opt in” nếu muốn hình ảnh của họ được dùng. OpenAI cũng thông báo sẽ sớm giới thiệu cơ chế giới hạn độ tuổi để người dùng trên 18 có thể tạo nội dung “erotica”. Sora 2 mang lại nâng cấp chất lượng rõ rệt nhưng vẫn gặp vấn đề với các vật thể bị lỗi ở hậu cảnh. Cách tiếp cận này giúp tăng nhanh người dùng, song rủi ro tranh cãi cũng cao hơn.

Khía cạnh Gemini Veo 3.1 (Google) OpenAI Sora 2 Định hướng sản phẩm Thực dụng, tập trung chất lượng và tốc độ Lan truyền, tốc độ triển khai như nền tảng video ngắn Kiểm soát nội dung Hạn chế tạo người thật; giới hạn hình ảnh bạo lực/nguy hiểm Nới lỏng rào chắn; ban đầu cho phép dùng người nổi tiếng, sau chuyển sang opt in; sắp có giới hạn độ tuổi cho “erotica” Khả năng nổi bật Chèn/xóa vật thể; kéo dài video; chuyển cảnh giữa hai ảnh tĩnh; điều khiển bằng tham chiếu; âm thanh nền theo ngữ cảnh Nâng cấp chất lượng rõ rệt; vẫn tồn tại lỗi vật thể ở hậu cảnh Chiến lược tăng trưởng Ưu tiên tính ổn định và mức độ tham gia của người dùng vào sản phẩm cuối Tăng người dùng và lưu lượng nhờ tiếp cận cởi mở hơn

Kịch bản ứng dụng và lựa chọn

Nếu mục tiêu là quy trình sản xuất có kiểm soát, cần chỉnh sửa sâu từng cảnh và giảm rủi ro nội dung, Veo 3.1 phù hợp với định hướng chất lượng và rào chắn rõ ràng. Ngược lại, nếu ưu tiên tốc độ thử nghiệm, phạm vi nội dung rộng và khả năng lan truyền, Sora 2 phản ánh cách tiếp cận đó, dù kèm theo những tranh cãi và rủi ro.

Triển vọng gần hạn

Với bản cập nhật 3.1, Veo tiếp tục đi sâu vào không gian ứng dụng thực tiễn, nhấn mạnh chất lượng, tốc độ và vai trò của người dùng trong việc định hình sản phẩm cuối. Trong khi đó, Sora 2 duy trì quỹ đạo cởi mở hơn, chuẩn bị bổ sung giới hạn độ tuổi và vẫn ưu tiên nhịp độ lan truyền. Hai lộ trình khác biệt này sẽ định hình cách các nhóm sản xuất và nền tảng khai thác video AI trong giai đoạn tới.