Wav2lip là một mô hình giúp việc đồng bộ chuyển động của môi khớp với tập tin giọng nói của các ngôn ngữ khác nhau. Etrain sẽ sử dụng wav2lip để tạo ra một bản tin giả với wav2lip.

Đầu tiên chúng ta cần 1 video có hình người nói và 1 audio có thời gian bằng nhau. Phần audio sẽ lấy từ một video bản tin tiếng Việt đặt tên là vi-news.mp4, còn phần video sẽ lấy từ một video bản tin tiếng Anh đặt tên là en-news.mp4. Xem hướng dẫn ở bài viết này để tải video từ youtube.

# Cắt video và audio (thời gian 14 giây)
ffmpeg -i en-news.mp4 -ss 00:00:00.000 -to 00:00:14.000 -async 1 en-news-cut.mp4
ffmpeg -i vi-news.mp4 -ss 00:01:27.500 -to 00:01:41.500 -async 1 vi-news-cut.mp4

# Lấy tập tin âm thanh từ video tiếng Việt
ffmpeg -i vi-news-cut.mp4 -q:a 0 -map a vi-news-cut.mp3

Vào trang web demo tải 2 tập tin en-news-cut.mp4vi-news-cut.mp3 lên và xem thành quả

Tài liệu tham khảo

Wav2Lip