NCS CAO XUÂN NAM BẢO VỆ THÀNH CÔNG LUẬN ÁN TIẾN SĨ CẤP CƠ SỞ ĐÀO TẠO

SDG4-Giáo dục có chất lượng

Ngày 11/02/2026, tại Trường Đại học Khoa học tự nhiên, ĐHQG-HCM đã tổ chức buổi bảo vệ luận án tiến sĩ cấp cơ sở đào tạo của nghiên cứu sinh Cao Xuân Nam, chuyên ngành Khoa Học Máy Tính, dưới sự hướng dẫn khoa học của PGS.TS Trần Minh Triết và PGS.TS Vũ Hải Quân.

Luận án mang tên “Phát sinh video gương mặt người nói từ thông tin tiếng nói” (Speech-driven Talking Face Video Generation), tập trung nghiên cứu bài toán tổng hợp video gương mặt người nói dựa trên tín hiệu âm thanh. Công trình hướng đến xây dựng các mô hình có khả năng đảm bảo sự đồng bộ giữa chuyển động môi và nội dung tiếng nói, đồng thời nâng cao chất lượng và tính ổn định của hình ảnh sinh ra.

Nghiên cứu sinh Cao Xuân Nam trình bày luận án trước Hội đồng.

Để giải quyết bài toán đặt ra, nghiên cứu sinh tiếp cận theo hướng gián tiếp, trong đó quá trình tái tạo khuôn mặt được thực hiện thông qua bước trung gian là dự đoán các điểm đặc trưng (landmark) từ tín hiệu âm thanh. Việc sử dụng landmark đóng vai trò quan trọng trong việc đảm bảo sự nhất quán giữa các bộ phận trên khuôn mặt, duy trì sự đồng bộ giữa chuyển động môi và nội dung âm thanh trước khi tổng hợp hình ảnh hoàn chỉnh. Đồng thời, hướng tiếp cận này góp phần nâng cao khả năng tổng quát hóa của mô hình và cải thiện mức độ thích ứng đối với các biến đổi của dữ liệu đầu vào.

Trên cơ sở đó, luận án đã đạt được một số kết quả đáng chú ý. Cụ thể, nghiên cứu đã bổ sung đặc trưng LLFs bên cạnh các đặc trưng phổ biến như MFCC và Mel-spectrogram, qua đó cải thiện độ chính xác dự đoán landmark trung bình khoảng 5–7% so với các mô hình không sử dụng LLFs. Bên cạnh đó, luận án làm rõ vai trò của thông tin landmark từ các khung hình trước trong việc nâng cao tính ổn định theo thời gian của chuỗi video. Việc áp dụng hàm mất mát KLD được chứng minh có hiệu quả trong việc căn chỉnh đặc trưng âm thanh và landmark trong cùng không gian tiềm ẩn, góp phần cải thiện hiệu suất tổng thể của mô hình. Ngoài ra, nghiên cứu sinh đề xuất quy trình tổng hợp khuôn mặt theo hai giai đoạn, từ vùng miệng đến toàn bộ khuôn mặt, giúp giảm sai số và nâng cao chất lượng hình ảnh theo các độ đo như PSNR, SSIM, FID và LPIPS. Hiệu quả và khả năng tổng quát hóa của mô hình cũng được kiểm chứng trên các bộ dữ liệu MEAD, CREMA-D và dữ liệu thực tế.

Hội đồng chấm luận nhận xét và đánh giá nội dung luận án của nghiên cứu sinh

Kết quả nghiên cứu của luận án đã được công bố dưới dạng 06 bài báo khoa học, bao gồm 02 bài trên tạp chí quốc tế thuộc danh mục Q1, 02 bài báo hội thảo xếp hạng B và 02 bài báo hội thảo xếp hạng C.

Các kết quả đạt được mở ra nhiều tiềm năng ứng dụng trong các lĩnh vực như trợ lý ảo, giao tiếp từ xa, giải trí số, phục hồi dữ liệu lịch sử, hỗ trợ người khiếm thị, cũng như trong các bài toán pháp y, y tế và giáo dục. Đồng thời, đây cũng là cơ sở cho các hướng nghiên cứu tiếp theo liên quan đến nâng cao chất lượng hình ảnh, xử lý dữ liệu nhiễu, mở rộng đa ngôn ngữ và kiểm soát biểu cảm cho các hệ thống khuôn mặt ảo.

Nghiên cứu sinh Cao Xuân Nam chụp ảnh lưu niệm cùng Hội đồng sau buổi bảo vệ