Luận án Nghiên cứu phát triển hệ thống thích nghi giọng nói trong tổng hợp tiếng việt và ứng dụng

  • Thời lượng : Đang cập nhật
  • Sở hữu khóa học : Download miễn phí
  • Tất cả khóa học được sưu tầm từ nhiều nguồn, chúng tôi không chịu trách nhiệm bản quyền nếu bạn sử dụng vào mục đích thương mại
  • Hãy cân nhắc mua khóa học để ủng hộ tác giả

NHẬP MÃ XÁC NHẬN ĐỂ TẢI KHÓA HỌC NÀY

Nếu bạn thấy thông báo hết nhiệm vụ vui lòng tải lại trang

Trước đây, mô hình của tổng hợp tiếng nói dựa trên tham số thống kê đã thay
thế hoàn toàn tổng hợp tiếng nói dựa trên lựa chọn đơn vị bởi khả năng thích nghi
và điều khiển các đặc trưng của người nói và phong cách nói. Tổng hợp tiếng nói
dựa trên HMM có thể áp dụng thành công cho nhiều nghiên cứu mở rộng bằng các
kỹ thuật thích nghi giọng nói và đã được chứng minh là cải thiện đáng kể chất lượng
tiếng nói tổng hợp [37]. Bởi vì, tổng hợp thống kê dựa trên HMM có thể sử dụng
các phương pháp nội suy [38], hồi quy đa vector cảm xúc [39] và kỹ thuật thích
nghi [40] để dễ dàng chuyển đổi hoặc điều chỉnh phong cách và cảm xúc nói,
phương pháp này đã trở thành phương pháp chính trong tổng hợp tiếng nói có cảm
xúc trong các giai đoạn trước.
Mặc dù tổng hợp dựa trên thống kê bằng HMM đã cho chất lượng tốt nhưng
nó vẫn còn các hạn chế. Đầu tiên phải kể đến là ánh xạ đầu vào đến phân cụm dựa
trên cây quyết định trong tổng hợp giọng nói dựa trên HMM không hiệu quả để
diễn đạt các phụ thuộc ngữ cảnh phức tạp và vấn đề XOR (không tính toán được
perceptron đơn), điều này có thể dẫn đến quá khớp (overfit) dữ liệu huấn luyện.
Thứ hai, ánh xạ đặc trưng thành cụm sử dụng các phân bố Gauss đơn lẻ với ma trận
hiệp phương được thiết lập dựa trên hai giả định về tính độc lập: 1) Sự độc lập có
điều kiện giữa các khung trạng thái và 2) Sự độc lập của các đặc trưng âm thanh
trong một khung. Điều này dẫn đến các đường bao phổ (envelopes spectral) được
tái tạo bị làm mịn quá mức và chất lượng của giọng nói tổng hợp bị giảm sút.