Mỹ phát triển thuật toán xác định chính xác giới tính qua giọng nói

Thuật toán có tên Speech2Face sẽ có nhiều ứng dụng, giúp hiểu rõ hơn về mối tương quan của một người với giọng nói của người đó - Ảnh: neurohive.io
Thuật toán có tên Speech2Face do các nhà khoa học Mỹ phát triển có khả năng xác định chính xác giới tính và phác thảo chân dung gần đúng của một người qua giọng nói. Tuy nhiên, để xác định thật chính xác quốc tịch và dự đoán tuổi thì các nhà phát triển còn phải tiếp tục huấn luyện thuật toán.

Theo arxiv.org, các nhà khoa học Mỹ đã phát triển được thuật toán có tên Speech2Face. Dựa trên bản ghi âm giọng nói, thuật toán có thể xác định chính xác giới tính và thậm chí cả quốc tịch ở mức độ kém chính xác hơn một chút, còn việc dự đoán tuổi của người nói thì chưa đạt độ chính xác cao. Ngoài ra, chương trình có thể phác thảo một bức chân dung gần đúng của một người.

Để huấn luyện mạng nơ ron, các nhà khoa học đã sử dụng một nguồn gồm hơn một triệu đoạn video ngắn có ghi giọng nói của mọi người. Phần mềm chia tách đoạn video và âm thanh. Đầu tiên, phần mềm xử lý khuôn mặt của một người trong video, tái tạo lại toàn bộ khuôn mặt. Sau đó, phần mềm xử lý rãnh âm thanh, rồi phổ âm theo đó. Sau đó, kết quả của hai thuật toán đã được hợp nhất âm thanh giọng nói với khuôn mặt người.

Sau khi đào tạo mạng nơ ron trên một nguồn dữ liệu lớn, các nhà khoa học đã thử nghiệm mô hình này trên các bức ảnh chụp khuôn mặt mọi người. Hóa ra, bước đầu thuật toán đoán chính xác giới tính của mọi người, nhưng hiếm khi có thể xác định tuổi của người đó với độ chính xác là 10 năm và thuật toán có khả năng tốt nhất trong việc tái tạo khuôn mặt của những người có ngoại hình châu Âu và châu Á.

Các nhà khoa học cho biết, độ chính xác của việc tái tạo chân dung người qua giọng nói sẽ luôn ở mức khá thấp vì có nhiều tính năng ảnh hưởng đến giọng nói. Giọng nói cũng có thể thay đổi trong suốt cuộc đời, vì vậy, qua đó khó xác định chính xác ngoại hình.

Các nhà nghiên cứu đã tập trung vào việc dự đoán các thông số như giới tính, tuổi tác và quốc tịch. Và nếu hệ thống xác định tham số thứ nhất và thứ ba với độ chính xác cao thì các nhà phát triển Speech2Face vẫn phải tiếp tục hoàn thiện thuật toán để dự báo tuổi. Các nhà khoa học lưu ý rằng chương trình của họ sẽ giúp hiểu rõ hơn về mối tương quan của một người với giọng nói của anh ta.

Trước đó, một nhóm các nhà khoa học khác đã tạo ra một mạng nơ ron có thể đoán tên của người qua một bức ảnh bằng cách chọn một trong nhiều phương án với độ chính xác là 54 – 64%, cao hơn so với lựa chọn ngẫu nhiên trong 2 phương án khi xác suất trả lời đúng là 50%.

Vũ Trung Hương


Loading...

BÌNH LUẬN BÀI VIẾT


Bình luận0

Cảm ơn bạn đã gửi ý kiến.

Bạn đã gửi ý kiến cho bài viết này.