Đây là tóm tắt bằng tiếng Anh đơn giản của một bài nghiên cứu có tên <a href=" Speech Enhancement Using Attention-Based Beamforming</a>. Nếu bạn thích những phân tích kiểu này, hãy tham gia <a href=" hoặc theo dõi chúng tôi trên <a href=" <h2>Vấn đề khi nghe mà không thể nhìn thấy</h2> <p>Cải thiện giọng nói nghe có vẻ như là một vấn đề kỹ thuật, nhưng nó đang giải quyết một điều gì đó mang tính nhân văn cơ bản: làm cho giọng nói trở nên dễ hiểu khi bị chôn vùi trong tiếng ồn. Hãy nghĩ đến các cuộc gọi khẩn cấp trong các vụ tai nạn ô tô, các cuộc họp từ xa trong quán cà phê, hoặc máy trợ thính đang vật lộn để tách biệt một cuộc trò chuyện trong một căn phòng đông đúc. Trong nhiều thập kỷ, các kỹ sư đã áp dụng những thuật toán âm thanh ngày càng tinh vi vào vấn đề này, và họ đã đạt được những tiến bộ thực sự.</p> <p>Nhưng có một giới hạn khó chịu. Khi điều kiện trở nên thực sự khắc nghiệt, ngay cả những phương pháp chỉ âm thanh tốt nhất cũng gặp khó khăn. Tiếng ồn nền rất lớn, tiếng vang từ các bức tường, nhiều người nói chồng chéo lên nhau, hoặc người nói di chuyển xung quanh đều khiến hiệu suất giảm sút. Đây không phải là những trường hợp ngoại lệ, mà là những tình huống hàng ngày.</p> <p>Sự thật không thoải mái là con người giải quyết điều này một cách dễ dàng bằng cách đọc môi, theo dõi vị trí của người nói và theo dõi ai đang nói. Tuy nhiên, chúng ta đã xây dựng các hệ thống cải thiện giọng nói mà cố tình mù quáng, chỉ sử dụng âm thanh. Một bài báo gần đây đã đặt ra câu hỏi rõ ràng mà chúng ta nên đã hỏi từ nhiều năm trước: tại sao?</p> <h2>Con người không chỉ nghe bằng tai</h2> <p>Hãy tưởng tượng ai đó đang chỉ dẫn cho bạn qua một cuộc gọi điện thoại trong một quán cà phê ồn ào. Bạn gần như không thể hiểu họ. Nhưng nếu họ đột nhiên gửi cho bạn một video của chính họ đang nói, bạn có thể đọc môi họ và theo dõi hoàn hảo. Âm thanh không trở nên tốt hơn, nhưng bạn nhận được nhiều thông tin hơn. Não của bạn đơn giản là kết hợp hai kênh dữ liệu.</p> <p>Nghiên cứu gần đây đã phát hiện ra điều gì đó sâu sắc: khi bạn bao gồm thông tin bổ sung như dấu vân tay giọng nói của người nói hoặc chuyển động môi của họ, hiệu suất cải thiện giọng nói tăng lên đáng kể. Trực giác là đơn giản. Các tín hiệu hình ảnh như chuyển động môi gắn chặt với âm thanh đang được sản xuất, chúng gần như không có tiếng ồn (camera của bạn nhìn thấy một khuôn mặt rõ ràng ngay cả trong một căn phòng có âm thanh tồi tệ), và chúng mang thông tin mà âm thanh đơn thuần không có: ai đang nói và ở đâu.</p> <p>Thị giác cung cấp ngữ cảnh, danh tính và thông tin không gian mà âm thanh phải suy luận một cách khó khăn hoặc đôi khi không thể suy luận được. Công việc về <a href=" nhận diện giọng nói tự động đa phương tiện đã chỉ ra rằng quan điểm đa phương thức này đặc biệt mạnh mẽ trong các điều kiện khắc nghiệt. Ranh giới nghiên cứu đang đặt ra câu hỏi: nếu chúng ta cung cấp cho máy móc cùng một quan điểm này, liệu chúng ta có thể tái tạo sự dễ dàng của con người không?
Tại sao chỉ có các mảng microphone không đủ
Khi bạn có nhiều microphone được sắp xếp trong không gian, âm thanh từ một hướng cụ thể đến mỗi microphone với một độ trễ thời gian và sự khác biệt biên độ nhỏ. Bằng cách trọng số và kết hợp các tín hiệu này một cách toán học, bạn có thể tạo ra một "chùm" hướng về một nguồn trong khi подавляющий âm thanh từ các hướng khác. Đây là beamforming, một ý tưởng thanh lịch từ xử lý tín hiệu đã được sử dụng trong nhiều thập kỷ.
Vấn đề là beamforming yêu cầu biết nơi để chỉ chùm. Các phương pháp truyền thống phải đoán bằng cách phân tích âm thanh một mình, tìm kiếm hướng lớn nhất hoặc giống như giọng nói nhất. Nhưng trong điều kiện ồn ào, tiếng ồn lớn làm chìm quá trình tìm kiếm này. Và nếu người nói di chuyển, chùm phải liên tục tính toán lại, theo đuổi một mục tiêu đang di chuyển trong khi tiếng ồn làm rối loạn các tín hiệu.
Đây là nơi mà cái nhìn sâu sắc của bài báo xuất hiện: nếu bạn nói cho beamformer chính xác nơi để chỉ? Đó là vai trò của thị giác.
Thông tin hình ảnh giải quyết vấn đề chỉ hướng
Một video của ai đó đang nói là cực kỳ giàu thông tin. Ngay cả khi không có âm thanh, một mô hình nhận diện giọng nói hình ảnh có thể xác định đại khái những gì ai đó đang nói bằng cách quan sát môi họ. Nếu hệ thống biết người nói nào mà chúng ta quan tâm từ đầu vào hình ảnh, nó tự động biết vị trí miệng của người đó trong hình ảnh, tương ứng với một hướng trong không gian 3D. Hệ thống âm thanh giờ đây có một mục tiêu cụ thể.
Các nhà nghiên cứu đã tận dụng một mô hình nhận diện giọng nói hình ảnh đã được đào tạo trước, một mô hình được đào tạo trên hàng ngàn giờ video để nhận diện từ chỉ từ chuyển động môi. Đây là một vấn đề đã được giải quyết, điều này có giá trị ở đây vì nó có nghĩa là họ không phải xây dựng nó từ đầu. Quan trọng hơn, mô hình học cách xác định và tập trung vào miệng của người nói. Điều này trở thành tín hiệu cho biết mảng microphone nơi cần lắng nghe.
Hệ thống hình ảnh thực hiện hai công việc quan trọng. Đầu tiên, nó phát hiện khi ai đó đang nói bằng cách xác định chuyển động miệng, điều này sạch hơn và đáng tin cậy hơn so với việc cố gắng phát hiện giọng nói trong âm thanh ồn ào. Thứ hai, nó xác định người nào cần lắng nghe trong một kịch bản nhiều người nói. Một lần nữa, đây là điều mà âm thanh gặp khó khăn mà không có nhãn người nói sạch hoặc các mô hình được đào tạo trên các giọng nói cụ thể.
Kết hợp thị giác và âm thanh thông qua beamforming thần kinh
Kiến trúc mà họ thiết kế là sạch sẽ về mặt khái niệm: mô hình hình ảnh cung cấp hướng dẫn, và một mạng nơ-ron sâu học cách thực hiện beamforming theo cách tôn trọng hướng dẫn này.
Camera cung cấp các khung video vào mô hình nhận diện giọng nói hình ảnh đã được đào tạo trước, mô hình này trích xuất thông tin về việc ai đó đang nói và, ngầm, họ ở đâu. Song song, mảng microphone thu âm thanh qua tất cả các kênh. Một beamformer thần kinh, một mạng được thiết kế đặc biệt để học các hoạt động beamforming, sau đó sử dụng các tín hiệu hình ảnh như một tín hiệu chú ý. Mạng học cách trọng số các kênh microphone không chỉ dựa trên các mẫu âm thanh, mà còn được hướng dẫn bởi những gì hệ thống hình ảnh cho biết về nơi cần tập trung.
Đây là học tập có giám sát, từ đầu đến cuối. Mạng thấy cả đầu vào âm thanh và hình ảnh và học cách dự đoán đầu ra giọng nói sạch. Qua hàng ngàn ví dụ, nó phát hiện ra cách kết hợp các phương thức này một cách hiệu quả. Khác với beamforming truyền thống, sử dụng các quy tắc hình học cố định, beamformer học này có thể phát hiện các mối quan hệ không rõ ràng giữa vị trí hình ảnh và trọng số âm thanh tối ưu. Có thể trong một số môi trường âm thanh nhất định, chùm tối ưu không chính xác ở nơi mà môi xuất hiện. Mạng tìm ra những tinh tế này.
Việc đào tạo từ đầu đến cuối quan trọng vì nó có nghĩa là toàn bộ quy trình từ tín hiệu microphone thô và khung video đến giọng nói được cải thiện được học chung. Không có bước trung gian được chế tạo thủ công. Điều này cho phép sửa lỗi trong toàn bộ quy trình và thường tạo ra các giải pháp hiệu quả hơn so với các hệ thống có các giai đoạn riêng biệt, được thiết kế trước.
Chú ý như cầu nối giữa các giác quan
Một cơ chế chú ý cho phép beamformer thần kinh nói điều gì đó như: "hệ thống hình ảnh nói với tôi rằng hãy tập trung vào hướng X, vì vậy tôi sẽ trọng số các kênh microphone theo hướng đó, nhưng tôi cũng sẽ giữ linh hoạt vì hệ thống hình ảnh có thể hơi sai, hoặc người nói có thể đã di chuyển giữa khung video và khoảnh khắc âm thanh."
Trong thực tế, điều này có nghĩa là mạng học một hàm trọng số mà nhấn mạnh mạnh mẽ thông tin hướng mà thị giác cung cấp nhưng cũng kết hợp các tín hiệu âm thanh. Cơ chế chú ý tự động cân bằng hai nguồn thông tin này. Nếu thị giác tự tin về vị trí người nói, âm thanh sẽ theo. Nếu âm thanh phát hiện giọng nói ở một hướng hơi khác, sự chú ý có thể chuyển sang tin tưởng nó.
Điều này mạnh mẽ hơn một quy tắc cứng vì các hệ thống thực tế thường ồn ào. Mô hình hình ảnh đôi khi xác định sai khuôn mặt hoặc bị nhầm lẫn bởi các góc mặt. Người nói đôi khi di chuyển nhanh hơn tốc độ khung video. Cơ chế chú ý xử lý những thiếu sót này một cách duyên dáng bằng cách học cách tin tưởng mỗi tín hiệu trong các điều kiện khác nhau.
Những gì thực sự hoạt động trong thực tế
Các thí nghiệm đã kiểm tra hai kịch bản quan trọng mà beamforming truyền thống gặp khó khăn: người nói ở vị trí cố định và người nói di chuyển xung quanh. Đối với những người nói đứng yên, hệ thống được thông báo bằng hình ảnh vượt trội hơn đáng kể so với các phương pháp cơ bản trong các điều kiện tiếng ồn khác nhau. Khoảng cách này mở rộng khi tỷ lệ tín hiệu trên tiếng ồn trở nên tồi tệ hơn, điều này chính xác là nơi chúng ta cần giúp đỡ. Ở tỷ lệ SNR thấp, các phương pháp chỉ âm thanh giảm nhanh chóng trong khi hệ thống được thông báo bằng hình ảnh duy trì hiệu suất.
Thậm chí ấn tượng hơn, hệ thống hoạt động tốt ngay cả khi người nói di chuyển. Các kịch bản người nói động thực sự khó khăn vì beamforming truyền thống phải liên tục tính toán lại hướng của nó, và tiếng ồn làm cho việc ước lượng hướng trở nên không đáng tin cậy. Hệ thống hình ảnh cung cấp thông tin vị trí liên tục theo thời gian thực, mà cơ chế chú ý có thể theo dõi, giữ cho chùm được chỉ đúng ngay cả khi người nói di chuyển.
...