一站式 Web3 探索中心 | 去中心化應用商店 & Web3 線下活動 | OKX

熱門話題

HackerNoon | Learn Any Technology

駭客如何開始他們的下午。5萬+的技術人員為每月400萬+讀者發表部落格文章。寫下你的故事 👉https://t.co/PGmtSCRFgn

這是一篇名為<a href=" Speech Enhancement Using Attention-Based Beamforming</a>的研究論文的Plain English Papers摘要。如果你喜歡這類分析，請加入<a href="或在<a href="上關注我們。 <h2>看不見時聆聽的問題</h2> <p>語音增強聽起來像是一個技術問題，但它解決的是一些根本上人性的問題：在噪音中使語音可理解。想想在車禍中的緊急電話、咖啡館中的遠程會議，或助聽器在擁擠的房間中努力隔離一個對話。幾十年來，工程師們對這個問題投入了越來越複雜的音頻算法，並取得了實際進展。</p> <p>但有一個令人沮喪的上限。當條件變得非常惡劣時，即使是最好的僅音頻方法也會失敗。非常大的背景噪音、牆壁的回聲、多個人同時交談或揚聲器移動都會導致性能崩潰。這些不是邊緣案例，而是日常情況。</p> <p>不舒服的真相是，人類通過讀唇、觀察說話者的位置和追蹤誰在說話來輕鬆解決這個問題。然而，我們建立的語音增強系統卻故意盲目，只使用聲音。一篇最近的論文提出了一個我們應該幾年前就問過的明顯問題：為什麼？</p> <h2>人類不僅僅用耳朵聆聽</h2> <p>想像一下，有人在嘈雜的咖啡館裡通過電話給你指路。你幾乎聽不懂他們的話。但如果他們突然發送了一段自己說話的視頻，你就可以讀出他們的唇語，完美地跟上。音頻沒有變得更好，但你獲得了更多的信息。你的大腦只是融合了兩個數據通道。</p> <p>最近的研究發現了一些深刻的東西：當你包括輔助信息，比如說話者的聲音特徵或他們的唇部動作時，語音增強的性能顯著提高。直覺是簡單的。視覺線索如唇部動作與所產生的聲音緊密相連，幾乎沒有噪音（即使在聲學條件差的房間中，你的相機也能清晰地看到一張臉），並且它們攜帶著僅用音頻無法獲得的信息：誰在說話以及在哪裡。</p> <p>視覺提供了上下文、身份和空間信息，而音頻必須艱難地推斷，或者有時根本無法推斷。關於<a href="視聽自動語音識別的研究表明，這種多模態的視角在惡劣條件下特別強大。研究的前沿在於：如果我們給機器這種相同的視角，我們能否複製這種人類的輕鬆？

為什麼僅僅使用麥克風陣列是不夠的

當你有多個麥克風在空間中排列時，來自特定方向的聲音會以微小的時間延遲和幅度差到達每個麥克風。通過數學加權和組合這些信號，你可以創建一個指向來源的“波束”，同時抑制來自其他方向的聲音。這就是波束形成，這是一個來自信號處理的優雅想法，已經使用了幾十年。

問題是波束形成需要知道指向的方向。傳統方法必須通過僅分析音頻來猜測，尋找最響亮或最像語音的方向。但在嘈雜的條件下，響亮的噪音淹沒了這一搜索過程。如果說話者移動，波束必須不斷重新計算，追逐一個移動的目標，而噪音使信號混淆。

這就是論文的見解出現的地方：如果你告訴波束形成器確切的指向方向會怎樣？這就是視覺的作用。

視覺信息解決了指向問題

一段說話者的視頻信息量極其豐富。即使沒有聲音，視覺語音識別模型也可以通過觀察他們的唇部大致判斷某人正在說什麼。如果系統知道我們從視覺輸入中感興趣的說話者，那麼它自動知道那個人的嘴在圖像中的位置，這對應於三維空間中的一個方向。音頻系統現在有了一個具體的目標。

研究人員利用了一個預訓練的視覺語音識別模型，這是一個在數千小時的視頻上訓練的模型，僅通過唇部動作來識別單詞。這是一個已解決的問題，這在這裡是有價值的，因為這意味著他們不必從頭開始構建它。更重要的是，該模型隱式地學會定位和專注於說話者的嘴。這成為告訴麥克風陣列在哪裡聆聽的信號。

視覺系統執行兩項關鍵任務。首先，它通過識別嘴部運動來檢測某人是否在說話，這比試圖在嘈雜的音頻中檢測語音更乾淨、更可靠。其次，它在多說話者場景中識別出應該聆聽的那個人。同樣，這是音頻在沒有乾淨的說話者標籤或針對特定聲音訓練的模型的情況下所掙扎的。

通過神經波束形成融合視覺和音頻

他們設計的架構概念上是乾淨的：視覺模型提供指導，而深度神經網絡學習以尊重這一指導的方式執行波束形成。

相機將視頻幀輸入預訓練的視覺語音識別模型，該模型提取有關某人是否在說話的信息，並隱式地告訴他們的位置。同時，麥克風陣列捕獲所有通道的音頻。一個專門設計用於學習波束形成操作的神經波束形成器，然後使用視覺線索作為注意信號。該網絡學習根據音頻模式加權麥克風通道，但也受到視覺系統告訴它的焦點位置的指導。

這是監督的端到端學習。該網絡同時看到音頻和視覺輸入，並學習預測清晰的語音輸出。在數千個示例中，它發現如何有效地融合這些模態。與傳統的波束形成不同，後者使用固定的幾何規則，這個學習的波束形成器可以發現視覺定位和最佳音頻加權之間的非明顯關係。也許在某些聲學環境中，最佳波束並不完全在嘴唇出現的地方。該網絡找到這些微妙之處。

端到端訓練很重要，因為這意味著從原始麥克風信號和視頻幀到增強語音的整個管道是共同學習的。沒有手工製作的中間步驟。這允許在整個管道中進行錯誤修正，並且通常產生比具有單獨預設階段的系統更有效的解決方案。

注意作為感官之間的橋樑

注意機制使神經波束形成器能夠說出類似這樣的話：“視覺系統告訴我專注於方向X，所以我會將麥克風通道的權重朝那個方向，但我也會保持靈活，因為視覺系統可能稍微錯誤，或者說話者可能在視頻幀和音頻時刻之間移動。”

在實踐中，這意味著該網絡學習一個加權函數，強調視覺提供的方向信息，但也結合音頻線索。注意機制自動平衡這兩個信息來源。如果視覺對說話者位置有信心，音頻就會跟隨。如果音頻在稍微不同的方向上檢測到語音，注意力可以轉移以信任它。

這比硬性規則更穩健，因為現實世界的系統是嘈雜的。視覺模型有時會錯誤識別面孔或被面部角度混淆。說話者有時移動的速度超過視頻幀率。注意機制優雅地處理這些不完美，通過學習在不同條件下信任每個信號的程度。

實際上什麼有效

實驗測試了兩個傳統波束形成掙扎的關鍵場景：固定位置的說話者和移動的說話者。對於靜止的說話者，視覺信息系統在不同噪音條件下顯著超越基線方法。隨著信噪比的惡化，差距擴大，這正是我們需要幫助的地方。在低信噪比下，僅音頻的方法迅速降級，而視覺信息系統保持性能。

更令人印象深刻的是，該系統即使在說話者移動時也運作良好。動態說話者場景確實困難，因為傳統波束形成必須不斷重新計算其方向，而噪音使方向估計不可靠。視覺系統提供持續的實時位置信息，注意機制可以跟隨，保持波束準確指向，即使說話者移動。

該系統仍然需要一個清晰視野的相機來捕捉說話者的面部。如果某人在看向其他地方時說話，視覺識別的信心會下降。如果多個人同時說話，系統必須被告知目標說話者是誰。這些不算失敗，而是現實的限制。

關於<a href="語音增強</a>的相關工作探索了其他神經方法來解決這個問題，但多模態組件是這種方法的區別所在。實際意義是明確的：這種方法解決了音頻系統所掙扎的具體重要問題。在可用視覺信息的場景中，故意忽視它是次優的。</p> <h2>為什麼這重塑了我們對語音的思考</h2> <p>語音增強不是抽象的。更好的語音清晰度直接改善了聽力損失者的可及性，使嘈雜環境中的視頻通話更清晰，幫助自動語音識別系統更可靠地工作，並支持監控和安全應用。通過顯示多模態學習可以超越單一模態方法的限制，這項研究指向一個更廣泛的見解：我們一直視為純音頻或純視覺問題的許多問題，當我們讓機器像人類一樣看和聽時，可能會更優雅地解決。</p> <p>這種方法與關於<a href="語音處理中的融合的更廣泛研究相連，該研究始終表明，在一起處理之前結合模態通常比在管道後期融合抽象表示效果更好。

優雅的見解是，來自一種感官的指導可以使另一種感官變得極其有效。我們從音頻系統的令人沮喪的限制開始，發現人類通過視覺解決這個問題，建立了一個通過神經波束形成和注意融合兩種模態的系統，並驗證它在傳統方法失敗的條件下有效。這是一個完整的故事，並且這個故事可能遠遠超出語音。

原始帖子： <a href=" 在 - #ai #speechenhancement

1.53K