一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动

热门话题

HackerNoon | Learn Any Technology

黑客们如何开始他们的下午。5万+的技术人员为400万+月度读者发布博客文章。写下你的故事 👉https://t.co/PGmtSCRFgn

这是对一篇名为 <a href=" Speech Enhancement Using Attention-Based Beamforming</a> 的研究论文的简明英文摘要。如果你喜欢这种分析，加入 <a href=" 或关注我们 <a href=" <h2>看不见时听的难题</h2> <p>语音增强听起来像是一个技术问题，但它解决的是一个根本的人类问题：在噪音中使语音可理解。想想车祸中的紧急电话、咖啡馆里的远程会议，或者助听器在拥挤的房间中努力隔离一段对话。几十年来，工程师们对这个问题投入了越来越复杂的音频算法，并取得了真正的进展。</p> <p>但有一个令人沮丧的上限。当条件变得非常恶劣时，即使是最好的仅音频方法也会失效。非常大的背景噪音、墙壁的回声、多人交谈或说话者移动都会导致性能崩溃。这些不是边缘案例，而是日常情况。</p> <p>令人不安的真相是，人类通过阅读唇语、观察说话者的位置和跟踪谁在说话来轻松解决这个问题。然而，我们构建的语音增强系统却故意盲目，仅使用声音。一篇最近的论文提出了一个我们多年前应该问的显而易见的问题：为什么？</p> <h2>人类不仅仅用耳朵听</h2> <p>想象一下，有人在嘈杂的咖啡馆通过电话给你指路。你几乎听不懂他们。但如果他们突然给你发了一段自己说话的视频，你就可以通过阅读他们的唇语完美地跟上。音频没有变得更好，但你获得了更多信息。你的大脑简单地融合了两个数据通道。</p> <p>最近的研究发现了一些深刻的东西：当你包含辅助信息，比如说话者的声音特征或他们的唇部动作时，语音增强的性能显著提升。直觉很简单。视觉线索如唇部动作与产生的声音紧密相连，几乎没有噪音（即使在声学条件糟糕的房间中，你的相机也能清晰地看到面孔），并且它们携带音频单独无法提供的信息：谁在说话以及在哪里。</p> <p>视觉提供了上下文、身份和空间信息，而音频必须费力推断，或者有时根本无法推断。关于 <a href=" audiovisual automatic speech recognition 的研究表明，这种多模态视角在恶劣条件下特别强大。研究的前沿在于：如果我们给机器这种相同的视角，能否复制这种人类的轻松？

为什么仅靠麦克风阵列不够

当你有多个麦克风在空间中排列时，来自特定方向的声音会以微小的时间延迟和幅度差异到达每个麦克风。通过数学加权和组合这些信号，你可以创建一个指向源的“波束”，同时抑制来自其他方向的声音。这就是波束形成，这是一个优雅的信号处理理念，已经使用了几十年。

问题在于波束形成需要知道指向的方向。传统方法必须通过分析音频来猜测，寻找最响亮或最像语音的方向。但在嘈杂的条件下，强烈的噪音淹没了这个搜索过程。如果说话者移动，波束必须不断重新计算，追逐一个移动的目标，而噪音则混淆了信号。

这就是论文的洞察力出现的地方：如果你告诉波束形成器确切的指向方向会怎样？这就是视觉所扮演的角色。

视觉信息解决了指向问题

一个人说话的视频信息量极其丰富。即使没有声音，视觉语音识别模型也可以通过观察他们的唇部大致判断某人在说什么。如果系统从视觉输入中知道我们感兴趣的说话者是谁，它就自动知道那个人的嘴在图像中的位置，这对应于三维空间中的一个方向。音频系统现在有了一个具体的目标。

研究人员利用了一个预训练的视觉语音识别模型，该模型经过数千小时的视频训练，仅通过唇部动作识别单词。这是一个已解决的问题，这在这里是有价值的，因为这意味着他们不必从头开始构建它。更重要的是，该模型隐式地学习定位并聚焦于说话者的嘴。这成为告诉麦克风阵列在哪里监听的信号。

视觉系统完成了两个关键任务。首先，它通过识别嘴部运动来检测某人是否在说话，这比尝试在嘈杂的音频中检测语音更清晰、更可靠。其次，它在多说话者场景中识别出要监听的哪个人。同样，这在没有干净的说话者标签或针对特定声音训练的模型时，音频很难做到。

通过神经波束形成融合视觉和音频

他们设计的架构概念上很清晰：视觉模型提供指导，深度神经网络学习以尊重这种指导的方式进行波束形成。

相机将视频帧输入到预训练的视觉语音识别模型中，该模型提取有关某人是否在说话的信息，并隐式地确定他们的位置。同时，麦克风阵列捕获所有通道的音频。一个神经波束形成器，一个专门设计用于学习波束形成操作的网络，然后使用视觉线索作为注意信号。该网络学习根据音频模式加权麦克风通道，但也受到视觉系统告诉它的聚焦位置的指导。

这是监督的端到端学习。网络同时看到音频和视觉输入，并学习预测清晰的语音输出。在数千个示例中，它发现如何有效地融合这些模态。与传统的波束形成不同，后者使用固定的几何规则，这个学习的波束形成器可以发现视觉定位和最佳音频加权之间的非显而易见的关系。也许在某些声学环境中，最佳波束并不完全在嘴唇出现的地方。网络发现这些细微差别。

端到端训练很重要，因为这意味着从原始麦克风信号和视频帧到增强语音的整个流程是共同学习的。没有手工制作的中间步骤。这允许在整个流程中进行错误修正，并且通常比具有单独预设计阶段的系统产生更有效的解决方案。

注意力作为感官之间的桥梁

注意力机制允许神经波束形成器说类似于：“视觉系统告诉我关注方向X，所以我会将麦克风通道加权朝那个方向，但我也会保持灵活，因为视觉系统可能稍微错误，或者说话者可能在视频帧和音频时刻之间移动。”

在实践中，这意味着网络学习一个加权函数，强调视觉提供的方向信息，同时也结合音频线索。注意力机制自动平衡这两种信息源。如果视觉对说话者位置有信心，音频就会跟随。如果音频在稍微不同的方向上检测到语音，注意力可以转向信任它。

这比硬性规则更稳健，因为现实世界的系统是嘈杂的。视觉模型有时会错误识别面孔或被面孔角度混淆。说话者有时移动得比视频帧速率快。注意力机制优雅地处理这些不完美，通过学习在不同条件下信任每个信号的程度。

实际有效的是什么

实验测试了两个传统波束形成难以应对的关键场景：固定位置的说话者和移动的说话者。对于静止的说话者，视觉信息系统在不同噪声条件下显著优于基线方法。随着信噪比的恶化，差距扩大，这正是我们需要帮助的地方。在低信噪比下，仅音频的方法迅速降级，而视觉信息系统保持性能。

更令人印象深刻的是，即使在说话者移动时，系统也表现良好。动态说话者场景确实很困难，因为传统波束形成必须不断重新计算其方向，而噪音使方向估计不可靠。视觉系统提供连续的实时位置信息，注意力机制可以跟随，保持波束准确指向，即使说话者移动。

该系统仍然需要一台能清晰看到说话者面孔的相机。如果某人在看向其他地方时说话，视觉识别的信心会下降。如果多个人同时说话，系统必须被告知目标说话者是谁。这些并不是失败，而是现实的限制。

关于 <a href=" speech enhancement</a> 的相关工作探索了其他神经方法来解决这个问题，但多模态组件是区分这种方法的关键。实际意义很明确：这种方法解决了音频系统难以应对的特定重要问题。在可用视觉信息的场景中，故意忽视它是次优的。</p> <h2>为什么这重塑了我们对语音的思考</h2> <p>语音增强并不是抽象的。更好的语音清晰度直接改善了听力障碍者的可及性，使嘈杂环境中的视频通话更清晰，帮助自动语音识别系统更可靠地工作，并支持监控和安全应用。通过表明多模态学习可以超越单一模态方法的限制，这项研究指向一个更广泛的见解：我们一直视为纯音频或纯视觉问题的许多问题，当我们让机器像人类一样看和听时，可能会更优雅地解决。</p> <p>该方法与关于 <a href=" fusion in speech processing 的更广泛研究相关，这些研究始终表明，在一起处理之前结合模态通常比在流程后期融合抽象表示效果更好。

优雅的见解是，一个感官的指导可以使另一个感官变得极其有效。我们从音频系统的一个令人沮丧的限制开始，发现人类通过视觉解决了这个问题，构建了一个通过神经波束形成和注意力融合这两种模态的系统，并验证它在传统方法失败的条件下有效。这是一个完整的故事，而且这个故事可能远远超出了语音。

原始帖子： <a href=" on - #ai #speechenhancement

1.53K