论文题目为“Under the Eaves: User and LLM-”,其第一作者是 2022 级本科生金伟飞。
自动语音识别(ASR)的应用很广泛,这使得大规模的语音监控成为了可能,同时也引发了用户对隐私的担忧。本文主要聚焦于利用对抗样本来减轻在语音通信中,因潜在窃听者而可能导致的未授权语音隐私泄露问题。音频对抗样本已被证明有误导 ASR 模型或规避 ASR 监控的能力。然而,它们通常是通过耗时的离线优化来构建的,这对它们在实时语音通信中的实用性造成了限制。近期的研究通过生成通用对抗扰动(UAP),并增强其在黑盒场景中的迁移性,从而克服了这一限制。这些方法会引入很多噪声,使得音频质量明显降低,同时也影响了人类的感知,所以就限制了它们在实际场景中的有效性。
本文提出了一个新的语音通讯隐私保护框架。这个框架的核心概念是潜在空间中的可迁移通用对抗扰动(LS-TUAP)。它能将扰动转移到潜在空间,从而在很大程度上保持音频质量。此外,本文还提出了目标特征适应方法,把目标文本特征嵌入到扰动中,增强了通用对抗扰动的可迁移性。对四个商用 ASR API(具体的四个 API)、三个广泛使用的语音助手(Apple Siri 以及另外两个语音助手)、两个基于 LLM 的 ASR(Qwen-Audio 和 MooER)和一个最先进的传统 ASR(特定的传统 ASR)这共 10 个 ASR 模型进行了全面评估。评估表明,在保护效果方面优于现有方法,并且客观和主观评估都显示音频质量有显著改善。此外,在实时的端到端场景里能展现出较高的有效性。同时,它对自适应的反制措施有着很好的抵抗作用。