北京邮电大学本科生首次在USENIX Security发表论文,网络安全研究取得重大突破
近日,北京邮电大学网络空间安全学院的郝杰副教授以及杨义先教授团队取得了两项研究成果。这些成果在第 34 届(2025)被全文接收。其中,两篇论文的第一作者分别是网络空间安全学院 2021 级的本科生张志胜和 2022 级的本科生金伟飞。CCF A 类会议,它与 IEEE S&P、ACM CCS、NDSS 一同被视为网络与信息安全领域的四大国际顶级学术会议,这体现了它在该领域的重要地位,代表着国际网络与信息安全研究的最前沿水平。此次是北京邮电大学本科生首次以第一作者的身份在网络与信息安全领域的这四大顶级会议上发表学术论文,并且网络空间安全学院的郝杰副教授担任了 2 篇论文的通信作者。论文题目为“:andVoice ”,其第一作者是 2021 级本科生张志胜。
生成式语音合成技术在日常生活中的应用越来越广泛,像语音助手、视频配音等场景,都极大地提升了用户体验。不过,这类技术的滥用也引发了严重的安全隐患。恶意攻击者有可能通过未获授权的途径,从社交媒体等平台收集目标说话人的语音数据,然后利用语音合成工具克隆出极为相似的声音,进而开展电信诈骗等非法行为。目前,虚假音频的防御策略主要集中在模型推理阶段。在这一阶段,会使用对抗样本,目的是防止零样本合成。然而,这些方法在基于鲁棒性微调的语音合成方面存在明显不足,难以应对多样化的攻击手段。
本文提出了一种新的主动防御框架。这种框架引入了语音扰动性隐藏(SPEC)技术,并且将时域和频域的扰动进行优化结合,从而能够有效保护目标说话人的原始音频数据,避免这些数据被用于微调和零样本语音合成。实验结果显示,在 11 个主流语音合成模型上都展现出了优秀的防御效果,同时具备较好的迁移性和实时保护能力。此成果具有重要的现实意义和应用价值。
https://img0.baidu.com/it/u=3159600558,3732599438&fm=253&fmt=JPEG&app=138&f=JPEG?w=500&h=654
图1 基于框架保护用户语音数据
论文题目为“Under the Eaves: User and LLM-”,其第一作者是 2022 级本科生金伟飞。
自动语音识别(ASR)的应用很广泛,这使得大规模的语音监控成为了可能,同时也引发了用户对隐私的担忧。本文主要聚焦于利用对抗样本来减轻在语音通信中,因潜在窃听者而可能导致的未授权语音隐私泄露问题。音频对抗样本已被证明有误导 ASR 模型或规避 ASR 监控的能力。然而,它们通常是通过耗时的离线优化来构建的,这对它们在实时语音通信中的实用性造成了限制。近期的研究通过生成通用对抗扰动(UAP),并增强其在黑盒场景中的迁移性,从而克服了这一限制。这些方法会引入很多噪声,使得音频质量明显降低,同时也影响了人类的感知,所以就限制了它们在实际场景中的有效性。
本文提出了一个新的语音通讯隐私保护框架。这个框架的核心概念是潜在空间中的可迁移通用对抗扰动(LS-TUAP)。它能将扰动转移到潜在空间,从而在很大程度上保持音频质量。此外,本文还提出了目标特征适应方法,把目标文本特征嵌入到扰动中,增强了通用对抗扰动的可迁移性。对四个商用 ASR API(具体的四个 API)、三个广泛使用的语音助手(Apple Siri 以及另外两个语音助手)、两个基于 LLM 的 ASR(Qwen-Audio 和 MooER)和一个最先进的传统 ASR(特定的传统 ASR)这共 10 个 ASR 模型进行了全面评估。评估表明,在保护效果方面优于现有方法,并且客观和主观评估都显示音频质量有显著改善。此外,在实时的端到端场景里能展现出较高的有效性。同时,它对自适应的反制措施有着很好的抵抗作用。
图2 大规模语音监听场景下使用
保护语音通讯隐私
排版 | 新媒体中心 张艺泷
初审 | 王泽宇
终审 | 张熙
页:
[1]