官方服务微信:dat818 购买与出租对接

生物特征识别技术受追捧,声纹识别在金融支付应用待完善

3万

主题

2

回帖

9万

积分

管理员

积分
99703
发表于 4 小时前 | 显示全部楼层 |阅读模式
    作者|电子商务与电子支付国家工程实验室

    在当今“账户无处不在、密码无处不在”的时代,人们时常因忘记或遗失密码而感到困扰。生物识别技术的问世,无疑为人们提供了更加便捷、高效的服务途径。常见的生物特征包括指纹、掌纹、人脸、虹膜、视网膜、声纹以及签名等。在这些特征中,语音作为人与人之间最直接、最便捷的交流方式,声纹识别技术自然而然地受到了广泛的喜爱和追捧。声纹识别技术的应用领域极为广泛,几乎涵盖了人们日常生活的方方面面。

    金融机构中,声纹识别技术的应用范围十分广泛,且其受欢迎程度持续攀升。在将这项技术正式应用于线上金融系统之前,相关机构通常会对其进行评测,并测试声纹识别系统的各项性能指标。

    然而,当前在金融支付行业中,声纹识别技术的应用尚未形成一套统一的评估准则,且在实施过程中缺乏相应的指导文件。由于各机构制定的标准互不相同,缺乏一个被业界广泛认可的、权威的评测库及评价体系,这无疑为声纹技术在金融领域的广泛应用和推广设置了重重障碍。考虑到金融领域的独特性和关键地位,中国银联电子商务与电子支付国家工程实验室携手清华大学信息技术研究院的语音与语言技术中心、中国建设银行以及北京得意音通技术有限责任公司等机构,共同推进合作。在此过程中,针对声纹识别技术,它们开展了一系列深入研究,并初步构建了评测体系、指标、库以及工具。依据相关研究成果,我们对核心评估标准进行了归纳,明确了评估方式,构建了评估体系,详细阐述了体系的整体结构以及各模块的设计,最终编制了金融行业声纹识别评估手册。

    1 评测指标

    本章对标准化测试所包含的评估标准进行了详尽的阐释,详细阐述了这些指标的定义、相应的计算公式或统计技术,以及它们对声纹识别系统的重要参考价值;这些定义与安防生物识别领域的专业术语相吻合。在各个测试任务中,将根据实际需求,对文中所述的指标进行相应的计算。

    1.1 错误接受率

    错误接受率,即FAR,它反映了将伪造者的测试样本错误地认定为合法用户的比例,其数值可以通过以下公式进行计算得出:

    针对不同的评估体系,若其他标准保持不变,那么接受错误信息的比率越低,表明系统遭受假冒者非法侵入的可能性就越小,从而意味着系统的安全保障程度更高。

    1.2 错误拒绝率

    错误拒绝率,即FRR,衡量的是将目标个体的测试样本错误地判定为冒名者而予以拒绝的比例,这一比率可以通过以下公式进行计算得出:

    针对不同的评估体系,若保持其他标准不变,那么错误拒绝率越低,则意味着目标用户在使用过程中更易获得系统认可,从而反映出该系统的用户友好度更高。

    1.3 等错误率和检测错误权衡曲线

    错误接受率和错误拒绝率是衡量系统在安全性和用户体验方面性能的关键指标。针对同一系统,当调整系统参数时,错误接受率和错误拒绝率会呈现出此增彼减的现象,进而形成一条反映性能变化的曲线,这条曲线被称为检测错误权衡(Error, DET)曲线。一般来说,如果DET曲线整体更靠近原点,则说明系统的整体性能更为优越。

    等错误率,即Equal Error Rate的简称,是指在这条变化曲线上,错误接受率和错误拒绝率达到平衡的那个点的错误率。它是一个能够综合评估声纹识别系统安全性与用户体验的指标。等错误率的数值越低,表明系统的整体性能越佳。

    1.4 平均注册时间

    注册时间衡量的是声纹识别引擎完成注册操作所需的总时长,具体计算方法是以从调用注册接口开始到接口返回结果这段时间为标准。

    平均注册时间(简称ATT)指的是系统完成一次声纹注册所需时间的平均值,其计算方法可参照以下公式:

    对于各种系统而言,若其他指标保持不变,那么平均注册所需时间越短,就表明该系统的声纹注册效能更加出色;在同等软硬件配置下,单位时间内声纹注册业务的处理量也能相应增加。这一指标数值越低,表示性能越佳。

    1.5 平均确认时间

    确认时间系指声纹识别系统完成一次验证过程所需的时间长度,该时间长度从调用验证接口开始,至接口返回结果结束。

    系统完成一次声纹验证的平均所需时间,即平均确认时间(ime,AVT),可通过以下公式进行计算:

    针对不同系统,若其他指标保持不变,平均确认时间越短,则表明该系统的声纹识别速度更快;在相同的硬件和软件配置下,单位时间内,通过声纹识别的业务处理量可显著增加。这一指标数值越低,其性能越佳。

    1.6 声纹注册完成率

    系统声纹注册业务的完成率,即TSR,是衡量该业务按预定计划顺利进行的比例,其计算方法如下所示,且该指标数值越高,表示效果越佳。

    1.7 声纹确认完成率

    系统声纹确认业务的执行效率(即声纹确认完成率,简称ate或VSR)反映了业务按预定计划顺利进行的比例,这一指标的计算公式如下,数值越高表示效果越佳。

    2 评测形式

    测试过程中推荐采用的测试数据包括未经压缩的PCM编码、采用单声道的数字语音,其精度为16位,且已消除零点漂移,而语音数据的采样率则是通过声纹初始化接口进行输入。

    2.1 基准达标测试

    基准测试数据在声纹建模和语音测试中,所涉及的录音环境与声纹建模语音及测试语音的录制条件较为接近,如信道一致、内容相似、录制时间相隔不长,且说话人的情绪与生理状态均未发生明显改变。

    在构建语音模型和进行语音测试的过程中,涉及了多位说话者,每位说话者都拥有多条语音样本;通过对该测试数据集的分析,待测系统的表现可以迅速评估,以判断其基本性能是否已达到初步适用的水平。

    2.2 鲁棒性测试

    声纹识别系统不仅存在个体间的差异,而且个体生理特征及使用环境的变化也会对其特性产生一定影响;此外,在实际应用中,系统在各种不同条件下的鲁棒性也是一个不可忽视的重要因素。

    本节主要对测试各项鲁棒性的进行说明。

    2.2.1 环境鲁棒性测试

    为了检验声纹识别系统在环境噪音中的适应性,该测试需涵盖多种噪音场景中的语音样本,诸如室内与户外的噪音条件。典型噪音场景包括车站、网吧、地铁站等,且在每个具体场景中还需进一步细分。

    2.2.2 信道鲁棒性测试

    为了检验声纹识别系统的抗干扰能力,所采用的信道鲁棒性测试数据集汇集了源自多种录音设备的语音样本,其中包括了诸如麦克风、手机、电脑等常见设备。在这些主要类别中,我们还可以进一步区分到具体的设备型号,例如在手机类别中,涵盖了华为、小米等多种品牌和型号。每一款设备都收集了多人的语音数据,每位参与者贡献了多条语音记录。

    2.2.3 内容鲁棒性测试

    为了检验声纹识别系统的语音内容稳定性,测试数据集汇集了多人的多段语音样本,这些样本的语音内容可能包括:数字序列、个人姓名、常用口头语、新闻报道等。

    2.2.4 时间鲁棒性测试

   


    随着年龄的逐渐增长,人的生理特征会经历细微的变动,这些变动随着时间的推移逐渐累积,从而对个体的发音产生特定的影响,并进一步影响到声纹识别系统的识别效果。为了检验声纹识别系统在时间变化下的鲁棒性,测试中纳入了多人的多段语音样本,这些样本的采集时间分别相隔3个月、6个月、12个月不等。

    2.2.5 表达方式鲁棒性测试

    说话人的交流方式同样会对声纹识别的效果产生作用。为了检验声纹识别系统的表达适应性,我们收集了多人的多段语音样本。这些样本涵盖了情感波动、语速快慢、音量大小以及朗读与对话的不同特点。

    2.2.6 假冒攻击防范能力测试

    在执行声音身份验证任务时,声纹识别系统需准确识别声音持有者的身份,并具备拒绝伪造验证信息的能力,鉴于此,有必要对其抵御各种假冒攻击的防护性能进行检测。

    2.2.6.1 波形拼接闯入测试

    攻击者首先录制了目标说话人的语音,接着利用波形编辑软件,将语音片段进行组合,从而构建出特定内容的语音信息。随后,他们通过播放这些语音数据,假扮成目标说话人。最终,攻击者企图冒用目标人的身份,通过声纹识别系统的验证过程。

    建议将拼接后的测试语音融入其中,以此检验声纹识别系统的拼接入侵防御效能;在这些语音样本中,每个伪造的发声者均融入了一定量的拼接音频。

    2.2.6.2 录音重放闯入测试

    攻击者对目标人物的语音进行了录音,并冒用其身份,试图通过声纹识别系统完成身份验证。

    建议采用高保真设备录制的并重新播放的测试语音,用以检验声纹识别系统的录音入侵防御功能;在这些语音样本中,包含了不同个体所录制的多条语音资料。

    2.2.6.3 语音合成闯入测试

    攻击者借助语音合成技术模仿目标人物的语音,通过播放假音来冒充该目标人物,并企图利用该目标人物的声纹特征,成功通过声纹识别系统的验证。

    建议采用语音合成技术,生成高质量测试语音,并在高保真设备上播放,以检验声纹识别系统的语音合成入侵防御效果;这些测试语音涵盖了多个人所合成的一系列语音。

    2.2.6.4 语音转换闯入测试

    攻击者通过语音转换技术获取了目标人物的语音样本,随后以播放录音的形式冒充该目标人物,并企图以该人物的身份,利用声纹识别系统进行身份验证。

    建议测评数据集中纳入由高保真设备播放、经语音转换技术生成的测试语音,以此检验声纹识别系统对语音转换技术的入侵防御效果;这些测试语音涉及多个人使用语音转换技术生成的多条语音。

    2.2.6.5 语音模仿闯入测试

    攻击者通过模拟目标说话人的语音,企图冒充其身份,进而通过声纹识别系统的验证过程。

    评估所需数据应涵盖具备较强模仿技巧的模仿者对其他说话人语音的模仿测试,以此来检验声纹识别系统对于模仿入侵的防御效果;在这些语音样本中,汇集了多个人所进行的多次模仿录音。

    2.3 群体普适性测试

    集合由拥有某些相似属性的不同个体构成。这些群体间在特性上存在差异,其中声音特性便是显著的一例,这种差异会对声纹识别系统的广泛适用性产生影响。为此,为了检验声纹识别系统在各个群体中的适用程度,我们特意收集了一组涵盖不同群体特性的语音样本,这些样本依据性别、年龄和地域等因素进行了分类。各个小群体在按照不同标准进行划分后,其测试集中均包含了满足相应群体条件的众多个体的多条语音样本。

    3 评测系统架构

    图1展示了声纹识别评测系统的整体结构,图中以虚线框标示的区域即为声纹识别平台的核心部分。该平台主要由四个关键模块构成,并辅以声纹数据库。这些模块涵盖了用户交互、批量测试以及统计分析等功能。用户交互模块的前台界面负责输出结果;预处理模块的核心职责是进行测试项目的统计、准备相应的测试数据以及生成测试列表;批量测试模块的功能则基于预处理模块生成的测试列表,执行批量注册和测试操作,并将每个测试用例的注册及测试结果记录至日志中;统计分析模块主要具备两个功能,一是对批量测试产生的日志进行统计,计算得出相关指标值,二是将这些指标值转化为评测项目的评测结果文件。

    用户在系统交互界面挑选了评测系统,并将所选内容提交给了评测系统。平台利用接口适配模块对目标声纹识别系统进行访问,以获取其识别能力。评测系统在完成评测任务后,将评测结果反馈回来。

    图1:系统架构设计图

    4 各子模块具体设计

    4.1 用户交互模块

    根据受评方提交的评测项目表,向系统输入测试项目。

    评测项目及编号如下表所示:

    表1 评测项目及编号

    测试工具将在程序开始时统计(要求输入)需要评测的项目。

    4.2 预处理模块

    4.2.1 统计评测项目

    系统根据用户输入,整理形成测试项目集合。

    4.2.2 准备数据生成测试列表

    数据库的相关任务尚未完成,因此,关于数据准备阶段的规划目前尚未进行。

    程序会依据第一步中输入的评估项目,并参照评测库内存储的语音文件资料,构建出相应的测试清单。

    4.3 批量测试模块

    受评方提供包含以下接口的动态库(xxx.so)。

    该动态库内设有四个功能接口,分别是声纹初始化接口、声纹注册接口、声纹确认接口以及声纹逆初始化接口;接下来,我们将对这四个接口进行详细定义和相应解释。

    4.3.1 声纹初始化接口

    接口原型:int (int );

    功能说明:按传入的语音采样率和系统默认配置进行初始化;

    参数定义:

    :语音数据采样率;

    返回值:

    1:初始化成功;

    0:初始化失败。

    4.3.2 声纹注册接口

   


    定义接口原型:类型为int的函数,其参数包括一个short类型的指针、一个int类型的值和一个int类型的值。

    该功能旨在对输入的语音数据进行声纹识别,并据此构建出特定说话者的声纹档案。

    参数定义:

    :声纹注册语音流指针;

    :声纹注册语音流长度;

    :声纹注册语音对应的说话人编号;

    返回值:

    1:建模成功;

    0:建模失败。

    4.3.3 声纹确认接口

    接口原型定义如下:整型变量int,参数为指向短整型数组short*的指针,两个整型变量int,以及指向浮点型数组float*的指针Score。

    该功能描述如下:对输入的语音信号进行声纹匹配,依据匹配结果在相应的说话人声纹模型中进行验证,同时计算出识别的得分,并将该得分存储于Score这一参数中。

    参数定义:

    :声纹确认语音流指针;

    :声纹确认语音流长度;

    :说话人编号;

    Score:声纹确认得分;

    返回值:

    1:确认成功;

    0:确认失败。

    4.3.4 声纹逆初始化接口

    接口原型:int ();

    功能说明:逆初始化,释放系统资源。

    参数定义:

    无。

    返回值:

    1:逆初始化成功;

    0:逆初始化失败。

    5 总结

    声纹是生物特征的关键构成要素之一,我国银联电子商务与电子支付国家工程实验室携手多家单位,对声纹评估进行了深入研究。展望未来,实验室及合作伙伴将持续深化合作,对声纹评估工作进行持续优化与提升,同时将研究范围拓展至更多生物特征领域,以增强用户交易体验并确保交易安全。

    联系我们

    电子商务与电子支付国家工程实验室

    生物特征研究团队

    我国中国银联电子商务与电子支付国家工程实验室的生物特征研究小组,专注于金融领域生物识别技术的评估、探究及实际应用开发,热切期待与产学研各界机构建立联系,共同探讨和推进相关研究及应用的交流与合作。

    联系人

    邱雪涛

    万四爽

    余玮琦

    刘  想

    电子商务电子支付国家工程实验室

    ID:
您需要登录后才可以回帖 登录 | 立即注册

Archiver|手机版|小黑屋|关于我们

Copyright © 2001-2025, Tencent Cloud.    Powered by Discuz! X3.5    京ICP备20013102号-30

违法和不良信息举报电话:86-13718795856 举报邮箱:hwtx2020@163.com

GMT+8, 2025-5-6 17:33 , Processed in 0.077506 second(s), 17 queries .