hwyzw 发表于 2025-2-12 09:20:14

58同城智能语音质检系统:语音识别与NLP技术提升销售客服质量

    介绍

    有成千上万的销售和客户服务人员,每年致电数百万小时。我们已经建立了一个智能的语音质量检查系统,使用语音识别技术将语音转换为文本,然后使用NLP技术进行呼叫文本。分析和采矿以实现自动机器质量检查,可以标准化销售和客户服务工作并提高客户服务质量。该主题将首先介绍语音质量检查系统的整体体系结构,然后详细分享语音处理和语音质量检查涉及的NLP技术,包括单声道语音分离,角色识别,文本标签挖掘等。最后,我们将介绍58个销售。语音质量检查申请案例在客户服务方案中。

    嘉宾简介:AI实验室算法的高级工程师Chen Lu于2018年9月加入58。她目前主要负责语音质量检查和语音机器人算法研发。他于2016年毕业于北京邮政与电信大学,并在工作,从事产品评论挖掘算法研究与开发。

    目录

    1。背景简介

    2。整体体系结构

    3。核心功能

    4。业务案例

    1个背景简介

    什么是语音质量检查?

    传统的语音质量检查通常是指质量检查员收听一定比例的电话录音以进行手动质量检查,以检查代理在通话过程中是否违反了法规和非标准演讲。

    简介通话中心

    的呼叫中心是代理商与客户之间的重要桥梁,并进行了代理商和客户之间的大部分呼叫。它支持成千上万的销售和客户服务的工作,每年的电话次数可以达到1亿多,电话时间持续数百万小时。这个规模是整个行业中非常巨大的数据。

    如何在上进行手动语音质量检查? 58个手动语音质量检查中有一个特殊的质量检查团队。质量检查团队将下载呼叫中心录制的录音,并手动收听。聆听时,它将根据自己的理解记录座椅是否有一些违规和非标准。修辞。这种效率非常低。统计后,普通人每天可以收听大约三个小时的录音。

    传统人工质量检查具有以下四个缺点:

    首先是采样检查小于1%,覆盖率特别低,并且实际上没有质量检查大量语音数据。第二个是质量检查标准不一致。许多质量检查员根据他们在质量检查期间的理解来记录此席位中存在的问题。这可能会导致不一致的质量检查标准,并在后期建立一定程度的治理。麻烦。

    第三,很难检测到很多风险信息。主要原因是采样不足,尚未绘制大量风险信息。

    第四,质量检查效率非常低,人工成本也很高。

    根据这些传统人工质量检查的缺点,我们创建了一个智能的语音质量检查系统,并且整个过程如上图所示。首先,我们将实时收集语音录音,并将语音转换为文本。然后,我们将根据我们的质量检查模型进行质量检查,最后在网络平台上显示质量检查结果。 Web平台上的重新检查人员将进行手动重新注射,并向相关主管进行重新检查结果。整个型号是全尺寸的机器质量检查以及手动重新检查。与传统的人工质量检查相比,它具有以下好处:

    首先是对所有录音进行质量检查。 每年都有数百万小时的语音数据,并且可以完全检查这些数据。

    第二个优势是实时反馈。录音是实时检查质量后,数据将直接显示在网页上,质量检查人员可以及时进行跟进和重新检查,重新检查结果将同步到主管及时的座位。

    第三个是准确的风险标识。因为它是机器检查,因此有必要制定非常清晰的质量检查规则,然后使用机器来识别它们,以便质量检查结果将更加准确,更统一,并且在后期更容易量化。

    第四个是它需要少量的手动重新启动,并且是有效的。我们的模型是机器质量检查以及手动重新检查。机器质量检查不需要人工成本,但是只有手动重新检查需要一些人力,这可以极大地提高效率。

    2个整体体系结构

    这张图是整体体系结构,我们可以看到最核心是逻辑层。逻辑层包括扬声器角色识别,语义标签和语音评分,它们等于我们整个项目的大脑,并且与其他模块相关。首先,访问层访问语音数据,然后调用基本服务层的语音分离和语音识别模块,以将其简化为文本,然后逻辑层开始相应的质量检查工作。质量检查完成的数据将显示在网络质量检查平台上。同时,编辑将对质量检查结果进行标记,评估和后续分析。

    3个核心功能

    接下来,让我们在整个质量检查过程中介绍核心技术,首先是语音分离和语音识别模块。语音识别是必要的模块,但是为什么要使用语音分离?这涉及即将发出的呼叫中心。它的设备是单声道,座位和客户的演讲在同一频道上,因此无法区分它们。如果您直接识别语音识别,则将获得代理商和与客户叠加的语音内容,并且更难进行随后的质量检查。因此,我们将首先进行语音分离,将座椅与客户的声音分开,然后执行语音识别。语音分离的评估指数是DER分离错误率,语音识别的评估指数是CER单词错误率。在这里,我们主要引入语音分离。

    https://img0.baidu.com/it/u=2800770196,4204246149&fm=253&fmt=JPEG&app=138&f=JPEG?w=590&h=446

    上面的图片很好地说明了语音分离和语音识别。在单声道上,您可以看到紫色条纹,座椅和客户的话混合在一​​起。语音分离后(第二个框图),将其分为扬声器A和扬声器b。最后,通过语音识别,第二个框图下方的句子被翻译。但是,在完成语音识别工作后,说话者A和说话者B仍然不知道哪个是座位,哪个是用户,因此也有必要确定说话者A和扬声器B的角色(这将是稍后介绍)。

    单声语音分离

    单声音分离的评估指标是分离错误率。分隔错误率的计算公式为:识别错误的音频持续时间/总持续时间的总和。右下角的图片中有两个声音,一个是标准集,另一个是测试集。标准组中有两个字符,扬声器A和扬声器b。但是,在分开声音后,将获得这样的测试集。您可以看到测试集与语音分离的分离与标准集不同。其中,错误,错过,都是错误的声音。语音分离的目的是最大程度地减少这三种错误的声音的持续时间。

    上图显示了语音分离的整个过程。演讲后,您将首先使用VAD打破人声,识别人声,然后对人声进行矢量化,最后将向量聚集以形成两种类型的扬声器A和扬声器b。 VAD句子是的开源,它在我们的语音分离方案中取得了良好的结果。

    第二步是使用34层VGG残差网络的音频转向矢量。我们尝试了矢量聚类中的各种聚类解决方案,最后选择了聚类。这是我们在VAD调音和音频转向向量方面的一些经验。

    VAD调音

    在VAD调整中,我们主要在两个方面进行调整以取得更好的结果。一个是框架移位,另一个是碎片合并。

    对于框架移动,我们尝试了较小的框架移动,以便我们可以获得更细粒度的语音表示和更准确的人声识别。

    第二个是剪辑的合并。底部图片是编辑的声音情况,但是在制作VAD句子时,它将被分成较小的剪辑。这些较小的碎片将减少DER,因此我们将其合并。

    音频转向矢量

    我们还尝试了音频转向向量的大量工作。这是使用34层VGG残差网络获得音频转向向量的最终方法。这是2019年顶级芒本报纸发布的网络。其最初的任务是一项语音识别任务,该任务确定了n个扬声器。我们将该模型的最后一层的输出直接用作相应的音频向量。

    在整个语音质量检查过程中,我们首先将扬声器分开,然后使用语音识别来获取左侧的两个文本,即扬声器A的文本和扬声器的文本b。下一步是判断演讲者。 A是代理商或客户,因此需要进一步的操作,这是角色识别。我们的目标是在左侧的两个文本堆上识别他们的角色。

    总体过程显示在右侧的图中。在获得语音分离和语音转录的结果后,我们将首先执行性别认可。如果我们发现这两个扬声器属于异性,我们将直接检查席位的性别,然后我们可以知道客户的性别。这样,在我们认识到每个声音之后,我们就可以知道他的角色是座位还是客户。如果我们发现自己是同性的,我们将进行另一个过程。首先,我们最初将判断说话者A和说话者B的身份,然后进行单句话校正以实现相对完整的角色识别。

    最初的角色分配,我们还基于先验知识,通常在通话过程中在座位上讲很多事情。以左侧为例,如果说话者B有更多单词,我们会认为说话者B是座位和扬声器A是客户。基于这样的先验知识,在我们做出初步的决策和分配之后,我们会发现,由于说话者的早期语音分离,会出现某些分离错误,从而导致错误的级联,并且某些单词角色将识别错误以及整体。因此,我们还需要进行单一句子的角色校正工作。例如,经纪人说“我是的人”,他被分配到客户的这一边。然后,当我们纠正单一句子角色时,我们将纠正该句子为代理。

    主要角色识别模型

    这是我们的性别识别模型和单句话角色校正模型。性别识别模型我们使用 +BI-LSTM +,性别模型的识别精度为92%。在执行单句话校正时,我们最终使用了两层BERT。在我们的训练场合中,我们发现两层Bert不仅比12层BERT具有更好的结果,而且还大大提高了推理速度。 ,更方便我们在线推理。

    质量检查算法

    接下来,我们将介绍最核心质量检查算法模块。我们的大多数质量检查工作是检查座位上是否有一些违规或非标准的单词。我们可以将其抽象成NLP中的分类任务,在其中的质量检查算法中,分类模型占很大比例的。由于58拥有许多业务线路,因此每个业务线路都会抽象不同的标签,并且不同业务线的数据不同,并且我们使用的模型也将进行相应调整。在这里,我们主要分享销售业务系列的质量检查算法。销售工作是与某些客户交流并推广产品。在此过程中,可能会有一些非标准的演讲和一些非法行为。因此,我们从销售质量检查中提取了一些标签,例如投诉,侮辱和过度承诺。

    我们的质量检测模块主要用于在一个句子中识别它。我们一开始使用的模型是,为什么我们选择此模型?有两个主要考虑因素:一个是我们标签的粒度不会太长,而且基本上是同一句子。例如,投诉标签基本上是一个陈述“我要向您投诉”和“如果您这样做,我会去相关部门起诉您”,可以在文本部分中确定,所以我们使用了它。第二点是,由于我们获得的文本以语音转录,因此会有一些ASR传输错误。对于具有更多ASR错误的文本,LSTM等模型的某些效果不如我们中的那些效果,因此我们将使用第一个版本。我们还将使用自己的业务数据预先培训SPTM模型。

    SPTM模型是我们开发的模型。它的全名是预模型,我们于2019年4月开发。使用SPTM模型后,准确的动作已在一定程度上改进,并且目前是最有效的模型之一。在线推理的时间也很少,单层SPTM推理仅需12毫秒,评估效果与Bert-Base相同。

    SPTM模型

    SPTM型号于2019年4月出生,并根据BERT进行了一些更改,该BERT于2018年10月底出生。左侧的图是Bert,其中包括两个任务,一个是预训练,另一个是微调。我们进行的更改主要包括两个点。一种是用BI-LSTM替换它们,第二个是删除NSP任务。以上是我们SPTM的开源地址。如果您有兴趣,可以使用它。只需对自己的业务数据进行一些预培训,以在下游数据上产生良好的结果。

    https://img1.baidu.com/it/u=4095528940,3836838218&fm=253&fmt=JPEG&app=120&f=JPEG?w=660&h=372

    这是SPTM的详细介绍。 Bert-Base使用末端,这是由12层制成的堆栈。预训练的任务包括两个,一个是MLM,另一个是NSP任务。我们删除了该领域的NSP任务,以前的任务与BERT一致。除了更换每个块外,我们块的其他部分与伯特一致。

    SPTM的优点是,预训练的模型具有快速的推理速度,缺点是其表达能力在某些复杂的任务上略有下降。例如,其表达能力在某些阅读任务中不如BERT好。但是在一些简单的任务中,例如一些常用的文本匹配,分类和序列标记任务,结果相对较好。

    单句标签

    对于单句标签,我们还尝试了其他一些模型。其中是一个相对典型的。它是在2019年9月提议的。与Bert相比,它对以下三个优化进行了优化:

    第一个是嵌入向量的单词,它使用分解,并且参数的数量大大减少。第二个是跨层参数共享。跨层参数共享不会对其信息处理功能造成太大损害。第三是段落的连续性任务。我们积累了大量的ASR转录文本,因此我们使用自己的业务数据预先培训两层。模型参数量不仅大大降低,推理速度也更快,而且其训练速度也加速了。我们的业务数据与SPTM基本相同。

    全局标签

    除了单句标签外,我们还拥有一些使用全局标签的业务,例如上面的示例。在左边的这次对话中,客户有时会问:“获得营业执照需要多长时间?”目前,客户服务应该回答这个问题,但是一些客户服务会回答:“我不太了解,请向其他人提出问题。” ,这实际上是逃避责任的体现。我们的目标是认识到这种声音,但是如果我们只认识到“我不太了解”,则很容易造成意外伤害。因此,我们将结合上下文信息以识别它。

    质量检查模块通常需要探索一些规则以发现数据分布规则,以便我们可以进行一些分析和规则制定。我们使用的是两种常见的规则挖掘方法:一个是ngram规则挖掘,另一个是新单词发现。

    Ngram规则挖掘,其主要功能是发现一些对阳性示例样本敏感的规则,并且基本过程如上图所示。例如,有一个说法:“如果生病了几次,您尝试过多少次?”我们将首先提取其ngram数据,然后我们将分别计算出正面和负面示例的文本中出现的ngram的数量。如果在阳性案例中发生的次数远远超过负面案例的次数,那么我们认为这是对积极案例敏感并将保留的规则。它适用于注释文本分为正面和负面示例的情况。例如,在像侮辱这样的情况下,我们将使用它来发现对侮辱敏感的规则,从而提高了召回和准确性。

    挖掘规则的另一种方法是发现新单词。当我们进行文本处理时,我们将进行一些单词切割工作,但是在剪切单词时有一些固定的表达式,并且一些常用的表达式不在词汇库中。单词滴答的粒度很好。但是我们想获得更长的粒度,以形成语义上易于理解的内容,因此我们使用了新单词。首先,将在语料库上执行正常单词分割,然后使用点共同信息选择替代单词,然后将根据其左右熵选择新单词。

    以上是对我们整个核心技术的介绍。在对语音翻译的文本进行了质量检查之后,质量检查结果及时与Web质量检查系统同步,并且网络质量检查系统将显示出来。

    这张照片是网络质量检查系统的屏幕截图。这个示例是客户说他想抱怨的时候。我们检测到这个风险点并将其放在网络系统上。重新检查人员将进行重新检查。如果您抱怨这真的是一个,他将单击以确认。如果这是错误的判断,他将修改标签并将其更改为普通标签。

    我们还将标记和评估质量检查数据,将带注释的结果添加到培训数据中,不断优化我们的模型并改善质量检查效果。

    评估将在质量检查后首先采样结果。抽样后,一个特殊的质量检查团队将标记它,还将对明显结果进行手动质量检查。质量检查的目的是确保标记数据的准确性,并最终形成评估集以进行评估。当前的总体准确率为92%。在收入方面,我们的呼叫中心已将所有记录与质量检查联系起来,其中客户服务质量检查节省了约1000人。

    4个业务案例

    第一种情况是对高风险销售记录的质量检查,即判断在销售和客户之间的沟通过程中是否发生过一些高风险行为。首先,我们制定了一系列标签,分为高风险标签和普通标签,其中我们将更多地关注高风险标签,因为高风险标签为用户带来了非常差的经验,并且也可能会带领向用户投诉。

    质量检查系统将质量检查这些标签和重新检查人员将进行重新检查。这些重新检查的结果将传递给销售主管,后者将选择一些处理措施。例如,如果将这些手机放入无声数据库中,或者手机受到180天的保护,则无法在180天内调用销售,从而形成更好的反骚扰机制以保护客户免受骚扰。

    第二种情况是呼叫中心风险控制和反骚扰。这基于历史语音数据,以预测高风险呼叫以减少客户投诉。由于我们的语音质量检查已在一段时间内积累了历史数据,因此历史上的每个呼叫都会带有标签。每个呼叫都会有一系列时间拨号,我们可以使用此标签来预测此呼叫是否是高风险呼叫,以及将来是否有投诉。

    右边的表是我们进行的统计数据。实际上,我们理性地思考。用户说“不需要”或说“您称我过多的次”的次数越多,该用户的高风险率就越多,将来会投诉。因此,我们构建了这样的模型来预测高风险呼叫。我们预测的结果也将相应处理,例如输入无声数据库并在一定时间内保护电话。该机制的功能是有效减少高风险呼叫的拨号,减少客户骚扰,减少投诉并提高客户服务质量。

    第三个业务案例是客户服务质量检查。客户服务方案主要分为两个部分:一个是通话过程中不得出现客户服务。例如,您不能在与客户的电话期间推翻责任,也不能没有开幕词或告别词。另一种情况是,与客户交谈时,我们必须包括某些标签。例如,对于新注册的用户,客户服务必须对他们进行“确认负责人”和“验证包装”等。 ,我们将进行相应的管理。

    AI实验室招聘信息
页: [1]
查看完整版本: 58同城智能语音质检系统:语音识别与NLP技术提升销售客服质量