5月23日消息阿里蚂蚁5篇论文被KDD 2017收录再获突破

hwyzw · 发表于 2024-11-24 17:38:43

5月23日消息，2017国际知识发现与数据挖掘大会（KDD）全球投稿论文中，来自阿里巴巴集团和蚂蚁金服的论文共5篇入围。这是继年初阿里云获得2017 KDD杯主办权之后。当天，阿里巴巴在国际数据挖掘顶级会议KDD学术成果上再获突破。

图片 KDD 2017官网图片

KDD的英文全称是and Data，意思是知识发现和数据挖掘。它由美国计算机协会ACM数据挖掘分会组织。它是国际数据挖掘领域的顶级会议。每年都有大量来自世界各地的学术界和工业界人士参加。这次活动。 KDD 2017共吸引了来自世界各地的1,144篇论文投稿，其中216篇论文被纳入。共有25篇论文被清华大学、中科院、阿里巴巴等中国大陆学术界和工业界收录。今年8月，KDD 2017大会将在加拿大港口城市哈利法克斯举行，素有大数据领域奥运会之称的KDD杯也将同期举行。

据了解，阿里巴巴收录论文涵盖深度学习、大规模图计算、智能产品分拣等多个研究领域。基于真实的业务场景或者数据样本，文章中的一些方法结论已经在业务中得到应用。例如，在深度学习语义建模研究中，提出了一种新的文本语义编码算法Conv-RNN。该模型参考了目前较为常用的文本语义编码模型递归神经网络和卷积神经网络，对文本进行了进一步的改进。语义编码优化可以实现更准确的文本分类和问答匹配，并已应用于阿里巴巴的智能问答系统。

5篇论文概述如下：

《淘宝展示广告中的OCPC智能调价算法》

“针对广告主对粗粒度流量进行固定价格竞价的传统广告系统，本文创新性地提出了一种新的OCPC（Cost Per Click）智能调价算法。

该方法智能调整广告主对每条流量的出价，以实现更好的流量价值匹配，显着提高广告主收入和广告系统的分配效率。同时，基于健康的经济生态和可持续的长期效益，这种方式的亮点在于不仅优化了客户价值，还实现了用户体验、平台收益、用户体验的均衡分配等整体优化。经济效益。 ”

《基于大规模图计算的本地算法的展示广告行为预测》

“用户行为建模在计算广告中至关重要，计算广告通过跟踪用户的在线行为来构建用户的产品，然后根据用户的兴趣和需求提供相关的广告。准确的模型将导致更高的定位准确性，从而提高广告效果。直观地说，类似用户往往对所展示的广告有类似的行为（例如展示次数、点击次数、转化次数）。

然而，据我们所知，之前没有太多的工作明确地研究各种类型的用户行为的相似性并将其纳入广告响应定位和预测，这主要是由于问题规模较大。为了弥补这一差距，在本文中，我们使用二部图来表示历史用户行为，其中包括用户节点和广告商活动节点，以及反映过去各种类型的用户广告活动交互的边。

基于这种表示，我们研究了用于用户行为建模和动作预测的随机游走局部算法，其计算复杂性仅取决于输出簇的大小，而不是整个图。我们的目标是通过利用历史用户-用户 (user-user)、营销活动 (-) 和用户-活动 (user-) 交互来改进行为预测。

特别是，我们提出了二分图的伴随 ADNI 算法。 ADNI 扩展了算法，能够从本地感兴趣的用户群中发现特定的广告商活动。我们还提出了 ADNI 的两个扩展以提高效率。所提出的算法在合成数据和世界领先的需求方平台（Side）上的性能证明了它们在预测极少数事件方面的有效性。 ”

《一种新的语义编码模型及其在智能问答与分类中的应用》

“在本文中，我们开发了一种用于文本语义建模的卷积迭代神经网络（conv-RN N）的通用推理混合框架，无缝集成了从卷积和循环神经网络结构中提取语言信息。不同方面的优点从而增强了对新框架的理解。

此外，基于转换 RNN，我们还提出了一种新的句子分类模型和一种基于句子的答案选择模型，分别增强了句子匹配和分类。我们在各种数据集上验证了所提出的模型，包括两个具有挑战性的答案选择任务（AS）和句子分类基准数据集（SC）。

据我们所知，AS和SC是目前最完整的比较。我们凭经验证明了转换 RNN 在这些不同的挑战性任务和基准数据集上的卓越性能，并总结了对其他最先进方法性能的见解。 ”

《多级级联学习在大规模电商排名系统中的应用》

“在大数据时代，大量的应用都会涉及到海量物品的分拣工作。一方面，我们需要获得尽可能准确的分拣结果，另一方面，我们希望保证系统过去很多工作都集中在算法精度方面（比如各种to-rank方法），只有少数工作考虑了计算性能，而且基本停留在小数据集和研究阶段。电商场景下，产品总量很大。（百）亿），查询的相关产品也可能有很多（千万）。

当线上请求很高时，就必须考虑计算性能，尤其是双十一等场景，请求量会增加数倍。为了同时保证排序的效果和效率以及用户体验，本文设计并实现了一个级联搜索CLOES：其主要思想是将这种排序分为多个阶段，每个阶段使用越来越复杂的特征来逐步获取更准确的结果。结果;前期使用简单的特征来过滤掉明显不需要的结果，后期使用复杂的特征来识别无法区分的结果。

另外，算法结合电商场景的特殊性，严格限制返回结果的延迟和返回产品的数量，保证用户的搜索体验。离线实验验证了算法的正确性和有效性。与传统方法相比，可以提高精度，显着提高计算性能；去年双11期间，加入了大量准确且耗时的计算特征（包括强化学习和深度学习特征），算法极大地保证了引擎的效率，减轻了排序的压力发动机性能提升40%，同时分选效果也得到一定程度的提升。 ”

《基于参数服务器的分布式学习系统及其在阿里和蚂蚁的应用》

近年来，由于大数据（TB级甚至PB级）和大模型（千亿甚至万亿参数）的出现，无论是学术界还是工业界都迫切需要并行机器学习能力。虽然现有的一些分布式计算系统，如Spark、Spark，为了支持机器学习算法的并行化，提供了一些同步和粗粒度的算子（例如Map、Join等），可以解决一些问题。到一定程度就会出现问题。中小型问题，但这些系统使开发人员很难设计更高效且支持更大规模的机器学习算法。

这促使我们设计一个通用的分布式平台，称为鲲鹏。它结合了分布式系统和分布式优化算法的特点来处理复杂的大规模机器学习问题。具体来说，鲲鹏不仅封装了数据/模型并行、负载均衡、模型同步、稀疏表示、工业容错等特性，还提供了易于使用的界面，使用户能够专注于机器学习的核心逻辑并减少使用。成本并提高效率。在千亿样本/特征的数据集上，测试结果表明，这样的设计给机器学习带来了巨大的性能提升，显着提升了LR、FTRL、GBDT、FM、深度学习等算法的规模。具有效率。

作为全球顶尖的互联网科技公司，阿里巴巴电商整体规模在过去一年已突破3.7万亿元，记录了数亿活跃用户购买行为数据、数十亿条多维特征的产品数据以及EB-级数据积累。拥有海量数据的阿里巴巴在年初宣布了NASA计划“用10年或20年的时间解决困难”。

此外，正在扩大与中国科学院、SIGIR等国内外顶尖学术机构的合作。不久前，阿里巴巴iDST负责人金蓉受邀担任国际计算机联合会中国理事会执行理事。阿里巴巴在一些领域取得了突破。例如，它与中国科学院合作开发了中国第一台光量子计算机。单位体积算力提升10倍的液冷服务器也计划在2018年大规模商用。

阿里妹注：目前KDD官方不提供论文下载。别担心，后续我们会邀请论文作者详细分析论文思路和技术成果，敬请期待。粽子节快乐~

5月23日消息 阿里蚂蚁5篇论文被KDD 2017收录 再获突破

浏览过的版块

5月23日消息阿里蚂蚁5篇论文被KDD 2017收录再获突破