大数据处理技术论文,论文数据处理什么意思,论文处理数据技术大纲
邓栋:2016年清华大学优秀博士学位论文一等奖获得者大数据处理中的容错技术研究
Error- Big Data
作 者:邓栋(图右)
指导教师:李国良(图左)
培养院系:计算机科学与技术系
学 科:工科
读博感言:
有良师指导、益友陪伴,读博苦更乐,受用一生。
研究背景/选题意义/研究价值
现实世界的数据有各类错误,像拼写错误、格式错误、数据不一致等。分析数据前,常要先处理和转化原始数据,以得到可用数据。传统数据处理方式可能丢失诸多有效信息,甚至引入错误信息。为获最佳分析结果并适应当今大数据时代需求,论文研究了大数据处理中的容错技术。现实世界中的数据很多都能用序列或者集合的形式表示,论文利用广泛应用的序列相似函数和集合相似函数来容忍数据的错误,针对数据处理的抽取、连接、检索这三个最典型操作,论文研究近似抽取、近似连接和近似检索技术来实现错误容忍的数据处理,还设计了高效的索引和算法。
主要研究内容
https://img0.baidu.com/it/u=1831323036,1899287156&fm=253&fmt=JPEG&app=138&f=JPEG?w=500&h=707
论文提出了统一的框架,该框架能同时支持序列相似函数和集合相似函数下的近似抽取,基于此统一框架,论文设计了高效的过滤算法,用以避免不必要的计算,还设计了堆算法来共享计算,论文提出了快速有效的剪枝策略,以此进一步提高抽取性能,实验表明,论文提出的方法比现有最好的方法快1-2个数量级。
论文设计了一个基于划分的框架来支持序列近似连接,把序列平均划分为不相交的片段,保证仅当一个序列的子序列与另一个序列的片段匹配时它们才可能相似,提出了有效的子序列选取技术,证明了该技术选取的子序列数量是最少的,还提出了扩展验证技术来快速验证候选结果。
图1展示了EDBT大数据竞赛前三名的性能比较,其中1_A是我们的程序,单位是秒
图2:容错数据处理系统架构图
对于集合近似连接,论文依据全集将集合划分成不相交的片段(子集),提出混合运用片段和1 - 删集(移除片段中1个元素后的子集)以提高过滤能力,设计了近似比为2的贪心算法,还通过多长度分组把分配选取时间复杂度从O(s3)降低到O(s log s),其中s是集合大小 。论文对该算法进行扩展,使其能在Spark上运行,以支持大数据的近似连接。基于划分的算法在EDBT大数据融合竞赛中获得冠军,且具有绝对优势,其效率比获得亚军的算法高10倍。
论文提出了一个关键前缀过滤技术,该技术用于解决基于序列相似性的近似检索问题,相比现有最好的前缀过滤技术,关键前缀过滤技术的剪枝能力更强,过滤代价更小,论文设计了动态规划算法,该算法用于快速选取高质量的关键前缀以检测离散的错误,论文还提出了对齐过滤技术,该技术用于检测序列中连续的错误。
主要创新点
界定了股权信托等名实分离情形中股东资格的认定,以信托关系对隐名出资人与名义股东之间的关系进行重构。
从多个部门法的角度,对股权信托受托人的权力进行阐述,对其义务也进行阐述,并且试图归纳出妥当应对角色义务规范冲突的规则。
对股权信托受托人的权力边界进行了分类,针对具体权力开展了类型化尝试。
代表性学术发表
https://img2.baidu.com/it/u=423350988,3288275606&fm=253&fmt=JPEG&app=138&f=JPEG?w=500&h=687
学生作为第一作者,共发表了11篇中国计算机学会A类论文长文,这些论文被引用了近300次。
董登、李、何文、H. V. 等人,《META: 基于集合连接》,VLDB 2016:360 - 371
你提供的内容似乎存在一些不清晰和错误的地方,不太能准确理解其确切含义并进行有效改写。请你检查或修正后重新提供准确内容 。
你提供的内容似乎存在一些乱码或不清晰的表述,无法准确理解其完整含义并进行改写,请你检查或补充完整准确的内容。
Dong Deng, Yu Jiang, Li, Jian Li, Cong Yu. 用于网络使用大型数据库。VLDB 2014:1606 - 1617.
你提供的内容似乎存在乱码或不完整,无法准确理解并进行改写,请检查或补充完整准确的内容。
你提供的内容似乎不完整且存在一些混淆,不太能明确准确的需求,请补充完整清晰的信息以便我能按照要求进行改写。
你提供的内容似乎不完整且存在一些混淆,不太明确准确的意思,无法按照要求进行改写。请补充完整清晰的内容以便能正确处理。
你提供的内容似乎不完整且存在一些乱码,不太能明确准确的含义,无法按照要求进行改写。请你检查并补充完整准确的内容。
李东登,《Pass-Join:A 基于连接的连接方法》,VLDB 2012年第353 - 364页 。
你提供的内容似乎不完整且存在一些乱码,无法准确理解其完整意思并进行改写,请补充完整清晰的内容。
你提供的内容似乎存在较多不清晰和错误的表述,不太能准确理解其确切含义,无法按照要求进行改写。请检查并修正后重新提供。
页:
[1]