深入解析消费者行为与用户行为分析:购买决策与数据来源详解
1. 研究何时、为何、如何以及在何处购买或不购买。用户行为一般是指用户通过中间资源购买、使用、评价某种产品的记录。同时辅以用户、资源、产品本身、环境等信息。
用户行为记录一般可以表示一组属性:{属性1,属性2,...,属性N}
2、用户行为分析主要研究目标用户的行为。数据来源包括用户日志信息、用户主体信息和外部环境信息。互联网/移动互联网上的用户行为是通过特定工具记录的,记录的信息通常称为用户日志。
数据内容:
(1)网站日志:用户访问目标网站时,网站记录的与用户相关的行为信息;
(2)搜索引擎日志:搜索引擎日志系统记录用户在搜索引擎上的相关行为信息;
(3)用户浏览日志:记录用户通过特定工具和渠道在搜索引擎上记录的相关行为信息;
(4)用户主体数据:如用户群体的年龄、文化程度、兴趣爱好等;
(5)外部环境数据:如移动互联网流量、移动互联网用户增长情况、自付费套餐等;
数据特点:
(1)大数据/海量数据,大数据;
(2)实时分析/准实时分析、离线分析;
(3)由于用户日志中包含了大量的用户个人信息,为了避免过多涉及用户隐私,日志工具通常会对用户个人信息进行加密,不涉及具体用户行为细节,以保护用户隐私;
(4)日志信息通常包含大量噪声,因此基于个人行为信息分析的结论往往高度不可靠。
3、用户行为分析平台主要面临海量数据处理难度大、分析模型算法复杂、建设运营成本高等方面的技术难点和挑战。
海量数据处理困难:
(1)问题:面对TB甚至PB级的海量数据,传统的关系型数据库存储尚可,但对OLAP分析的模仿度较低;
(2)难点:如何实现可扩展的数据存储和灵活快速的数据访问?
(3)思路:使用Nosql数据库解决大数据存储,通过水平扩展读写负载来提高访问性能;
分析模型算法比较复杂:
(1)问题:分析需要使用预警预测、聚类、协同过滤等数据挖掘算法。算法的编程复杂度和计算复杂度都非常大;
(2)难点:如何实现分析模型并提供实时、高速的复杂分析;
https://img0.baidu.com/it/u=3622892942,2889917045&fm=253&fmt=JPEG&app=138&f=JPEG?w=511&h=500
(3)思路:改造开源数据挖掘模型库,使用其他并行计算框架;
建设和运维成本高:
(1)问题:使用传统数据库和分析软件进行海量数据分析会导致天价的软件授权费用;外部数据分析服务也很昂贵,并且面临安全性和灵活性的限制;
(2)难点:如何低成本、高效率地构建和运营一个系统?
(3)理念:基于可靠的开源解决方案,构建一个独立、经济、灵活的分析平台。
4.它是一个基于大数据论文的开源项目。最初的框架是由 Doug 在 2005 年提出的,目前是一个由 维护的开源项目。从成立到现在,该系统历时7年开发完成了一系列重要子项目,形成了覆盖数据存储、管理和分析功能的较为完整的大数据生态系统,成为业界最具影响力的大数据生态系统。大数据存储和处理。重要且使用最广泛的开源框架。
核心组件:
(1):
· 分析并行处理框架;
· 实现大量HDFS数据的批量分析;
(2)HDFS:
· 分布式文件系统;
· 高容错能力,部署在低成本商用硬件上;
· 提供高吞吐量,适合批量处理;
它是一个平台框架,提供海量数据存储和运行在大量通用计算单元上的并行计算:
· 基于x86集群的水平扩展;
· 基于并行计算能力;
· 设计规模:PB级数据量,上千个计算节点;
5、优点:
(1)可靠性高:
· 逐位存储和处理数据的能力值得信赖;
(2)高扩展性:
· 可管理数千个存储和计算节点;
(3)高性能:
https://img2.baidu.com/it/u=2936754803,3125420036&fm=253&fmt=JPEG&app=138&f=JPEG?w=684&h=500
· 实现数千个计算节点的并行计算;
(4)高容错性:
· 失败任务自动备份和自动重启;
缺点:
(1)性能可优化:
· 与硬件理论性能存在差距,有优化空间;
(2)可扩展性和可靠性:
· 受到单一、单一设计的严重制约,存在明显的单点故障源;
· 单内容容量和性能有限,导致集群节点数限制在2000个左右,可支持的文件系统限制在10-50PB,最大支持文件数约1.5亿个;
(3)缺乏各种企业特色:
· 企业个性化需求,定制化开发和可靠的运维服务;
工业版主要改进方向:
(1)消除单点故障约束;
(2)改进;
(3)完善数据管理和数据源整合;
(4)镜像、快照等容灾能力;
(5)可靠的服务支持;
6、数据挖掘算法的编程复杂度和计算复杂度非常高,这通常被称为限制分析项目按期完成的瓶颈。精细化运营分析平台采用开源的支持并行计算框架的数据挖掘模型数据库来实现数据挖掘算法。快速实施、高效执行。基于这些经验,我们未来将研究其他开源算法库(如Weka和R等)与商业算法库的集成,以保证分析的准确性和性能。
利用聚类和协同过滤算法库来实现价值评估分析和智能推荐引擎。
7、用户行为分析平台建立了大量的分析主题,分析结果的呈现能力对平台的应用效率影响重大。凭借我们开发管理决策支持系统的经验,我们可以提供灵活、可定制的报告准备和数据呈现方式,并建立了主动推送和移动跨平台访问相结合的数据访问能力,提高分析材料的生成和呈现速度。
页:
[1]