官方服务微信:dat818 购买与出租对接

网站日志流量数据分析:系统日志与埋点日志的全面解析与应用

2万

主题

2

回帖

6万

积分

管理员

积分
62052
发表于 7 小时前 | 显示全部楼层 |阅读模式
    文章目录包含两个部分,一是网站日志分析案例项目回顾,二是点击流数据分析项目介绍,二者都在其中有所呈现。

    参考:

    一、网站日志流量数据分析1.背景:

    在互联网应用里,日志属于非常重要的数据。因为互联网项目通常要求 7 乘 24 小时不间断运行,所以能够获取到监控系统运行的相关日志数据并进行分析就很重要。网站流量统计是改进网站服务的重要手段之一,通过获取用户在网站的行为数据并进行分析,就能得到有价值的信息,然后基于这些信息对网站进行改进。

    2.日志种类

    埋点日志:在现有的系统中集成相应代码,以捕捉系统特定的事件,并输出一些相关的信息。

    3.分析指标

    ③VV(Visit View)会话总数:是指在一天之内会话的总的数量,其中一次会话是从访问第一个页面开始,会话就开始了,一直到访问最后一个页面结束,关闭所有页面,会话才结束;可以认为会话在访问第一个页面时开始,当访问完所有页面并关闭,或者超过指定时长且没有后续访问时,就都认为会话结束了。BR(Rate)跳出率:一天之内跳出的会话总数与所有会话总数的比率。一个会话中只访问过一个页面且会话就结束了,这种情况称为跳出。跳出会话占全部会话的比率就是跳出率。此指标在评价推广活动效果时很有用。新增独立访客数:即一天之内访问网站的人中,有多少人是在历史记录中从未出现过的。这个指标能够从另一个视角来展现网站用户增长的状况。其一:平均访问时长,所谓一个会话的访问时长,即一个会话结束的时间减去会话开始时间。把一天之内所有会话的访问时长进行平均值的计算,所得结果就是平均访问时长,此指标能够体现出网站对用户的粘性程度。平均访问深度,一个会话的访问深度指的是该会话中所有源地址去重后计数得到的指标。把一天之内所有会话的访问深度求平均值,就得到了平均访问深度。这个指标能够体现出网站对用户的粘性大小。

    4.日志流量数据分析系统

    二、点击流日志数据分析1.点击流和网站日志

    用户在网站上持续访问会留下轨迹,这就是点击流(Click )。众所周知,用户每次访问网站都包含一系列点击动作行为,这些行为所产生的数据构成了点击流数据(Click  Data),它能代表用户浏览网站的整个流程。目前获取点击流数据的方法有不少。其中包括通过 JS 来进行事件捕获,还有发布客户端应用以进行采集,以及对网站日志进行分析等。本文只是以网站日志分析为例来进行阐述。

    点击流与网站日志是不同的概念。点击流从用户角度出发,注重用户浏览网站的整个流程。网站日志面向整个站点,包含用户行为数据、服务器响应数据等众多日志信息。我们通过对网站日志进行分析,能够获得用户的点击流数据。若想了解关于点击流数据更系统的解释,推荐阅读《点击流数据仓库》一书。

    点击流数据是网站运营分析的主要依据。依据用户的点击流数据,能够进行一系列的分析,比如对用户行为、用户忠诚度、用户价值以及系统优化等方面的分析。那么用户的点击流数据包含哪些内容呢?我们又该如何获取这些点击流数据呢?首先让我们来了解一下网站的构成以及用户访问网站的一些基本原理。首先,网站由多个网页构成。当用户访问多个网页时,网页之间是通过参数来标识上级网页的来源的。这样,我们就能确定网页被依次访问的顺序。其次,用户对网站的每次访问,可被看作一次会话。在网站日志中,会用不同的标识来唯一标识每次会话。结合之后,我们能够确定每个用户依次访问网站的网页顺序。若将 Page 看作“点”,那么我们能轻易地把它描绘成一条“线”,即用户的点击流数据轨迹曲线。

    2、点击流流程

    点击流指的是用户在网站上持续进行访问所形成的轨迹,会产生点击事件,并且能够记录用户浏览站点的整个过程。

    3.原始数据样式:

    4.页面点击流模型表

    为一个用户,用户对网站的每次访问。

    5.点击流模型表

    (按聚集的页面访问信息)

    这是点击流模型。当 WEB 日志转化为点击流数据时,许多网站分析度量的计算变得简便了,这便是点击流的“魔力”体现之处。基于点击流数据,我们能够统计出诸多常见的网站分析度量。

    三、如何进行数据分析

    网站数据分析整体而言是一个内涵极为丰富的体系,其整个过程呈现出金字塔结构:

    改善小说网站的运营,以获取更高的投资回报率(ROI)。

    1.网站流量质量分析

    流量对于每个网站而言都很重要。然而,流量并非越多就越好,我们应该更注重流量的质量。也就是说,要关注流量能够为我们带来多少收入。

    ### 2.网站流量多维度细分

    细分就是用不同的维度去分割指标,去查看同一个指标在不同维度下的表现情况,接着找出存在问题的那部分指标,然后对这部分指标进行优化。

    3.网站内容及导航分析

    对于所有网站来说,页面都可以被划分为三个类别:

    首页是典型的导航页,列表页也是典型的导航页;站内搜索页面是典型的功能页,注册表单页面是典型的功能页,购物车页面是典型的功能页;产品详情页是典型的内容页,新闻是典型的内容页,文章页是典型的内容页。

    从内容导航分析来看,以下两类行为是网站运营者不希望看到的:其一,用户在浏览网站时,频繁点击错误的链接或进入不相关的页面;其二,用户在使用网站功能时,出现操作失误或遇到技术故障而导致体验不佳。

    第二个问题:访问者从导航页进入到内容页后,又返回到了导航页,这表明需要对内容页的最初设计进行分析,并且要考虑在内容类页面提交交叉信息推荐。

    4.网站转化及漏斗分析

    所谓转化,指的是在网站业务流程中存在的一个封闭渠道,这个渠道能引导用户依照流程最终达成业务目标,例如商品成交;漏斗模型则是对进入该渠道的用户在各个环节递进过程中逐渐流失情况的一种形象描述;对于转化渠道,主要要进行两部分的分析,一是访问者的流失情况,二是访问者的迷失情况。

    4.1 助力和流失

    造成流失的原因有很多方面,比如存在不恰当的商品或活动推荐;在支付环节中,对专业名词的解释以及帮助信息等内容存在不当之处。

    4.2迷失

    造成迷失的主要原因在于转化流量设计不合理。访问者在特定阶段无法获得所需信息,同时也不能依据现有的信息进行决策。

    四、流量分析常见指标1、常见指标

    IP 是独立 IP 数,在 00:00 到 24:00 内,相同 IP 地址只被计算一次。UV(独立访客):访问您网站的一台电脑客户端被视为一个访客。在 00:00 到 24:00 这个时间段内,相同的客户端仅被计算一次。趋势分析:按照选定的时段,提供网站的流量数据,借助流量趋势的变化形态,为您分析网站访客的访问规律以及网站的发展状况提供参考依据。当前在线:会提供当前时刻站点上的访客量,同时还会提供最近 15 分钟的流量、来源、受访以及访客的变化情况等,以便用户能够及时知晓当前网站的流量状况。提供最近 7 日的访客访问记录,能按每个 PV 或每次访问行为(访客的每次会话)显示。还可按照来源、搜索词等条件进行筛选。通过此访问明细,用户可详细了解网站流量的累计过程,进而能为用户快速找出流量变动原因提供最原始、最准确的依据。

    2、来源分析

    搜索引擎方面,能够提供各搜索引擎以及搜索引擎子产品引入流量的比例情况。从搜索引擎引入流量这一角度出发,协助用户知晓网站的 SEO、SEM 效果,以此为依据来制定下一步的 SEO、SEM 计划。搜索词方面,要提供访客经由搜索引擎进入网站所运用的搜索词,同时也要呈现各搜索词引入流量的特点与分布情况。帮助用户知晓各搜索词引入流量的质量,以此了解访客的兴趣关注点,以及网站与访客兴趣点的匹配度,从而为优化 SEO 方案和 SEM 提词方案提供详细依据。最近 7 日的访客搜索记录,能够按每个 PV 或每次访问行为(访客的每次会话)进行显示,还可依据访客类型、地区等条件进行筛选。为您的搜索引擎优化提供最为详细的原始数据。来路页面:呈现具体来路页面所引入流量的分布情况。对于通过流量置换、包广告位等途径从其他网站引入流量的用户而言,该功能能够便捷且清晰地展现由广告引入的流量以及其效果,从而为优化推广方案提供依据。来源升降榜:它可以提供开通统计之后任意两天的搜索词、来路域名所引入流量的对比情况,并且按照变化的剧烈程度给出排行榜。用户能够借助此功能迅速找出哪些来路对网站流量的影响较为显著,进而能够及时对相应的来路问题进行排查。

    五、整体技术架构流程

    使用 shell 脚本对 flume、hive、sqoop 数据进行可视化处理。
您需要登录后才可以回帖 登录 | 立即注册

Archiver|手机版|小黑屋|关于我们

Copyright © 2001-2025, Tencent Cloud.    Powered by Discuz! X3.5    京ICP备20013102号-30

违法和不良信息举报电话:86-13718795856 举报邮箱:hwtx2020@163.com

GMT+8, 2025-3-10 10:32 , Processed in 0.078088 second(s), 17 queries .