从经典动作明星到鲜肉演员:电影审美变迁与个人观影体验
原文:Lenis 关于 SQL作为一个电影爱好者,我看过无数的电影,有些电影我经常反复观看。小时候,妈妈经常因此挠耳朵,问:“电影为什么要看两遍?”我无法解释它,我只是喜欢看它。
男人喜欢看的电影大多是武打、动作、科技类的。他们还认识了很多明星,比如尼古拉斯·凯奇、史泰龙、李小龙、成龙、李连杰、甄子丹等,这些家伙凶猛而有男子气概。只要是他们的电影,就绝对不会落后。在我眼里,它们就是好电影的代名词。
前段时间,一些不知名的男明星开始出现在电影中,比如张翰、韩庚、鹿晗等,看这些人主演的电影,真是……好吧,如果睡不着的话,那就是值回票价。
后来我从半佛那里知道了什么是鲜肉,什么是老阿姨的审美。如果看到年轻演员就别问了,老太太的审美又变了。这注定又是一部烂片。
所以,审美可以改变,但是文字审查呢?
比如,这几年媒体一直在炒作大数据。用一个前卫的术语来说,大数据。它使人的耳朵长出老茧。那么人们真的将其视为一种有效的工具,还是固执地认为这只是另一种营销噱头?
为了弄清楚这个问题,我查了很多资料,包括中文、外文、百度文库、论文。这段时间的所见所闻可以写满三本小说甚至更多。
给我印象最深的是:
《纽约时报》花费 3000 美元在 24 小时内将 1851 年至 1922 年超过 1100 万篇文章转换为 PDF 供公众搜索和查看。
资料背景指出,这些文章已经准备好了TIFF图像文件格式,要解决的本质问题是将TIFF转换为PDF。这件事需要非常繁重的工作量。简单地编写代码转换是可行的,但完成时间很难控制。
这时,有一位工程师独自完成了这项工作。整个过程中,他只做了4件事:
1)首先,他是一名资深的编程爱好者。平时看技术博客,了解AWS、S3、EC2等云计算概念,也熟悉论文,了解功能。
2)于是他在自己的个人电脑上搭建了它,玩转大数据,并用它尝试完成TIFF到PDF的转换;
3)然后我在网上申请了4台EC2主机,搭建了一个集群,运行了一批TIFF转PDF的转换程序。发现其实是可以的。
4)实现了大规模批量转换。历时24小时,花费3000美元,最终将1100万篇文章的音视频图像转换为PDF并对外提供服务。
以下是一些报道的大数据应用案例:
雅虎!运行在4000个节点的集群上,支持广告系统和网络搜索;
使用1000个节点来运行、存储日志数据,并支持在其上进行数据分析和机器学习;
百度每周使用和处理200TB数据进行搜索日志分析和网页数据挖掘;
中国移动据此开发了系统,提供内外部数据支持;
淘宝网处理电子商务交易数据。
初学者入门大数据的最佳方式是从了解具体应用开始。了解大数据可以做什么以及小数据无法完成什么功能是很有趣的。只有学习有趣了,你才会继续学习。学得越多,你就越想学,学得越多,你就越快乐,你自然就会学得好。
接下来我会整理一些大数据真正发挥作用的应用场景。想做大数据项目,一定不能没有这7类。
所以,如果你说大数据离我们很远,我想说它绝对是很近的。不管你信不信,我反正信了。
项目一:数据集成
说到数据集成,我们这些从事数据工作的人一般都会想到数据仓库。
当我们有很多应用程序时,比如MES、ERP、HR、SALES AND、CRM等,每个应用程序都是一个独立的数据孤岛。每个使用这些应用程序的人都可以从这些应用程序中找到他们想要的数据。如果找不到答案,也可以请IT部门帮你做报告。
但当我们需要的数据是完整的数据链时,这些系统就变得无能为力了。比如我们要分析每个ERP的成本中心,每个车间、每个工序分摊了多少成本,光靠ERP是无能为力的。我们必须将MES数据导入到ERP中进行综合分析。这时ERP数据就会整合MES的部分数据。然而,ERP本身排除了这些MES数据。过于详细,对BOM、PP等支持不够粒度,需要重写和完善。
因此,与其将所有这些数据导入 ERP 然后重新编码,不如将 MES 和 ERP 数据集成到数据库中,并重新创建完整的数据字典以进行财务或运营分析。这就是数据仓库的作用。
如果HR也想从数据中获取招聘人员的输出,也需要整合HR系统。 CRM 分析师可能想知道某个客户的利润是否与生产正相关。我们不能让利润最少的客户长期占用工厂的资源。因此,CRM也可以连接到数据仓库。
当数据仓库中的数据量超过限制时,比如成本已经很高,计算能力无法满足分析的强烈需求时,就需要考虑了。因此,这里起到的作用就是数据仓库的数据存储和计算。
从传统的数据仓库架构延伸出来,企业的数据仓库现在多了一层大数据,如下图:
(图片来自)
但也有可能,离线应用后,聚合完成,分析人员需要从原来的RDBMS中获取,那么我们需要将其写回到RDBMS中,以方便分析人员的调用。这里需要解释一下为什么需要回写到关系数据库(SQL数据库)。很多分析师还在使用Excel,做数据分析,而最适合这种工具的就是RDBMS。 SQL的学习成本和Excel的易用性在哪里?可用性就在那里,用户界面也很漂亮。从这类分布式数据系统来看,数据分析需要新的作战武器,或者说,当然SQL这样的工具还是必不可少的。
https://img1.baidu.com/it/u=2726010806,2919411173&fm=253&fmt=JPEG&app=120&f=JPEG?w=889&h=500
总之,数据集成是最基本的应用。它可能扮演最终存储的角色,也可能是整个数据链中的一个环节,即ETL中的任何角色。
在正式报告(官方文档或公司知识库)中,我们会用“企业级数据中心”或“数据湖”来表示此类应用。
为什么使用而不是传统的总和?
很大的原因是成本并不普遍高。如果用来存储一些非事务性数据,会造成很大的资源成本。例如,评论和用户行为可以存储在低成本集群中
项目二:专业分析
《Spark高级数据分析》一书中提到的一个例子是:
蒙特卡罗风险
蒙特卡罗模拟分析预测和监控银行流动性风险。对于这类专业应用,一般软件公司不会考虑如何兼容,如何实现更好的性能。例如,当数据量很大时,R 处理它的最佳方式是什么,T-SQL 将如何处理?我耽心。无能为力吗?
对于有限的数据量,以上两种工具都会有很好的效果。然而,随着目前数据的积累,需要将原本由单台机器提供的计算能力复制到数百台计算机上。传统的RDBMS和分析工具都会失败。
这时候,与Spark的结合就发挥作用了!
众所周知,雅虎!有 4,000 个节点。使用这 4,000 个节点来计算聚合统计数据。例如,有4亿个订单,您需要计算每个订单的总金额、成本和利润。然后将它们分配给4000个节点。每个节点平均处理10万个订单,并可以在以后进行汇总。
因此,可以处理更多的卷,Spark满足了更快计算的需求。
以Spark为例,比如推荐系统。喜欢音乐的朋友会用网易云音乐,喜欢阅读的朋友会经常去亚马逊。不难发现的是,当你打开这些应用程序时,会有很多音乐或书籍推荐给你。当你打开这些推荐的音乐或书籍时,你可能会觉得它们非常好,正是你喜欢或需要的。这是一个推荐系统。
推荐系统最大的难点是实时性。我们可以通过汇总每个人的偏好来进一步做出实时推荐。计算框架必须与程序一起使用。这类程序最大的弱点是中间结果集保存到磁盘而不是内存中,因此对于推荐中经常使用的ALS(Least)算法并不友好。这种类型的训练算法需要无数次返回并重新读取中间结果集。每次从硬盘读取结果(并可能重新计算)时,都会浪费大量时间。
Spark正在解决这个问题。
它将所有数据集封装在RDD()中。这个结果集自然就具备了分布式的特性,即每个Spark节点上都有一个小RDD,针对该RDD的计算都会分配到这些小RDD上。 ,同步计算。这一特性满足了分布式并行计算的需求。 RDD的另一个特点是Cache操作,将RDD结果缓存到内存中并保存,然后复用RDD结果集。这是 Spark 与众不同的一个重要特征。简而言之,整个计算过程变得更快,使得实时推荐成为可能。
看来我们只是提交了一个Spark Job来完成对输入数据的处理并输出结果。没什么特别棒的。但幕后已经做了很多工作。它将处理算子()均匀分布在每个数据节点上,进行本地处理,然后缓存这些中间结果集以提供给其他子程序。
项目三:大数据即服务
通常当企业足够大的时候,会搭建自己的集群,以满足数据集成或者专业分析的需要。当企业具备独立开发能力时,就会拥有多余的计算资源,可以与其他企业用户共享,然后可以作为服务向市场开放。
这就是云计算的力量。
国外案例有GCP(云)、Azure、国内优秀供应商有HTA(华为云、腾讯云、阿里云)。
需要注意的是,作为云服务的一种,它需要很强的技术能力。对于创业型或者资源匮乏的中小企业来说,可以付费使用大公司提供的服务,大家各得其所。
云计算:基本概念
云计算目前可以分为IAAS、SAAS、PAAS。这三者的使用有很大的区别。
都说云计算具有不可替代的成本优势,那么成本优化在哪里呢?
例如,如果一家公司有内置的运维团队,包括硬件、软件和人员,那么配套的基础设施包括机房和办公楼。简单来说,这个团队由一个人、一台服务器、一个办公室组成。所有的软件都是这个人写的。所有软件都是开源技术。每年费用50万。
当这些使用云计算时,负责编程的人保持不变,但可以在咖啡厅、图书馆、高铁、飞机以及任何只要有网线的地方完成。这样就节省了办公楼、硬件和软件的购买成本,主要成本在云上和应用程序的开发者身上。云上拥有专业的团队、DBA专业人员保障基础设施、可靠的机房双容灾。所有的烦恼都留给云服务提供商。按照腾讯云最新的企业云服务器计算,一年费用为3500元。
即用型、快速部署
有一天,公司需要利用离线大容量存储来容纳日志,并用它来进行超大规模的计算。那么可能需要一个月左右的时间组建一个大数据团队来负责安装、配置和施工。同时,还需要梳理业务,编写代码。系统完成并在线调试后,花费了大部分时间,但没有达到效果。
有了云计算,如果接口调试好了,今天就可以导入数据,大大节省了时间和成本。
如果云服务提供商要求每次查询都进行结算,并且大数据是公司不可避免的战略,那么内置并不是什么大问题。然而,在公司业务成熟之前急于部署大数据系统往往不划算。
云计算:IAAS、SAAS、PAAS的区别:
通过NYT()中将4T TIFF图像数据转换为PDF的事件,我们很容易解释三者之间的区别:
详细案例:
本例中,作者购买了100台EC2服务器,将S3的4T文件转换为PDF,最终提供给公众搜索。
恰好涉及到IAAS和SAAS。例如EC2、S3是典型的IAAS,提供服务器操作系统、存储、网络,是典型的IAAS应用;最终开发的PDF搜索是SAAS应用;如果作者不是自己写转换PDF,而是使用AWS 提供的编辑器,并使用AWS、Spark作业接口来实现转换,那么也是使用PAAS。也许当时AWS并没有提供这么完整的开发环境。
https://img0.baidu.com/it/u=762340286,1904971516&fm=253&fmt=JPEG&app=120&f=JPEG?w=500&h=713
如果你是微信小程序开发者,那么不难理解小程序的开发是在PAAS平台上完成的。
项目4:流分析
流和流计算在应用场景中一直存在,但在大数据出现之前,并没有做得很好。业界之前一直在使用低延迟来处理流,但由于流的实时性,低延迟的编程方法显得笨拙。
我之前发表过一篇关于对流处理的文章,提供了详细的科普。您可以在这里阅读:
虽然此时看起来与它无关,主要职责是Storm、Flink、Spark,但最终还是数据实现。
举两个实时流分析的例子:
银行风控:如果根据模型检测到大量小额连续取款,则可能存在洗钱行为。这时,应该当场冻结账户,而不是等到整个提现流程完成后,批量检测某个账户是否存在洗钱行为,然后再追踪冻结。低延迟和批量处理都不足以弥补账户损失。只有实时流分析才能解决这种场景。
库存控制:比如双11、双12的线上闪购,如果2万件商品半价出售,抢购人数达到2000万,那么实时库存就要计算得很准确。就像有些企业搞饥饿营销一样,不到1秒,数百万部手机就被抢购一空,造成了假象,给消费者留下了低印象。
以上只是流分析的冰山一角。只要有需求,流量分析就会存在。但并不是所有的场景都需要流分析来处理。对于一些历史统计或者预测分析,通过运行批次,成本会更小。
项目5:复杂事件处理
事件有两个维度的属性:时间和持续时间。
在时间线上维持连续的事件,形成一条流,就像从水龙头里流出来的水一样。只有积累了,才能使用。处理这种类型的数据,我们称之为流处理;隔离这个时间段,选择当前时间点发生的事件,进行单独的处理,这就是实时处理。
在此类项目中,复杂性是时间点的细化,可以是(毫秒)、(纳秒:十亿分之一秒)、(皮秒:万亿分之一秒)。
在某些领域,比如收发邮件、发表评论,秒级实现是可以接受的。在一些领域,比如量化交易,需要更细化的时间下单和撤单。时间差和资金量大可以让您受益匪浅。
事实上,当我们发表评论时,即使只有1-2秒,从点击发布到展示之间,可以做很多处理,比如限流、关键词和舆情评价、内容等。分配。
综上所述,时间维度上的实时处理是一个复杂的事情。
此前处理这类实时数据最有效的方式就是添加缓存和消息队列。原则是,如果消息不能被完全处理,则先将其缓存起来,然后由处理器慢慢处理。现在这种需求也可以这样处理,借助Redis、Kafka等软件实现低延迟处理。
然而,在数据爆炸的今天,使用队列处理显然效率低下,而且还可能导致数据大量积压无法处理。因此,增加10倍、100倍、甚至1000倍的机器数量进行并行处理就成为了当今唯一的解决方案。
比如在红绿灯处,添加传感器和摄像头,利用Spark、Storm、Flink、Apex实时传输物联网数据,让交管局可以实时监控道路拥堵、违法行为甚至犯罪情况。
项目6:流式ETL
这是一种特殊的数据集成方法。与传统的批处理不同,它在时间的持续维度上进行无限流处理。流式ETL除了可以对数据进行分包转发之外,还可以进行专业的分析,并对分析结果进行分包转发。
从宏观上看,ETL既可以包括批量运行步骤,也可以包括流式计算步骤。
以上五类工程都可以参与该类工程的设计。
(图片来自公司)
在互联网时代,速度慢正在成为用户流失的主要因素。在每个数据接口上实现流式ETL已经变得非常有必要,并且实现数据无断点的流转变得越来越重要。
最适合构建流式ETL的工具是Kafka。
一旦消息存储到数据库(Kafka)中,我们要做的就像从水库取水一样,只需将其连接到管道即可。
(图片来自公司)
该公司在Kafka实时流处理方面有前卫的探索,看这里:
项目7:视觉分析
市场上很多统计分析软件的价格都比较昂贵。他们独特的算法和内置的视觉显示组件已经在市场上经过了多年的考验,并且随着时间的推移变得越来越好。但成本无法降低,比如SAS。
但在当今数据量巨大的市场上,这些传统供应商就显得不够友好,于是一系列可以直接用于大数据的可视化分析工具诞生了。尤其是Spark社区对机器学习和深度学习软件库的开发,使得整个大数据统计分析生态系统日益完善。它不仅为数据挖掘算法提供友好的支持,还为数据可视化组件提供开箱即用的软件。包。
页:
[1]