新浪科技

AWS张侠深度解析“数据湖”的数据洞察能力

TechWeb

关注

原标题:AWS张侠深度解析“数据湖”的数据洞察能力

【TechWeb】3月30日,数字时代,企业海量数据隐藏的价值被空前重视,企业的信息和数据流被认为是“企业的血液流”。与此同时,“把企业的数据化资产使用好”、“如何从大量数据中获得信息洞察未来”,这些成为企业和业内专家不懈追求的能力。

近日AWS首席云计算企业战略顾问张侠向媒体介绍了“AWS数据湖”在实现“企业数据洞察”中的最新技术成果和应用表现。

张侠表示,数据本身的价值在于从里面提取出真正有用的“信息”,把这些信息归类树立成“知识”,然后用这些知识来指导企业的“行动”, 帮企业来运营业务、帮客户实现业务需求、提高客户满意度等等,最终为企业创造更多的价值。

“数据湖”老概念焕发新活力

“数据湖”这个概念早在2011年就被提出,发展至今已经走过9个年头。“我把数据湖的发展分为两个阶段”,张侠表示,“前期数据湖只是一个初级的概念,有一些开源的应用;得益于云计算提供的海量存储、高性能计算的能力,大概从四年前开始,数据湖进入第二阶段,随着各项元素的逐一到位,AWS数据湖基本上成熟。”

那么,数据湖究竟是什么?

在张侠看来,数据湖是一个中心数据存储的容器,这个容器可以存储格式化、非格式化的各种各样的数据;这些数据非常容易被快速缩放、有各种方法和工具对这些数据进行查询、可以做各种各样的分析。

通俗的讲,本来数据很多是结构型数据、交易型数据,比如什么东西多少价格、什么人多大年龄,这些都是很规矩的放在一个一个数据库和数据仓库的小格子里的,但是现在有一套方法,这套方法把任何类型的数据库,结构型的、非结构型的,非结构型的包括电子邮件、视频的、音频的、图形的、一些文章、一些照片等等,都可以直接把它存下来,我们利用现在云计算时代海量存储的能力和各种新的查询的能力,还有各种数据分析和处理的能力,直接对这些原始的数据来做查询,这就是数据湖的时代。

张侠也强调,数据湖特别适用做一些数据科学家、数据研究人员要用的探索性质的数据查询和分析。原来有一类数据科学家是做那种数据挖掘的,这一类数据科学家要做的工作,数据湖尤其适用,因为数据湖对所有数据都能兼容、保持灵活性特别适合做探索性、预测性、研究性、前瞻性的服务。

AWS数据湖三大元素

在帮助企业构建数据湖上,AWS推出了一系列关键服务。张侠介绍,数据湖的操作步骤通常包括:把数据设置、存储;再把数据按需要移动、加载到不同地方;然后把数据清理好,建成数据目录。这些数据要安全的、合规的存好、管好,需要的时候使用工具把这些数据拿出来做各种分析。

基于此,目前AWS数据湖主要包含三大元素:一是Amazon S3/Glacier;二是AWS Glue;三是AWS Lake Formation。

张侠介绍:“Amazon S3,可以存所有各类的数据,它有11个9的数据持久性,它是在云上面三个可用区存了六份,互为备份。它后端还有一个冷存储叫Amazon Glacier (glacier的意思是冰河) 。如果这个数据不常用,我们可以转到那里面,费用可以降低很多,只是多需要三四个小时把它拿出来。冷存储还有一个深度的冷存储Deep Archive。除了这个以外,在我开始讲之前,还有一个叫Amazon DynamoDB,是一个非关系型数据库,存键值这类的数据。在游戏里面比如每个玩家是第几级、有多少血、用什么样的武器,这样的数都是键值配对的数。全球有大量这样的数据都存储在Amazon DynamoDB这样的非关系型数据库。“

AWS Glue则是一种全托管的数据提取、转换和加载 (ETL) 服务及元数据目录。它让客户更容易准备数据,加载数据到数据库、数据仓库和数据湖,用于数据分析。使用AWS Glue,在几分钟之内便可以准备好数据用于分析。AWS Glue消除了ETL作业基础设施方面的所有重复劳动,让Amazon S3数据湖中的数据集可以被发现、可用于查询和分析,极大地缩短分析项目中做ETL和数据编目阶段的时间,让ETL变得很容易。

AWS Lake Formation则能把建立数据湖的这套工作自动化,帮助企业客户来操作,可以使很多企业在短短的几天时间内就完成数据湖的建设工作。

目前AWS Lake Formation尚未在中国正式推出。

AWS数据湖的应用

据张侠介绍,AWS数据湖已经在全球范围内得到广泛应用。

亚马逊自己为例,亚马逊曾经是Oracle全球数据库最大的用户,它使用了75PB的数据库,用了7500多个数据库的例子,整个亚马逊里面1000多个不同的团队,从运营、电商、市场营销、库存,几乎业务的很多方面原来都是基于Oracle的数据库。亚马逊在过去一年半到两年的时间做了一件事情,就是全方位的迁出了Oracle的数据库,去年11月份亚马逊全部迁移了Oracle的数据库,迁移到亚马逊自己相对应的产品。

“这个迁移解决了原来扩展困难、费用昂贵等等一系列的问题,减少了数据库费用成本60%,减少了管理费用70%,增加的性能高达40%。”张侠介绍道。

此外,金融行业领域,美国纳斯达克交易所也是用了AWS数据湖产品。通过使用数据湖每天处理500亿条的付款,使用数据湖把产品上市时间缩短了1/3,有很好的服务能力。

张侠表示:“AWS数据湖一个很大的优势是把所有这些服务整合在一起,统一的接口、统一的标准,包括像无服务器计算,用了AWS Glue以后,这边接了AWS Lambda,再接了AWS Step Functions,亚马逊那些其他的服务早都做好了这种无服务器的接口,所以一下子全部都打通了,这是数据湖得以广泛有效应用的其中一个原因。”

张侠强调:“所以我个人认为,数据湖到了一个真的要好好研究、使用的阶段了。数据湖在中国处于一个发展相对早期的阶段,这个时机非常重要,在经济数字化转型时代,数据湖的应用、作用性越来越强,下一代互联网、电商、5G、边缘计算等都发展起来以后,与之相对应的我们更要走数据湖对数据的存储、分析的道路,所以我们觉得如果利用这个时机把这些知识很好的提供给我们公众和行业的有关人员,中国的使用甚至是这些相关的服务都能更好的发展起来,那是我们非常喜闻乐见的。”

加载中...