微信号
15618884964
2023中国国际服务贸易交易会-2023中国金融科技论坛于9月2日在北京举行。神州信息上地大数据研究院数据科学家卜仁海出席并演讲。
卜仁海表示,大约20多年前,信息化程度较高的行业的头部企业,开始建设数据仓库。当时的数据主要是企业内部系统的结构化数据,数据应用主要是BI分析及报表。随着业务需求及数据形态的变化,开始建设数据湖。原因是参与分析的非结构化数据逐渐增多,数据应用也有了新的扩展,实时计算、人工智能、机器学习等场景逐渐增多。
而最近几年,开始流行起了湖仓一体的数据平台概念。“当我们说数据仓库、数据湖的时候,其实有两种说法,一种说法是指硬件平台,一种说法是指数据的组织结构。这张图里说的是硬件平台,指的是用一个硬件平台来实现湖和仓的建设。国内在规划建设湖仓一体的时候,在方式上会相对灵活些”,他说。
卜仁海介绍了国内建设湖仓一体的几种方式。一种是是采用融合的方式,数仓平台和数据湖平台间存在实际上的数据复制,如果数据的管理、调度等自动化程度较低,流程不完善,则不仅仅是数据冗余的问题,还涉及到应用效率等方面的问题。
第二种是采用编织的方式,数仓平台和数据湖平台间可以不用数据复制,业务人员的访问接口是Fabric组件,由此组件解析优化访问语句,计算处可以是仓、湖以及Fabric组件,具体要看Fabric组件的优化策略和能力。需要说明的是,Fabric的访问语句通常不会完全覆盖仓、湖数据库的所有语句。
第三种是真正物理平台上的一体,或者说其上的各个数据库可以直接访问彼此的文件系统和存储结构,这也是最理想的情况。
为什么说湖仓一体大概率是数据平台的趋势呢,它有什么好处呢?
卜仁海解释说,首先,它可以容纳多模态的数据,比如音频、视频、图片、文档等。其次,丰富的计算引擎,简单的说,就是无论什么样的数据,都可以相对容易的找到其对应的计算引擎并部署。并且是存算分离的,也就是说,存储部件和计算部件是分离的,可以各自弹性扩展。流批计算一体。支持人工智能、机器学习。数据平台经历了分的过程,目的是为了满足不同数据的不同计算需求,现如今正逐渐走向合的阶段,目的是为了易管易用、简单高效。技术总是在不断进步的,湖仓一体尚在逐步发展阶段。
卜仁海称,湖仓一体因其支持多模态数据、存算分离、统一资源配置调度、统一元数据管理、统一访问语句、流批一体等优势特性,便于运维管理、降本增效,提供实时、敏捷、智能等数据应用场景,可为企业提供一个更简化的数据处理环境,实现数据业务效率的提升,从而成为众多企业数据平台的新宠。
同时,卜仁海表示,企业也需要明确的认识到,湖仓一体解决方案的成熟度仍在发展中,同时很多企业对于复杂数据架构的设计、部署和维护能力也不成熟。数据运营对很多企业而言,仍然是当前最大挑战,这不是一个数据平台所能解决的问题,或者说不是一个纯粹的技术问题。
另外,湖仓一体的很多配套能力还有待优化提升,包括数据质量管理、安全性、数据治理和性能等方面。
新浪声明:所有会议实录均为现场速记整理,未经演讲者审阅,新浪网登载此文出于传递更多信息之目的,并不意味着赞同其观点或证实其描述。
微信号
15618884964