自“信创”概念提出以来,国家政策大力支持数据基础软件发展,推动国产基础软件市场快速增长。与此同时,业务侧对数据分析、数据挖掘、数据探索的广泛应用也反推企业升级底层数据架构,通过优化数据引擎支撑数据开发、数据资产管理、数据应用等数据能力建设。国产基础软件发展正当时。
近期,爱分析深度访谈科杰科技联合创始人兼副总裁郭振强,就数据引擎演进趋势、数字化转型对国产基础软件新要求、湖仓一体引擎对数据能力的支撑作用以及科杰科技湖仓一体数据智能平台产品优势等问题展开了探讨。
科杰科技
科杰科技是国内领先的大数据AI技术创新公司,专注于提供复杂场景下大数据基础软件产品服务,致力于通过基础软件能力的研发创新为企业提供数据存储计算引擎、数据管理、开发挖掘、运维一体化的整套方案,助力企业快速构建数据能力,实现高度规范化、敏捷化的数据工作协同与数据应用创新。其核心产品湖仓一体数据智能平台KeenDataLakehouse,是基于云原生技术自主研发的数据底座产品,提供端到端的一站式大数据基础软件解决方案。
郭振强认为,随着数字化转型深入,企业需要构建立体化的数据能力体系,包括具备兼容纳管特征的湖仓一体架构和多架构融合能力、数据工程化能力、数据自治理能力、集中式管治与分散式赋能的混合数据能力,以及数据驱动型组织能力,以支撑企业实现跨越式的规模增长。
针对能力建设实现路径,郭振强认为,中国企业应直接借鉴国内外行业最佳实践的落地经验,避免自己摸索走弯路。
01湖仓一体是企业数据引擎演进必然趋势
爱分析:为什么说湖仓一体是数据引擎演进的必然路径?
郭振强:从数据引擎的发展进程来看,传统的结构化数据使用DataWarehouse,主要面向BI场景。随着半结构化、非结构化数据的丰富,企业开始使用DataLake。DataLake主要支持实时计算及AI场景。尽管DataLake比DataWarehouse具备更好的开放性与灵活性,但其在OLAP性能、数据一致性和ACID能力等方面存在不足或缺失,使其无法取代DataWarehosue。
于是,为支持复杂的业务场景,在企业的数据引擎环境中,DataWarehouse与DataLake并存的情形更常见,如银行的数据引擎中,DataWarehosue与DataLake长期共存、割裂,这使得数据需在两套引擎中重复执行ETL、转化等任务,带来了复杂、高昂的开发维护成本,以及数据不一致、数据资产分散等问题。
为解决以上多引擎割裂、引擎使用效率低等问题,主张湖仓融合的新概念“Lakehouse”成为大型企业数据引擎升级正式提出,Lakehouse也代表了数据引擎演进的未来趋势。
需要补充的是,国内大型企业已经呈现出对数据引擎升级的强烈需求。而在国内强调信创、推进自主可控的大环境下,具备湖仓一体能力的国产基础软件厂商将成为企业数据引擎升级的首选。
图1:基于湖仓一体实现多架构融合逻辑统一
爱分析:科杰科技认为湖仓一体架构应具备的特征是什么?
郭振强:目前市场中湖仓一体技术实现上,有湖上建仓和湖仓融合两种方式。湖上建仓,是数据先入湖,再将数据湖中的数据进一步ETL到数据仓库中,来满足BI分析。这种方式不能在一个存储引擎中完成多类型数据格式的转化,是一种不彻底的、过渡性的方案。相对来说,湖仓融合是更彻底、也更具生命力的方案。
考虑到湖仓一体的落地实践,科杰科技认为,湖仓一体除具备最先进湖仓融合引擎外,还需要具备对企业过往技术栈的兼容纳管能力。当前很多企业数据能力建设不是从0到1——从头开始构建,而是从1到N——对现有能力的进一步提升,如金融行业在对既有DataWarehouse、DataLake技术栈进行升级时,考虑到数据迁移的巨大成本和原有架构效能的持续发挥,不支持数据的大规模迁移,这意味着湖仓一体不仅不能彻底替换企业旧有的数据架构,还需要充分“利旧”、实现既有建设成果的复用。
科杰科技湖仓一体数据智能平台KeenDataLakehouse不仅能提供基于湖仓融合的统一性引擎,同时具备面向传统DataWarehosue、DataLake以及ObjectStorage(云数据存储)等架构进行纳管的能力,使企业在不迁移历史数据的前提下,以最低成本实现数据架构与引擎的统一,降低架构复杂性、实现数据统一管理。
02湖仓一体为企业立体化数据能力构建提供稳固支持
爱分析:数字化转型进入深水区,企业对自身数据能力的要求发生了哪些新变化?
郭振强:数字化转型深入正推动企业业务端崛起。我们看到,数字化建设提升了企业整体数据采集、数据分析的能力,激发一线业务端产生更多数据分析需求,如需要几十张或更多报表支持业务决策、持续探索数据建立高效模型等。
而业务端的崛起正催生新的数据能力体系,要求数据存储引擎、数据开发、数据资产管理以及数据应用等能力全面升级,以实现数据驱动型组织的建设。具体包括以下五个方面能力建设:
第一,如前所述,企业需要具备兼容纳管过去的存储引擎和面向未来的更好的弹性扩张能力。通过湖仓一体实现统一的数据存储、加工计算和面向应用端的供给,尤其面向多引擎需支持多引擎架构融合的逻辑统一,以解决多引擎割裂、引擎使用效率低的问题。
第二,需要构建数据工程能力以应对广泛的数据分析与规模化的数据应用。在信息化时代,企业的IT部门已经建立起面向流程的软件工程能力,实现软件的快速构建、测试、部署和发布。而在数字化时代,面对规模化的数据应用需求,企业也需要建立数据工程体系,将单点的、零散的、组合式的数据技术使用转变为大规模工程化协同、数据产品化,降低数据使用门槛,向广泛的IT技术人员和半IT、半技术人员赋能。科杰科技认为,数据工程应包含数据管理、软件工程、数据基础架构与运营自动化。但在实际中,企业往往仅