华为数据湖
华为数据湖
华为数据湖是逻辑上对内外部的结构化、非结构化的原始数据的逻辑汇聚,它旨在整合多源异构的数据,为数据分析和处理提供统一的基础平台。
特点
特点 | 描述 |
---|---|
逻辑统一 | 由多个物理存储构成,通过统一的元数据语义层进行定义和管理。 |
类型多样 | 存放包括结构化数据、非结构化文本、设备运行数据、外部媒体数据等多种类型的数据。 |
原始记录 | 不对数据进行转换、清洗或加工,保留数据的原始特征。 |
数据入湖标准
数据入湖需要满足六项标准,以确保数据质量和安全性:
- 明确数据Owner:由数据产生对应的流程Owner担任,负责数据端到端管理。
- 发布数据标准:定义业务数据标准,确保数据在企业内的共同理解。
- 认证数据源:确保数据从正确的源头入湖,一般数据源需经过认证。
- 定义数据密级:为数据定密,确保数据共享的同时保障信息安全。
- 数据质量评估:评估数据质量,让消费人员了解数据情况和风险。
- 元数据注册:关联业务元数据和技术元数据,便于数据搜索和消费。
数据入湖方式
华为数据湖提供两种入湖方式,以满足不同的消费场景需求:
- 物理入湖:将原始数据复制到数据湖中,适用于需要历史数据、大批量数据且实时性要求不高的场景,主要技术手段包括批量集成、数据复制同步等。
- 虚拟入湖:通过建立虚拟表实现数据的集成,实时性强,适用于小数据量应用,主要技术手段包括消息集成、流集成等。
技术架构与解决方案
华为基于GFS全局文件系统推出数据湖解决方案,实现数据资产的可视、可管、可用,该方案通过集成数据存储、数据管理、资源管理和AI工具链,提供充足的AI语料,加速模型训练与推理效率,具体分为三层:
- 数据存储层:包括高性能AI存储、近线数据存储和备份存储,满足不同数据存储需求。
- 数据管理层:提供数据管理工具,如DME Omni-Dataverse、DME IQ等,实现数据的可视可管。
- AI工具链层:包含数据处理管道和第三方工具,支持模型的开发和训练。
相关问题与解答
问题1:华为数据湖如何确保数据的安全性?
解答:华为数据湖通过定义数据密级、认证数据源、数据质量评估和元数据注册等措施,确保数据在共享的同时保障信息安全,数据定密的责任主体是数据Owner,数据管家有责任审视入湖数据密级的完整性,并推动、协调数据定密工作。
问题2:华为数据湖在AI大模型训练中的作用是什么?
解答:华为数据湖通过整合多源异构的数据资源,为AI大模型训练提供强大的数据支持,其AI数据湖解决方案通过三层架构(数据存储层、数据编织层、数据服务层),有效解决了数据归集、预处理和模型训练等关键环节的问题,加速了AI大模型的训练效率
版权声明:本文由环云手机汇 - 聚焦全球新机与行业动态!发布,如需转载请注明出处。