当前位置:首页 > 华为 > 华为数据湖

华为数据湖

shiwaiuanyun2025年07月05日 02:49:37华为47

华为数据湖

华为数据湖是逻辑上对内外部的结构化、非结构化的原始数据的逻辑汇聚,它旨在整合多源异构的数据,为数据分析和处理提供统一的基础平台。

华为数据湖

特点

特点 描述
逻辑统一 由多个物理存储构成,通过统一的元数据语义层进行定义和管理。
类型多样 存放包括结构化数据、非结构化文本、设备运行数据、外部媒体数据等多种类型的数据。
原始记录 不对数据进行转换、清洗或加工,保留数据的原始特征。

数据入湖标准

数据入湖需要满足六项标准,以确保数据质量和安全性:

  1. 明确数据Owner:由数据产生对应的流程Owner担任,负责数据端到端管理。
  2. 发布数据标准:定义业务数据标准,确保数据在企业内的共同理解。
  3. 认证数据源:确保数据从正确的源头入湖,一般数据源需经过认证。
  4. 定义数据密级:为数据定密,确保数据共享的同时保障信息安全。
  5. 数据质量评估:评估数据质量,让消费人员了解数据情况和风险。
  6. 元数据注册:关联业务元数据和技术元数据,便于数据搜索和消费。

数据入湖方式

华为数据湖提供两种入湖方式,以满足不同的消费场景需求:

  1. 物理入湖:将原始数据复制到数据湖中,适用于需要历史数据、大批量数据且实时性要求不高的场景,主要技术手段包括批量集成、数据复制同步等。
  2. 虚拟入湖:通过建立虚拟表实现数据的集成,实时性强,适用于小数据量应用,主要技术手段包括消息集成、流集成等。

技术架构与解决方案

华为基于GFS全局文件系统推出数据湖解决方案,实现数据资产的可视、可管、可用,该方案通过集成数据存储、数据管理、资源管理和AI工具链,提供充足的AI语料,加速模型训练与推理效率,具体分为三层:

华为数据湖

  1. 数据存储层:包括高性能AI存储、近线数据存储和备份存储,满足不同数据存储需求。
  2. 数据管理层:提供数据管理工具,如DME Omni-Dataverse、DME IQ等,实现数据的可视可管。
  3. AI工具链层:包含数据处理管道和第三方工具,支持模型的开发和训练。

相关问题与解答

问题1:华为数据湖如何确保数据的安全性?

解答:华为数据湖通过定义数据密级、认证数据源、数据质量评估和元数据注册等措施,确保数据在共享的同时保障信息安全,数据定密的责任主体是数据Owner,数据管家有责任审视入湖数据密级的完整性,并推动、协调数据定密工作。

问题2:华为数据湖在AI大模型训练中的作用是什么?

华为数据湖

解答:华为数据湖通过整合多源异构的数据资源,为AI大模型训练提供强大的数据支持,其AI数据湖解决方案通过三层架构(数据存储层、数据编织层、数据服务层),有效解决了数据归集、预处理和模型训练等关键环节的问题,加速了AI大模型的训练效率

版权声明:本文由环云手机汇 - 聚焦全球新机与行业动态!发布,如需转载请注明出处。

本文链接:https://www.uanyun.com/hua-wei/1751654977.html

分享给朋友:

“华为数据湖” 的相关文章

华为问界2025年04月22日 01:31:27
华为股票2025年04月22日 13:40:48
华为p402025年04月22日 16:06:33
华为智能手表2025年04月22日 22:55:53
华为手机卡顿怎么设置2025年04月23日 14:48:41
网上买华为手机2025年04月24日 05:20:52