国家发改委将“新基础设施”定义为以新的发展理念为导向,以技术创新为驱动,以信息网络为基础,满足高质量发展需求,提供数字化改造、智能化升级、集成创新等服务的基础设施体系。
新基础设施覆盖众多数字基础设施:云计算、人工智能、工业互联网、5g、物联网、数据中心、智能计算中心等信息基础设施,以及以智能交通、智能能源为代表的融合基础设施。可见,新基础设施技术的核心资产是数据。物联网让采集的数据种类和数量越来越多,5g让数据传输速度越来越快。云计算在不断的计算和处理数据,ai在不断的挖掘数据的价值。这些技术的关键环节是存储。随着新基础设施的推广,存储可以说只是推动高端产业发展所需要的。
【/h/】据国际咨询机构idc预测,到2025年智能终端数量将达到400亿,全球数据量也将从2020年的44zb跃升至180zb,其中30%属于实时数据,75%来自边缘和终端,这些数据中80%将是非结构化数据。
数据量不仅巨大,而且增长速度惊人。比如某大型三甲医院,每天产生几TB的数据;一条智能质检生产线,每天产生数百万亿字节的数据;一个智能城市每天产生数百千兆字节的数据。基于此,it技术人员不得不重新考虑存储效率和体系结构,“新基础架构”需要以数据为核心的“新存储”。
图1:山彦数据公司创始人兼首席执行官陈建
一个新的存储特性——海量数据的可持续高效存储
面对如此巨大的数据存储量和可预测的数据增长,新的存储架构必须考虑的第一点是如何实现更高可扩展性、更高吞吐量/低延迟和更高性价比的容量管理。首先,要有很高的可扩展性,以满足因业务量和数据精细度的增加而导致的数据量的增加而随时进行扩展的需求;其次,要有高吞吐量/低延迟,保证在海量数据和海量小文件的场景下,数据能够被快速读取和调用;当然,用户也非常重视整体方案的性价比。
公共云中的数据存储是可选的解决方案。租用公有云厂商的存储空房节省了自建存储的硬件购买成本,并根据数据存储量购买相应的存储空房。但是数据调用的成本也随着数据量的增加而增加,数据使用成本甚至超过了原来的硬件购买成本。例如,由于每月数百万美元的数据访问成本,nasa不得不考虑将数据从亚马逊云平台移回自建数据中心。
以分布式技术为核心架构的新型存储摆脱了传统存储数据共享困难、扩展受限于控制器性能等问题。通过将软件部署到通用服务器,分散架构支持灵活扩展和高并发访问,消除容量和性能限制,实现更好的存储容量,并轻松支持eb级存储规模;数千万iops和万亿字节的聚合带宽可以满足高并发访问的需求,并且具有部署简单、扩展灵活的特点,为不断增长的海量数据提供了具有极高容量、性能、可靠性和性价比的存储系统底层支持。
第二个新的存储特性——高效管理海量数据
只解决了数据存储的问题,远远不能满足新基础设施的需求。有必要进一步解决存储数据的管理问题。
数据和我们一样,都有它的生命周期,从产生到消亡有很多阶段。比如病人去医院拍x光片,新生成的结果数据叫热数据,读写效率高,实时性要求高。访视结束后一至两年内,患者将返回诊所。诊断数据不需要实时读取,也需要快速获取。这种数据叫温度数据;患者康复后,根据医疗数据至少保存20年的要求,可以将医疗数据保存在成本相对较低的存储介质中,并在必要时进行检索。这种数据叫冷数据。因此,新基础架构所需的新存储系统需要数据生命周期管理的能力。
另一个必须提到的数据管理场景是边缘计算和中央计算。云边缘协作的数据管理能力对于存储系统支持数据中心和边缘之间的数据汇聚和分发非常重要。特别是随着5g的发展,工业互联网和物联网技术的应用,更多的数据将从相机、传感器、移动设备等不同的边缘终端产生,而传统的san/nas存储只能在局域网中访问,不能在云边缘提供协调统一的数据管理能力。新的存储需要打破传统存储访问协议的限制,基于互联网协议实现跨网络的数据统一管理和访问,使其能够直接与数据中心外的物联网设备和智能终端进行数据交互,满足当前和未来的数据交互需求。
目前应用程度较高的混合云场景的数据也需要管理。很多公有云厂商都推出了相应的部署模式。一些企业出于安全和成本的考虑,选择在公共云中部署互联网相关服务,同时将重要数据存储在私有云,以兼顾业务灵活性和数据安全性。企业私有云存储需要与公共云存储相结合,实现业务无关数据在上下云中的集成和流动。在这样的发展趋势下,需要新的存储来提供与公共云存储兼容的协议和通过互联网传输数据的能力。将公共云存储和私有云存储连接起来,形成混合云存储的共同基础,构建企业数据湖,是必然的。
任何技术变革都需要一个过渡阶段,新的存储部署越来越多,传统存储将长期存在,并在其生命周期中继续发挥作用。因此,通过异构存储的集成进行统一数据管理,不仅可以有效保护客户现有的投资,也是新基础架构趋势下新存储系统的要求。
新存储的第三个特点——海量数据的价值挖掘
数据的最终价值呈现必须为应用服务。人工智能和大数据分析技术的发展推动数据产生更多的应用价值。因此,在数据价值挖掘方面,我认为新存储系统的最终需求必须是能够更好地利用人工智能,为人工智能服务,赋予大数据价值挖掘能力。
在使用人工智能方面,传统的san/nas系统由于受到访问协议的限制,无法感知数据。它只能利用数据访问的io分类、使用容量统计、存储硬件错误码等信息在存储底层进行统计分析,实现存储系统的自动化运维管理和“基础智能化”的维度,以提高存储系统本身的管理效率为目标。
【/h/】至于真正的智能存储,我认为最重要的核心价值应该是基于数据感知,能够处理和加工数据,进而使应用能够挖掘和呈现数据的价值。因此,新的存储系统需要能够预集成一些通用的数据预处理功能和算法(如亚马逊的s3 select),然后通过与业务系统的数据感知,充分利用存储系统的空闲计算能力,从而在一定程度上实现数据处理功能的卸载和垂直优化,降低业务访问存储的压力,从而大大提高应用系统的数据处理和分析效率。
【/h/】另外,基于海量非结构化数据的价值挖掘分析,基本上依靠机器学习、深度学习等人工智能技术。在人工智能的场景中,数据经历收集、清理、训练、推理、归档等过程。人工智能的不同阶段对存储系统的要求非常不同。比如采集阶段,存储系统需要支持互联网远程访问协议,吞吐量大;在数据清理阶段,存储系统需要支持基于标签的检索,最好支持自动提取视频帧的能力;在训练阶段,要求存储系统具有高并发、低延迟的高性能能力;最后,在归档阶段,需要一个低成本的存储系统。如果采用传统的存储产品,一般要求不同类型的存储系统一起使用,以满足成本、性能、检索等方面的要求,但这必然会导致不同存储系统之间的数据孤岛。因此,新的智能存储应该具有基于标签的数据检索、多访问协议接口的互操作性、高性能、低延迟和低成本的归档能力,从而实现机器学习不同ai流水线阶段的数据统一存储,避免数据孤岛,提高各种ai流水线中的数据流通效率。
图2:杉木数据的客户价值模型
总之,新的基础设施为中国产业升级指明了方向,数字基础设施的大规模建设以及由此产生的新的应用需求将带来爆炸性的数据增长。海量数据蕴含巨大价值,存储必将成为新基础设施的坚实基础。更加多样化的数据模式、日益复杂的数据管理和高效的数据利用对存储提出了更高的要求,这对传统存储厂商和创新存储厂商既是挑战也是机遇。
标题:[商业信息]杉岩数据创始人陈坚:新基建需要以数据为核心的“新存储”
地址:http://www.baoduan3.com.cn/sy/2213.html