(大数据技术说白了是干啥)(大数据技术干啥的)

最近两年

存储招标项目出现了1个大趋势

新建的千万级存储大项目

嘿嘿,越来越多

这类项目随便搜搜就是一大把

(大数据技术说白了是干啥)(大数据技术干啥的)

……

因为对很多头部客户来说

政府、广电、医卫、证券、科研单位...

超大容量存储都变成了刚需

大家都在忙着一件事

(大数据技术说白了是干啥)(大数据技术干啥的)

行业老司机们

碰到这类存储大项目

心情就变得相当复杂喽

大家心里都门儿清

以前客户存储要扩容,很简单

(大数据技术说白了是干啥)(大数据技术干啥的)

加点磁盘扩展柜就行

性能不够就把机头也升级下

项目搞起来都轻车熟路

很多都是延续性采购,单一来源

(大数据技术说白了是干啥)(大数据技术干啥的)

可现在

存储容量规模完全爆炸了

部署难度呈指数级上升

以前的搞法有点Hold不在

必须得找新的解决方案

(大数据技术说白了是干啥)(大数据技术干啥的)

那么,什么规模

才能称为海量存储?

(大数据技术说白了是干啥)(大数据技术干啥的)

拿最近一个真实项目举例

450万预算,干了5个PB

所以,PB是海量存储的起步门槛

那么PB,又是什么级别呢?

你可以慢慢数一下,1024是进阶单位

(大数据技术说白了是干啥)(大数据技术干啥的)

再形象一点

如果1块硬盘存储容量按10T算

那么,1PB相当大概103块10T的硬盘

(10T*103块硬盘=1030T≈1PB)

这还不算副本的额外开销

(大数据技术说白了是干啥)(大数据技术干啥的)

现在稍有点规模的海量存储项目

动辄就是几十PB,夸张点的到几个EB

这类项目,对于厂商来说

不仅是一种“大考”,同时也是“大坑”

没点填坑实力,就只能喊救命了

(大数据技术说白了是干啥)(大数据技术干啥的)

对于这种级别的存储来说

不仅考量超大的容量和扩展性

还要确保高性能、高可靠、高智能

(大数据技术说白了是干啥)(大数据技术干啥的)

那么谁才是

国内海量存储部署的

蓝波万厂商”?

(大数据技术说白了是干啥)(大数据技术干啥的)

论单体规模

曙光拥有国内最大的

【EB级云存储实验室】

支撑大型行业应用系统

论实战规模

从2009年单套存储系统容量16PB

到2022年单套存储系统300PB

曙光不断突破业内存储容量极限

支撑这些大Case的产品

就是曙光海量存储系统的旗舰

ParaStor

(大数据技术说白了是干啥)(大数据技术干啥的)

前面我们说过

海量存储系统“水深坑多”

那么曙光ParaStor

如何涉水避坑、海纳百川呢?

挑战1:底层数据管理技术

底层数据管理,说白了

就是对海量磁盘的管理能力

这种管理

通常靠“磁盘文件系统”来完成

(大数据技术说白了是干啥)(大数据技术干啥的)

目前业界分布式存储系统

大多采用OS自带的本地文件系统

或者开源文件系统
(EXT4/ZFS等等)

进行底层磁盘管理

以降低代码开发量,缩短研发周期

(大数据技术说白了是干啥)(大数据技术干啥的)

这种间接的磁盘管理方式

无法更直接、高效地发挥磁盘性能

读写数据时要调用ext4、zfs接口

好比每次调用磁盘,还得先开一道门

(大数据技术说白了是干啥)(大数据技术干啥的)

海量存储系统,磁盘成千上万块

如果单磁盘的性能无法充分发挥

最终影响存储系统的整体性能和可靠性

(大数据技术说白了是干啥)(大数据技术干啥的)

而曙光希望直接操控磁盘

自研了一套高效的本地磁盘管理系统

叫作Object System

(大数据技术说白了是干啥)(大数据技术干啥的)

Object System可以“精细化”操控磁盘

能精细化地控制磁盘布局

能精细化地控制磁盘读写

由此,数据负载更均衡,数据读写更快

(大数据技术说白了是干啥)(大数据技术干啥的)

还能精细化地一点点“抠出”

更多的存储空间

这就涉及到了磁盘的存储利用率

也就是大家常说的「得盘率」

(大数据技术说白了是干啥)(大数据技术干啥的)

挑战2:不同场景下性能优化

海量存储应用也分场景

比如,AI场景的图像识别

就是典型的海量小文件的存储场景

每个小文件都是KB级的

(大数据技术说白了是干啥)(大数据技术干啥的)

在峰值阶段,每秒会生成大量小文件

都需要写入存储系统中

会产生高频随机I/O读写

这就是“小文件、大麻烦”的困境

在现实中,从成本考虑

客户的存储介质依然以机械磁盘为主

往往无法应对海量小文件的性能挑战

(大数据技术说白了是干啥)(大数据技术干啥的)

曙光ParaStor采用“混搭”方案

实现【机械磁盘+闪存】深度融合

高频热点IO需求,交给闪存完成

同时通过小文件合并、元数据缓存

动态智能预读等多种神操作

完美解决“小文件、大存储”的难题

同时又不会有明显成本增加

(大数据技术说白了是干啥)(大数据技术干啥的)

在某些新兴应用场景下

需要高性能的对象存储

ParaStor的对象接口

对IO协议栈进行极简优化

性能可达到业内领先水平

(大数据技术说白了是干啥)(大数据技术干啥的)

还有一些是大带宽场景

比如,非编、渲染、科研计算等

会产生大文件

有时单个文件达到TB级

这些场景下访问存储系统时

就需要大带宽

(大数据技术说白了是干啥)(大数据技术干啥的)

曙光ParaStor也有绝招

通过高性能网络RDMA协议、

专属高性能POSIX客户端等技术

能让单一客户端读写带宽均超过25GB/s

这指标,代表了业界最高水准

(大数据技术说白了是干啥)(大数据技术干啥的)

总之,曙光ParaStor完美匹配

对带宽、IOPS、时延的个性化需求场景

挑战3:一致性和高可靠性

1、一致性

海量存储系统必然伴随着

大量客户端的并发访问需求

必须保证数据访问的一致性

对此,曙光打造了一套分布式锁

DLM(Distributed Lock Management)

(大数据技术说白了是干啥)(大数据技术干啥的)

分布式锁是ParaStor的内嵌服务模块

是对于共享资源的高效协调器

实现所有客户端对于同一文件的有序访问

保证海量数据的强一致性

2、高可靠性

一个百PB级海量存储系统

运转着上万块磁盘

硬盘的状态监控和预警处理至关重要

如果没有智能的处理方式

那么就是一种毁灭性灾难

(大数据技术说白了是干啥)(大数据技术干啥的)

曙光ParaStor除了通过成熟技术

比如,多副本、纠删码等

来防范单故障外

(大数据技术说白了是干啥)(大数据技术干啥的)

还自研了一种算法

内部资源动态调度管理算法

专门针对大集群场景

实现故障智能化预处理

故障无感知自愈...

(大数据技术说白了是干啥)(大数据技术干啥的)

挑战4:异构数据统一纳管

曙光ParaStor的1个存储节点

真正实现了海量异构数据资源的融合

(大数据技术说白了是干啥)(大数据技术干啥的)

同时,曙光ParaStor还能提供

大数据存算分离解决方案

基于原生HDFS接口,无任何协议损耗

实现存储与计算资源按需配置的同时

满足新老存储同时读写

应用“0”改造,数据“0”迁移

(大数据技术说白了是干啥)(大数据技术干啥的)

挑战5:海量节点智能化管理

集群通常有数百甚至数千节点

各节点间的信息实时同步开销

会成为存储系统的不可承受之重

(大数据技术说白了是干啥)(大数据技术干啥的)

曙光ParaStor在集群通信管理模块中

以分组为单位进行管理信令交互

实现管理流量的去中心化错峰交互

集群信息秒级同步

(大数据技术说白了是干啥)(大数据技术干啥的)

存储厂商那么多

为啥曙光能成为

海量存储的领域的“扛把子”?

除了ParaStor存储本身技术过硬外

还有这么几点,也很值得琢磨

1、自研技术,高可控性

2009年,曙光就已经组建存储研发team

拥有国内一流的分布式存储研发团队

建队初始,曙光初心就是

把核心技术牢牢掌握在自己手上

(大数据技术说白了是干啥)(大数据技术干啥的)

通过10多年的自研历程

曙光已经累积200余项核心技术发明专利

连续8年领跑国内分布式存储市场

(数据来源:IDC)

(大数据技术说白了是干啥)(大数据技术干啥的)

2、超大规模存储项目部署经验

超大规模,不仅仅是节点数增加

也不仅仅是磁盘容量的飙升

还会带来一系列的系统性问题

(业务适配、系统兼容、容量预估甚至物理环境问题)

(大数据技术说白了是干啥)(大数据技术干啥的)

没点实战经验,光堆产品真不行

曙光是全国海量存储部署规模最大的厂商

对各类高端客户的业务属性了如执掌

可以见招拆招,确保项目顺利落地

(大数据技术说白了是干啥)(大数据技术干啥的)

3、超强的定制能力

超大项目,定制化少不了

而曙光参加过大量高端计算项目

这些项目往往都具备特殊性

因此,面对定制需求,曙光是这样的

(大数据技术说白了是干啥)(大数据技术干啥的)

同时,因为底层自主研发

曙光能实现源代码级调优

帮助客户业务系统深度优化

(大数据技术说白了是干啥)(大数据技术干啥的)

so,老司机们,还等什么

如果你遇到难搞的海量存储项目

找曙光准没错啦

(大数据技术说白了是干啥)(大数据技术干啥的)
(大数据技术说白了是干啥)(大数据技术干啥的)

声明:我要去上班所有作品(图文、音视频)均由用户自行上传分享,仅供网友学习交流,版权归原作者特大号所有,原文出处。若您的权利被侵害,请联系删除。

本文标题:(大数据技术说白了是干啥)(大数据技术干啥的)
本文链接:https://www.51qsb.cn/article/dvjlgf.html

(0)
打赏微信扫一扫微信扫一扫QQ扫一扫QQ扫一扫
上一篇2023-07-31
下一篇2023-07-31

你可能还想知道

发表回复

登录后才能评论