
在数字化浪潮席卷各行各业的今天,数据正以几何级数增长。医疗、教育、交通、能源……几乎所有行业都在面临同一个难题:如何在数据洪流中,找到更高效的存储与备份方式?这个问题的本质,可以概括为“数据的断舍离”——在有限的存储资源和带宽条件下,实现数据的高效保护与管理。要做到数据的断舍离,无外乎两种手段:第一种是从源端要效益,即通过减少备份的数据量来实现主动型的数据瘦身;第二种是从备端要效益,即通过为数据提供更大的存储空间来实现被动型的扩容。本文主要聚焦于第一种方式——从源端实现数据的主动“瘦身”,深入探讨字节级增量数据捕获技术相较于传统重复数据删除技术的独特优势。
传统“瘦身”手段:重复数据删除的局限性
减少备份数据量,一个比较常用的方式是“重复数据删除”,即所谓的重删或去重方式。重复数据删除有多个维度的分类,比如按执行位置可分为源端重删和目标端重删;按执行时机可分为在线重删和离线重删;按操作粒度可分为文件级、块级和字节级/比特位级重删。除此之外,还有一些根据划分块的长度是否可变等更为细化的分类方式,这里不做赘述。但不管是哪一种重删技术,普遍存在对动态的实时变化数据难以处理、对系统资源消耗比较大等问题。因此,去重技术主要用于周期性的静态数据的备份与归档。同时,对于一些动态数据比如视频文件,由于本身已经是压缩格式,则只能采用压缩方式,无法有效去重。
对源端数据进行去重可以看作是对原有数据的一种修改,所以多用于数据备份场景中。在恢复过程中,所需数据可能不是存储在连续的磁盘块中,甚至可能存储在未经重复删除的备份中。当备份数据过期、存储空间释放时,还会产生存储碎片,导致恢复时间被延长。这些局限性使得传统重删技术在某些场景下难以满足企业对数据保护的更高要求。
全新思路:字节级增量数据捕获技术
针对上述问题,英方的字节级增量数据捕获技术提供了另一种让数据“瘦身”的思路。字节级增量数据捕获技术是一种序列化的数据捕获与传输技术,备端增量复制,实现数据的实时可用。在需要更短的备份时间窗口、更低的资源利用率、更快的数据恢复场景中,英方的字节级数据捕获与复制技术所传输和保存的都是I/O级别的增量数据。
2.1 技术原理:IO级别的精准捕获
可以将其理解为源端的一个IO抓取器,本质上是一个过滤器驱动程序(Filter Driver),通过插入到系统的I/O路径上,将自己的回调函数注册或者说Hook挂接到系统内现存的其他驱动下方,比如挂接到虚拟文件系统(VFS)下方,这样它就能够抓取每一笔针对文件系统的操作请求。这种技术设计使得传输的数据本身已经是增量变化,天然避免了重复数据的产生,从而大大节省了存储空间,提升了传输效率。
2.2 核心优势对比
与传统的重删技术相比,字节级增量捕获具备以下核心优势:对动态实时数据同样高效,能够实时捕获持续变化的数据而不需要等待备份窗口;对系统资源消耗极低,不会影响生产环境的正常运行;恢复性能不受影响,数据在备端保持连续可用的状态;不存在存储碎片问题,因为数据是以序列化方式持续写入的。
典型应用场景:医疗行业PACS系统
那么,这种技术在具体的业务场景中是如何运用的呢?以医疗行业的PACS系统为例,可以清晰地看到字节级增量技术相较于传统备份方案的显著优势。
3.1 PACS系统的数据特征
很多医院采用的PACS系统前端多采用Windows操作系统,而后端挂载NAS存储。PACS影像数据有一个显著特点:文件极小(通常几百KB到几MB)、数量巨大(一家三甲医院动辄数百万甚至上千万张影像)、全部为图片格式。这种数据特征对传统的备份方案构成了极大的挑战。
3.2 传统定时备份的困境
如果采用传统的定时备份方案,每隔一段时间就需要对数据进行一次全量备份,对存储空间的需求是巨大的。以一家中型三甲医院为例,其PACS系统年增长数据量可达数十TB,采用传统定时备份需要数倍于此的存储容量。在网络传输方面,传统定时备份采用定时触发方式,将一天的数据增量在某个时间点(如下半夜)一次性传输,会占用较大带宽。虽然时间上往往选择凌晨去操作,但对于24小时都有业务运行的大型三甲医院来说,这种带宽占用依然会造成不便,甚至影响急诊影像系统的响应速度。
3.3 英方字节级方案的独特价值
基于字节级技术的i2NAS采用的是准实时备份机制,只传输发生变化的数据块,对源端和备端的数据存储空间要求都大幅降低。在实际部署中,存储空间节省可达50%-70%。在网络传输方面,i2NAS在数据捕获后持续但低流量地传送到备端存储,可以在低带宽条件下稳定传输(最低可适应1Mbps带宽),不影响内部业务网络的正常运行,真正做到对前端医疗业务的零感知。

技术选型建议:场景决定取舍
任何技术都需要放在具体的应用场景中考量,并没有绝对意义上的孰优孰劣。重复数据删除技术适用于周期性静态数据的备份与归档,对存储空间的压缩效果显著;而字节级增量捕获技术更适用于动态变化频繁、需要实时保护、带宽有限的场景。
4.1 适用场景对比
| 对比维度 | 重复数据删除 | 字节级增量捕获 |
| 静态周期数据备份 | ★★★ 非常适用 | ★★ 适用 |
| 动态实时数据保护 | ★ 不适用 | ★★★ 非常适用 |
| 窄带宽远距离传输 | ★★ 一般 | ★★★ 非常适用 |
| 海量小文件场景 | ★ 不适用 | ★★★ 非常适用 |
| 7×24小时业务系统 | ★★ 有影响 | ★★★ 无感知 |
4.2 选择建议
企业在选择数据保护方案时,应结合自身的数据特征、业务连续性要求、网络环境和预算投入,选择最适合的技术路径。如果您的核心诉求是降低归档数据的存储成本,重复数据删除是合理的选择;如果您需要保护实时变化的核心业务系统,且面临带宽有限的约束,字节级增量捕获技术则更为合适。英方软件提供覆盖全场景的数据复制与灾备解决方案,包括字节级复制、数据库语言级同步、CDP持续数据保护等多种技术,能够根据用户的具体需求进行灵活组合,助力企业实现数据的高效管理与安全保护。
猜你喜欢的文章
► 云灾备的三驾马车|英方胡军擎在Oracle合作伙伴峰会上的分享


沪公网安备31011202020864号