PCEVA,PC绝对领域,探寻真正的电脑知识
开启左侧

一时爽?重复数据删除——Windows Server 2019

[复制链接]
zhangboyang 发表于 2019-4-22 15:08 | 显示全部楼层 |阅读模式
点击数:1646|回复数:26
本帖最后由 zhangboyang 于 2019-4-22 15:14 编辑

什么是重复数据删除?
重复数据删除(通常简称为删除重复)是 Windows Server 2016 的一项功能,可以帮助减少冗余数据对存储成本的影响。 启用后,重复数据删除会检查卷上的数据(检查是否存在重复分区),优化卷上的可用空间。 卷数据集的重复分区只存储一次,并可以压缩,节省更多空间。 重复数据删除可优化冗余,而不会损坏数据保真度或完整性。
——————————————这是微软官方文档的概述
原理
重复数据删除是把一个文件分成若干个小份,多个文件直接相同的部分就被删掉,标记小份,读取文件时从多个小份中读取(听着有点像“碎片化”)
实际效果
我拿机械盘的装了一百多G文件测的,声明:绝对不含两个完全相同的文件,那样真的没意思,效果如图
安全性
这个问题我回避,提到数据安全,一个个的就:“SMR不能用” “TLC不能用,QLC更不能用” “RAID一时爽” “软RAID死得比硬RAID还快”..........
反对科技进步的,抱残守缺罢了,前几年把三星evo骂死,现在都是“真香”
操作方法
我还没玩透,大家想了解的看官方文档吧,大多是powershell的操作,图形界面下的功能不全(至少我没找全)
纯娱乐,勿讨论实际问题
补图(这是又优化了一次)

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?注册

x
xdd6622 发表于 2019-4-22 15:56 | 显示全部楼层
这是个好功能,节约空间,网盘应该就是类似技术吧
cssniper 发表于 2019-4-22 16:03 | 显示全部楼层
配上qlc+raid0,画美不看
overthink 发表于 2019-4-22 16:57 | 显示全部楼层
去重,这个功能挺好。
尊称 发表于 2019-4-22 17:34 | 显示全部楼层
先标记一下,回头看个明白
来自苹果客户端来自苹果客户端
zhangboyang  楼主| 发表于 2019-4-22 17:44 | 显示全部楼层
xdd6622 发表于 2019-4-22 15:56
这是个好功能,节约空间,网盘应该就是类似技术吧

应该是的,而且网盘可能还有完全相同的两个文件(尤其是在用户数量足够多的情况下,比如百度网盘),直接对比校验值就行,这也是网盘秒上传的原理(当然这只是大致原理)
尊称 发表于 2019-4-22 20:27 | 显示全部楼层
本帖最后由 尊称 于 2019-4-22 21:44 编辑

在虚拟机分区针对虚拟机文件夹试试,其它文件夹排除了。没有开启压缩,文件主要是读。
nighttob 发表于 2019-4-22 20:28 | 显示全部楼层
存储的每一个子项都是门学问,包括但不限于分层、镜像、去重、备份
没玩好成反面教材的那可多了

还在纠结硬盘“性价比”的应该还看不上这些东西。
StormBolt 发表于 2019-4-22 20:52 | 显示全部楼层
这个和ntfs压缩以及compactos有什么不同
尊称 发表于 2019-4-22 21:42 | 显示全部楼层
StormBolt 发表于 2019-4-22 20:52
这个和ntfs压缩以及compactos有什么不同

给的微软的链接是中文的,指重复的文件内容被重定向成一个区块中,有动画展示。

所以我还不太敢用于正式存储中,先在虚拟机文件试试。还要看cpu资源需求情况,反正评估软件几乎是满载的。
topsky 发表于 2019-4-22 22:06 | 显示全部楼层
这个功能吃硬件吧
来自苹果客户端来自苹果客户端
StormBolt 发表于 2019-4-22 22:07 | 显示全部楼层
尊称 发表于 2019-4-22 21:42
给的微软的链接是中文的,指重复的文件内容被重定向成一个区块中,有动画展示。

所以我还不太敢用于正式 ...

我当然有看,这个原理压缩不也是吗,只是这个索引在文件系统层面而不在文件内部,但是compact OS就也是文件系统层面了
来自安卓客户端来自安卓客户端
尊称 发表于 2019-4-23 05:08 | 显示全部楼层
本帖最后由 尊称 于 2019-4-23 06:03 编辑
StormBolt 发表于 2019-4-22 22:07
我当然有看,这个原理压缩不也是吗,只是这个索引在文件系统层面而不在文件内部,但是compact OS就也是文 ...

compact OS 没有研究过,不是编码的吗?会是文件系统层面?微软没有说明
尊称 发表于 2019-4-23 05:24 | 显示全部楼层
本帖最后由 尊称 于 2019-4-23 06:33 编辑

@topsky 正要贴图,反正都是任务计划来的。执行时间看对cpu要求不高,G3420。参看七楼

评估:按照策略小文件自动过滤掉了。其实虚拟机文件里面都不是草包肚子,都执行过压缩。按照楼主给的微软的说明,虚拟机偏读取的文件适合使用。对ssd里寸土寸金的场合更适合。


今晨第一次执行结果



任务执行了十分钟


后台优化执行几秒钟


虚拟机运行没发现什么差别。


本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?注册

x
inSeek 发表于 2019-4-23 16:05 | 显示全部楼层
zhangboyang 发表于 2019-4-22 17:44
应该是的,而且网盘可能还有完全相同的两个文件(尤其是在用户数量足够多的情况下,比如百度网盘),直接 ...

Win Server 的这个去重,是基于block级别的,而不是文件级别的。所以就算不相同的2个文件,也可能因为有相同的block而得到去重。
至于网盘,可能的方案有两种:
1. 先文件级别去重(比如hash值),如果文件级别没去重,再block级别的去重
2. 只有文件级别的去重

对于海量存储的文件服务,比如网盘,还有云服务商的基础存储服务,综合各种考虑,我认为基本都在用第二种方案。
之前也有和某云的存储服务的RD聊过,对方也表示block级别的去重不经济,一般做到文件级别的去重就可以了。


inSeek 发表于 2019-4-23 16:17 | 显示全部楼层
本帖最后由 inSeek 于 2019-4-23 16:20 编辑

这个去重服务好久前用过。大概4-5年前。

zfs也有去重,但这个和zfs的实现不一样。
zfs的是在线去重的,需要在内存里维护一个类似于 hash -> block 的字典,所以才有zfs+开启去重,每1TB要配置1-1.5GB内存的原因,特点是内存一直占,CPU负载均摊在整个运行中,对上层服务影响小,实现复杂度应该也会小些。
Win Server用的是离线去重的,我记得有个定时任务来执行去重。执行的时候资源占用很可怕,但不执行是资源一点不占用,但这个方案,应该是有类似于数据库锁的概念,因为去重时,文件系统上的程序应该还有磁盘IO,这个时候就需要有逻辑保证去重之后的文件,追加了在去重中新写入的所有数据。我遇到过,一个mysql服务,跑在开启了去重的WinServer上,然后某天mysql数据库文件挂了... 只是猜想,没法确定是不是有必然联系....
红色狂想 发表于 2019-4-23 17:00 | 显示全部楼层
如果把硬盘挂到另一台机器上,或者重新安装了windows server系统会怎样?
红色狂想 发表于 2019-4-23 17:02 | 显示全部楼层
zhangboyang 发表于 2019-4-22 17:44
应该是的,而且网盘可能还有完全相同的两个文件(尤其是在用户数量足够多的情况下,比如百度网盘),直接 ...

那如果百度网盘用户删除了她的那个文件会怎样?
jianshe138 发表于 2019-4-23 17:36 | 显示全部楼层
红色狂想 发表于 2019-4-23 17:02
那如果百度网盘用户删除了她的那个文件会怎样?

你可以自己上传一个独一无二的文件上去,删除,然后再上传,看是不是秒上传,能秒上传,那就是假删除
tsammammb 发表于 2019-4-24 12:02 | 显示全部楼层
这个影响其它系统下的访问么
您需要登录后才可以回帖 登录 | 注册

本版积分规则

快速回复 返回顶部