博客
关于我
聊聊HDFS中的副本放置策略和磁盘选择策略间的选择“矛盾”
阅读量:367 次
发布时间:2019-03-05

本文共 2161 字,大约阅读时间需要 7 分钟。

副本放置策略与磁盘选择策略的矛盾及优化

前言

在HDFS(分布式文件系统)中,文件块的写入策略由两大类策略决定:副本放置策略(BlockPlacementPolicy)和磁盘选择策略(VolumeChoosingPolicy)。这两者在目标节点选择上存在某种矛盾,值得深入探讨。

副本放置策略与磁盘选择策略的矛盾

矛盾的根源

副本放置策略通过BlockPlacementPolicy类决定文件块的目标写入节点,而磁盘选择策略则通过VolumeChoosingPolicy类决定目标节点上的具体磁盘目录。目前的实现中,DataNode端完全忽略NameNode提供的目标位置选择,这种做法是否合理值得商榷。

代码分析

以下代码展示了服务端选择目标存储位置的逻辑:

DatanodeStorageInfo chooseStorage4Block(DatanodeDescriptor dnd, long blockSize, List
results, StorageType storageType) { DatanodeStorageInfo storage = dnd.chooseStorage4Block(storageType, blockSize); if (storage != null) { results.add(storage); } else { logNodeIsNotChosen(dnd, "no good storage to place the block "); } return storage;}
public DatanodeStorageInfo chooseStorage4Block(StorageType t, long blockSize) {    final long requiredSize = blockSize * HdfsServerConstants.MIN_BLOCKS_FOR_WRITE;    final long scheduledSize = blockSize * getBlocksScheduled(t);    long remaining = 0;    DatanodeStorageInfo storage = null;    for (DatanodeStorageInfo s : getStorageInfos()) {        if (s.getState() == State.NORMAL && s.getStorageType() == t) {            if (storage == null) {                storage = s;            }            long r = s.getRemaining();            if (r >= requiredSize) {                remaining += r;            }        }    }    if (requiredSize > remaining - scheduledSize) {        LOG.debug("The node {} does not have enough {} space (required={}, scheduled={}, remaining={}).",                this, t, requiredSize, scheduledSize, remaining);        return null;    }    return storage;}

两大发现

  • BlockPlacementPolicy同样会对目标写入目录进行选择
  • 当前的选择逻辑总是选择第一个有效的存储位置
  • 矛盾的解决方案

    选择一致化改造

    为解决此问题,我们提出了“选择一致化”改造,旨在优化目标存储位置的选择逻辑。

  • 数据传输改进

    • 将服务端选择的目标存储位置标识(storageID)传递至DataNode端的VolumeChoosingPolicy中。
    • 该改造涉及更新多个类文件,社区已完成相关工作(JIRA:HDFS-9807),VolumeChoosingPolicy接口将新增参数storageId
  • 服务端存储选择策略

    • 定义新的策略类DatanodeStorageInfoChoosingPolicy,负责服务端磁盘目录的选择。
    • 该策略应基于块大小和预定块数量进行优化(JIRA:HDFS-11464)。
  • 一致化策略实现

    • 定义新的策略类VolumeChoosingPolicyt,同时实现VolumeChoosingPolicyDatanodeStorageInfoChoosingPolicy接口,确保服务端选择结果与DataNode策略一致。
  • 结论

    副本块的存储策略与磁盘选择策略的协同优化对HDFS的读写效率至关重要。建议将提案应用于内部版本进行测试和分析,以进一步提升HDFS的性能表现。

    转载地址:http://tang.baihongyu.com/

    你可能感兴趣的文章
    Openstack的HA解决方案【替换原有的dashboard】
    查看>>
    OpenStack的基本概念与架构详解
    查看>>
    Openstack的视频学习
    查看>>
    OpenStack自动化安装部署实战(附OpenStack实验环境)
    查看>>
    openstack虚拟机迁移live-migration中libvirt配置
    查看>>
    OpenStack项目管理实战
    查看>>
    OpenStreetMap初探(一)——了解OpenStreetMap
    查看>>
    openSUSE 13.1 Milestone 2 发布
    查看>>
    openSUSE推出独立 GUI 包管理工具:YQPkg,简化了整个软件包管理流程
    查看>>
    OpenVP共用账号 一个账号多台电脑登录
    查看>>
    OpenVSwtich(OVS)Vlan间路由实战 附实验环境
    查看>>
    Openwrt LuCI模块练习详细步骤
    查看>>
    openwrt_git_pull命令提示merger冲突时如何解决?
    查看>>
    OpenWrt包管理软件opkg的使用(极路由)
    查看>>
    OpenWrt固件编译刷机完全总结
    查看>>
    Open××× for Linux搭建之二
    查看>>
    Open×××有线网络时使用正常,无线网络时使用报错的解决方案
    查看>>
    Opera Mobile Classic Emulator
    查看>>
    Operation not supported on read-only collection 的解决方法 - [Windows Phone开发技巧系列1]
    查看>>
    OperationResult
    查看>>