博客
关于我
聊聊HDFS中的副本放置策略和磁盘选择策略间的选择“矛盾”
阅读量:367 次
发布时间:2019-03-05

本文共 2161 字,大约阅读时间需要 7 分钟。

副本放置策略与磁盘选择策略的矛盾及优化

前言

在HDFS(分布式文件系统)中,文件块的写入策略由两大类策略决定:副本放置策略(BlockPlacementPolicy)和磁盘选择策略(VolumeChoosingPolicy)。这两者在目标节点选择上存在某种矛盾,值得深入探讨。

副本放置策略与磁盘选择策略的矛盾

矛盾的根源

副本放置策略通过BlockPlacementPolicy类决定文件块的目标写入节点,而磁盘选择策略则通过VolumeChoosingPolicy类决定目标节点上的具体磁盘目录。目前的实现中,DataNode端完全忽略NameNode提供的目标位置选择,这种做法是否合理值得商榷。

代码分析

以下代码展示了服务端选择目标存储位置的逻辑:

DatanodeStorageInfo chooseStorage4Block(DatanodeDescriptor dnd, long blockSize, List
results, StorageType storageType) { DatanodeStorageInfo storage = dnd.chooseStorage4Block(storageType, blockSize); if (storage != null) { results.add(storage); } else { logNodeIsNotChosen(dnd, "no good storage to place the block "); } return storage;}
public DatanodeStorageInfo chooseStorage4Block(StorageType t, long blockSize) {    final long requiredSize = blockSize * HdfsServerConstants.MIN_BLOCKS_FOR_WRITE;    final long scheduledSize = blockSize * getBlocksScheduled(t);    long remaining = 0;    DatanodeStorageInfo storage = null;    for (DatanodeStorageInfo s : getStorageInfos()) {        if (s.getState() == State.NORMAL && s.getStorageType() == t) {            if (storage == null) {                storage = s;            }            long r = s.getRemaining();            if (r >= requiredSize) {                remaining += r;            }        }    }    if (requiredSize > remaining - scheduledSize) {        LOG.debug("The node {} does not have enough {} space (required={}, scheduled={}, remaining={}).",                this, t, requiredSize, scheduledSize, remaining);        return null;    }    return storage;}

两大发现

  • BlockPlacementPolicy同样会对目标写入目录进行选择
  • 当前的选择逻辑总是选择第一个有效的存储位置
  • 矛盾的解决方案

    选择一致化改造

    为解决此问题,我们提出了“选择一致化”改造,旨在优化目标存储位置的选择逻辑。

  • 数据传输改进

    • 将服务端选择的目标存储位置标识(storageID)传递至DataNode端的VolumeChoosingPolicy中。
    • 该改造涉及更新多个类文件,社区已完成相关工作(JIRA:HDFS-9807),VolumeChoosingPolicy接口将新增参数storageId
  • 服务端存储选择策略

    • 定义新的策略类DatanodeStorageInfoChoosingPolicy,负责服务端磁盘目录的选择。
    • 该策略应基于块大小和预定块数量进行优化(JIRA:HDFS-11464)。
  • 一致化策略实现

    • 定义新的策略类VolumeChoosingPolicyt,同时实现VolumeChoosingPolicyDatanodeStorageInfoChoosingPolicy接口,确保服务端选择结果与DataNode策略一致。
  • 结论

    副本块的存储策略与磁盘选择策略的协同优化对HDFS的读写效率至关重要。建议将提案应用于内部版本进行测试和分析,以进一步提升HDFS的性能表现。

    转载地址:http://tang.baihongyu.com/

    你可能感兴趣的文章
    OpenMMLab | 【全网首发】Llama 3 微调项目实践与教程(XTuner 版)
    查看>>
    Openresty框架入门详解
    查看>>
    openshift搭建Istio企业级实战
    查看>>
    ORACEL学习--理解over()函数
    查看>>
    oracle script
    查看>>
    Oracle 递归
    查看>>
    oracle--用户,权限,角色的管理
    查看>>
    Oracle10g EM乱码之快速解决
    查看>>
    Oracle11G基本操作
    查看>>
    Oracle11g服务详细介绍及哪些服务是必须开启的?
    查看>>
    Oracle11g静默安装dbca,netca报错处理--直接跟换操作系统
    查看>>
    oracle12安装软件后安装数据库,然后需要自己配置监听
    查看>>
    Oracle——08PL/SQL简介,基本程序结构和语句
    查看>>
    oracle下的OVER(PARTITION BY)函数介绍
    查看>>
    Oracle中DATE数据相减问题
    查看>>
    Oracle中merge into的使用
    查看>>
    oracle中sql的case语句运用--根据不同条件去排序!
    查看>>
    oracle中关于日期问题的汇总!
    查看>>
    Oracle中常用的语句
    查看>>
    oracle典型安装失败,安装oracle 10失败
    查看>>