博客
关于我
聊聊HDFS中的副本放置策略和磁盘选择策略间的选择“矛盾”
阅读量:367 次
发布时间:2019-03-05

本文共 2161 字,大约阅读时间需要 7 分钟。

副本放置策略与磁盘选择策略的矛盾及优化

前言

在HDFS(分布式文件系统)中,文件块的写入策略由两大类策略决定:副本放置策略(BlockPlacementPolicy)和磁盘选择策略(VolumeChoosingPolicy)。这两者在目标节点选择上存在某种矛盾,值得深入探讨。

副本放置策略与磁盘选择策略的矛盾

矛盾的根源

副本放置策略通过BlockPlacementPolicy类决定文件块的目标写入节点,而磁盘选择策略则通过VolumeChoosingPolicy类决定目标节点上的具体磁盘目录。目前的实现中,DataNode端完全忽略NameNode提供的目标位置选择,这种做法是否合理值得商榷。

代码分析

以下代码展示了服务端选择目标存储位置的逻辑:

DatanodeStorageInfo chooseStorage4Block(DatanodeDescriptor dnd, long blockSize, List
results, StorageType storageType) { DatanodeStorageInfo storage = dnd.chooseStorage4Block(storageType, blockSize); if (storage != null) { results.add(storage); } else { logNodeIsNotChosen(dnd, "no good storage to place the block "); } return storage;}
public DatanodeStorageInfo chooseStorage4Block(StorageType t, long blockSize) {    final long requiredSize = blockSize * HdfsServerConstants.MIN_BLOCKS_FOR_WRITE;    final long scheduledSize = blockSize * getBlocksScheduled(t);    long remaining = 0;    DatanodeStorageInfo storage = null;    for (DatanodeStorageInfo s : getStorageInfos()) {        if (s.getState() == State.NORMAL && s.getStorageType() == t) {            if (storage == null) {                storage = s;            }            long r = s.getRemaining();            if (r >= requiredSize) {                remaining += r;            }        }    }    if (requiredSize > remaining - scheduledSize) {        LOG.debug("The node {} does not have enough {} space (required={}, scheduled={}, remaining={}).",                this, t, requiredSize, scheduledSize, remaining);        return null;    }    return storage;}

两大发现

  • BlockPlacementPolicy同样会对目标写入目录进行选择
  • 当前的选择逻辑总是选择第一个有效的存储位置
  • 矛盾的解决方案

    选择一致化改造

    为解决此问题,我们提出了“选择一致化”改造,旨在优化目标存储位置的选择逻辑。

  • 数据传输改进

    • 将服务端选择的目标存储位置标识(storageID)传递至DataNode端的VolumeChoosingPolicy中。
    • 该改造涉及更新多个类文件,社区已完成相关工作(JIRA:HDFS-9807),VolumeChoosingPolicy接口将新增参数storageId
  • 服务端存储选择策略

    • 定义新的策略类DatanodeStorageInfoChoosingPolicy,负责服务端磁盘目录的选择。
    • 该策略应基于块大小和预定块数量进行优化(JIRA:HDFS-11464)。
  • 一致化策略实现

    • 定义新的策略类VolumeChoosingPolicyt,同时实现VolumeChoosingPolicyDatanodeStorageInfoChoosingPolicy接口,确保服务端选择结果与DataNode策略一致。
  • 结论

    副本块的存储策略与磁盘选择策略的协同优化对HDFS的读写效率至关重要。建议将提案应用于内部版本进行测试和分析,以进一步提升HDFS的性能表现。

    转载地址:http://tang.baihongyu.com/

    你可能感兴趣的文章
    PHP $_SERVER['HTTP_REFERER'] 获取前一页面的 URL 地址
    查看>>
    php & 和 & (主要是url 问题)
    查看>>
    php -- 魔术方法 之 判断属性是否存在或为空:__isset()
    查看>>
    php -- 魔术方法 之 获取属性:__get()
    查看>>
    php -树-二叉树的实现
    查看>>
    PHP -算法-二路归并
    查看>>
    php 2条不一样 的json数据 怎么放在一个json里面_如果你是PHP开发者,请务必了解一下Composer...
    查看>>
    php 360 不记住密码,JavaScript_多种方法实现360浏览器下禁止自动填写用户名密码,目前开发一个项目遇到一个很 - phpStudy...
    查看>>
    regExp的match、exec、test区别
    查看>>
    php 404 自定义,APACHE 自定义404错误页面设置方法
    查看>>
    PHP 5.3.0以上推荐使用mysqlnd驱动
    查看>>
    php aes sha1解密,PHP AES加密/解密
    查看>>
    php CI框架单个file表单多文件上传例子
    查看>>
    reflow和repaint引发的性能问题
    查看>>
    php csv 导出
    查看>>
    php curl 实例+详解
    查看>>
    php curl_init函数用法(http://blog.sina.com.cn/s/blog_640738130100tsig.html)
    查看>>
    php curl_multi批量发送http请求
    查看>>
    php echo 输出 锘?... 乱码问题
    查看>>
    ReferenceQueue的使用
    查看>>