博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
HDFS源码分析数据块复制选取复制源节点
阅读量:6672 次
发布时间:2019-06-25

本文共 5900 字,大约阅读时间需要 19 分钟。

        数据块的复制当然需要一个源数据节点,从其上拷贝数据块至目标数据节点。那么数据块复制是如何选取复制源节点的呢?本文我们将针对这一问题进行研究。

        在BlockManager中,chooseSourceDatanode()方法就是用来选取数据块复制时的源节点的,它负责解析数据块所属数据节点列表,并选择一个,用它作为数据块的复制源。其核心逻辑如下:

        我们优先选择正处于退役过程中的数据节点而不是其他节点,因为前者没有写数据传输量因此相对不是很繁忙。我们不使用已退役节点作为数据源。否则我们从它们之中随机选择一个数据节点,其复制工作量还没有达到阈值,然而,如果一个复制是最高优先级的复制的话,我们会随机选择一个数据节点,而不管复制阈值的限制。

        chooseSourceDatanode()方法代码如下:

@VisibleForTesting   DatanodeDescriptor chooseSourceDatanode(Block block,       List
containingNodes, List
nodesContainingLiveReplicas, NumberReplicas numReplicas, int priority) { // 清空containingNodes列表 // 包含指定block的节点列表 containingNodes.clear(); // 清空nodesContainingLiveReplicas列表 // 包含指定block活跃副本的节点列表 nodesContainingLiveReplicas.clear(); DatanodeDescriptor srcNode = null; int live = 0; int decommissioned = 0; int corrupt = 0; int excess = 0; // 根据Block实例block从corruptReplicas中获取坏块副本所在数据节点集合nodesCorrupt Collection
nodesCorrupt = corruptReplicas.getNodes(block); // 根据Block实例block从blocksMap中获取其对应的数据节点存储DatanodeStorageInfo实例storage for(DatanodeStorageInfo storage : blocksMap.getStorages(block)) { // 从数据节点存储DatanodeStorageInfo实例storage中获取数据节点描述信息node final DatanodeDescriptor node = storage.getDatanodeDescriptor(); // 从excessReplicateMap集合中获取数据块集合excessBlocks, // 这些块对数据节点来说是多余的。我们最终会将这些多余的块删除。 LightWeightLinkedSet
excessBlocks = excessReplicateMap.get(node.getDatanodeUuid()); // 根据数据节点的存储状态确定其是否为可用副本 int countableReplica = storage.getState() == State.NORMAL ? 1 : 0; // 如果坏块节点集合nodesCorrupt中包含该节点,坏块数corrupt累加 if ((nodesCorrupt != null) && (nodesCorrupt.contains(node))) corrupt += countableReplica; // 如果节点正在退役或者已经退役,退役数decommissioned累加 else if (node.isDecommissionInProgress() || node.isDecommissioned()) decommissioned += countableReplica; // 如果多余数据块集合中包含该数据块,则多余数excess累加 else if (excessBlocks != null && excessBlocks.contains(block)) { excess += countableReplica; // 其他情况下 } else { // 将该存储添加到nodesContainingLiveReplicas集合 nodesContainingLiveReplicas.add(storage); // 累加活跃副本数live live += countableReplica; } // 将该节点添加到containingNodes集合 containingNodes.add(node); // Check if this replica is corrupt // If so, do not select the node as src node // 如果为坏块,跳过 if ((nodesCorrupt != null) && nodesCorrupt.contains(node)) continue; // 如果复制级别不是最高级别,且数据节点正在复制的数据块数目大于等于最大复制块数maxReplicationStreams,跳过 if(priority != UnderReplicatedBlocks.QUEUE_HIGHEST_PRIORITY && node.getNumberOfBlocksToBeReplicated() >= maxReplicationStreams) { continue; // already reached replication limit } // 如果数据节点getNumberOfBlocksToBeReplicated大于等于复制块数上线replicationStreamsHardLimit,跳过 if (node.getNumberOfBlocksToBeReplicated() >= replicationStreamsHardLimit) { continue; } // the block must not be scheduled for removal on srcNode // 如果数据块为多余的数据块,直接跳过 if(excessBlocks != null && excessBlocks.contains(block)) continue; // never use already decommissioned nodes // 如果数据节点为已退役节点,跳过 if(node.isDecommissioned()) continue; // we prefer nodes that are in DECOMMISSION_INPROGRESS state // 如果数据节点正在退役,且srcNode还未选中,那么选择该数据节点为srcNode,并跳过 if(node.isDecommissionInProgress() || srcNode == null) { srcNode = node; continue; } // 如果源数据节点srcNode正在退役,则跳过 if(srcNode.isDecommissionInProgress()) continue; // switch to a different node randomly // this to prevent from deterministically selecting the same node even // if the node failed to replicate the block on previous iterations if(DFSUtil.getRandom().nextBoolean()) srcNode = node; } // 初始化数据块副本复制统计对象numReplicas if(numReplicas != null) numReplicas.initialize(live, decommissioned, corrupt, excess, 0); // 返回srcNode return srcNode; }
        chooseSourceDatanode()方法的整体逻辑如下:

        1、清空containingNodes列表:containingNodes为包含指定block的节点描述信息DatanodeDescriptor列表;

        2、清空nodesContainingLiveReplicas列表:nodesContainingLiveReplicas为包含指定block活跃副本的节点存储DatanodeStorageInfo列表;

        3、根据Block实例block从corruptReplicas中获取坏块副本所在数据节点集合nodesCorrupt;

        4、根据Block实例block从blocksMap中获取其对应的数据节点存储DatanodeStorageInfo集合,并遍历每一个数据节点存储DatanodeStorageInfo实例storage:

              4.1、从数据节点存储DatanodeStorageInfo实例storage中获取数据节点描述信息node;

              4.2、从excessReplicateMap集合中获取数据块集合excessBlocks:这些块对数据节点来说是多余的,我们最终会将这些多余的块删除;

              4.3、根据数据节点的存储状态确定其是否为可用副本countableReplica;

              以下为统计数据块副本情况:

              4.4、如果坏块节点集合nodesCorrupt中包含该节点,坏块数corrupt累加;

              4.5、如果节点正在退役或者已经退役,退役数decommissioned累加;

              4.6、如果多余数据块集合中包含该数据块,则多余数excess累加;

              4.7、其他情况下:

                      4.7.1、将该存储添加到nodesContainingLiveReplicas集合;

                      4.7.2、累加活跃副本数live;

              4.8、将该节点添加到containingNodes集合;

              4.9、如果为坏块,跳过;

              4.10、如果复制级别不是最高级别,且节点正在复制的数据块数目大于等于最大复制块数maxReplicationStreams,跳过;

              4.11、如果数据节点getNumberOfBlocksToBeReplicated大于等于复制块数上线replicationStreamsHardLimit,跳过;

              4.12、如果数据块为多余的数据块,直接跳过;

              4.13、如果数据节点为已退役节点,跳过;

              4.14、如果数据节点正在退役,且srcNode还未选中,那么选择该数据节点为srcNode,并跳过;

              4.15、如果源数据节点srcNode正在退役,则跳过;

              4.16、随机选择源数据节点;

        5、初始化数据块副本复制统计对象numReplicas;

        6、返回块复制源数据节点srcNode。

        其中,有两个阈值需要单独说下,如下:

        1、maxReplicationStreams:一个给定节点除最高优先级复制外复制流的最大数目,取参数dfs.namenode.replication.max-streams,参数未配置默认为2;

        2、replicationStreamsHardLimit:一个给定节点全部优先级复制复制流的最大数目,取参数dfs.namenode.replication.max-streams-hard-limit,参数未配置默认为4。

        

        从上述整理流程中,大致总结如下:

        根据block从blocksMap中取数据块所在数据节点存储实例集合并遍历,统计数据块副本情况,包括损坏副本、多余副本、退役副本、活跃副本等,然后损坏副本、多余副本、退役节点直接跳过,这三种情况不能被选中为复制源数据节点,并且还有两种情况,一是如果复制级别不是最高级别,且数据节点正在复制的数据块数目大于等于最大复制块数maxReplicationStreams,二是如果数据节点正在复制的数据块数目大于等于复制块数上线replicationStreamsHardLimit,这两种情况也直接跳过,不能被选中为复制源数据节点,剩下的,则是随机选择源数据节点,并且其最喜欢选择正在退役的数据节点,这个最喜欢的意思是,选择的方式是随机选择,但是一旦正在退役节点被选中,则源节点不会再做变更,否则还是要通过随机选择来变更的。

转载地址:http://zbmxo.baihongyu.com/

你可能感兴趣的文章
golang ---tcmalloc浅析
查看>>
微信小程序 - 接口更新记录以及解决方案(2018/12/26)
查看>>
MySQL存储引擎
查看>>
MS CRM 2011 剖析Form与Dialog的URL
查看>>
NS_ENUM & NS_OPTIONS
查看>>
WCF wsHttpBinding之Transport security Mode, clientCredentialType=”Basic”
查看>>
Win32基础编程-了解窗口类
查看>>
(原創) C++若參考到的class在其他檔案,須手動#include,C#則不必 (C/C++) (.NET) (C#)...
查看>>
个人管理 - 什么是好代码
查看>>
DirectX Input 键盘实现
查看>>
手机web——自适应网页设计(html/css控制)
查看>>
平面文档索引解决方案(基于XML与XSLT)
查看>>
POJ 1195 Mobile phones
查看>>
Linux内核配置(三) :电源,总线配置
查看>>
6.2 CUDA streams
查看>>
获取一年的所有周
查看>>
php如何互换一个数组的首尾元素 中间不变 首尾互换
查看>>
VMware虚拟机XP系统安装
查看>>
关于functioncharts饼状图篇
查看>>
c语言中 %p的含义【转】
查看>>