HDFS写文件解析
- client通过DistributedFileSystem对象调用create()方法创建文件,实际上通过RPC调用了NameNode的方法。
- NameNode收到client的请求之后,执行各种检查(1.确认要传文件目前在HDFS上不存在,2.client具有写的权限)如果通过则会为新文件创建一条记录,并返回一个FSDataOutputStream对象,该对象负责DataNode和NameNode通讯。若检查未通过则抛出IOException。
- 客户端拿到流后,进行文件写入。stream会将数据分成一个个数据包(packet)并写入内部队列,称为数据队列(data queue)。DataStreamer处理数据队列,它的责任是根据DataNode列表来要求NameNode分配适合的新块来存储副本。这一组DataNode构成一个管道(Pipeline)—
如果存在多个DataNode,那么包会在DataNode之间进行流式转发。 一直到最后一个节点 - DFSOutputStream也维护着一个确认队列(ack queue)。收到管道中所有DataNode确认信息后,该数据包才会从确认队列中删除。
- 所有的数据块都写完以后,close流。并且等待NameNode返回确认信息。
上述是在正常写文件,并且没有发生故障的理想情况下。
补充:
如果数据写入期间DataNode发生故障,则执行以下操作:
1.关闭管道(Pipeline)
2.将队列中的所有数据包都添加回数据队列的最前端,确保故障节点下游的DataNode不会漏掉任何一个数据库包
3.为存储在另一节点的当前数据块指定一个新的标识,并将标识发给NameNode. 便于故障节点恢复后可以删除其原来已经上传的部分数据。
4.从管道中删除故障节点,并把数据块继续传输到其他正常DataNode节点。NameNode发现副本数不足时,会在另一个节点上创建一个新的副本。
版权声明:本文为博主原创文章,未经博主允许不得转载。