我们之间的沉默,像喝了杯烈酒,呛得喉咙无力吞吐,最终只能不醒人世。
我们之间的沉默,像喝了杯烈酒,呛得喉咙无力吞吐,最终只能不醒人世。
在大数据环境下元数据的体量也非常大元数据的存取性能是整个分布式文件系统性能的关键常见的元数据管理可以分为集中式和分布式元数据管理架构集中式元数据管理架构采用单一的元数据服务器实现简单.但是存在单点故障等问题分布式元数据管理架构则将元数据分散在多个结点上.进而解决了元数据服务器的性能瓶颈等问题.并提高了元数据管理架构的可扩展性但实现较为复杂并引入了元数据一致性的问题另外还有一种无元数据服务器的分布式架构通过在线算法组织数据不需要专用的元数据服务器但是该架构对数据一致性的保障很困难.实现较为复杂文件目录遍历操作效率低下并且缺乏文件系统全局监控管理功能
在大数据环境下数据规模和复杂度的增加往往非常迅速对系统的扩展性能要求较高实现存储系统的高可扩展性首先要解决两个方面的重要问题包含元数据的分配和数据的透明迁移元数据的分配主要通过静态子树划分技术实现后者则侧重数据迁移算法的优化此外大数据存储体系规模庞大.结点失效率高因此还需要完成一定的自适应管理功能系统必须能够根据数据量和计算的工作量估算所需要的结点个数并动态地将数据在结点间迁移以实现负载均衡同时.结点失效时数据必须可以通过副本等机制进行恢复不能对上层应用产生影响
构建存储系统时.需要基于成本和性能来考虑因此存储系统通常采用多层不同性价比的存储器件组成存储层次结构大数据的规模大因此构建高效合理的存储层次结构可以在保证系统性能的前提下降低系统能耗和构建成本利用数据访问局部性原理.可以从两个方面对存储层次结构进行优化从提高性能的角度可以通过分析应用特征识别热点数据并对其进行缓存或预取通过高效的缓存预取算法和合理的缓存容量配比以提高访问性能从降低成本的角度采用信息生命周期管理方法将访问频率低的冷数据迁移到低速廉价存储设备上可以在小幅牺牲系统整体性能的基础上大幅降低系统的构建成本和能耗
传统数据存储模型需要支持尽可能多的应用因此需要具备较好的通用性大数据具有大规模高动态及快速处理等特性通用的数据存储模型通常并不是最能提高应用性能的模型.而大数据存储系统对上层应用性能的关注远远超过对通用性的追求针对应用和负载来优化存储就是将数据存储与应用耦合简化或扩展分布式文件系统的功能根据特定应用特定负载特定的计算模型对文件系统进行定制和深度优化使应用达到最佳性能这类优化技术在谷歌Facebook等互联网公司的内部存储系统上管理超过千万亿字节级别的大数据能够达到非常高的性能[2]
一致性分布式存储系统需要使用多台服务器共同存储数据,而随着服务器数量的增加,服务器出现故障的概率也在不断增加。为了保证在有服务器出现故障的情况下系统仍然可用。一般做法是把一个数据分成多份存储在不同的服务器中。但是由于故障和并行存储等情况的存在,同一个数据的多个副本之间可能存在不一……阅读全文 >>