确认一键查看最优答案
本功能為VIP专享,开通VIP获取答案速率将提升10倍哦!
假设Hadoop集群结点数量一定比如20台普通PC机,然后用来处理的数据慢慢增大
刚开始增大的时候,集群的处理效率应该会增加但是会不会增大到一定程度之后,效率开始下降可能会下降一段时候之后处于某个稳定的值,但是不是一定會有一个明显的下降过程这里的效率是指数据大小/时间,即MB/S
望得到解答,或者能提供一些官方一点的hadoop集群运行结果
随着需要处理的數据的增加,性能下降是必然的
最好的解决办法就增加更多的运算单元更多的存储空间和更多的服务器
这也是HADOOP动态扩展的优势
但是楼上能不能解释下可能有哪些原因导致性能下降呢?我知道的可能有结点之间的网络传输内部的资源调度或者说数据越大出错的可能性越大。
我想在hadoop官网找找有没有这方面的解释想知道hadoop本身对这个问题有没有作出说明。
1、由于文件太多,NameNode内存吃紧
2、MapReduce处理的数据远远大于CPU槽位导致大量JOB堆积
3、datanode的磁盘负载不均衡,导致某些节点IO过高造成读写瓶颈
4、MapReduce处理的小文件过多,导致NN和DN压力暴涨
等等。。还有很多哦
以上四点是我实际应用中,碰到的最棘手的問题