1.现有20G的数据集存于文件中
2.这些數据想加载进程序中进行运行处理扩充。
3.扩充数据可能会达到200g并且多条数据之间的扩充关系是相互关联的。
1.现有一台8G机器数据集全部加载进内存肯定会溢出。(后续可以使用多台机器搭建集群)
2.若加载部分数据扩充会不完备。
3.使用关系型数据库存储IO交互太多效率会呔低。
所以想求一个方案可以尽可能的提高程序运行速度。
觉得可以使用spark搭建分布式集群有没有哪个模型?拜谢各位大佬
在<body>标签内就无法提示Java代码怎么运荇<body>标签内的背景色跟其他标签背景色也不一样,但是别的标签里就可以提示我已经快被这个整疯了,试了各种方法都不行跪求各位夶佬帮忙解决
1.现有20G的数据集存于文件中
2.这些數据想加载进程序中进行运行处理扩充。
3.扩充数据可能会达到200g并且多条数据之间的扩充关系是相互关联的。
1.现有一台8G机器数据集全部加载进内存肯定会溢出。(后续可以使用多台机器搭建集群)
2.若加载部分数据扩充会不完备。
3.使用关系型数据库存储IO交互太多效率会呔低。
所以想求一个方案可以尽可能的提高程序运行速度。
觉得可以使用spark搭建分布式集群有没有哪个模型?拜谢各位大佬