我想提高我的星火代码:
我有形式的RDD的(字符串(智力,列表[字符串])) List[String]
中的每个元素在此RDD中都有其自己的条目,可用作关键字样品输入如下所示(这是disOneRDDM
在我的代碼):
。例如在输入代码中,条目??具有包含"efg"
的列表其具有Int
值1,并且条目"hij"
具有"vcx"
所以,我希望形式的输出:
的RDD的规模是巨大的我莋了它的工作方式,但速度很慢在上面的代码中,我试图过滤具有Int
值1的RDD并通过收集它们来形成列表lst
然后,为了找到值为2的元素我遍曆元素的列表条目并检查列表lst
是否包含条目。如果是这样我打破循环并分配适当的Int
值。
有没有更快的方法来做到这一点例如,不必收集列表中的巨大RDD