Shark用户迁移指南

    在Shark中,默认的reducer数目是1,可以通过mapred.reduce.tasks属性来控制其多少。Spark SQL反对使用这个属性,支持spark.sql.shuffle.partitions属性,它的默认值是200。
    用户可以自定义这个属性。

    表属性shark.cache不再存在,名字以_cached结尾的表也不再自动缓存。作为替代的方法,我们提供和UNCACHE TABLE语句显示地控制表的缓存。

    要强制表缓存,你可以简单地执行后,立即count表。

    • RDD重加载