脚本宝典收集整理的这篇文章主要介绍了SparkSQL编程方式纯SQL读写Hive数据源,脚本宝典觉得挺不错的,现在分享给大家,也给大家做个参考。
<dePEndency>
<groupId>org.apache.spark</groupId>
<artifactId>spark-hive_2.12</artifactId>
<version>2.4.8</version>
</dependency>
HiveDemo.scala
的object对象,编写如下代码即可:import org.apache.spark.sql.SparkSession
object HiveDemo {
def main(args: Array[String]): Unit = {
val spark: SparkSession = SparkSession
.builder()
.master("local[2]")
.appName("test")
// 如不配置,则使用本地的warehouse
.config("spark.sql.warehouse.dir", "hdfs://niit01:9000/user/hive/warehouse")
.enableHiveSupport()
.getOrCreate()
// 引入隐士函数
import spark.implicits._
import spark.sql
sql("select deptNo,sum(sal) as total From emp group by deptNo order by total desc").show
// 关系资源
spark.stop()
}
}
注意:代码中的.config部分是hdfs上的路径,故需要开启hdfs服务。如删除.config,则会在工程目录下生成metaStore_db目录,其作为hive的元数据库的目录
以上是脚本宝典为你收集整理的SparkSQL编程方式纯SQL读写Hive数据源全部内容,希望文章能够帮你解决SparkSQL编程方式纯SQL读写Hive数据源所遇到的问题。
本图文内容来源于网友网络收集整理提供,作为学习参考使用,版权属于原作者。
如您有任何意见或建议可联系处理。小编QQ:384754419,请注明来意。