博客
关于我
spark1.6使用:读取本地外部数据,把RDD转化成DataFrame,保存为parquet格式,读取csv格式
阅读量:526 次
发布时间:2019-03-07

本文共 1336 字,大约阅读时间需要 4 分钟。

一、先开启Hadoop和spark

二、启动spark-shell

spark-shell --master local[2] --jars /usr/local/src/spark-1.6.1-bin-hadoop2.6/libext/com.mysql.jdbc.Driver.jar

1.读取spark目录下面的logs日志作为测试:

val alllog=sc.textFile("file:///usr/local/src/spark-1.6.1-bin-hadoop2.6/logs/*out*")

alllog.count 看看一共有347记录

2.转为为DataFrame

现在读取进来的是RDD格式,用map函数把每条记录转成一行

import org.apache.spark.sql.Rowval alllogRDD=alllog.map(x =>Row(x))import org.apache.spark.sql.types._val schemaString="line"val schema=StructType(schemaString.split(" ").map(fieldName =>StructField(fieldName,StringType,true)))val alllogDataFrame = sqlContext.createDataFrame(alllogRDD, schema)alllogDataFrame.printSchema  #打印schemaalllogDataFrame.show(false) #这里的false表示不省略,否则跟下午一样,会三点省略

到此为止,已经把RDD转化为DataFrame了。

三、把DataFrame转为为表用SQL查询

alllogDataFrame.registerTempTable("log")

sqlContext.sql("SELECT * FROM log").show()

到此就可以使用SQL了。

四、读取和存储外部数据源

1.读取json文件

 val df = sqlContext.read.format("json").load("file:///mnt/hgfs/vm/china.json")

df.printSchema

 df.select("*").write.format("parquet").mode("overwrite").save("file:///mnt/hgfs/vm/china.parquet") #保存为parquet格式

这里的mode可以有overwrite,append,ignore等模式,也可以不用。

这样就直接生产DataFrame数据,不用添加schema信息了。

对于parquet文件,还有更高级的使用方法,直接读取文件就行了

 val df = sqlContext.sql("SELECT * FROM parquet.`examples/src/main/resources/users.parquet`")

对于json里面有嵌套数组,想要展开成多行,可以在SQL中使用explode函

 

转载地址:http://osmjz.baihongyu.com/

你可能感兴趣的文章
Nginx学习总结(14)——Nginx配置参数详细说明与整理
查看>>
Nginx学习总结(15)—— 提升 Web 应用性能的十个步骤
查看>>
Nginx学习总结(1)——Nginx入门简介
查看>>
Nginx学习总结(2)——Nginx手机版和PC电脑版网站配置
查看>>
Nginx学习总结(3)——Nginx配置及应用场景之高级配置
查看>>
Nginx学习总结(4)——负载均衡session会话保持方法
查看>>
Nginx学习总结(5)——Nginx基本配置备忘
查看>>
Nginx学习总结(7)——Nginx配置HTTPS 服务器
查看>>
Nginx学习总结(8)——Nginx服务器详解
查看>>
Nginx学习总结(9)——前端跨域问题解决
查看>>
nginx学习笔记002---Nginx代理配置_案例1_实现了对前端代码的方向代理_并且配置了后端api接口的访问地址
查看>>
nginx学习笔记003---Nginx代理配置_注意,在Windows中路径要用/
查看>>
Nginx学习笔记(一) Nginx架构
查看>>
Nginx安装
查看>>
Nginx安装SSL模块 nginx: the “ssl” parameter requires ngx_http_ssl_module in /usr/local/nginx/conf/nginx
查看>>
nginx安装stream模块配置tcp/udp端口转发
查看>>
nginx安装Stream模块配置tcp/udp端口转发
查看>>
Nginx安装与常见命令
查看>>
nginx安装与配置
查看>>
【Flink】Flink 2023 Flink 到 Doris 实时写入实践
查看>>