使用Apache Spark处理Excel文件的方法

本站所有内容来自互联网收集,仅供学习和交流,请勿用于商业用途。如有侵权、不妥之处,请第一时间联系我们删除!Q群:迪思分享

免费资源网 – https://freexyz.cn/

前言

在日常的工作中,表格内的工具是非常方便的x,但是当表格变得非常多的时候,就需要一些特定的处理。Excel作为功能强大的数据处理软件,广泛应用于各行各业,从企业管理到数据分析,可谓无处不在。然而,面对大型且复杂的数据,Excel的处理能力可能力不从心。

对此,我们可借助Apache Spark这一分布式计算框架,凭借其强大的计算与数据处理能力,快速有效地处理Excel数据。这些数据进行一个分析,整理,筛选,排序。分析整理有用的内容。

操作

创建一个spark项目,在IntelliJ IDEA中创建Spark项目时,默认的目录结构如下:

project-root/ │ ├── src/ │ ├── main/ │ │ ├── java/ │ │ │ └── (Java source files) │ │ └── scala/ │ │ └── (Scala source files) │ └── test/ │ ├── java/ │ │ └── (Test Java source files) │ └── scala/ │ └── (Test Scala source files) ├── resources/ │ └── (Resource files) └── target/ └── (Compiled output and build artifacts)

导入包

在build.sbt中添加操作文件的包

libraryDependencies ++= Seq( “org.apache.spark” %% “spark-core” % sparkVersion, “org.apache.spark” %% “spark-sql” % sparkVersion, “org.apache.spark” %% “spark-mllib” % sparkVersion, “org.apache.spark” %% “spark-streaming” % sparkVersion, “com.norbitltd” %% “spoiwo_2.12” % “1.4.1”, “com.crealytics” %% “spark-excel” % “0.13.7”, “com.monitorjbl” %% “xlsx-streamer” % “2.1.0” )

测试数据

name

age

Mic

1

Andy

3

Steven

1

首先

使用Spark读取Excel文件十分简便。只需在DataFrame API中指定文件路径及格式,Spark即可自动导入Excel文件并将其转成DataFrame,进而展开数据处理和分析。

代码示例

Spark不但提供多样的数据处理方式,更在DataFrame API中支持筛选、聚合和排序等操作。此外,内置丰富的数据处理函数和操作符使处理Excel数据更为便捷。

package com.example.spark import org.apache.spark.{SparkConf, SparkContext} import org.apache.spark.sql.SparkSession object SparkTest { def main(args: Array[String]): Unit = { //scala版本 val sparkConf = new SparkConf() sparkConf.setMaster(“local”) //本地单线程运行 sparkConf.setAppName(“testJob”) // val sc = new SparkContext(sparkConf) val spark = SparkSession.builder().config(sparkConf) .appName(“Excel Demo”) .getOrCreate() // 读取 Excel 文件 val df = spark.read .format(“com.crealytics.spark.excel”) .option(“dataAddress”, “Sheet2!A1:B2”) // 可选,设置选择数据区域 例如 A1:C2。 .option(“useHeader”, “false”) // 必须,是否使用表头,false的话自己命名表头(_c0),true则第一行为表头 .option(“treatEmptyValuesAsNulls”, “true”) // 可选, 是否将空的单元格设置为null ,如果不设置为null 遇见空单元格会报错 默认t: true .option(“inferSchema”, “true”) // 可选, default: false //.option(“addColorColumns”, “true”) // 可选, default: false //.option(“timestampFormat”, “yyyy-mm-dd hh:mm:ss”) // 可选, default: yyyy-mm-dd hh:mm:ss[.fffffffff] //.option(“excerptSize”, 6) // 可选, default: 10. If set and if schema inferred, number of rows to infer schema from //.option(“workbookPassword”, “pass”) // 可选, default None. Requires unlimited strength JCE for older JVMs==== //.option(“maxRowsInMemory”, 20) // 可选, default None. If set, uses a streaming reader which can help with big files==== .schema(schema) // 可选, default: Either inferred schema, or all columns are Strings // .option(“header”, “true”) .load(“path/to/excel/file.xlsx”) // 显示 DataFrame 的内容 df.show() // +——-+—+ // | name|age| // +——-+—+ // | Mic| 1| // | Andy| 3| // | Steven| 1| // +——-+—+ // 将 DataFrame 写入 Excel 文件 df.write .format(“com.crealytics.spark.excel”) .option(“dataAddress”, “Sheet!A1:B2”) .option(“useHeader”, “true”) //.option(“dateFormat”, “yy-mmm-d”) // Optional, default: yy-m-d h:mm //.option(“timestampFormat”, “mm-dd-yyyy hh:mm:ss”) // Optional, default: yyyy-mm-dd hh:mm:ss.000 .mode(“append”) // Optional, default: overwrite. .option(“header”, “true”) .save(“path/to/save/excel/file.xlsx”) } }

数据处理结束后,可将结果保存在全新Excel文件或其他格式文件中。借助DataFrame API,无论保存在本地文件系统还是云端,均能轻松实现。保留数据亦可依照需求选择不同输出格式,如CSV,XLSX等。

总结一下

虽然仅处理基础数据,但在集群环境下,Spark展现出优秀的大规模数据处理能力。无论海量Excel数据还是复杂的结构化数据,都在Spark协助下,能轻松应对并满足各种数据处理与分析任务。

借助Apache Spark处理Excel文件,充分发挥分布式计算潜能,可让数据处理与分析过程更为高效出色,同时也极大提升数据处理效率和准确性。希望本文能让您对Spark处理Excel有更深入了解,在实践中更好地应用。

引用

https://github.com/crealytics/spark-excel

最后


© 版权声明
THE END
★喜欢这篇文章吗?喜欢的话,麻烦动动手指支持一下!★
点赞13 分享
评论 抢沙发

请登录后发表评论

    暂无评论内容