使用Apache Spark处理Excel文件的方法-迪思分享

本站所有内容来自互联网收集，仅供学习和交流，请勿用于商业用途。如有侵权、不妥之处，请第一时间联系我们删除！Q群：

免费资源网 – https://freexyz.cn/

前言

在日常的工作中，表格内的工具是非常方便的x，但是当表格变得非常多的时候，就需要一些特定的处理。Excel作为功能强大的数据处理软件，广泛应用于各行各业，从企业管理到数据分析，可谓无处不在。然而，面对大型且复杂的数据，Excel的处理能力可能力不从心。

对此，我们可借助Apache Spark这一分布式计算框架，凭借其强大的计算与数据处理能力，快速有效地处理Excel数据。这些数据进行一个分析，整理，筛选，排序。分析整理有用的内容。

操作

创建一个spark项目，在IntelliJ IDEA中创建Spark项目时，默认的目录结构如下：

project-root/ │ ├── src/ │ ├── main/ │ │ ├── java/ │ │ │ └── (Java source files) │ │ └── scala/ │ │ └── (Scala source files) │ └── test/ │ ├── java/ │ │ └── (Test Java source files) │ └── scala/ │ └── (Test Scala source files) ├── resources/ │ └── (Resource files) └── target/ └── (Compiled output and build artifacts)

导入包

在build.sbt中添加操作文件的包

libraryDependencies ++= Seq( “org.apache.spark” %% “spark-core” % sparkVersion, “org.apache.spark” %% “spark-sql” % sparkVersion, “org.apache.spark” %% “spark-mllib” % sparkVersion, “org.apache.spark” %% “spark-streaming” % sparkVersion, “com.norbitltd” %% “spoiwo_2.12” % “1.4.1”, “com.crealytics” %% “spark-excel” % “0.13.7”, “com.monitorjbl” %% “xlsx-streamer” % “2.1.0” )

测试数据

name

age

Mic

Andy

Steven

首先

使用Spark读取Excel文件十分简便。只需在DataFrame API中指定文件路径及格式，Spark即可自动导入Excel文件并将其转成DataFrame，进而展开数据处理和分析。

代码示例

Spark不但提供多样的数据处理方式，更在DataFrame API中支持筛选、聚合和排序等操作。此外，内置丰富的数据处理函数和操作符使处理Excel数据更为便捷。

package com.example.spark import org.apache.spark.{SparkConf, SparkContext} import org.apache.spark.sql.SparkSession object SparkTest { def main(args: Array[String]): Unit = { //scala版本 val sparkConf = new SparkConf() sparkConf.setMaster(“local”) //本地单线程运行 sparkConf.setAppName(“testJob”) // val sc = new SparkContext(sparkConf) val spark = SparkSession.builder().config(sparkConf) .appName(“Excel Demo”) .getOrCreate() // 读取 Excel 文件 val df = spark.read .format(“com.crealytics.spark.excel”) .option(“dataAddress”, “Sheet2!A1:B2”) // 可选,设置选择数据区域例如 A1:C2。 .option(“useHeader”, “false”) // 必须，是否使用表头，false的话自己命名表头（_c0）,true则第一行为表头 .option(“treatEmptyValuesAsNulls”, “true”) // 可选, 是否将空的单元格设置为null ,如果不设置为null 遇见空单元格会报错默认t: true .option(“inferSchema”, “true”) // 可选, default: false //.option(“addColorColumns”, “true”) // 可选, default: false //.option(“timestampFormat”, “yyyy-mm-dd hh:mm:ss”) // 可选, default: yyyy-mm-dd hh:mm:ss[.fffffffff] //.option(“excerptSize”, 6) // 可选, default: 10. If set and if schema inferred, number of rows to infer schema from //.option(“workbookPassword”, “pass”) // 可选, default None. Requires unlimited strength JCE for older JVMs==== //.option(“maxRowsInMemory”, 20) // 可选, default None. If set, uses a streaming reader which can help with big files==== .schema(schema) // 可选, default: Either inferred schema, or all columns are Strings // .option(“header”, “true”) .load(“path/to/excel/file.xlsx”) // 显示 DataFrame 的内容 df.show() // +——-+—+ // | name|age| // +——-+—+ // | Mic| 1| // | Andy| 3| // | Steven| 1| // +——-+—+ // 将 DataFrame 写入 Excel 文件 df.write .format(“com.crealytics.spark.excel”) .option(“dataAddress”, “Sheet!A1:B2”) .option(“useHeader”, “true”) //.option(“dateFormat”, “yy-mmm-d”) // Optional, default: yy-m-d h:mm //.option(“timestampFormat”, “mm-dd-yyyy hh:mm:ss”) // Optional, default: yyyy-mm-dd hh:mm:ss.000 .mode(“append”) // Optional, default: overwrite. .option(“header”, “true”) .save(“path/to/save/excel/file.xlsx”) } }

数据处理结束后，可将结果保存在全新Excel文件或其他格式文件中。借助DataFrame API，无论保存在本地文件系统还是云端，均能轻松实现。保留数据亦可依照需求选择不同输出格式，如CSV，XLSX等。

总结一下

虽然仅处理基础数据，但在集群环境下，Spark展现出优秀的大规模数据处理能力。无论海量Excel数据还是复杂的结构化数据，都在Spark协助下，能轻松应对并满足各种数据处理与分析任务。

借助Apache Spark处理Excel文件，充分发挥分布式计算潜能，可让数据处理与分析过程更为高效出色，同时也极大提升数据处理效率和准确性。希望本文能让您对Spark处理Excel有更深入了解，在实践中更好地应用。

引用

https://github.com/crealytics/spark-excel

最后

迪思分享版权声明 ① 本网站名称：❤迪思分享❤ 本站永久网址：▶https://www.dsary.com◀
② 如果您喜欢本站，点击这儿

开通VIP，同时按Ctrl+D保存网页
③ 在浏览网站中可能会帮助到您：

④ 本站接受投稿，同时也开启了创作分成，投稿用户只需自行设置收费即可！点击查看如果需要投稿，请点击投稿发布文章！
⑤ 本站一律禁止以任何方式发布或转载任何违法的相关信息，如果发现请点击上方联系方式进行举报！情况如实，可获得本站一个月的VIP
⑥ 本站资源大多存储在云盘，如发现链接失效，请联系我们我们会第一时间更新。如遇压缩包需解压密码，一般为：www.dsary.com 丨 www.syymw.com请知悉！
⑦ 修改版本安卓及电脑软件，加群提示为修改者自留，非本站信息，注意鉴别！资源来源于网络，仅供大家学习与参考，请于下载后24小时内删除；
⑧ 若作商业用途，请联系原作者授权，若本站侵犯了您的权益请联系站长进行删除处理；可联系上方QQ或进入QQ群进行反馈！
⑨互联网的本质是自由与分享，我们真诚的希望，每一份有价值的正能量能够在互联网中自由传播。

THE END