Spark中，sc.textFiles()与sc.wholeTextFiles()在处理文本文件时，有何本质差异？

2026-06-11 09:413阅读0评论SEO教程

本文共计532个文字，预计阅读时间需要3分钟。

由于业务需求，需要将大量文件按照目录分类的方式存储在HDFS上。此时，从HDFS上读取文件就需要使用sparkcontext.wholeTextFiles()方法。众所周知，sc.text是由sparkcontext提供的。

由于业务需要，需要将大量文件按照目录分类的方式存储在HDFS上，这时从HDFS上读取文件就需要使用sparkcontext.wholeTextFiles()，众所周知，sc.tex

由于业务需要，需要将大量文件按照目录分类的方式存储在HDFS上，这时从HDFS上读取文件就需要使用 sparkcontext.wholeTextFiles()，

众所周知，sc.textFiles(path) 能将path 里的所有文件内容读出，以文件中的每一行作为一条记录的方式：

>>> textFile = sc.textFile(path)>>> textFile.collect()[u‘Hello world!‘]文件的每一行相当于列表的一个元素，因此可以在每个partition中用for i in data的形式遍历处理数据。

本文共计532个文字，预计阅读时间需要3分钟。

由于业务需要，需要将大量文件按照目录分类的方式存储在HDFS上，这时从HDFS上读取文件就需要使用sparkcontext.wholeTextFiles()，众所周知，sc.tex

由于业务需要，需要将大量文件按照目录分类的方式存储在HDFS上，这时从HDFS上读取文件就需要使用 sparkcontext.wholeTextFiles()，

众所周知，sc.textFiles(path) 能将path 里的所有文件内容读出，以文件中的每一行作为一条记录的方式：