salesforce · tovbinm · Aug 25, 2018 · Aug 24, 2018 · Aug 24, 2018 · Aug 25, 2018
@@ -197,10 +197,8 @@ configure(allProjs) {
  ignoreFailures = true
  include '**/*.java', '**/*.scala'
  exclude '**/org/apache/spark/ml/SparkDefaultParamsReadWrite.scala',
- '**/com/salesforce/op/utils/io/DirectMapreduceOutputCommitter.scala',
  '**/com/salesforce/op/test/TestSparkContext.scala',
  '**/com/salesforce/op/test/TempDirectoryTest.scala',
- '**/com/salesforce/op/utils/io/DirectOutputCommitter.scala',
  '**/com/salesforce/op/stages/impl/tuning/OpCrossValidation.scala',
  '**/com/salesforce/op/stages/impl/tuning/OpTrainValidationSplit.scala',
  '**/com/salesforce/op/test/*.java',

diff --git a/docs/installation/index.md b/docs/installation/index.md
@@ -5,3 +5,13 @@
 * Clone the TransmogrifAI repo: `git clone https://github.com/salesforce/TransmogrifAI.git`
 * Build the project: `cd TransmogrifAI && ./gradlew compileTestScala installDist`
 * Start hacking
+
+# (Optional) Configuration
+
+## Custom Output Committer's
+
+Depending on the deployment approach, we can choose to implement/use customized OutputCommitter classes. Following properties can be configured to override default classes and use customized output committer classes.
+* `spark.hadoop.mapred.output.committer.class`
+* `spark.hadoop.spark.sql.sources.outputCommitterClass`
+
+* [S3A Committer](https://hadoop.apache.org/docs/current3/hadoop-aws/tools/hadoop-aws/committers.html), [Cloud Integration](https://people.apache.org/~pwendell/spark-nightly/spark-master-docs/latest/cloud-integration.html#configuring) guides provide more details on the topic.
@@ -70,8 +70,7 @@ task sparkSubmit(type: Exec, dependsOn: copyLog4jToSpark) {
  "spark.hadoop.avro.output.codec=deflate",
  "spark.hadoop.avro.mapred.deflate.level=6",
  "spark.hadoop.validateOutputSpecs=false",
- "spark.hadoop.mapred.output.committer.class=com.salesforce.op.utils.io.DirectOutputCommitter",
- "spark.hadoop.spark.sql.sources.outputCommitterClass=com.salesforce.op.utils.io.DirectMapreduceOutputCommitter"
+ "spark.hadoop.mapreduce.fileoutputcommitter.algorithm.version=2"
  ].collect { ["--conf", it] }.flatten()
 
  environment SPARK_HOME: sparkHome

@@ -70,8 +70,7 @@ task sparkSubmit(type: Exec, dependsOn: copyLog4jToSpark) {
  "spark.hadoop.avro.output.codec=deflate",
  "spark.hadoop.avro.mapred.deflate.level=6",
  "spark.hadoop.validateOutputSpecs=false",
- "spark.hadoop.mapred.output.committer.class=com.salesforce.op.utils.io.DirectOutputCommitter",
- "spark.hadoop.spark.sql.sources.outputCommitterClass=com.salesforce.op.utils.io.DirectMapreduceOutputCommitter"
+ "spark.hadoop.mapreduce.fileoutputcommitter.algorithm.version=2"
  ].collect { ["--conf", it] }.flatten()
 
  environment SPARK_HOME: sparkHome

@@ -197,8 +197,7 @@ task sparkSubmit(dependsOn: copyLog4jToSparkNoInstall) {
  "spark.hadoop.avro.output.codec=deflate",
  "spark.hadoop.avro.mapred.deflate.level=6",
  "spark.hadoop.validateOutputSpecs=false",
- "spark.hadoop.mapred.output.committer.class=com.salesforce.op.utils.io.DirectOutputCommitter",
- "spark.hadoop.spark.sql.sources.outputCommitterClass=com.salesforce.op.utils.io.DirectMapreduceOutputCommitter"
+ "spark.hadoop.mapreduce.fileoutputcommitter.algorithm.version=2"
  ].collect { ["--conf", it] }.flatten()
 
  def hadoopConfDir = System.env.HOME + "/.fake_hadoop_conf"

@@ -32,7 +32,6 @@ package com.salesforce.op.utils.io.avro
 
 import java.net.URI
 
-import com.salesforce.op.utils.io.DirectOutputCommitter
 import com.salesforce.op.utils.spark.RichRDD._
 import org.apache.avro.Schema
 import org.apache.avro.generic.GenericRecord
@@ -156,7 +155,6 @@ object AvroInOut {
 
  private def createJobConfFromContext(schema: String)(implicit sc: SparkSession) = {
  val jobConf = new JobConf(sc.sparkContext.hadoopConfiguration)
- jobConf.setOutputCommitter(classOf[DirectOutputCommitter])
  AvroJob.setOutputSchema(jobConf, new Schema.Parser().parse(schema))
  jobConf
  }