salesforce · tovbinm · Sep 4, 2018 · Aug 28, 2018 · Aug 28, 2018 · Aug 28, 2018
@@ -30,6 +30,7 @@
 
 package com.salesforce.op.filters
 
+import com.salesforce.op.stages.impl.feature.{HashAlgorithm, Inclusion, NumericBucketizer}
 import com.salesforce.op.features.FeatureDistributionLike
 import com.salesforce.op.stages.impl.feature.{Inclusion, NumericBucketizer}
 import com.twitter.algebird.Semigroup
@@ -142,6 +143,13 @@ case class FeatureDistribution
 private[op] object FeatureDistribution {
 
  val MaxBins = 100000
+ val AvgBinValue = 5000
+ val MaxTokenLowerLimit = 10
+ val getBins = (sum: Summary, bins: Int) => {
+ // To catch categoricals
+ if (sum.max < MaxTokenLowerLimit) bins
+ else math.min(math.max(bins, sum.sum / AvgBinValue), MaxBins).intValue()
+ }
 
  implicit val semigroup: Semigroup[FeatureDistribution] = new Semigroup[FeatureDistribution] {
  override def plus(l: FeatureDistribution, r: FeatureDistribution) = l.reduce(r)
@@ -154,19 +162,17 @@ private[op] object FeatureDistribution {
  * @param summary feature summary
  * @param value optional processed sequence
  * @param bins number of histogram bins
- * @param hasher hashing method to use for text and categorical features
  * @return feature distribution given the provided information
  */
  def apply(
  featureKey: FeatureKey,
  summary: Summary,
  value: Option[ProcessedSeq],
- bins: Int,
- hasher: HashingTF
+ bins: Int
  ): FeatureDistribution = {
  val (nullCount, (summaryInfo, distribution)): (Int, (Array[Double], Array[Double])) =
- value.map(seq => 0 -> histValues(seq, summary, bins, hasher))
- .getOrElse(1 -> (Array(summary.min, summary.max) -> Array.fill(bins)(0.0)))
+ value.map(seq => 0 -> histValues(seq, summary, bins, getBins))
+ .getOrElse(1 -> (Array(summary.min, summary.max, summary.sum, summary.count) -> Array.fill(bins)(0.0)))
 
  FeatureDistribution(
  name = featureKey._1,
@@ -182,18 +188,26 @@ private[op] object FeatureDistribution {
  * @param values values to bin
  * @param sum summary info for feature (max and min)
  * @param bins number of bins to produce
- * @param hasher hasing function to use for text
+ * @param getBins
  * @return the bin information and the binned counts
  */
  // TODO avoid wrapping and unwrapping??
  private def histValues(
  values: ProcessedSeq,
  sum: Summary,
  bins: Int,
- hasher: HashingTF
+ getBins: (Summary, Int) => Int
  ): (Array[Double], Array[Double]) = {
  values match {
- case Left(seq) => Array(sum.min, sum.max) -> hasher.transform(seq).toArray // TODO use summary info to pick hashes
+ case Left(seq) => {
+ val numBins = getBins(sum, bins)
+
+ // Todo: creating too many hashers may cause problem, efficiency, garbage collection etc
+ val hasher: HashingTF = new HashingTF(numFeatures = numBins)
+ .setBinary(false)
+ .setHashAlgorithm(HashAlgorithm.MurMur3.toString.toLowerCase)
+ Array(sum.min, sum.max, sum.sum, sum.count) -> hasher.transform(seq).toArray
+ }
  case Right(seq) => // TODO use kernel fit instead of histogram
  if (sum == Summary.empty) {
  Array(sum.min, sum.max) -> seq.toArray // the seq will always be empty in this case
@@ -211,7 +225,7 @@ private[op] object FeatureDistribution {
  } else {
  val same = seq.map(v => if (v == sum.max) 1.0 else 0.0).sum
  val other = seq.map(v => if (v != sum.max) 1.0 else 0.0).sum
- Array(sum.min, sum.max) -> Array(same, other)
+ Array(sum.min, sum.max, sum.sum, sum.count) -> Array(same, other)
  }
  }
  }

@@ -88,29 +88,26 @@ private[filters] case class PreparedFeatures(
  def getFeatureDistributions(
  responseSummaries: Array[(FeatureKey, Summary)],
  predictorSummaries: Array[(FeatureKey, Summary)],
- bins: Int,
- hasher: HashingTF
+ bins: Int
  ): (Array[FeatureDistribution], Array[FeatureDistribution]) = {
  val responseFeatureDistributions: Array[FeatureDistribution] =
- getFeatureDistributions(responses, responseSummaries, bins, hasher)
+ getFeatureDistributions(responses, responseSummaries, bins)
  val predictorFeatureDistributions: Array[FeatureDistribution] =
- getFeatureDistributions(predictors, predictorSummaries, bins, hasher)
+ getFeatureDistributions(predictors, predictorSummaries, bins)
 
  responseFeatureDistributions -> predictorFeatureDistributions
  }
 
  private def getFeatureDistributions(
  features: Map[FeatureKey, ProcessedSeq],
  summaries: Array[(FeatureKey, Summary)],
- bins: Int,
- hasher: HashingTF
+ bins: Int
  ): Array[FeatureDistribution] = summaries.map { case (featureKey, summary) =>
  FeatureDistribution(
  featureKey = featureKey,
  summary = summary,
  value = features.get(featureKey),
- bins = bins,
- hasher = hasher)
+ bins = bins)
  }
 }
 

@@ -93,10 +93,6 @@ class RawFeatureFilter[T]
 
  @transient protected lazy val log = LoggerFactory.getLogger(this.getClass)
 
- private val hasher: HashingTF = new HashingTF(numFeatures = bins)
- .setBinary(false)
- .setHashAlgorithm(HashAlgorithm.MurMur3.toString.toLowerCase)
-
 
  /**
  * Get binned counts of the feature distribution and empty count for each raw feature
@@ -136,8 +132,7 @@ class RawFeatureFilter[T]
  .map(_.getFeatureDistributions(
  responseSummaries = responseSummariesArr,
  predictorSummaries = predictorSummariesArr,
- bins = bins,
- hasher = hasher))
+ bins = bins))
  .reduce(_ + _) // NOTE: resolved semigroup is IndexedSeqSemigroup
  val correlationInfo: Map[FeatureKey, Map[FeatureKey, Double]] =
  allFeatureInfo.map(_.correlationInfo).getOrElse {

@@ -35,18 +35,21 @@ import com.twitter.algebird.Monoid
 /**
  * Class used to get summaries of prepared features to determine distribution binning strategy
  *
- * @param min minimum value seen
- * @param max maximum value seen
+ * @param min minimum value seen for double, minimum number of tokens in one text for text
+ * @param max maximum value seen for double, maximum number of tokens in one text for text
+ * @param sum sum of values for double, total number of tokens for text
+ * @param count number of doubles for double, number of texts for text
  */
-private[op] case class Summary(min: Double, max: Double)
+private[op] case class Summary(min: Double, max: Double, sum: Double, count: Double)
 
 private[op] case object Summary {
 
- val empty: Summary = Summary(Double.PositiveInfinity, Double.NegativeInfinity)
+ val empty: Summary = Summary(Double.PositiveInfinity, Double.NegativeInfinity, 0.0, 0.0)
 
  implicit val monoid: Monoid[Summary] = new Monoid[Summary] {
  override def zero = empty
- override def plus(l: Summary, r: Summary) = Summary(math.min(l.min, r.min), math.max(l.max, r.max))
+ override def plus(l: Summary, r: Summary) = Summary(math.min(l.min, r.min), math.max(l.max, r.max),
+ l.sum + r.sum, l.count + r.count)
  }
 
  /**
@@ -55,8 +58,8 @@ private[op] case object Summary {
  */
  def apply(preppedFeature: ProcessedSeq): Summary = {
  preppedFeature match {
- case Left(v) => Summary(v.size, v.size)
- case Right(v) => monoid.sum(v.map(d => Summary(d, d)))
+ case Left(v) => Summary(v.size, v.size, v.size, 1.0)
+ case Right(v) => monoid.sum(v.map(d => Summary(d, d, d, 1.0)))
  }
  }
 }
@@ -30,12 +30,9 @@
 
 package com.salesforce.op.filters
 
-import com.salesforce.op.OpParams
-import com.salesforce.op.features.{OPFeature, TransientFeature}
-import com.salesforce.op.stages.impl.feature.HashAlgorithm
+import com.salesforce.op.features.TransientFeature
 import com.salesforce.op.test.PassengerSparkFixtureTest
-import com.salesforce.op.utils.spark.RichDataset._
-import org.apache.spark.mllib.feature.HashingTF
+import com.salesforce.op.testkit.RandomText
 import org.junit.runner.RunWith
 import org.scalatest.FlatSpec
 import org.scalatest.junit.JUnitRunner
@@ -50,18 +47,16 @@ class FeatureDistributionTest extends FlatSpec with PassengerSparkFixtureTest wi
  (true, Left(Seq.empty[String])), (false, Right(Seq(1.0, 3.0, 5.0)))
  )
  val summary =
- Array(Summary(0.0, 1.0), Summary(-1.6, 10.6), Summary(0.0, 3.0), Summary(0.0, 0.0), Summary(1.0, 5.0))
+ Array(Summary(0.0, 1.0, 6.0, 10), Summary(-1.6, 10.6, 3.0, 10),
+ Summary(0.0, 3.0, 7.0, 10), Summary(0.0, 0.0, 5.0, 10), Summary(1.0, 5.0, 10.0, 10))
  val bins = 10
- val hasher: HashingTF = new HashingTF(numFeatures = bins)
- .setBinary(false)
- .setHashAlgorithm(HashAlgorithm.MurMur3.toString.toLowerCase)
 
  val featureKeys: Array[FeatureKey] = features.map(f => (f.name, None))
  val processedSeqs: Array[Option[ProcessedSeq]] = values.map { case (isEmpty, processed) =>
  if (isEmpty) None else Option(processed)
  }
  val distribs = featureKeys.zip(summary).zip(processedSeqs).map { case ((key, summ), seq) =>
- FeatureDistribution(key, summ, seq, bins, hasher)
+ FeatureDistribution(key, summ, seq, bins)
  }
  distribs.foreach{ d =>
  d.key shouldBe None
@@ -72,30 +67,47 @@ class FeatureDistributionTest extends FlatSpec with PassengerSparkFixtureTest wi
  distribs(1).nulls shouldBe 1
  distribs(1).distribution.sum shouldBe 0
  distribs(2).distribution.sum shouldBe 2
- distribs(2).summaryInfo should contain theSameElementsAs Array(0.0, 3.0)
+ distribs(2).summaryInfo should contain theSameElementsAs Array(0.0, 3.0, 7.0, 10.0)
  distribs(3).distribution.sum shouldBe 0
  distribs(4).distribution.sum shouldBe 3
  distribs(4).summaryInfo.length shouldBe bins
  }
 
+ it should "be correctly created for text features" in {
+ val features = Array(description, gender)
+ val values: Array[(Boolean, ProcessedSeq)] = Array(
+ (false, Left(RandomText.strings(1, 10).take(10000).toSeq.map(_.value.get)))
+ )
+ val summary = Array(Summary(1000.0, 50000.0, 70000.0, 10))
+ val bins = 100
+ val featureKeys: Array[FeatureKey] = features.map(f => (f.name, None))
+ val processedSeqs: Array[Option[ProcessedSeq]] = values.map { case (isEmpty, processed) =>
+ if (isEmpty) None else Option(processed)
+ }
+ val distribs = featureKeys.zip(summary).zip(processedSeqs).map { case ((key, summ), seq) =>
+ FeatureDistribution(key, summ, seq, bins)
+ }
+
+ distribs(0).distribution.length shouldBe 100
+ distribs(0).distribution.sum shouldBe 10000
+
+ }
+
  it should "be correctly created for map features" in {
  val features = Array(stringMap, numericMap, booleanMap).map(TransientFeature.apply)
  val values: Array[Map[String, ProcessedSeq]] = Array(
  Map("A" -> Left(Seq("male", "female"))),
  Map("A" -> Right(Seq(1.0)), "B" -> Right(Seq(1.0))),
  Map("B" -> Right(Seq(0.0))))
  val summary = Array(
- Map("A" -> Summary(0.0, 1.0), "B" -> Summary(0.0, 5.0)),
- Map("A" -> Summary(-1.6, 10.6), "B" -> Summary(0.0, 3.0)),
- Map("B" -> Summary(0.0, 0.0)))
+ Map("A" -> Summary(0.0, 2.0, 100.0, 10), "B" -> Summary(0.0, 5.0, 10.0, 10)),
+ Map("A" -> Summary(-1.6, 10.6, 30.0, 10), "B" -> Summary(0.0, 3.0, 11.0, 10)),
+ Map("B" -> Summary(0.0, 0.0, 0.0, 10)))
  val bins = 10
- val hasher: HashingTF = new HashingTF(numFeatures = bins)
- .setBinary(false)
- .setHashAlgorithm(HashAlgorithm.MurMur3.toString.toLowerCase)
  val distribs = features.map(_.name).zip(summary).zip(values).flatMap { case ((name, summaryMaps), valueMaps) =>
  summaryMaps.map { case (key, summary) =>
  val featureKey = (name, Option(key))
- FeatureDistribution(featureKey, summary, valueMaps.get(key), bins, hasher)
+ FeatureDistribution(featureKey, summary, valueMaps.get(key), bins)
  }
  }
 
@@ -107,15 +119,15 @@ class FeatureDistributionTest extends FlatSpec with PassengerSparkFixtureTest wi
  else d.distribution.length shouldBe 2
  }
  distribs(0).nulls shouldBe 0
- distribs(0).summaryInfo should contain theSameElementsAs Array(0.0, 1.0)
+ distribs(0).summaryInfo should contain theSameElementsAs Array(0.0, 2.0, 100.0, 10.0)
  distribs(1).nulls shouldBe 1
  distribs(0).distribution.sum shouldBe 2
  distribs(1).distribution.sum shouldBe 0
  distribs(2).summaryInfo.length shouldBe bins
  distribs(2).distribution.sum shouldBe 1
  distribs(4).distribution(0) shouldBe 1
  distribs(4).distribution(1) shouldBe 0
- distribs(4).summaryInfo.length shouldBe 2
+ distribs(4).summaryInfo.length shouldBe 4
  }
 
  it should "correctly compare fill rates" in {

@@ -78,21 +78,23 @@ class PreparedFeaturesTest extends FlatSpec with TestSparkContext {
  val (responseSummaries3, predictorSummaries3) = preparedFeatures3.summaries
 
  responseSummaries1 should contain theSameElementsAs
- Seq(responseKey1 -> Summary(1.0, 1.0), responseKey2 -> Summary(0.5, 0.5))
+ Seq(responseKey1 -> Summary(1.0, 1.0, 1.0, 1), responseKey2 -> Summary(0.5, 0.5, 0.5, 1))
  predictorSummaries1 should contain theSameElementsAs
- Seq(predictorKey1 -> Summary(0.0, 0.0), predictorKey2A -> Summary(2.0, 2.0), predictorKey2B -> Summary(1.0, 1.0))
+ Seq(predictorKey1 -> Summary(0.0, 0.0, 0.0, 2), predictorKey2A -> Summary(2.0, 2.0, 2.0, 1),
+ predictorKey2B -> Summary(1.0, 1.0, 1.0, 1))
  responseSummaries2 should contain theSameElementsAs
- Seq(responseKey1 -> Summary(0.0, 0.0))
+ Seq(responseKey1 -> Summary(0.0, 0.0, 0.0, 1))
  predictorSummaries2 should contain theSameElementsAs
- Seq(predictorKey1 -> Summary(0.4, 0.5))
+ Seq(predictorKey1 -> Summary(0.4, 0.5, 0.9, 2))
  responseSummaries3 should contain theSameElementsAs
- Seq(responseKey2 -> Summary(-0.5, -0.5))
+ Seq(responseKey2 -> Summary(-0.5, -0.5, -0.5, 1))
  predictorSummaries3 should contain theSameElementsAs
- Seq(predictorKey2A -> Summary(1.0, 1.0))
+ Seq(predictorKey2A -> Summary(1.0, 1.0, 1.0, 1))
  allResponseSummaries should contain theSameElementsAs
- Seq(responseKey1 -> Summary(0.0, 1.0), responseKey2 -> Summary(-0.5, 0.5))
+ Seq(responseKey1 -> Summary(0.0, 1.0, 1.0, 2), responseKey2 -> Summary(-0.5, 0.5, 0.0, 2))
  allPredictorSummaries should contain theSameElementsAs
- Seq(predictorKey1 -> Summary(0.0, 0.5), predictorKey2A -> Summary(1.0, 2.0), predictorKey2B -> Summary(1.0, 1.0))
+ Seq(predictorKey1 -> Summary(0.0, 0.5, 0.9, 4), predictorKey2A -> Summary(1.0, 2.0, 3.0, 2),
+ predictorKey2B -> Summary(1.0, 1.0, 1.0, 1))
  }
 
  it should "produce correct null-label leakage vector with single response" in {

@@ -52,7 +52,7 @@ class RawFeatureFilterTest extends FlatSpec with PassengerSparkFixtureTest with
  val allFeatureInfo = filter.computeFeatureStats(passengersDataSet, features)
 
  allFeatureInfo.responseSummaries.size shouldBe 1
- allFeatureInfo.responseSummaries.headOption.map(_._2) shouldEqual Option(Summary(0, 1))
+ allFeatureInfo.responseSummaries.headOption.map(_._2) shouldEqual Option(Summary(0, 1, 1, 2))
  allFeatureInfo.responseDistributions.size shouldBe 1
  allFeatureInfo.predictorSummaries.size shouldBe 12
  allFeatureInfo.predictorDistributions.size shouldBe 12

@@ -44,7 +44,11 @@ class SummaryTest extends FlatSpec with TestCommon {
  val f2s = Summary(f2)
  f1s.min shouldBe 3
  f1s.max shouldBe 3
+ f1s.sum shouldBe 3
+ f1s.count shouldBe 1
  f2s.min shouldBe 0.5
  f2s.max shouldBe 1.0
+ f2s.sum shouldBe 1.5
+ f2s.count shouldBe 2
  }
 }