Merge pull request SeanNaren#83 from EgorLakomkin/bucketing

Sampler that splits utterances into buckets
argilla-io · Jun 15, 2017 · cea3b01 · cea3b01
2 parents 5ccac99 + 09d06d7
commit cea3b01
Show file tree

Hide file tree

Showing 4 changed files with 59 additions and 6 deletions.
diff --git a/data/bucketing_sampler.py b/data/bucketing_sampler.py
@@ -0,0 +1,42 @@
+from torch.utils.data.sampler import Sampler
+import numpy as np
+from data.data_loader import SpectrogramDataset, load_audio
+from collections import defaultdict
+
+
+class SpectrogramDatasetWithLength(SpectrogramDataset):
+ def __init__(self, *args, **kwargs):
+ """
+ SpectrogramDataset that splits utterances into buckets based on their length.
+ Bucketing is done via numpy's histogram method.
+ Used by BucketingSampler to sample utterances from the same bin.
+ """
+ super(SpectrogramDatasetWithLength, self).__init__(*args, **kwargs)
+ audio_paths = [path for (path, _) in self.ids]
+ audio_lengths = [len(load_audio(path)) for path in audio_paths]
+ hist, bin_edges = np.histogram(audio_lengths, bins="auto")
+ audio_samples_indices = np.digitize(audio_lengths, bins=bin_edges)
+ self.bins_to_samples = defaultdict(list)
+ for idx, bin_id in enumerate(audio_samples_indices):
+ self.bins_to_samples[bin_id].append(idx)
+
+
+class BucketingSampler(Sampler):
+ def __init__(self, data_source):
+ """
+ Samples from a dataset that has been bucketed into bins of similar sized sequences to reduce
+ memory overhead.
+ :param data_source: The dataset to be sampled from
+ """
+ super().__init__(data_source)
+ self.data_source = data_source
+ assert hasattr(self.data_source, 'bins_to_samples')
+
+ def __iter__(self):
+ for bin, sample_idx in self.data_source.bins_to_samples.items():
+ np.random.shuffle(sample_idx)
+ for s in sample_idx:
+ yield s
+
+ def __len__(self):
+ return len(self.data_source)
diff --git a/data/merge_manifests.py b/data/merge_manifests.py
@@ -37,7 +37,7 @@
  file_path = files[x]
  file_path = file_path.split(',')[0]
  output = subprocess.check_output(
- ['soxi -D %s' % file_path.strip()],
+ ['soxi -D \"%s\"' % file_path.strip()],
  shell=True
  )
  duration = float(output)

diff --git a/data/utils.py b/data/utils.py
@@ -43,7 +43,7 @@ def _order_files(file_paths):
 
  def func(element):
  output = subprocess.check_output(
- ['soxi -D %s' % element.strip()],
+ ['soxi -D \"%s\"' % element.strip()],
  shell=True
  )
  return float(output)

diff --git a/train.py b/train.py
@@ -8,6 +8,7 @@
 from torch.autograd import Variable
 from warpctc_pytorch import CTCLoss
 
+from data.bucketing_sampler import BucketingSampler, SpectrogramDatasetWithLength
 from data.data_loader import AudioDataLoader, SpectrogramDataset
 from decoder import ArgMaxDecoder
 from model import DeepSpeech, supported_rnns
@@ -52,10 +53,10 @@
 parser.add_argument('--tensorboard', dest='tensorboard', action='store_true', help='Turn on tensorboard graphing')
 parser.add_argument('--log_dir', default='visualize/deepspeech_final', help='Location of tensorboard log')
 parser.add_argument('--log_params', dest='log_params', action='store_true', help='Log parameter values and gradients')
+parser.add_argument('--no_bucketing', dest='no_bucketing', action='store_false',
+ help='Turn off bucketing and sample from dataset based on sequence length (smallest to largest)')
 parser.set_defaults(cuda=False, silent=False, checkpoint=False, visdom=False, augment=False, tensorboard=False,
- log_params=False)
-
-
+ log_params=False, no_bucketing=False)
 def to_np(x):
  return x.data.cpu().numpy()
 
@@ -124,7 +125,6 @@ def main():
 
  with open(args.labels_path) as label_file:
  labels = str(''.join(json.load(label_file)))
-
  audio_conf = dict(sample_rate=args.sample_rate,
  window_size=args.window_size,
  window_stride=args.window_stride,
@@ -271,6 +271,8 @@ def main():
  loss_results=loss_results,
  wer_results=wer_results, cer_results=cer_results, avg_loss=avg_loss),
  file_path)
+ del loss
+ del out
  avg_loss /= len(train_loader)
 
  print('Training Summary Epoch: [{0}]\t'
@@ -311,6 +313,7 @@ def main():
 
  if args.cuda:
  torch.cuda.synchronize()
+ del out
  wer = total_wer / len(test_loader.dataset)
  cer = total_cer / len(test_loader.dataset)
  wer *= 100
@@ -370,6 +373,14 @@ def main():
  print('Learning rate annealed to: {lr:.6f}'.format(lr=optim_state['param_groups'][0]['lr']))
 
  avg_loss = 0
+ if not args.no_bucketing and epoch == 0:
+ print("Switching to bucketing sampler for following epochs")
+ train_dataset = SpectrogramDatasetWithLength(audio_conf=audio_conf, manifest_filepath=args.train_manifest,
+ labels=labels,
+ normalize=True, augment=args.augment)
+ sampler = BucketingSampler(train_dataset)
+ train_loader.sampler = sampler
+
  torch.save(DeepSpeech.serialize(model, optimizer=optimizer), args.final_model_path)