BERT hyperparameter tuning and predictions

felix-datascience · May 25, 2023 · c8c4d1d · c8c4d1d
1 parent 44931ba
commit c8c4d1d
Show file tree

Hide file tree

Showing 11 changed files with 358,797 additions and 0 deletions.
diff --git a/hyperparameter_tuning/.ipynb_checkpoints/bert_balanced_best_params-checkpoint.csv b/hyperparameter_tuning/.ipynb_checkpoints/bert_balanced_best_params-checkpoint.csv
@@ -0,0 +1,11 @@
+trial_number,value,params
+0,0.5768888888888889,"{'num_train_epochs': 3, 'train_batch_size': 17, 'eval_batch_size': 15, 'learning_rate': 9.839599241097951e-05}"
+1,0.573,"{'num_train_epochs': 4, 'train_batch_size': 22, 'eval_batch_size': 13, 'learning_rate': 9.913740913294872e-05}"
+2,0.5883333333333334,"{'num_train_epochs': 2, 'train_batch_size': 28, 'eval_batch_size': 16, 'learning_rate': 8.346539548013792e-05}"
+3,0.5834444444444444,"{'num_train_epochs': 3, 'train_batch_size': 11, 'eval_batch_size': 23, 'learning_rate': 2.5485765617944864e-05}"
+4,0.5807777777777777,"{'num_train_epochs': 4, 'train_batch_size': 16, 'eval_batch_size': 4, 'learning_rate': 7.968599259152304e-06}"
+5,0.5821111111111111,"{'num_train_epochs': 4, 'train_batch_size': 32, 'eval_batch_size': 8, 'learning_rate': 2.024766979022767e-05}"
+6,0.5824444444444444,"{'num_train_epochs': 3, 'train_batch_size': 18, 'eval_batch_size': 13, 'learning_rate': 2.7094016453525352e-05}"
+7,0.5746666666666667,"{'num_train_epochs': 4, 'train_batch_size': 20, 'eval_batch_size': 23, 'learning_rate': 1.9623648576477946e-05}"
+8,0.583,"{'num_train_epochs': 3, 'train_batch_size': 8, 'eval_batch_size': 13, 'learning_rate': 1.9968164674180355e-05}"
+9,0.5674444444444444,"{'num_train_epochs': 4, 'train_batch_size': 19, 'eval_batch_size': 15, 'learning_rate': 8.511802356416834e-05}"
diff --git a/hyperparameter_tuning/.ipynb_checkpoints/bert_balanced_hyperparameter_results-checkpoint.csv b/hyperparameter_tuning/.ipynb_checkpoints/bert_balanced_hyperparameter_results-checkpoint.csv
@@ -0,0 +1,11 @@
+trial_number,value,params
+0,0.5768888888888889,"{'num_train_epochs': 3, 'train_batch_size': 17, 'eval_batch_size': 15, 'learning_rate': 9.839599241097951e-05}"
+1,0.573,"{'num_train_epochs': 4, 'train_batch_size': 22, 'eval_batch_size': 13, 'learning_rate': 9.913740913294872e-05}"
+2,0.5883333333333334,"{'num_train_epochs': 2, 'train_batch_size': 28, 'eval_batch_size': 16, 'learning_rate': 8.346539548013792e-05}"
+3,0.5834444444444444,"{'num_train_epochs': 3, 'train_batch_size': 11, 'eval_batch_size': 23, 'learning_rate': 2.5485765617944864e-05}"
+4,0.5807777777777777,"{'num_train_epochs': 4, 'train_batch_size': 16, 'eval_batch_size': 4, 'learning_rate': 7.968599259152304e-06}"
+5,0.5821111111111111,"{'num_train_epochs': 4, 'train_batch_size': 32, 'eval_batch_size': 8, 'learning_rate': 2.024766979022767e-05}"
+6,0.5824444444444444,"{'num_train_epochs': 3, 'train_batch_size': 18, 'eval_batch_size': 13, 'learning_rate': 2.7094016453525352e-05}"
+7,0.5746666666666667,"{'num_train_epochs': 4, 'train_batch_size': 20, 'eval_batch_size': 23, 'learning_rate': 1.9623648576477946e-05}"
+8,0.583,"{'num_train_epochs': 3, 'train_batch_size': 8, 'eval_batch_size': 13, 'learning_rate': 1.9968164674180355e-05}"
+9,0.5674444444444444,"{'num_train_epochs': 4, 'train_batch_size': 19, 'eval_batch_size': 15, 'learning_rate': 8.511802356416834e-05}"
diff --git a/hyperparameter_tuning/bert_balanced_best_params.csv b/hyperparameter_tuning/bert_balanced_best_params.csv
@@ -0,0 +1,2 @@
+num_train_epochs,train_batch_size,eval_batch_size,learning_rate
+2,28,16,8.346539548013792e-05
diff --git a/hyperparameter_tuning/bert_balanced_hyperparameter_results.csv b/hyperparameter_tuning/bert_balanced_hyperparameter_results.csv
@@ -0,0 +1,11 @@
+trial_number,value,params
+0,0.5768888888888889,"{'num_train_epochs': 3, 'train_batch_size': 17, 'eval_batch_size': 15, 'learning_rate': 9.839599241097951e-05}"
+1,0.573,"{'num_train_epochs': 4, 'train_batch_size': 22, 'eval_batch_size': 13, 'learning_rate': 9.913740913294872e-05}"
+2,0.5883333333333334,"{'num_train_epochs': 2, 'train_batch_size': 28, 'eval_batch_size': 16, 'learning_rate': 8.346539548013792e-05}"
+3,0.5834444444444444,"{'num_train_epochs': 3, 'train_batch_size': 11, 'eval_batch_size': 23, 'learning_rate': 2.5485765617944864e-05}"
+4,0.5807777777777777,"{'num_train_epochs': 4, 'train_batch_size': 16, 'eval_batch_size': 4, 'learning_rate': 7.968599259152304e-06}"
+5,0.5821111111111111,"{'num_train_epochs': 4, 'train_batch_size': 32, 'eval_batch_size': 8, 'learning_rate': 2.024766979022767e-05}"
+6,0.5824444444444444,"{'num_train_epochs': 3, 'train_batch_size': 18, 'eval_batch_size': 13, 'learning_rate': 2.7094016453525352e-05}"
+7,0.5746666666666667,"{'num_train_epochs': 4, 'train_batch_size': 20, 'eval_batch_size': 23, 'learning_rate': 1.9623648576477946e-05}"
+8,0.583,"{'num_train_epochs': 3, 'train_batch_size': 8, 'eval_batch_size': 13, 'learning_rate': 1.9968164674180355e-05}"
+9,0.5674444444444444,"{'num_train_epochs': 4, 'train_batch_size': 19, 'eval_batch_size': 15, 'learning_rate': 8.511802356416834e-05}"
diff --git a/hyperparameter_tuning/bert_stratified_best_params.csv b/hyperparameter_tuning/bert_stratified_best_params.csv
@@ -0,0 +1,2 @@
+0
+"FrozenTrial(number=9, state=TrialState.COMPLETE, values=[0.7672222222222224], datetime_start=datetime.datetime(2023, 5, 25, 11, 9, 31, 229083), datetime_complete=datetime.datetime(2023, 5, 25, 11, 21, 32, 969591), params={'num_train_epochs': 2, 'train_batch_size': 28, 'eval_batch_size': 12, 'learning_rate': 2.7700723449416458e-05}, user_attrs={}, system_attrs={}, intermediate_values={}, distributions={'num_train_epochs': IntDistribution(high=4, log=False, low=2, step=1), 'train_batch_size': IntDistribution(high=32, log=False, low=8, step=1), 'eval_batch_size': IntDistribution(high=32, log=False, low=3, step=1), 'learning_rate': FloatDistribution(high=0.0001, log=False, low=1e-06, step=None)}, trial_id=9, value=None)"
diff --git a/hyperparameter_tuning/bert_stratified_hyperparameter_results.csv b/hyperparameter_tuning/bert_stratified_hyperparameter_results.csv
@@ -0,0 +1,11 @@
+trial_number,value,params
+0,0.7517777777777778,"{'num_train_epochs': 4, 'train_batch_size': 14, 'eval_batch_size': 12, 'learning_rate': 9.794260196110003e-05}"
+1,0.7595555555555554,"{'num_train_epochs': 3, 'train_batch_size': 25, 'eval_batch_size': 8, 'learning_rate': 7.67150966525082e-05}"
+2,0.7575555555555555,"{'num_train_epochs': 4, 'train_batch_size': 22, 'eval_batch_size': 20, 'learning_rate': 2.9304254810680445e-05}"
+3,0.7616666666666667,"{'num_train_epochs': 2, 'train_batch_size': 22, 'eval_batch_size': 23, 'learning_rate': 7.514097443993254e-05}"
+4,0.7483333333333333,"{'num_train_epochs': 3, 'train_batch_size': 27, 'eval_batch_size': 31, 'learning_rate': 9.722230724259963e-05}"
+5,0.7617777777777778,"{'num_train_epochs': 3, 'train_batch_size': 10, 'eval_batch_size': 15, 'learning_rate': 3.333624838392188e-05}"
+6,0.7514444444444446,"{'num_train_epochs': 4, 'train_batch_size': 29, 'eval_batch_size': 21, 'learning_rate': 4.698715137782164e-05}"
+7,0.7663333333333332,"{'num_train_epochs': 3, 'train_batch_size': 26, 'eval_batch_size': 17, 'learning_rate': 3.09717793490087e-05}"
+8,0.7533333333333333,"{'num_train_epochs': 4, 'train_batch_size': 27, 'eval_batch_size': 11, 'learning_rate': 4.0993531776729285e-05}"
+9,0.7672222222222224,"{'num_train_epochs': 2, 'train_batch_size': 28, 'eval_batch_size': 12, 'learning_rate': 2.7700723449416458e-05}"