Merge master and fix conflicts

ggerganov · monatis · Oct 12, 2023 · Oct 2, 2023 · Oct 2, 2023 · Oct 2, 2023
commit 1403d87cca0bdbdde8b7bad7d30c2ccfac7e294a
diff --git a/Makefile b/Makefile
@@ -1,5 +1,8 @@
 # Define the default target now so that it is always the first target
-BUILD_TARGETS = main quantize quantize-stats perplexity embedding vdot q8dot train-text-from-scratch convert-llama2c-to-ggml simple batched save-load-state server embd-input-test gguf llama-bench llava baby-llama beam-search speculative infill benchmark-matmult parallel finetune export-lora tests/test-c.o
+BUILD_TARGETS = \
+ main quantize quantize-stats perplexity embedding vdot q8dot train-text-from-scratch convert-llama2c-to-ggml \
+ simple batched batched-bench save-load-state server embd-input-test gguf llama-bench llava baby-llama beam-search \
+ speculative infill benchmark-matmult parallel finetune export-lora tests/test-c.o
 
 # Binaries only useful for tests
 TEST_TARGETS = \
@@ -624,10 +627,10 @@ convert-llama2c-to-ggml: examples/convert-llama2c-to-ggml/convert-llama2c-to-ggm
 llama-bench: examples/llama-bench/llama-bench.cpp build-info.h ggml.o llama.o $(COMMON_DEPS) $(OBJS)
  $(CXX) $(CXXFLAGS) $(filter-out %.h,$^) -o $@ $(LDFLAGS)
 
-llava: examples/llava/llava.cpp examples/llava/llava-utils.h examples/llava/clip.cpp examples/llava/clip.h examples/llava/stb_image.h ggml.o llama.o common.o $(OBJS)
+llava: examples/llava/llava.cpp examples/llava/llava-utils.h examples/llava/clip.cpp examples/llava/clip.h examples/llava/stb_image.h ggml.o llama.o $(COMMON_DEPS) $(OBJS)
  $(CXX) $(CXXFLAGS) $(filter-out %.h,$^) -o $@ $(LDFLAGS)
 
-baby-llama: examples/baby-llama/baby-llama.cpp ggml.o llama.o common.o train.o $(OBJS)
+baby-llama: examples/baby-llama/baby-llama.cpp ggml.o llama.o $(COMMON_DEPS) train.o $(OBJS)
  $(CXX) $(CXXFLAGS) $(filter-out %.h,$^) -o $@ $(LDFLAGS)
 
 beam-search: examples/beam-search/beam-search.cpp build-info.h ggml.o llama.o $(COMMON_DEPS) $(OBJS)

diff --git a/examples/llava/llava-utils.h b/examples/llava/llava-utils.h
@@ -55,27 +55,27 @@ bool eval_string(struct llama_context * ctx_llama, const char* str, int n_batch,
 
 llama_token sample_id(llama_context * ctx_llama, gpt_params & params) {
  // out of user input, sample next token
- const float temp = params.temp;
- const int32_t top_k = params.top_k <= 0 ? llama_n_vocab(llama_get_model(ctx_llama)) : params.top_k;
- const float top_p = params.top_p;
- const float tfs_z = params.tfs_z;
- const float typical_p = params.typical_p;
- // const int32_t repeat_last_n = params.repeat_last_n < 0 ? n_ctx : params.repeat_last_n;
- // const float repeat_penalty = params.repeat_penalty;
- // const float alpha_presence = params.presence_penalty;
- // const float alpha_frequency = params.frequency_penalty;
- const int mirostat = params.mirostat;
- const float mirostat_tau = params.mirostat_tau;
- const float mirostat_eta = params.mirostat_eta;
- // const bool penalize_nl = params.penalize_nl;
+ const float temp = params.sampling_params.temp;
+ const int32_t top_k = params.sampling_params.top_k <= 0 ? llama_n_vocab(llama_get_model(ctx_llama)) : params.sampling_params.top_k;
+ const float top_p = params.sampling_params.top_p;
+ const float tfs_z = params.sampling_params.tfs_z;
+ const float typical_p = params.sampling_params.typical_p;
+ // const int32_t repeat_last_n = params.sampling_params.repeat_last_n < 0 ? n_ctx : params.sampling_params.repeat_last_n;
+ // const float repeat_penalty = params.sampling_params.repeat_penalty;
+ // const float alpha_presence = params.sampling_params.presence_penalty;
+ // const float alpha_frequency = params.sampling_params.frequency_penalty;
+ const int mirostat = params.sampling_params.mirostat;
+ const float mirostat_tau = params.sampling_params.mirostat_tau;
+ const float mirostat_eta = params.sampling_params.mirostat_eta;
+ // const bool penalize_nl = params.sampling_params.penalize_nl;
 
  llama_token id = 0;
  {
  auto logits = llama_get_logits(ctx_llama);
  auto n_vocab = llama_n_vocab(llama_get_model(ctx_llama));
 
  // Apply params.logit_bias map
- for (auto it = params.logit_bias.begin(); it != params.logit_bias.end(); it++) {
+ for (auto it = params.sampling_params.logit_bias.begin(); it != params.sampling_params.logit_bias.end(); it++) {
  logits[it->first] += it->second;
  }