files : reorganize + sync [no ci]

ggerganov · Jun 21, 2024 · e20ebb2 · e20ebb2
1 parent cf9470f
commit e20ebb2
Show file tree

Hide file tree

Showing 33 changed files with 10,985 additions and 9,088 deletions.
diff --git a/.gitignore b/.gitignore
@@ -1,13 +1,5 @@
 build/
-build-blas/
-build-debug/
-build-release/
-build-sanitize-addr/
-build-sanitize-thread/
-build-cov/
-build-ci-debug/
-build-ci-release/
-build-cublas/
+build-*/
 out/
 tmp/
 models/

diff --git a/CMakeLists.txt b/CMakeLists.txt
diff --git a/include/ggml/ggml-alloc.h → include/ggml-alloc.h b/include/ggml/ggml-alloc.h → include/ggml-alloc.h
diff --git a/include/ggml/ggml-backend.h → include/ggml-backend.h b/include/ggml/ggml-backend.h → include/ggml-backend.h
diff --git a/include/ggml/ggml.h → include/ggml.h b/include/ggml/ggml.h → include/ggml.h
@@ -312,6 +312,12 @@
  GGML_TENSOR_LOCALS(int64_t, ne, dst, ne) \
  GGML_TENSOR_LOCALS(size_t, nb, dst, nb)
 
+#define GGML_TENSOR_BINARY_OP_LOCALS01 \
+ GGML_TENSOR_LOCALS(int64_t, ne0, src0, ne) \
+ GGML_TENSOR_LOCALS(size_t, nb0, src0, nb) \
+ GGML_TENSOR_LOCALS(int64_t, ne1, src1, ne) \
+ GGML_TENSOR_LOCALS(size_t, nb1, src1, nb)
+
 #ifdef __cplusplus
 extern "C" {
 #endif

diff --git a/src/CMakeLists.txt b/src/CMakeLists.txt
diff --git a/src/ggml-backend.c b/src/ggml-backend.c
@@ -1172,7 +1172,7 @@ static int ggml_backend_sched_backend_id_from_cur(ggml_backend_sched_t sched, st
  // check if a backend with higher prio wants to offload the op
  if (src_backend_id == sched->n_backends - 1) {
  for (int b = 0; b < src_backend_id; b++) {
- if (ggml_backend_offload_op(sched->backends[b], tensor)) {
+ if (ggml_backend_supports_op(sched->backends[b], tensor) && ggml_backend_offload_op(sched->backends[b], tensor)) {
  SET_CAUSE(tensor, "1.off");
  return b;
  }

diff --git a/src/ggml-cuda.cu b/src/ggml-cuda.cu
@@ -635,7 +635,7 @@ static int64_t get_row_rounding(const std::array<float, GGML_CUDA_MAX_DEVICES> &
  }
 
  const int cc = ggml_cuda_info().devices[id].cc;
- row_rounding = std::max(row_rounding, (int64_t)get_mmq_y_host(cc, get_mmq_x_max_host(cc)));
+ row_rounding = std::max(row_rounding, (int64_t)get_mmq_y_host(cc));
  }
  return row_rounding;
 }
@@ -2267,6 +2267,9 @@ static bool ggml_cuda_compute_forward(ggml_backend_cuda_context & ctx, struct gg
  case GGML_OP_SQR:
  ggml_cuda_op_sqr(ctx, dst);
  break;
+ case GGML_OP_SQRT:
+ ggml_cuda_op_sqrt(ctx, dst);
+ break;
  case GGML_OP_CLAMP:
  ggml_cuda_op_clamp(ctx, dst);
  break;
@@ -2830,6 +2833,7 @@ GGML_CALL static bool ggml_backend_cuda_supports_op(ggml_backend_t backend, cons
  case GGML_OP_RMS_NORM:
  case GGML_OP_SCALE:
  case GGML_OP_SQR:
+ case GGML_OP_SQRT:
  case GGML_OP_CLAMP:
  case GGML_OP_CONT:
  case GGML_OP_DIAG_MASK_INF:

diff --git a/src/ggml-cuda/common.cuh b/src/ggml-cuda/common.cuh
@@ -652,8 +652,8 @@ static int get_mmq_x_max_host(const int cc) {
 }
 
 // Round rows to this value for --split-mode row:
-static int get_mmq_y_host(const int cc, const int mmq_x) {
- return cc >= CC_VOLTA && mmq_x >= 32 ? 128 : 64;
+static int get_mmq_y_host(const int cc) {
+ return cc >= CC_VOLTA ? 128 : 64;
 }
 
 //////////////////////

diff --git a/src/ggml-cuda/mmq.cu b/src/ggml-cuda/mmq.cu
@@ -30,34 +30,34 @@ void ggml_cuda_op_mul_mat_q(
 
  switch (src0->type) {
  case GGML_TYPE_Q4_0:
- mul_mat_q_case<GGML_TYPE_Q4_0>(args, stream);
+ mul_mat_q_case<GGML_TYPE_Q4_0>(ctx, args, stream);
  break;
  case GGML_TYPE_Q4_1:
- mul_mat_q_case<GGML_TYPE_Q4_1>(args, stream);
+ mul_mat_q_case<GGML_TYPE_Q4_1>(ctx, args, stream);
  break;
  case GGML_TYPE_Q5_0:
- mul_mat_q_case<GGML_TYPE_Q5_0>(args, stream);
+ mul_mat_q_case<GGML_TYPE_Q5_0>(ctx, args, stream);
  break;
  case GGML_TYPE_Q5_1:
- mul_mat_q_case<GGML_TYPE_Q5_1>(args, stream);
+ mul_mat_q_case<GGML_TYPE_Q5_1>(ctx, args, stream);
  break;
  case GGML_TYPE_Q8_0:
- mul_mat_q_case<GGML_TYPE_Q8_0>(args, stream);
+ mul_mat_q_case<GGML_TYPE_Q8_0>(ctx, args, stream);
  break;
  case GGML_TYPE_Q2_K:
- mul_mat_q_case<GGML_TYPE_Q2_K>(args, stream);
+ mul_mat_q_case<GGML_TYPE_Q2_K>(ctx, args, stream);
  break;
  case GGML_TYPE_Q3_K:
- mul_mat_q_case<GGML_TYPE_Q3_K>(args, stream);
+ mul_mat_q_case<GGML_TYPE_Q3_K>(ctx, args, stream);
  break;
  case GGML_TYPE_Q4_K:
- mul_mat_q_case<GGML_TYPE_Q4_K>(args, stream);
+ mul_mat_q_case<GGML_TYPE_Q4_K>(ctx, args, stream);
  break;
  case GGML_TYPE_Q5_K:
- mul_mat_q_case<GGML_TYPE_Q5_K>(args, stream);
+ mul_mat_q_case<GGML_TYPE_Q5_K>(ctx, args, stream);
  break;
  case GGML_TYPE_Q6_K:
- mul_mat_q_case<GGML_TYPE_Q6_K>(args, stream);
+ mul_mat_q_case<GGML_TYPE_Q6_K>(ctx, args, stream);
  break;
  default:
  GGML_ASSERT(false);