sam-paech

Follow

Sam Paech sam-paech

Follow

Independent AI tinkerer

6 followers · 0 following

Achievements

Achievements

Popular repositories Loading

lm-evaluation-harness lm-evaluation-harness Public

Forked from EleutherAI/lm-evaluation-harness

A framework for few-shot evaluation of language models.

Python 4 1
Ollama-MMLU-Pro-IRT Ollama-MMLU-Pro-IRT Public

Forked from chigkim/Ollama-MMLU-Pro

Ollama-MMLU-Pro fork, using a smaller IRT-tuned subset of MMLU-Pro

Jupyter Notebook 1
FastEval FastEval Public

Forked from FastEval/FastEval

Fast & more realistic evaluation of chat language models. Includes leaderboard.

Python
MMLU-Pro-IRT MMLU-Pro-IRT Public

Forked from TIGER-AI-Lab/MMLU-Pro

The scripts for MMLU-Pro, using a smaller IRT-tuned dataset

Python