-
Notifications
You must be signed in to change notification settings - Fork 0
/
__init__.si.json
51 lines (51 loc) ยท 25.9 KB
/
__init__.si.json
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
{
"<h1><a href=\"index.html\">labml.ai Annotated PyTorch Paper Implementations</a></h1>\n": "<h1><a href=\"index.html\">labml.ai \u0dc0\u0dd2\u0db1\u0ddd\u0da7\u0dda\u0da7\u0da9\u0dca \u0db4\u0dba\u0dd2\u0da7\u0ddd\u0da0\u0dca \u0d9a\u0da9\u0daf\u0dcf\u0dc3\u0dd2 \u0d9a\u0dca\u0dbb\u0dd2\u0dba\u0dcf\u0dad\u0dca\u0db8\u0d9a \u0d9a\u0dd2\u0dbb\u0dd3\u0db8\u0dca</a></h1>\n",
"<h2>Highlighted Research Paper PDFs</h2>\n": "<h2>\u0d8b\u0daf\u0dca\u0daf\u0dd3\u0db4\u0db1\u0dba\u0d9a\u0dbb\u0db1 \u0dbd\u0daf \u0db4\u0dbb\u0dca\u0dba\u0dda\u0dc2\u0dab \u0db4\u0dad\u0dca\u0dbb\u0dd2\u0d9a\u0dcf\u0dc0 PDFs</h2>\n",
"<h2>Paper Implementations</h2>\n": "<h2>\u0d9a\u0da9\u0daf\u0dcf\u0dc3\u0dd2\u0d9a\u0dca\u0dbb\u0dd2\u0dba\u0dcf\u0dad\u0dca\u0db8\u0d9a \u0d9a\u0dd2\u0dbb\u0dd3\u0db8\u0dca</h2>\n",
"<h3>Citing LabML</h3>\n": "<h3>\u0dbd\u0dd0\u0db6\u0dca\u0d91\u0db8\u0dca\u0d91\u0dbd\u0dca\u0d8b\u0db4\u0dd4\u0da7\u0dcf \u0daf\u0d9a\u0dca\u0dc0\u0db8\u0dd2\u0db1\u0dca</h3>\n",
"<h3>Installation</h3>\n": "<h3>\u0dc3\u0dca\u0dae\u0dcf\u0db4\u0db1\u0dba</h3>\n",
"<h4>\u2728 <a href=\"activations/index.html\">Activations</a></h4>\n": "<h4>\u2728 <a href=\"activations/index.html\">\u0dc3\u0d9a\u0dca\u0dbb\u0dd3\u0dba \u0d9a\u0dd2\u0dbb\u0dd3\u0db8\u0dca</a></h4>\n",
"<h4>\u2728 <a href=\"adaptive_computation/index.html\">Adaptive Computation</a></h4>\n": "<h4>\u2728 <a href=\"adaptive_computation/index.html\">\u0d85\u0db1\u0dd4\u0dc0\u0dbb\u0dca\u0dad\u0dd3 \u0d9c\u0dab\u0db1\u0dba</a></h4>\n",
"<h4>\u2728 <a href=\"capsule_networks/index.html\">Capsule Networks</a></h4>\n": "<h4>\u2728 <a href=\"capsule_networks/index.html\">\u0d9a\u0dd0\u0db4\u0dca\u0dc3\u0dd2\u0dba\u0dd4\u0dbd \u0da2\u0dcf\u0dbd</a></h4>\n",
"<h4>\u2728 <a href=\"cfr/index.html\">Counterfactual Regret Minimization (CFR)</a></h4>\n": "<h4>\u2728 <a href=\"cfr/index.html\">\u0db4\u0dca\u0dbb\u0dad\u0dd2\u0dc0\u0dd2\u0dbb\u0dd4\u0daf\u0dca\u0db0 \u0d9a\u0db1\u0d9c\u0dcf\u0da7\u0dd4\u0dc0 \u0d85\u0dc0\u0db8 \u0d9a\u0dd2\u0dbb\u0dd3\u0db8 (CFR)</a></h4>\n",
"<h4>\u2728 <a href=\"conv_mixer/index.html\">ConvMixer</a></h4>\n": "<h4>\u2728 <a href=\"conv_mixer/index.html\">\u0d9a\u0ddc\u0db1\u0dca\u0dc0\u0dd3 \u0db8\u0dd2\u0d9a\u0dca\u0dc3\u0dbb\u0dca</a></h4>\n",
"<h4>\u2728 <a href=\"diffusion/index.html\">Diffusion models</a></h4>\n": "<h4>\u2728 <a href=\"diffusion/index.html\">\u0dc0\u0dd2\u0dc3\u0dbb\u0dab \u0d86\u0d9a\u0dd8\u0dad\u0dd2</a></h4>\n",
"<h4>\u2728 <a href=\"distillation/index.html\">Distillation</a></h4>\n": "<h4>\u2728 <a href=\"distillation/index.html\">\u0d86\u0dc3\u0dc0\u0db1\u0dba</a></h4>\n",
"<h4>\u2728 <a href=\"gan/index.html\">Generative Adversarial Networks</a></h4>\n": "<h4>\u2728 <a href=\"gan/index.html\">\u0d8b\u0dad\u0dca\u0db4\u0dcf\u0daf\u0d9a \u0d85\u0dc4\u0dd2\u0dad\u0d9a\u0dbb \u0da2\u0dcf\u0dbd</a></h4>\n",
"<h4>\u2728 <a href=\"hypernetworks/hyper_lstm.html\">HyperNetworks - HyperLSTM</a></h4>\n": "<h4>\u2728 <a href=\"hypernetworks/hyper_lstm.html\">\u0dc4\u0dba\u0dd2\u0db4\u0dbb\u0dca\u0db1\u0dd9\u0da7\u0dca\u0dc0\u0dbb\u0dca\u0d9a\u0dca\u0dc3\u0dca - \u0dc4\u0dba\u0dd2\u0db4\u0dbb\u0dca\u0d91\u0dbd\u0dca\u0d91\u0dc3\u0dca\u0d91\u0db8\u0dca</a></h4>\n",
"<h4>\u2728 <a href=\"lstm/index.html\">LSTM</a></h4>\n": "<h4>\u2728 <a href=\"lstm/index.html\">LSTM</a></h4>\n",
"<h4>\u2728 <a href=\"neox/index.html\">Eleuther GPT-NeoX</a></h4>\n": "<h4>\u2728 <a href=\"neox/index.html\">\u0da2\u0dd3\u0db4\u0dd3\u0da7\u0dd3-\u0db1\u0dd2\u0dba\u0ddd\u0d9a\u0dca\u0dc3\u0dca \u0d91\u0dbd\u0dd2\u0dba\u0dd4\u0da7\u0dbb\u0dca</a></h4>\n",
"<h4>\u2728 <a href=\"normalization/index.html\">Normalization Layers</a></h4>\n": "<h4>\u2728 <a href=\"normalization/index.html\">\u0dc3\u0dcf\u0db8\u0dcf\u0db1\u0dca\u0dba\u0d9a\u0dbb\u0dab\u0dba \u0dc3\u0dca\u0dae\u0dbb</a></h4>\n",
"<h4>\u2728 <a href=\"optimizers/index.html\">Optimizers</a></h4>\n": "<h4>\u2728 <a href=\"optimizers/index.html\">\u0db4\u0dca\u0dbb\u0dc1\u0dc3\u0dca\u0dad\u0d9a\u0dbb\u0dab\u0dba</a></h4>\n",
"<h4>\u2728 <a href=\"recurrent_highway_networks/index.html\">Recurrent Highway Networks</a></h4>\n": "<h4>\u2728 <a href=\"recurrent_highway_networks/index.html\">\u0db4\u0dd4\u0db1\u0dbb\u0dcf\u0dc0\u0dbb\u0dca\u0dad\u0db1 \u0d85\u0db0\u0dd2\u0dc0\u0dda\u0d9c\u0dd3 \u0db8\u0dcf\u0dbb\u0dca\u0d9c \u0da2\u0dcf\u0dbd</a></h4>\n",
"<h4>\u2728 <a href=\"resnet/index.html\">ResNet</a></h4>\n": "<h4>\u2728 <a href=\"resnet/index.html\">\u0dbb\u0dd9\u0dc3\u0dca\u0db1\u0dd9\u0da7\u0dca</a></h4>\n",
"<h4>\u2728 <a href=\"rl/index.html\">Reinforcement Learning</a></h4>\n": "<h4>\u2728 <a href=\"rl/index.html\">\u0d86\u0dbb\u0d9a\u0dc2\u0dcf\u0dc0\u0da7 \u0d89\u0d9c\u0dd9\u0db1\u0dd4\u0db8\u0dca</a></h4>\n",
"<h4>\u2728 <a href=\"sampling/index.html\">Language Model Sampling Techniques</a></h4>\n": "<h4>\u2728 <a href=\"sampling/index.html\">\u0db7\u0dcf\u0dc2\u0dcf \u0d86\u0d9a\u0dd8\u0dad\u0dd2 \u0db1\u0dd2\u0dba\u0dd0\u0daf\u0dd2 \u0d9a\u0dca\u0dbb\u0db8</a></h4>\n",
"<h4>\u2728 <a href=\"scaling/index.html\">Scalable Training/Inference</a></h4>\n": "<h4>\u2728 <a href=\"scaling/index.html\">\u0db4\u0dbb\u0dd2\u0db8\u0dcf\u0dab \u0d9a\u0dc5 \u0dc4\u0dd0\u0d9a\u0dd2 \u0db4\u0dd4\u0dc4\u0dd4\u0dab\u0dd4\u0dc0/\u0d85\u0db1\u0dd4\u0db8\u0dcf\u0db1\u0dba</a></h4>\n",
"<h4>\u2728 <a href=\"sketch_rnn/index.html\">Sketch RNN</a></h4>\n": "<h4>\u2728 <a href=\"sketch_rnn/index.html\">\u0d9a\u0da7\u0dd4 \u0dc3\u0da7\u0dc4\u0db1\u0d9a\u0dca RNN</a></h4>\n",
"<h4>\u2728 <a href=\"transformers/index.html\">Transformers</a></h4>\n": "<h4>\u2728 <a href=\"transformers/index.html\">\u0da7\u0dca\u0dbb\u0dcf\u0db1\u0dca\u0dc3\u0dca\u0dc6\u0ddd\u0db8\u0dbb\u0dca</a></h4>\n",
"<h4>\u2728 <a href=\"uncertainty/index.html\">Uncertainty</a></h4>\n": "<h4>\u2728 <a href=\"uncertainty/index.html\">\u0d85\u0dc0\u0dd2\u0db1\u0dd2\u0dc1\u0dca\u0da0\u0dd2\u0dad\u0dad\u0dcf\u0dc0</a></h4>\n",
"<h4>\u2728 <a href=\"unet/index.html\">U-Net</a></h4>\n": "<h4>\u2728 <a href=\"unet/index.html\">\u0dba\u0dd6-\u0db1\u0dd9\u0da7\u0dca</a></h4>\n",
"<h4>\u2728 Graph Neural Networks</h4>\n": "<h4>\u2728\u0db4\u0dca\u0dbb\u0dc3\u0dca\u0dad\u0dcf\u0dbb\u0dba \u0dc3\u0dca\u0db1\u0dcf\u0dba\u0dd4\u0d9a \u0da2\u0dcf\u0dbd</h4>\n",
"<p><span translate=no>_^_0_^_</span></p>\n": "<p><span translate=no>_^_0_^_</span></p>\n",
"<p>If you use this for academic research, please cite it using the following BibTeX entry.</p>\n": "<p>\u0d94\u0db6\u0db8\u0dd9\u0dba \u0d85\u0db0\u0dca\u0dba\u0dba\u0db1 \u0db4\u0dbb\u0dca\u0dba\u0dda\u0dc2\u0dab \u0dc3\u0db3\u0dc4\u0dcf \u0db7\u0dcf\u0dc0\u0dd2\u0dad\u0dcf \u0d9a\u0dbb\u0db1\u0dca\u0db1\u0dda \u0db1\u0db8\u0dca, \u0d9a\u0dbb\u0dd4\u0dab\u0dcf\u0d9a\u0dbb \u0db4\u0dc4\u0dad \u0dc3\u0db3\u0dc4\u0db1\u0dca \u0db6\u0dba\u0dd2\u0da7\u0dd9\u0d9a\u0dca\u0dc3\u0dca \u0db4\u0dca\u0dbb\u0dc0\u0dda\u0dc1\u0dba \u0db7\u0dcf\u0dc0\u0dd2\u0dad\u0dcf \u0d9a\u0dbb \u0d91\u0dba \u0d8b\u0db4\u0dd4\u0da7\u0dcf \u0daf\u0d9a\u0dca\u0dc0\u0db1\u0dca\u0db1. </p>\n",
"<p>Solving games with incomplete information such as poker with CFR.</p>\n": "<p>CFR\u0dc3\u0db8\u0d9f \u0db4\u0ddd\u0d9a\u0dbb\u0dca \u0dc0\u0dd0\u0db1\u0dd2 \u0d85\u0dc3\u0db8\u0dca\u0db4\u0dd6\u0dbb\u0dca\u0dab \u0dad\u0ddc\u0dbb\u0dad\u0dd4\u0dbb\u0dd4 \u0dc3\u0dc4\u0dd2\u0dad \u0d9a\u0dca\u0dbb\u0dd3\u0da9\u0dcf \u0dc0\u0dd2\u0dc3\u0db3\u0dd3\u0db8. </p>\n",
"<p>This is a collection of simple PyTorch implementations of neural networks and related algorithms. <a href=\"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/labmlai/annotated_deep_learning_paper_implementations\">These implementations</a> are documented with explanations, and the <a href=\"index.html\">website</a> renders these as side-by-side formatted notes. We believe these would help you understand these algorithms better.</p>\n": "<p>\u0db8\u0dd9\u0dba\u0dc3\u0dca\u0db1\u0dcf\u0dba\u0dd4\u0d9a \u0da2\u0dcf\u0dbd \u0dc3\u0dc4 \u0d85\u0daf\u0dcf\u0dc5 \u0d87\u0dbd\u0dca\u0d9c\u0ddc\u0dbb\u0dd2\u0dad\u0db8 \u0dc3\u0dbb\u0dbd PyTorch \u0d9a\u0dca\u0dbb\u0dd2\u0dba\u0dcf\u0dad\u0dca\u0db8\u0d9a \u0d9a\u0dd2\u0dbb\u0dd3\u0db8\u0dda \u0d91\u0d9a\u0dad\u0dd4\u0dc0\u0d9a\u0dd2. <a href=\"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/labmlai/annotated_deep_learning_paper_implementations\">\u0db8\u0dd9\u0db8 \u0d9a\u0dca\u0dbb\u0dd2\u0dba\u0dcf\u0dad\u0dca\u0db8\u0d9a \u0d9a\u0dd2\u0dbb\u0dd3\u0db8\u0dca</a> \u0db4\u0dd0\u0dc4\u0dd0\u0daf\u0dd2\u0dbd\u0dd2 \u0d9a\u0dd2\u0dbb\u0dd3\u0db8\u0dca \u0dc3\u0db8\u0d9f \u0dbd\u0dda\u0d9b\u0db1\u0d9c\u0dad \u0d9a\u0dbb \u0d87\u0dad\u0dd2 \u0d85\u0dad\u0dbb <a href=\"index.html\">\u0dc0\u0dd9\u0db6\u0dca \u0d85\u0da9\u0dc0\u0dd2\u0dba</a> \u0db8\u0dda\u0dc0\u0dcf \u0db4\u0dd0\u0dad\u0dd2 \u0dc0\u0dd2\u0dc3\u0dd2\u0db1\u0dca-\u0d86\u0d9a\u0dd8\u0dad\u0dd2\u0d9c\u0dad \u0dc3\u0da7\u0dc4\u0db1\u0dca \u0dbd\u0dd9\u0dc3 \u0d89\u0daf\u0dd2\u0dbb\u0dd2\u0db4\u0dad\u0dca \u0d9a\u0dbb\u0dba\u0dd2. \u0db8\u0dd9\u0db8 \u0d87\u0dbd\u0dca\u0d9c\u0ddc\u0dbb\u0dd2\u0dad\u0db8 \u0dc0\u0da9\u0dcf \u0dc4\u0ddc\u0db3\u0dd2\u0db1\u0dca \u0dad\u0dda\u0dbb\u0dd4\u0db8\u0dca \u0d9c\u0dd0\u0db1\u0dd3\u0db8\u0da7 \u0db8\u0dda\u0dc0\u0dcf \u0d94\u0db6\u0da7 \u0d8b\u0db4\u0d9a\u0dcf\u0dbb\u0dd3 \u0dc0\u0db1\u0dd4 \u0d87\u0dad\u0dd0\u0dba\u0dd2 \u0d85\u0db4\u0dd2 \u0dc0\u0dd2\u0dc1\u0dca\u0dc0\u0dcf\u0dc3 \u0d9a\u0dbb\u0db8\u0dd4. </p>\n",
"<p>We are actively maintaining this repo and adding new implementations. <a href=\"https://twitter.com/labmlai\"><span translate=no>_^_0_^_</span></a> for updates.</p>\n": "<p>\u0d85\u0db4\u0dd2\u0db8\u0dd9\u0db8 \u0d85\u0dc5\u0dd4\u0dad\u0dca\u0dc0\u0dd0\u0da9\u0dd2\u0dba\u0dcf \u0d9a\u0dd2\u0dbb\u0dd3\u0db8 \u0dc3\u0d9a\u0dca\u0dbb\u0dd2\u0dba\u0dc0 \u0db4\u0dc0\u0dad\u0dca\u0dc0\u0dcf \u0d9c\u0dd9\u0db1 \u0dba\u0db1 \u0d85\u0dad\u0dbb \u0db1\u0dc0 \u0d9a\u0dca\u0dbb\u0dd2\u0dba\u0dcf\u0dad\u0dca\u0db8\u0d9a \u0d9a\u0dd2\u0dbb\u0dd3\u0db8\u0dca \u0d91\u0d9a\u0dad\u0dd4 \u0d9a\u0dbb\u0db8\u0dd4. <a href=\"https://twitter.com/labmlai\"><span translate=no>_^_0_^_</span></a> \u0dba\u0dcf\u0dc0\u0dad\u0dca\u0d9a\u0dcf\u0dbd\u0dd3\u0db1 \u0d9a\u0dd2\u0dbb\u0dd3\u0db8\u0dca \u0dc3\u0db3\u0dc4\u0dcf. </p>\n",
"<span translate=no>_^_0_^_</span>": "<span translate=no>_^_0_^_</span>",
"<ul><li><a href=\"activations/fta/index.html\">Fuzzy Tiling Activations</a></li></ul>\n": "<ul><li><a href=\"activations/fta/index.html\">\u0db1\u0ddc\u0db4\u0dd0\u0dc4\u0dd0\u0daf\u0dd2\u0dbd\u0dd2 \u0da7\u0dba\u0dd2\u0dbd\u0dca \u0d9a\u0dca\u0dbb\u0dd2\u0dba\u0dcf\u0d9a\u0dcf\u0dbb\u0d9a\u0db8\u0dca</a></li></ul>\n",
"<ul><li><a href=\"adaptive_computation/ponder_net/index.html\">PonderNet</a></li></ul>\n": "<ul><li><a href=\"adaptive_computation/ponder_net/index.html\">\u0db4\u0ddc\u0db1\u0dca\u0da9\u0dbb\u0dca\u0db1\u0dd9\u0da7\u0dca</a></li></ul>\n",
"<ul><li><a href=\"cfr/kuhn/index.html\">Kuhn Poker</a></li></ul>\n": "<ul><li><a href=\"cfr/kuhn/index.html\">\u0d9a\u0dd4\u0db1\u0dca \u0db4\u0ddd\u0d9a\u0dbb\u0dca</a></li></ul>\n",
"<ul><li><a href=\"diffusion/ddpm/index.html\">Denoising Diffusion Probabilistic Models (DDPM)</a> </li>\n<li><a href=\"diffusion/stable_diffusion/sampler/ddim.html\">Denoising Diffusion Implicit Models (DDIM)</a> </li>\n<li><a href=\"diffusion/stable_diffusion/latent_diffusion.html\">Latent Diffusion Models</a> </li>\n<li><a href=\"diffusion/stable_diffusion/index.html\">Stable Diffusion</a></li></ul>\n": "<ul><li><a href=\"diffusion/ddpm/index.html\">\u0dc0\u0dd2\u0dc3\u0dbb\u0dab \u0dc3\u0db8\u0dca\u0db7\u0dcf\u0dc0\u0dd2\u0dad\u0dcf\u0dc0 \u0d86\u0d9a\u0dd8\u0dad\u0dd2 \u0db1\u0dd2\u0dbb\u0dd6\u0db4\u0dab\u0dba \u0d9a\u0dd2\u0dbb\u0dd3\u0db8 (DDPM)</a></li>\n<li><a href=\"diffusion/stable_diffusion/sampler/ddim.html\">Denoising \u0dc0\u0dd2\u0dc3\u0dbb\u0dab \u0dc0\u0dca\u0dba\u0d82\u0d9c \u0d86\u0d9a\u0dd8\u0dad\u0dd2 (DDIM)</a></li>\n<li><a href=\"diffusion/stable_diffusion/latent_diffusion.html\">\u0d9c\u0dd4\u0db4\u0dca\u0dad \u0dc0\u0dd2\u0dc3\u0dbb\u0dab \u0d86\u0d9a\u0dd8\u0dad\u0dd2</a></li>\n<li><a href=\"diffusion/stable_diffusion/index.html\">\u0dc3\u0dca\u0dae\u0dcf\u0dc0\u0dbb \u0dc0\u0dd2\u0dc3\u0dbb\u0dab\u0dba</a></li></ul>\n",
"<ul><li><a href=\"gan/original/index.html\">Original GAN</a> </li>\n<li><a href=\"gan/dcgan/index.html\">GAN with deep convolutional network</a> </li>\n<li><a href=\"gan/cycle_gan/index.html\">Cycle GAN</a> </li>\n<li><a href=\"gan/wasserstein/index.html\">Wasserstein GAN</a> </li>\n<li><a href=\"gan/wasserstein/gradient_penalty/index.html\">Wasserstein GAN with Gradient Penalty</a> </li>\n<li><a href=\"gan/stylegan/index.html\">StyleGAN 2</a></li></ul>\n": "<ul><li><a href=\"gan/original/index.html\">\u0db8\u0dd4\u0dbd\u0dca GAN</a> </li>\n<li><a href=\"gan/dcgan/index.html\">\u0d9c\u0dd0\u0db9\u0dd4\u0dbb\u0dd4 \u0dc3\u0d82\u0dc0\u0dc4\u0db1 \u0da2\u0dcf\u0dbd\u0dba\u0d9a\u0dca \u0dc3\u0dc4\u0dd2\u0dad GAN</a> </li>\n<li><a href=\"gan/cycle_gan/index.html\">\u0da0\u0d9a\u0dca\u0dbb\u0dba GAN</a> </li>\n<li><a href=\"gan/wasserstein/index.html\">\u0dc0\u0ddc\u0dc3\u0dbb\u0dca\u0dc3\u0dca\u0da7\u0dba\u0dd2\u0db1\u0dca GAN</a> </li>\n<li><a href=\"gan/wasserstein/gradient_penalty/index.html\">\u0d9c\u0dca\u0dbb\u0dda\u0da9\u0dd2\u0dba\u0db1\u0dca\u0da7\u0dca \u0daf\u0dac\u0dd4\u0dc0\u0db8 \u0dc3\u0db8\u0d9f \u0dc0\u0ddc\u0dc3\u0dbb\u0dca\u0dc3\u0dca\u0da7\u0dba\u0dd2\u0db1\u0dca GAN</a> </li>\n<li><a href=\"gan/stylegan/index.html\">Style\u0d9c\u0db1\u0dca 2</a></li></ul>\n",
"<ul><li><a href=\"graphs/gat/index.html\">Graph Attention Networks (GAT)</a> </li>\n<li><a href=\"graphs/gatv2/index.html\">Graph Attention Networks v2 (GATv2)</a></li></ul>\n": "<ul><li><a href=\"graphs/gat/index.html\">\u0db4\u0dca\u0dbb\u0dc3\u0dca\u0dad\u0dcf\u0dbb\u0dba \u0d85\u0dc0\u0db0\u0dcf\u0db1\u0dba \u0da2\u0dcf\u0dbd (GAT)</a> </li>\n<li><a href=\"graphs/gatv2/index.html\">\u0db4\u0dca\u0dbb\u0dc3\u0dca\u0dad\u0dcf\u0dbb\u0dba \u0d85\u0dc0\u0db0\u0dcf\u0db1\u0dba \u0da2\u0dcf\u0dbd v2 (GATV2)</a></li></ul>\n",
"<ul><li><a href=\"neox/samples/generate.html\">Generate on a 48GB GPU</a> </li>\n<li><a href=\"neox/samples/finetune.html\">Finetune on two 48GB GPUs</a> </li>\n<li><a href=\"neox/utils/llm_int8.html\">LLM.int8()</a></li></ul>\n": "<ul><li><a href=\"neox/samples/generate.html\">48GB GPU \u0db8\u0dad \u0da2\u0db1\u0db1\u0dba \u0d9a\u0dbb\u0db1\u0dca\u0db1</a> </li>\n<li><a href=\"neox/samples/finetune.html\">48GB GPU \u0daf\u0dd9\u0d9a\u0d9a\u0dca \u0db8\u0dad \u0d85\u0dc0\u0dc3\u0db1\u0dca \u0d9a\u0dbb\u0db1\u0dca\u0db1</a> </li>\n<li><a href=\"neox/utils/llm_int8.html\">LLM.INT8 ()</a></li></ul>\n",
"<ul><li><a href=\"normalization/batch_norm/index.html\">Batch Normalization</a> </li>\n<li><a href=\"normalization/layer_norm/index.html\">Layer Normalization</a> </li>\n<li><a href=\"normalization/instance_norm/index.html\">Instance Normalization</a> </li>\n<li><a href=\"normalization/group_norm/index.html\">Group Normalization</a> </li>\n<li><a href=\"normalization/weight_standardization/index.html\">Weight Standardization</a> </li>\n<li><a href=\"normalization/batch_channel_norm/index.html\">Batch-Channel Normalization</a> </li>\n<li><a href=\"normalization/deep_norm/index.html\">DeepNorm</a></li></ul>\n": "<ul><li><a href=\"normalization/batch_norm/index.html\">\u0d9a\u0dab\u0dca\u0da9\u0dcf\u0dba\u0db8\u0dca \u0dc3\u0dcf\u0db8\u0dcf\u0db1\u0dca\u0dba\u0d9a\u0dbb\u0dab\u0dba</a> </li>\n<li><a href=\"normalization/layer_norm/index.html\">\u0dc3\u0dca\u0dae\u0dbb\u0dba \u0dc3\u0dcf\u0db8\u0dcf\u0db1\u0dca\u0dba\u0d9a\u0dbb\u0dab\u0dba</a> </li>\n<li><a href=\"normalization/instance_norm/index.html\">\u0d8b\u0daf\u0dcf\u0dc4\u0dbb\u0dab\u0dba\u0d9a\u0dca \u0dc3\u0dcf\u0db8\u0dcf\u0db1\u0dca\u0dba\u0d9a\u0dbb\u0dab\u0dba</a> </li>\n<li><a href=\"normalization/group_norm/index.html\">\u0d9a\u0dab\u0dca\u0da9\u0dcf\u0dba\u0db8\u0dca \u0dc3\u0dcf\u0db8\u0dcf\u0db1\u0dca\u0dba\u0d9a\u0dbb\u0dab\u0dba</a> </li>\n<li><a href=\"normalization/weight_standardization/index.html\">\u0db6\u0dbb \u0db4\u0dca\u0dbb\u0db8\u0dd2\u0dad\u0dd2\u0d9a\u0dbb\u0dab\u0dba</a> </li>\n<li><a href=\"normalization/batch_channel_norm/index.html\">\u0d9a\u0dab\u0dca\u0da9\u0dcf\u0dba\u0db8-\u0db1\u0dcf\u0dbd\u0dd2\u0d9a\u0dcf \u0dc3\u0dcf\u0db8\u0dcf\u0db1\u0dca\u0dba\u0d9a\u0dbb\u0dab\u0dba</a> </li>\n<li><a href=\"normalization/deep_norm/index.html\">\u0d9c\u0dd0\u0db9\u0dd4\u0dbb\u0dd4 \u0dc3\u0db8\u0dca\u0db8\u0dad\u0dba</a></li></ul>\n",
"<ul><li><a href=\"optimizers/adam.html\">Adam</a> </li>\n<li><a href=\"optimizers/amsgrad.html\">AMSGrad</a> </li>\n<li><a href=\"optimizers/adam_warmup.html\">Adam Optimizer with warmup</a> </li>\n<li><a href=\"optimizers/noam.html\">Noam Optimizer</a> </li>\n<li><a href=\"optimizers/radam.html\">Rectified Adam Optimizer</a> </li>\n<li><a href=\"optimizers/ada_belief.html\">AdaBelief Optimizer</a></li></ul>\n": "<ul><li><a href=\"optimizers/adam.html\">\u0d86\u0daf\u0db8\u0dca</a> </li>\n<li><a href=\"optimizers/amsgrad.html\">AMSGrad</a> </li>\n<li><a href=\"optimizers/adam_warmup.html\">\u0d8b\u0dab\u0dd4\u0dc3\u0dd4\u0db8\u0dca \u0d9a\u0dd2\u0dbb\u0dd3\u0db8 \u0dc3\u0db8\u0d9f \u0d86\u0daf\u0db8\u0dca \u0db4\u0dca\u0dbb\u0dc1\u0dc3\u0dca\u0dad\u0d9a\u0dbb\u0dab\u0dba</a> </li>\n<li><a href=\"optimizers/noam.html\">\u0db1\u0dc0 \u0db4\u0dca\u0dbb\u0dc1\u0dc3\u0dca\u0dad\u0d9a\u0dbb\u0dab\u0dba</a> </li>\n<li><a href=\"optimizers/radam.html\">\u0db1\u0dd2\u0dc0\u0dd0\u0dbb\u0daf\u0dd2 \u0d9a\u0dbb\u0db1 \u0dbd\u0daf \u0d86\u0daf\u0db8\u0dca \u0db4\u0dca\u0dbb\u0dc1\u0dc3\u0dca\u0dad\u0d9a\u0dbb\u0dab\u0dba</a> </li>\n<li><a href=\"optimizers/ada_belief.html\">ADABelief \u0db4\u0dca\u0dbb\u0dc1\u0dc3\u0dca\u0dad\u0d9a\u0dbb\u0dab\u0dba</a></li></ul>\n",
"<ul><li><a href=\"rl/ppo/index.html\">Proximal Policy Optimization</a> with <a href=\"rl/ppo/gae.html\">Generalized Advantage Estimation</a> </li>\n<li><a href=\"rl/dqn/index.html\">Deep Q Networks</a> with with <a href=\"rl/dqn/model.html\">Dueling Network</a>, <a href=\"rl/dqn/replay_buffer.html\">Prioritized Replay</a> and Double Q Network.</li></ul>\n": "<ul><li><a href=\"rl/ppo/index.html\"><a href=\"rl/ppo/gae.html\">\u0dc3\u0dcf\u0db8\u0dcf\u0db1\u0dca\u0dba\u0d9a\u0dbb\u0dab\u0dba \u0d9a\u0dc5 \u0dc0\u0dcf\u0dc3\u0dd2 \u0d87\u0dc3\u0dca\u0dad\u0db8\u0dda\u0db1\u0dca\u0dad\u0dd4\u0dc0 \u0dc3\u0db8\u0d9f \u0db4\u0dca\u0dbb\u0ddc\u0d9a\u0dca\u0dc3\u0dd2\u0db8\u0dbd\u0dca \u0db4\u0dca\u0dbb\u0dad\u0dd2\u0db4\u0dad\u0dca\u0dad\u0dd2 \u0db4\u0dca\u0dbb\u0dc1\u0dc3\u0dca\u0dad\u0dd2\u0d9a\u0dbb\u0dab\u0dba</a> </a> </li>\n<li><a href=\"rl/dqn/model.html\">\u0da9\u0dbd\u0dd2\u0d82</a> <a href=\"rl/dqn/index.html\">\u0db1\u0dd9\u0da7\u0dca\u0dc0\u0dbb\u0dca\u0d9a\u0dca, <a href=\"rl/dqn/replay_buffer.html\">\u0db4\u0dca\u0dbb\u0db8\u0dd4\u0d9b\u0dad\u0dcf \u0db1\u0dd0\u0dc0\u0dad \u0db0\u0dcf\u0dc0\u0db1\u0dba</a> \u0dc3\u0dc4 \u0daf\u0dca\u0dc0\u0dd2\u0dad\u0dca\u0dc0 Q \u0da2\u0dcf\u0dbd\u0dba \u0dc3\u0db8\u0d9f \u0d9c\u0dd0\u0db9\u0dd4\u0dbb\u0dd4</a> Q \u0da2\u0dcf\u0dbd. </li></ul>\n",
"<ul><li><a href=\"sampling/greedy.html\">Greedy Sampling</a> </li>\n<li><a href=\"sampling/temperature.html\">Temperature Sampling</a> </li>\n<li><a href=\"sampling/top_k.html\">Top-k Sampling</a> </li>\n<li><a href=\"sampling/nucleus.html\">Nucleus Sampling</a></li></ul>\n": "<ul><li><a href=\"sampling/greedy.html\">\u0d9a\u0dd1\u0daf\u0dbb \u0db1\u0dd2\u0dba\u0dd0\u0daf\u0dd3\u0db8</a> </li>\n<li><a href=\"sampling/temperature.html\">\u0d8b\u0dc2\u0dca\u0dab\u0dad\u0dca\u0dc0 \u0db1\u0dd2\u0dba\u0dd0\u0daf\u0dd3\u0db8</a> </li>\n<li><a href=\"sampling/top_k.html\">\u0d89\u0dc4\u0dc5-K \u0db1\u0dd2\u0dba\u0dd0\u0daf\u0dd3\u0db8\u0dca</a> </li>\n<li><a href=\"sampling/nucleus.html\">\u0db1\u0dca\u0dba\u0dc2\u0dca\u0da7\u0dd2\u0d9a \u0db1\u0dd2\u0dba\u0dd0\u0daf\u0dd3\u0db8</a></li></ul>\n",
"<ul><li><a href=\"scaling/zero3/index.html\">Zero3 memory optimizations</a></li></ul>\n": "<ul><li><a href=\"scaling/zero3/index.html\">Zero3 \u0db8\u0dad\u0d9a \u0db4\u0dca\u0dbb\u0dc1\u0dc3\u0dca\u0dad\u0dd2\u0d9a\u0dbb\u0dab\u0dba</a></li></ul>\n",
"<ul><li><a href=\"transformers/mha.html\">Multi-headed attention</a> </li>\n<li><a href=\"transformers/models.html\">Transformer building blocks</a> </li>\n<li><a href=\"transformers/xl/index.html\">Transformer XL</a> </li>\n<li><a href=\"transformers/xl/relative_mha.html\">Relative multi-headed attention</a> </li>\n<li><a href=\"transformers/rope/index.html\">Rotary Positional Embeddings (RoPE)</a> </li>\n<li><a href=\"transformers/alibi/index.html\">Attention with Linear Biases (ALiBi)</a> </li>\n<li><a href=\"transformers/retro/index.html\">RETRO</a> </li>\n<li><a href=\"transformers/compressive/index.html\">Compressive Transformer</a> </li>\n<li><a href=\"transformers/gpt/index.html\">GPT Architecture</a> </li>\n<li><a href=\"transformers/glu_variants/simple.html\">GLU Variants</a> </li>\n<li><a href=\"transformers/knn/index.html\">kNN-LM: Generalization through Memorization</a> </li>\n<li><a href=\"transformers/feedback/index.html\">Feedback Transformer</a> </li>\n<li><a href=\"transformers/switch/index.html\">Switch Transformer</a> </li>\n<li><a href=\"transformers/fast_weights/index.html\">Fast Weights Transformer</a> </li>\n<li><a href=\"transformers/fnet/index.html\">FNet</a> </li>\n<li><a href=\"transformers/aft/index.html\">Attention Free Transformer</a> </li>\n<li><a href=\"transformers/mlm/index.html\">Masked Language Model</a> </li>\n<li><a href=\"transformers/mlp_mixer/index.html\">MLP-Mixer: An all-MLP Architecture for Vision</a> </li>\n<li><a href=\"transformers/gmlp/index.html\">Pay Attention to MLPs (gMLP)</a> </li>\n<li><a href=\"transformers/vit/index.html\">Vision Transformer (ViT)</a> </li>\n<li><a href=\"transformers/primer_ez/index.html\">Primer EZ</a> </li>\n<li><a href=\"transformers/hour_glass/index.html\">Hourglass</a></li></ul>\n": "<ul><li><a href=\"transformers/mha.html\">\u0db6\u0dc4\u0dd4 \u0dc1\u0dd3\u0dbb\u0dca\u0dc2 \u0d85\u0dc0\u0db0\u0dcf\u0db1\u0dba</a> </li>\n<li><a href=\"transformers/models.html\">\u0da7\u0dca\u0dbb\u0dcf\u0db1\u0dca\u0dc3\u0dca\u0dc6\u0ddd\u0db8\u0dbb\u0dca \u0d9c\u0ddc\u0da9\u0db1\u0dd0\u0d9c\u0dd2\u0dbd\u0dd2 \u0d9a\u0ddc\u0da7\u0dc3\u0dca</a> </li>\n<li><a href=\"transformers/xl/index.html\">\u0da7\u0dca\u0dbb\u0dcf\u0db1\u0dca\u0dc3\u0dca\u0dc6\u0ddd\u0db8\u0dbb\u0dca 40</a> </li>\n<li><a href=\"transformers/xl/relative_mha.html\">\u0dc3\u0dcf\u0db4\u0dda\u0d9a\u0dca\u0dc2 \u0db6\u0dc4\u0dd4-\u0dc1\u0dd3\u0dbb\u0dca\u0dc2 \u0d85\u0dc0\u0db0\u0dcf\u0db1\u0dba</a> </li>\n<li><a href=\"transformers/rope/index.html\">\u0dbb\u0ddc\u0da7\u0dbb\u0dd2 \u0dc3\u0dca\u0dae\u0dcf\u0db1\u0dd3\u0dba \u0d9a\u0dcf\u0dc0\u0dd0\u0daf\u0dca\u0daf\u0dd3\u0db8\u0dca (\u0d9a\u0db9\u0dba)</a> </li>\n<li><a href=\"transformers/alibi/index.html\">\u0dbb\u0dda\u0d9b\u0dd3\u0dba \u0db4\u0d9a\u0dca\u0dc2\u0d9c\u0dca\u0dbb\u0dcf\u0dc4\u0dd3 (\u0d85\u0dbd\u0dd2\u0db6\u0dd3) \u0dc3\u0db8\u0d9f \u0d85\u0dc0\u0db0\u0dcf\u0db1\u0dba \u0dba\u0ddc\u0db8\u0dd4 \u0d9a\u0dbb\u0db1\u0dca\u0db1</a> </li>\n<li><a href=\"transformers/retro/index.html\">\u0dbb\u0dd9\u0da7\u0dca\u0dbb\u0ddc</a> </li>\n<li><a href=\"transformers/compressive/index.html\">\u0dc3\u0db8\u0dca\u0db4\u0dd3\u0da9\u0dca\u0dba\u0dad\u0dcf \u0da7\u0dca\u0dbb\u0dcf\u0db1\u0dca\u0dc3\u0dca\u0dc6\u0ddd\u0db8\u0dbb\u0dca</a> </li>\n<li><a href=\"transformers/gpt/index.html\">Gpt \u0d9c\u0dd8\u0dc4 \u0db1\u0dd2\u0dbb\u0dca\u0db8\u0dcf\u0dab \u0dc1\u0dd2\u0dbd\u0dca\u0db4\u0dba</a> </li>\n<li><a href=\"transformers/glu_variants/simple.html\">GLU \u0db4\u0dca\u0dbb\u0db7\u0dda\u0daf</a> </li>\n<li><a href=\"transformers/knn/index.html\">KNN-LM: \u0d9a\u0da7\u0db4\u0dcf\u0da9\u0db8\u0dca \u0d9a\u0dd2\u0dbb\u0dd3\u0db8 \u0dad\u0dd4\u0dc5\u0dd2\u0db1\u0dca \u0dc3\u0dcf\u0db8\u0dcf\u0db1\u0dca\u0dba\u0d9a\u0dbb\u0dab\u0dba</a> </li>\n<li><a href=\"transformers/feedback/index.html\">\u0db4\u0dca\u0dbb\u0dad\u0dd2\u0db4\u0ddd\u0dc2\u0dab \u0da7\u0dca\u0dbb\u0dcf\u0db1\u0dca\u0dc3\u0dca\u0dc6\u0ddd\u0db8\u0dbb\u0dca</a> </li>\n<li><a href=\"transformers/switch/index.html\">\u0da7\u0dca\u0dbb\u0dcf\u0db1\u0dca\u0dc3\u0dca\u0dc6\u0ddd\u0db8\u0dbb\u0dca \u0dc3\u0dca\u0dc0\u0dd2\u0da0\u0dba</a> </li>\n<li><a href=\"transformers/fast_weights/index.html\">\u0dc0\u0dda\u0d9c\u0dc0\u0dad\u0dca \u0db6\u0dbb \u0da7\u0dca\u0dbb\u0dcf\u0db1\u0dca\u0dc3\u0dca\u0dc6\u0ddd\u0db8\u0dbb\u0dca</a> </li>\n<li><a href=\"transformers/fnet/index.html\">FNet</a> </li>\n<li><a href=\"transformers/aft/index.html\">\u0d85\u0dc0\u0db0\u0dcf\u0db1\u0dba \u0db1\u0dd2\u0daf\u0dc4\u0dc3\u0dca \u0da7\u0dca\u0dbb\u0dcf\u0db1\u0dca\u0dc3\u0dca\u0dc6\u0ddd\u0db8\u0dbb\u0dca</a> </li>\n<li><a href=\"transformers/mlm/index.html\">\u0dc0\u0dd9\u0dc3\u0dca \u0db7\u0dcf\u0dc2\u0dcf \u0d86\u0d9a\u0dd8\u0dad\u0dd2\u0dba</a> </li>\n<li><a href=\"transformers/mlp_mixer/index.html\">\u0d91\u0db8\u0dca\u0d91\u0dbd\u0dca\u0db4\u0dd3-\u0db8\u0dd2\u0d9a\u0dca\u0dc3\u0dbb\u0dca: \u0daf\u0dd0\u0d9a\u0dca\u0db8 \u0dc3\u0db3\u0dc4\u0dcf \u0dc3\u0dbb\u0dca\u0dc0 \u0d91\u0db8\u0dca\u0d91\u0dbd\u0dca\u0db4\u0dd3 \u0d9c\u0dd8\u0dc4 \u0db1\u0dd2\u0dbb\u0dca\u0db8\u0dcf\u0dab \u0dc1\u0dd2\u0dbd\u0dca\u0db4\u0dba\u0d9a\u0dca</a> </li>\n<li><a href=\"transformers/gmlp/index.html\">MLPs (GMLP) \u0dc0\u0dd9\u0dad \u0d85\u0dc0\u0db0\u0dcf\u0db1\u0dba \u0dba\u0ddc\u0db8\u0dd4 \u0d9a\u0dbb\u0db1\u0dca\u0db1</a> </li>\n<li><a href=\"transformers/vit/index.html\">\u0daf\u0dbb\u0dca\u0dc1\u0db1 \u0da7\u0dca\u0dbb\u0dcf\u0db1\u0dca\u0dc3\u0dca\u0dc6\u0ddd\u0db8\u0dbb\u0dca (VIT)</a> </li>\n<li><a href=\"transformers/primer_ez/index.html\">\u0db4\u0dca\u0dbb\u0dba\u0dd2\u0db8\u0dbb\u0dca EZ</a> </li>\n<li><a href=\"transformers/hour_glass/index.html\">Hourglass</a></li></ul>\n",
"<ul><li><a href=\"uncertainty/evidence/index.html\">Evidential Deep Learning to Quantify Classification Uncertainty</a></li></ul>\n": "<ul><li><a href=\"uncertainty/evidence/index.html\">\u0dc0\u0dbb\u0dca\u0d9c\u0dd3\u0d9a\u0dbb\u0dab \u0d85\u0dc0\u0dd2\u0db1\u0dd2\u0dc1\u0dca\u0da0\u0dd2\u0dad\u0dad\u0dcf\u0dc0 \u0db4\u0dca\u0dbb\u0db8\u0dcf\u0dab \u0d9a\u0dd2\u0dbb\u0dd3\u0db8 \u0dc3\u0db3\u0dc4\u0dcf \u0d9c\u0dd0\u0db9\u0dd4\u0dbb\u0dd4 \u0d89\u0d9c\u0dd9\u0db1\u0dd3\u0db8</a></li></ul>\n",
"labml.ai Annotated PyTorch Paper Implementations": "labml.ai \u0dc0\u0dd2\u0db1\u0ddd\u0da7\u0dda\u0da7\u0da9\u0dca \u0db4\u0dba\u0dd2\u0da7\u0ddd\u0da0\u0dca \u0d9a\u0da9\u0daf\u0dcf\u0dc3\u0dd2 \u0d9a\u0dca\u0dbb\u0dd2\u0dba\u0dcf\u0dad\u0dca\u0db8\u0d9a \u0d9a\u0dd2\u0dbb\u0dd3\u0db8\u0dca"
}