diff --git "a/debug.log" "b/debug.log"
new file mode 100644--- /dev/null
+++ "b/debug.log"
@@ -0,0 +1,5594 @@
+[2025-11-16 21:41:52,880] [DEBUG] [axolotl.utils.config.resolve_dtype:66] [PID:7990] bf16 support detected, enabling for this configuration.
+[2025-11-16 21:41:53,127] [DEBUG] [axolotl.utils.config.log_gpu_memory_usage:127] [PID:7990] baseline 0.000GB ()
+[2025-11-16 21:41:53,128] [INFO] [axolotl.cli.config.load_cfg:248] [PID:7990] config:
+{
+  "accelerator_config": {
+    "dispatch_batches": false,
+    "split_batches": false
+  },
+  "activation_offloading": false,
+  "adam_beta1": 0.9,
+  "adam_beta2": 0.98,
+  "adam_epsilon": 1e-06,
+  "axolotl_config_path": "embeddings-12b.yaml",
+  "base_model": "Goader/gemma-3-12b-pt-focus",
+  "base_model_config": "Goader/gemma-3-12b-pt-focus",
+  "batch_size": 8,
+  "bf16": true,
+  "capabilities": {
+    "bf16": true,
+    "compute_capability": "sm_90",
+    "fp8": false,
+    "n_gpu": 1,
+    "n_node": 1
+  },
+  "context_parallel_size": 1,
+  "dataloader_num_workers": 8,
+  "dataloader_prefetch_factor": 9,
+  "dataset_num_proc": 64,
+  "dataset_prepared_path": "last_run_prepared_embeddings",
+  "ddp": false,
+  "ddp_find_unused_parameters": false,
+  "ddp_timeout": 7200,
+  "device": "cuda:0",
+  "dion_rank_fraction": 1.0,
+  "dion_rank_multiple_of": 1,
+  "env_capabilities": {
+    "torch_version": "2.8.0"
+  },
+  "eval_batch_size": 4,
+  "eval_causal_lm_metrics": [
+    "sacrebleu",
+    "comet",
+    "ter",
+    "chrf"
+  ],
+  "eval_max_new_tokens": 128,
+  "eval_sample_packing": true,
+  "eval_table_size": 0,
+  "experimental_skip_move_to_device": true,
+  "flash_attention": true,
+  "fp16": false,
+  "gradient_accumulation_steps": 2,
+  "gradient_checkpointing": false,
+  "include_tkps": true,
+  "is_multimodal": true,
+  "learning_rate": 5e-05,
+  "liger_fused_linear_cross_entropy": true,
+  "liger_glu_activation": true,
+  "liger_layer_norm": true,
+  "liger_rms_norm": true,
+  "liger_rope": true,
+  "lisa_layers_attribute": "model.layers",
+  "load_best_model_at_end": false,
+  "load_in_4bit": false,
+  "load_in_8bit": false,
+  "local_rank": 0,
+  "logging_steps": 10,
+  "lora_dropout": 0.0,
+  "loraplus_lr_embedding": 1e-06,
+  "lr_scheduler": "warmup_stable_decay",
+  "lr_scheduler_kwargs": {
+    "min_lr_ratio": 0.05,
+    "num_decay_steps": 10000
+  },
+  "max_grad_norm": 1.0,
+  "max_steps": 15000,
+  "mean_resizing_embeddings": false,
+  "micro_batch_size": 4,
+  "model_config_type": "gemma3",
+  "num_epochs": 1.0,
+  "optimizer": "adamw_torch_fused",
+  "otel_metrics_host": "localhost",
+  "otel_metrics_port": 8000,
+  "output_dir": "./outputs/gemma-3-12b-focus-pt",
+  "pad_to_sequence_len": true,
+  "plugins": [
+    "axolotl.integrations.liger.LigerPlugin"
+  ],
+  "pretrain_multipack_attn": true,
+  "pretraining_dataset": [
+    {
+      "message_property_mappings": {
+        "content": "content",
+        "role": "role"
+      },
+      "path": "Goader/kobza-2m-jsonl",
+      "trust_remote_code": false,
+      "type": "pretrain"
+    }
+  ],
+  "processor_config": "Goader/gemma-3-12b-pt-focus",
+  "profiler_steps_start": 0,
+  "qlora_sharded_model_loading": false,
+  "ray_num_workers": 1,
+  "resources_per_worker": {
+    "GPU": 1
+  },
+  "sample_packing": true,
+  "sample_packing_bin_size": 200,
+  "sample_packing_group_size": 100000,
+  "save_only_model": false,
+  "save_safetensors": true,
+  "save_steps": 5000,
+  "save_total_limit": 30,
+  "sequence_len": 1024,
+  "shuffle_before_merging_datasets": false,
+  "shuffle_merged_datasets": false,
+  "skip_prepare_dataset": false,
+  "streaming_multipack_buffer_size": 10000,
+  "strict": false,
+  "tensor_parallel_size": 1,
+  "tiled_mlp_use_original_mlp": true,
+  "tokenizer_config": "lapa-llm/tokenizer",
+  "tokenizer_save_jinja_files": true,
+  "torch_dtype": "torch.bfloat16",
+  "train_on_inputs": true,
+  "trl": {
+    "log_completions": false,
+    "mask_truncated_completions": false,
+    "ref_model_mixup_alpha": 0.9,
+    "ref_model_sync_steps": 64,
+    "scale_rewards": true,
+    "sync_ref_model": false,
+    "use_vllm": false,
+    "vllm_server_host": "0.0.0.0",
+    "vllm_server_port": 8000
+  },
+  "unfrozen_parameters": [
+    "^lm_head.weight$",
+    "^model.language_model.embed_tokens.weight$"
+  ],
+  "use_otel_metrics": false,
+  "use_ray": false,
+  "use_wandb": true,
+  "val_set_size": 0.0,
+  "vllm": {
+    "device": "auto",
+    "dtype": "auto",
+    "gpu_memory_utilization": 0.9,
+    "host": "0.0.0.0",
+    "port": 8000
+  },
+  "wandb_project": "matt",
+  "warmup_ratio": 0.1,
+  "weight_decay": 0.01,
+  "world_size": 1
+}
+[2025-11-16 21:41:53,556] [DEBUG] [axolotl.loaders.utils.check_model_config:83] [PID:7990] Loaded image size: 896 from model config
+[2025-11-16 21:41:54,991] [DEBUG] [axolotl.loaders.tokenizer.load_tokenizer:278] [PID:7990] EOS: 1 / <eos>
+[2025-11-16 21:41:54,991] [DEBUG] [axolotl.loaders.tokenizer.load_tokenizer:279] [PID:7990] BOS: 2 / <bos>
+[2025-11-16 21:41:54,991] [DEBUG] [axolotl.loaders.tokenizer.load_tokenizer:280] [PID:7990] PAD: 0 / <pad>
+[2025-11-16 21:41:54,991] [DEBUG] [axolotl.loaders.tokenizer.load_tokenizer:281] [PID:7990] UNK: 3 / <unk>
+[2025-11-16 21:41:58,518] [DEBUG] [axolotl.utils.data.streaming.wrap_streaming_dataset:231] [PID:7990] NOT shuffling merged pretraining datasets
+[2025-11-16 21:41:58,519] [DEBUG] [axolotl.train.setup_model_and_tokenizer:65] [PID:7990] Loading tokenizer... lapa-llm/tokenizer
+[2025-11-16 21:42:00,142] [DEBUG] [axolotl.loaders.tokenizer.load_tokenizer:278] [PID:7990] EOS: 1 / <eos>
+[2025-11-16 21:42:00,142] [DEBUG] [axolotl.loaders.tokenizer.load_tokenizer:279] [PID:7990] BOS: 2 / <bos>
+[2025-11-16 21:42:00,142] [DEBUG] [axolotl.loaders.tokenizer.load_tokenizer:280] [PID:7990] PAD: 0 / <pad>
+[2025-11-16 21:42:00,142] [DEBUG] [axolotl.loaders.tokenizer.load_tokenizer:281] [PID:7990] UNK: 3 / <unk>
+[2025-11-16 21:42:07,755] [DEBUG] [axolotl.train.setup_model_and_tokenizer:74] [PID:7990] Loading model
+[2025-11-16 21:42:07,984] [DEBUG] [axolotl.monkeypatch.transformers.trainer_loss_calc.patch_evaluation_loop:87] [PID:7990] Patched Trainer.evaluation_loop with nanmean loss calculation
+[2025-11-16 21:42:07,985] [DEBUG] [axolotl.monkeypatch.transformers.trainer_loss_calc.patch_maybe_log_save_evaluate:138] [PID:7990] Patched Trainer._maybe_log_save_evaluate with nanmean loss calculation
+[2025-11-16 21:42:07,985] [INFO] [axolotl.loaders.patch_manager._apply_multipack_patches:301] [PID:7990] Applying multipack dataloader patch for sample packing...
+[2025-11-16 21:42:08,002] [INFO] [axolotl.integrations.liger.plugin.pre_model_load:98] [PID:7990] Applying LIGER to gemma3 with kwargs: {'rope': True, 'cross_entropy': None, 'fused_linear_cross_entropy': True, 'rms_norm': True, 'layer_norm': True, 'geglu': True}
+Loading checkpoint shards:   0%|                                                                                                                                                                                         | 0/11 [00:00<?, ?it/s]Loading checkpoint shards:   9%|████████████████                                                                                                                                                                 | 1/11 [00:00<00:06,  1.56it/s]Loading checkpoint shards:  18%|████████████████████████████████▏                                                                                                                                                | 2/11 [00:03<00:15,  1.76s/it]Loading checkpoint shards:  27%|████████████████████████████████████████████████▎                                                                                                                                | 3/11 [00:05<00:16,  2.06s/it]Loading checkpoint shards:  36%|████████████████████████████████████████████████████████████████▎                                                                                                                | 4/11 [00:07<00:15,  2.15s/it]Loading checkpoint shards:  45%|████████████████████████████████████████████████████████████████████████████████▍                                                                                                | 5/11 [00:10<00:13,  2.17s/it]Loading checkpoint shards:  55%|████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                | 6/11 [00:12<00:10,  2.17s/it]Loading checkpoint shards:  64%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                | 7/11 [00:14<00:08,  2.17s/it]Loading checkpoint shards:  73%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                | 8/11 [00:16<00:06,  2.15s/it]Loading checkpoint shards:  82%|██████████████████████████████████��█████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                | 9/11 [00:18<00:04,  2.13s/it]Loading checkpoint shards:  91%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                | 10/11 [00:20<00:02,  2.11s/it]Loading checkpoint shards: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 11/11 [00:21<00:00,  1.80s/it]Loading checkpoint shards: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 11/11 [00:21<00:00,  1.98s/it]
+[2025-11-16 21:42:32,366] [INFO] [axolotl.loaders.model._configure_embedding_dtypes:345] [PID:7990] Converting modules to torch.bfloat16
+[2025-11-16 21:42:33,663] [DEBUG] [axolotl.loaders.model.log_gpu_memory_usage:127] [PID:7990] Memory usage after model load 0.000GB ()
+[2025-11-16 21:42:34,457] [DEBUG] [axolotl.utils.freeze.freeze_layers_except:56] [PID:7990] Unfrozen model.language_model.embed_tokens.weight
+[2025-11-16 21:42:43,963] [INFO] [axolotl.train.save_initial_configs:402] [PID:7990] Pre-saving tokenizer to ./outputs/gemma-3-12b-focus-pt...
+[2025-11-16 21:42:44,327] [INFO] [axolotl.train.save_initial_configs:407] [PID:7990] Pre-saving model config to ./outputs/gemma-3-12b-focus-pt...
+[2025-11-16 21:42:44,334] [INFO] [axolotl.train.save_initial_configs:411] [PID:7990] Pre-saving processor to ./outputs/gemma-3-12b-focus-pt...
+[2025-11-16 21:42:46,847] [INFO] [axolotl.train.execute_training:196] [PID:7990] Starting trainer...
+[34m[1mwandb[0m: Currently logged in as: [33mgoader[0m to [32mhttps://api.wandb.ai[0m. Use [1m`wandb login --relogin`[0m to force relogin
+[34m[1mwandb[0m: [38;5;178m⢿[0m setting up run q644dfo1 (0.0s)
+[Am[2K[34m[1mwandb[0m: [38;5;178m⣻[0m setting up run q644dfo1 (0.0s)
+[Am[2K[34m[1mwandb[0m: [38;5;178m⣽[0m setting up run q644dfo1 (0.0s)
+[Am[2K[34m[1mwandb[0m: [38;5;178m⣾[0m setting up run q644dfo1 (0.0s)
+[Am[2K[34m[1mwandb[0m: [38;5;178m⣷[0m setting up run q644dfo1 (0.0s)
+[Am[2K[34m[1mwandb[0m: Tracking run with wandb version 0.23.0
+[34m[1mwandb[0m: Run data is saved locally in [35m[1m/workspace/wandb/run-20251116_214248-q644dfo1[0m
+[34m[1mwandb[0m: Run [1m`wandb offline`[0m to turn off syncing.
+[34m[1mwandb[0m: Syncing run [33msmooth-voice-357[0m
+[34m[1mwandb[0m: ⭐️ View project at [34m[4mhttps://wandb.ai/goader/matt[0m
+[34m[1mwandb[0m: 🚀 View run at [34m[4mhttps://wandb.ai/goader/matt/runs/q644dfo1[0m
+[34m[1mwandb[0m: Detected [huggingface_hub.inference] in use.
+[34m[1mwandb[0m: Use W&B Weave for improved LLM call tracing. Install Weave with `pip install weave` then add `import weave` to the top of your script.
+[34m[1mwandb[0m: For more information, check out the docs at: https://weave-docs.wandb.ai/
+[34m[1mwandb[0m: [33mWARNING[0m Saving files without folders. If you want to preserve subdirectories pass base_path to wandb.save, i.e. wandb.save("/mnt/folder/file.h5", base_path="/mnt")
+[2025-11-16 21:42:51,433] [INFO] [axolotl.utils.callbacks.on_train_begin:757] [PID:7990] The Axolotl config has been saved to the WandB run under files.
+  0%|                                                                                                                                                                                                                 | 0/15000 [00:00<?, ?it/s][2025-11-16 21:42:51,821] [WARNING] [datasets.iterable_dataset._iter_pytorch:2400] [PID:8163] Too many dataloader workers: 8 (max is dataset.num_shards=1). Stopping 7 dataloader workers.
+[2025-11-16 21:42:59,086] [INFO] [axolotl.utils.data.wrappers.get_dataset_wrapper:87] [PID:8163] Loading dataset: Goader/kobza-2m-jsonl with base_type: pretrain and prompt_style: None
+
+Tokenizing Prompts (num_proc=64):   0%|                                                                                                                                                                        | 0/10000 [00:00<?, ? examples/s][A
+Tokenizing Prompts (num_proc=64):   2%|██▍                                                                                                                                                           | 157/10000 [00:07<07:30, 21.86 examples/s][A
+Tokenizing Prompts (num_proc=64):   5%|███████▍                                                                                                                                                      | 471/10000 [00:07<02:05, 75.86 examples/s][A
+Tokenizing Prompts (num_proc=64):   6%|█████████▉                                                                                                                                                    | 628/10000 [00:08<01:34, 99.35 examples/s][A
+Tokenizing Prompts (num_proc=64):   8%|████████████▎                                                                                                                                                | 785/10000 [00:09<01:14, 124.06 examples/s][A
+Tokenizing Prompts (num_proc=64):   9%|██████████████▊                                                                                                                                              | 942/10000 [00:09<01:01, 146.70 examples/s][A
+Tokenizing Prompts (num_proc=64):  11%|█████████████████▏                                                                                                                                          | 1099/10000 [00:10<00:54, 163.62 examples/s][A
+Tokenizing Prompts (num_proc=64):  13%|███████████████████▌                                                                                                                                        | 1256/10000 [00:11<00:47, 184.92 examples/s][A
+Tokenizing Prompts (num_proc=64):  14%|██████████████████████                                                                                                                                      | 1413/10000 [00:11<00:43, 195.40 examples/s][A
+Tokenizing Prompts (num_proc=64):  16%|████████████████████████▍                                                                                                                                   | 1570/10000 [00:12<00:33, 249.24 examples/s][A
+Tokenizing Prompts (num_proc=64):  17%|██████████████████████████▉                                                                                                                                 | 1727/10000 [00:13<00:35, 230.41 examples/s][A
+Tokenizing Prompts (num_proc=64):  19%|█████████████████████████████▍                                                                                                                              | 1884/10000 [00:13<00:35, 231.32 examples/s][A
+Tokenizing Prompts (num_proc=64):  20%|███████████████████████████████▊                                                                                                                            | 2041/10000 [00:14<00:33, 235.36 examples/s][A
+Tokenizing Prompts (num_proc=64):  22%|██████████████████████████████████▎                                                                                                                         | 2198/10000 [00:15<00:38, 205.10 examples/s][A
+Tokenizing Prompts (num_proc=64):  24%|████████████████████████████████████▋                                                                                                                       | 2355/10000 [00:15<00:29, 255.45 examples/s][A
+Tokenizing Prompts (num_proc=64):  25%|███████████████████████████████████████▏                                                                                                                    | 2512/10000 [00:16<00:30, 248.35 examples/s][A
+Tokenizing Prompts (num_proc=64):  27%|█████████████████████████████████████████▌                                                                                                                  | 2668/10000 [00:16<00:30, 243.68 examples/s][A
+Tokenizing Prompts (num_proc=64):  28%|████████████████████████████████████████████                                                                                                                | 2824/10000 [00:17<00:29, 244.29 examples/s][A
+Tokenizing Prompts (num_proc=64):  30%|██████████████████████████████████████████████▍                                                                                                             | 2980/10000 [00:18<00:28, 243.99 examples/s][A
+Tokenizing Prompts (num_proc=64):  31%|████████████████████████████████████████████████▉                                                                                                           | 3136/10000 [00:18<00:27, 252.46 examples/s][A
+Tokenizing Prompts (num_proc=64):  33%|███████████████████████████████████████████████████▎                                                                                                        | 3292/10000 [00:19<00:28, 232.80 examples/s][A
+Tokenizing Prompts (num_proc=64):  34%|█████████████████████████████████████████████████████▊                                                                                                      | 3448/10000 [00:20<00:29, 221.94 examples/s][A
+Tokenizing Prompts (num_proc=64):  36%|████████████████████████████████████████████████████████▏                                                                                                   | 3604/10000 [00:20<00:30, 212.49 examples/s][A
+Tokenizing Prompts (num_proc=64):  38%|██████████████████████████████████████████████████████████▋                                                                                                 | 3760/10000 [00:21<00:29, 209.93 examples/s][A
+Tokenizing Prompts (num_proc=64):  39%|█████████████████████████████████████████████████████████████                                                                                               | 3916/10000 [00:22<00:32, 187.30 examples/s][A
+Tokenizing Prompts (num_proc=64):  41%|███████████████████████████████████████████████████████████████▌                                                                                            | 4072/10000 [00:23<00:26, 226.49 examples/s][A
+Tokenizing Prompts (num_proc=64):  42%|█████████████████████████████████████████████████████████████████▉                                                                                          | 4228/10000 [00:23<00:22, 252.22 examples/s][A
+Tokenizing Prompts (num_proc=64):  44%|████████████████████████████████████████████████████████████████████▍                                                                                       | 4384/10000 [00:24<00:24, 228.42 examples/s][A
+Tokenizing Prompts (num_proc=64):  45%|██████████████████████████████████████████████████████████████████████▊                                                                                     | 4540/10000 [00:24<00:22, 243.85 examples/s][A
+Tokenizing Prompts (num_proc=64):  47%|█████████████████████████████████████████████████████████████████████████▎                                                                                  | 4696/10000 [00:25<00:23, 226.40 examples/s][A
+Tokenizing Prompts (num_proc=64):  49%|███████████████████████████████████████████████████████████████████████████▋                                                                                | 4852/10000 [00:26<00:24, 206.13 examples/s][A
+Tokenizing Prompts (num_proc=64):  50%|██████████████████████████████████████████████████████████████████████████████                                                                              | 5008/10000 [00:26<00:19, 256.73 examples/s][A
+Tokenizing Prompts (num_proc=64):  52%|████████████████████████████████████████████████████████████████████████████████▌                                                                           | 5164/10000 [00:27<00:18, 258.79 examples/s][A
+Tokenizing Prompts (num_proc=64):  53%|██████████████████████████████████████████████████████████████████████████████████▉                                                                         | 5320/10000 [00:28<00:22, 208.76 examples/s][A
+Tokenizing Prompts (num_proc=64):  55%|█████████████████████████████████████████████████████████████████████████████████████▍                                                                      | 5476/10000 [00:28<00:17, 259.05 examples/s][A
+Tokenizing Prompts (num_proc=64):  56%|███████████████████████████████████████████████████████████████████████████████████████▊                                                                    | 5632/10000 [00:29<00:17, 250.55 examples/s][A
+Tokenizing Prompts (num_proc=64):  58%|██████████████████████████████████████████████████████████████████████████████████████████▎                                                                 | 5788/10000 [00:30<00:16, 256.75 examples/s][A
+Tokenizing Prompts (num_proc=64):  59%|████████████████████████████████████████████████████████████████████████████████████████████▋                                                               | 5944/10000 [00:31<00:19, 210.79 examples/s][A
+Tokenizing Prompts (num_proc=64):  61%|███████████████████████████████████████████████████████████████████████████████████████████████▏                                                            | 6100/10000 [00:31<00:17, 218.18 examples/s][A
+Tokenizing Prompts (num_proc=64):  63%|█████████████████████████████████████████████████████████████████████████████████████████████████▌                                                          | 6256/10000 [00:32<00:16, 220.26 examples/s][A
+Tokenizing Prompts (num_proc=64):  64%|████████████████████████████████████████████████████████████████████████████████████████████████████                                                        | 6412/10000 [00:32<00:13, 272.57 examples/s][A
+Tokenizing Prompts (num_proc=64):  66%|██████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                     | 6568/10000 [00:33<00:13, 249.97 examples/s][A
+Tokenizing Prompts (num_proc=64):  67%|████████████████████████████████████████████████████████████████████████████████████████���███████████████▉                                                   | 6724/10000 [00:34<00:12, 259.27 examples/s][A
+Tokenizing Prompts (num_proc=64):  69%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                | 6880/10000 [00:34<00:12, 252.62 examples/s][A
+Tokenizing Prompts (num_proc=64):  70%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                              | 7036/10000 [00:35<00:11, 249.67 examples/s][A
+Tokenizing Prompts (num_proc=64):  72%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                           | 7192/10000 [00:36<00:11, 236.34 examples/s][A
+Tokenizing Prompts (num_proc=64):  73%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                         | 7348/10000 [00:36<00:10, 251.46 examples/s][A
+Tokenizing Prompts (num_proc=64):  75%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                       | 7504/10000 [00:37<00:10, 246.08 examples/s][A
+Tokenizing Prompts (num_proc=64):  77%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                    | 7660/10000 [00:37<00:09, 238.44 examples/s][A
+Tokenizing Prompts (num_proc=64):  78%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                  | 7816/10000 [00:38<00:10, 205.52 examples/s][A
+Tokenizing Prompts (num_proc=64):  80%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                               | 7972/10000 [00:39<00:09, 214.77 examples/s][A
+Tokenizing Prompts (num_proc=64):  81%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                             | 8128/10000 [00:40<00:08, 221.77 examples/s][A
+Tokenizing Prompts (num_proc=64):  83%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                          | 8284/10000 [00:40<00:06, 272.03 examples/s][A
+Tokenizing Prompts (num_proc=64):  84%|███████████████████████████████��███████████████████████████████████████████████████████████████████████████████████████████████████▋                        | 8440/10000 [00:41<00:05, 273.65 examples/s][A
+Tokenizing Prompts (num_proc=64):  86%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                      | 8596/10000 [00:42<00:06, 214.30 examples/s][A
+Tokenizing Prompts (num_proc=64):  88%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                   | 8752/10000 [00:42<00:05, 221.35 examples/s][A
+Tokenizing Prompts (num_proc=64):  89%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                 | 8908/10000 [00:44<00:05, 194.45 examples/s][A
+Tokenizing Prompts (num_proc=64):  91%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍              | 9064/10000 [00:44<00:03, 237.14 examples/s][A
+Tokenizing Prompts (num_proc=64):  92%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊            | 9220/10000 [00:44<00:03, 238.63 examples/s][A
+Tokenizing Prompts (num_proc=64):  94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎         | 9376/10000 [00:45<00:02, 236.43 examples/s][A
+Tokenizing Prompts (num_proc=64):  95%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋       | 9532/10000 [00:46<00:01, 270.92 examples/s][A
+Tokenizing Prompts (num_proc=64):  97%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏    | 9688/10000 [00:46<00:01, 249.49 examples/s][A
+Tokenizing Prompts (num_proc=64):  98%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████��███▌  | 9844/10000 [00:47<00:00, 255.76 examples/s][A
+Tokenizing Prompts (num_proc=64): 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10000/10000 [00:47<00:00, 238.98 examples/s][ATokenizing Prompts (num_proc=64): 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10000/10000 [00:49<00:00, 202.84 examples/s]
+
+Dropping Long Sequences:   0%|                                                                                                                                                                                 | 0/10002 [00:00<?, ? examples/s][A
+Dropping Long Sequences:  10%|████████████████▍                                                                                                                                                    | 1000/10002 [00:01<00:14, 602.42 examples/s][A
+Dropping Long Sequences:  20%|████████████████████████████████▊                                                                                                                                   | 2000/10002 [00:01<00:06, 1201.85 examples/s][A
+Dropping Long Sequences:  30%|█████████████████████████████████████████████████▏                                                                                                                  | 3000/10002 [00:02<00:03, 1765.63 examples/s][A
+Dropping Long Sequences:  40%|█████████████████████████████████████████████████████████████████▌                                                                                                  | 4000/10002 [00:02<00:02, 2215.27 examples/s][A
+Dropping Long Sequences:  50%|█████████████████████████████████████████████████████████████████████████████████▉                                                                                  | 5000/10002 [00:02<00:01, 2585.46 examples/s][A
+Dropping Long Sequences:  60%|██████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                 | 6000/10002 [00:02<00:01, 2865.17 examples/s][A
+Dropping Long Sequences:  70%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                 | 7000/10002 [00:03<00:00, 3110.12 examples/s][A
+Dropping Long Sequences:  80%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                | 8000/10002 [00:03<00:00, 3255.39 examples/s][A
+Dropping Long Sequences:  90%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                | 9000/10002 [00:03<00:00, 3240.18 examples/s][A
+Dropping Long Sequences: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉| 10000/10002 [00:04<00:00, 3229.43 examples/s][ADropping Long Sequences: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10002/10002 [00:04<00:00, 2368.42 examples/s]
+
+Add position_id column (Pretraining Sample Packing):   0%|                                                                                                                                                      | 0/8695 [00:00<?, ? examples/s][A
+Add position_id column (Pretraining Sample Packing):  12%|███████████████▊                                                                                                                          | 1000/8695 [00:01<00:10, 749.37 examples/s][A
+Add position_id column (Pretraining Sample Packing):  23%|███████████████████████████████▌                                                                                                         | 2000/8695 [00:01<00:04, 1557.90 examples/s][A
+Add position_id column (Pretraining Sample Packing):  35%|███████████████████████████████████████████████▎                                                                                         | 3000/8695 [00:01<00:02, 2411.71 examples/s][A
+Add position_id column (Pretraining Sample Packing):  46%|███████████████████████████████████████████████████████████████                                                                          | 4000/8695 [00:01<00:01, 3210.70 examples/s][A
+Add position_id column (Pretraining Sample Packing):  58%|██████████████████████████████████████████████████████████████████████████████▊                                                          | 5000/8695 [00:01<00:00, 3976.82 examples/s][A
+Add position_id column (Pretraining Sample Packing):  69%|██████████████████████████████████████████████████████████████████████████████████████████████▌                                          | 6000/8695 [00:02<00:00, 4524.63 examples/s][A
+Add position_id column (Pretraining Sample Packing):  81%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                          | 7000/8695 [00:02<00:00, 5095.01 examples/s][A
+Add position_id column (Pretraining Sample Packing):  92%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████           | 8000/8695 [00:02<00:00, 5239.04 examples/s][A
+Add position_id column (Pretraining Sample Packing): 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 8695/8695 [00:02<00:00, 5521.56 examples/s][AAdd position_id column (Pretraining Sample Packing): 100%|████████████████��████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 8695/8695 [00:02<00:00, 3362.42 examples/s]
+[2025-11-16 21:43:57,038] [DEBUG] [axolotl.utils.samplers.multipack.pack_parallel:177] [PID:8163] Using single process for pack_parallel, running sequentially.
+[2025-11-16 21:44:01,542] [WARNING] [py.warnings._showwarnmsg:110] [PID:8163] /root/miniconda3/envs/py3.11/lib/python3.11/site-packages/datasets/formatting/torch_formatter.py:222: UserWarning: To copy construct from a tensor, it is recommended to use sourceTensor.detach().clone() or sourceTensor.detach().clone().requires_grad_(True), rather than torch.tensor(sourceTensor).
+  return torch.tensor(value, **{**default_dtype, **self.torch_tensor_kwargs})
+
+  0%|                                                                                                                                                                                                     | 1/15000 [01:13<308:07:28, 73.95s/it]  0%|                                                                                                                                                                                                     | 2/15000 [01:16<132:52:37, 31.89s/it]  0%|                                                                                                                                                                                                      | 3/15000 [01:18<76:42:31, 18.41s/it]  0%|                                                                                                                                                                                                      | 4/15000 [01:21<50:18:10, 12.08s/it]  0%|                                                                                                                                                                                                      | 5/15000 [01:23<35:41:32,  8.57s/it]  0%|                                                                                                                                                                                                      | 6/15000 [01:25<26:54:00,  6.46s/it]  0%|                                                                                                                                                                                                      | 7/15000 [01:28<21:18:23,  5.12s/it]  0%|                                                                                                                                                                                                      | 8/15000 [01:30<17:39:01,  4.24s/it]  0%|                                                                                                                                                                                                      | 9/15000 [01:32<15:11:58,  3.65s/it]  0%|▏                                                                                                                                                                                                    | 10/15000 [01:35<13:32:09,  3.25s/it]                                                                                                                                                                                                                                                {'loss': 6.0577, 'grad_norm': 5.34375, 'learning_rate': 2.785e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.23, 'tokens_per_second_per_gpu': 3482.53, 'total_tokens': 81848, 'epoch': 0.0}
+  0%|▏                                                                                                                                                                                                    | 10/15000 [01:35<13:32:09,  3.25s/it]  0%|▏                                                                                                                                                                                                    | 11/15000 [01:37<12:24:29,  2.98s/it]  0%|▏                                                                                                                                                                                                    | 12/15000 [01:39<11:37:01,  2.79s/it]  0%|▏                                                                                                                                                                                                    | 13/15000 [01:42<11:04:02,  2.66s/it]  0%|▏                                                                                                                                                                                                    | 14/15000 [01:44<10:40:43,  2.57s/it]  0%|▏                                                                                                                                                                                                    | 15/15000 [01:47<10:24:39,  2.50s/it]  0%|▏                                                                                                                                                                                                    | 16/15000 [01:49<10:13:29,  2.46s/it]  0%|▏                                                                                                                                                                                                    | 17/15000 [01:51<10:05:36,  2.43s/it]  0%|▏                                                                                                                                                                                                    | 18/15000 [01:54<10:00:18,  2.40s/it]  0%|▎                                                                                                                                                                                                     | 19/15000 [01:56<9:56:08,  2.39s/it]  0%|▎                                                                                                                                                                                                     | 20/15000 [01:58<9:53:48,  2.38s/it]                                                                                                                                                                                                                                                {'loss': 6.1193, 'grad_norm': 5.53125, 'learning_rate': 3.101666666666667e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.23, 'tokens_per_second_per_gpu': 3482.98, 'total_tokens': 163714, 'epoch': 0.0}
+  0%|▎                                                                                                                                                                                                     | 20/15000 [01:58<9:53:48,  2.38s/it]  0%|▎                                                                                                                                                                                                     | 21/15000 [02:01<9:51:41,  2.37s/it]  0%|▎                                                                                                                                                                                                     | 22/15000 [02:03<9:50:34,  2.37s/it]  0%|▎                                                                                                                                                                                                     | 23/15000 [02:05<9:49:18,  2.36s/it]  0%|▎                                                                                                                                                                                                     | 24/15000 [02:08<9:48:31,  2.36s/it]  0%|▎                                                                                                                                                                                                     | 25/15000 [02:10<9:47:39,  2.35s/it]  0%|▎                                                                                                                                                                                                     | 26/15000 [02:12<9:47:28,  2.35s/it]  0%|▎                                                                                                                                                                                                     | 27/15000 [02:15<9:47:09,  2.35s/it]  0%|▎                                                                                                                                                                                                     | 28/15000 [02:17<9:47:10,  2.35s/it]  0%|▍                                                                                                                                                                                                     | 29/15000 [02:19<9:46:54,  2.35s/it]  0%|▍                                                                                                                                                                                                     | 30/15000 [02:22<9:46:50,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 6.1805, 'grad_norm': 5.15625, 'learning_rate': 3.4183333333333338e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.23, 'tokens_per_second_per_gpu': 3491.88, 'total_tokens': 245588, 'epoch': 0.0}
+  0%|▍                                                                                                                                                                                                     | 30/15000 [02:22<9:46:50,  2.35s/it]  0%|▍                                                                                                                                                                                                     | 31/15000 [02:24<9:47:06,  2.35s/it]  0%|▍                                                                                                                                                                                                     | 32/15000 [02:27<9:47:09,  2.35s/it]  0%|▍                                                                                                                                                                                                     | 33/15000 [02:29<9:46:31,  2.35s/it]  0%|▍                                                                                                                                                                                                     | 34/15000 [02:31<9:46:09,  2.35s/it]  0%|▍                                                                                                                                                                                                     | 35/15000 [02:34<9:46:43,  2.35s/it]  0%|▍                                                                                                                                                                                                     | 36/15000 [02:36<9:46:33,  2.35s/it]  0%|▍                                                                                                                                                                                                     | 37/15000 [02:38<9:45:41,  2.35s/it]  0%|▌                                                                                                                                                                                                     | 38/15000 [02:41<9:45:51,  2.35s/it]  0%|▌                                                                                                                                                                                                     | 39/15000 [02:43<9:46:04,  2.35s/it]  0%|▌                                                                                                                                                                                                     | 40/15000 [02:45<9:46:07,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 5.9817, 'grad_norm': 5.1875, 'learning_rate': 3.7350000000000002e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.23, 'tokens_per_second_per_gpu': 3489.17, 'total_tokens': 327389, 'epoch': 0.0}
+  0%|▌                                                                                                                                                                                                     | 40/15000 [02:45<9:46:07,  2.35s/it]  0%|▌                                                                                                                                                                                                     | 41/15000 [02:48<9:46:35,  2.35s/it]  0%|▌                                                                                                                                                                                                     | 42/15000 [02:50<9:46:20,  2.35s/it]  0%|▌                                                                                                                                                                                                     | 43/15000 [02:52<9:45:52,  2.35s/it]  0%|▌                                                                                                                                                                                                     | 44/15000 [02:55<9:45:48,  2.35s/it]  0%|▌                                                                                                                                                                                                     | 45/15000 [02:57<9:45:36,  2.35s/it]  0%|▌                                                                                                                                                                                                     | 46/15000 [02:59<9:46:02,  2.35s/it]  0%|▌                                                                                                                                                                                                     | 47/15000 [03:02<9:45:12,  2.35s/it]  0%|▋                                                                                                                                                                                                     | 48/15000 [03:04<9:45:54,  2.35s/it]  0%|▋                                                                                                                                                                                                     | 49/15000 [03:06<9:45:29,  2.35s/it]  0%|▋                                                                                                                                                                                                     | 50/15000 [03:09<9:46:11,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 6.0902, 'grad_norm': 4.78125, 'learning_rate': 4.051666666666667e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.23, 'tokens_per_second_per_gpu': 3477.28, 'total_tokens': 409191, 'epoch': 0.0}
+  0%|▋                                                                                                                                                                                                     | 50/15000 [03:09<9:46:11,  2.35s/it]  0%|▋                                                                                                                                                                                                     | 51/15000 [03:11<9:46:32,  2.35s/it]  0%|▋                                                                                                                                                                                                     | 52/15000 [03:14<9:46:09,  2.35s/it]  0%|▋                                                                                                                                                                                                     | 53/15000 [03:16<9:46:02,  2.35s/it]  0%|▋                                                                                                                                                                                                     | 54/15000 [03:18<9:46:10,  2.35s/it]  0%|▋                                                                                                                                                                                                     | 55/15000 [03:21<9:46:13,  2.35s/it]  0%|▋                                                                                                                                                                                                     | 56/15000 [03:23<9:45:40,  2.35s/it]  0%|▊                                                                                                                                                                                                     | 57/15000 [03:25<9:46:15,  2.35s/it]  0%|▊                                                                                                                                                                                                     | 58/15000 [03:28<9:46:14,  2.35s/it]  0%|▊                                                                                                                                                                                                     | 59/15000 [03:30<9:46:15,  2.35s/it]  0%|▊                                                                                                                                                                                                     | 60/15000 [03:32<9:46:13,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 6.0389, 'grad_norm': 5.5, 'learning_rate': 4.368333333333334e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.23, 'tokens_per_second_per_gpu': 3484.79, 'total_tokens': 490992, 'epoch': 0.0}
+  0%|▊                                                                                                                                                                                                     | 60/15000 [03:32<9:46:13,  2.35s/it]  0%|▊                                                                                                                                                                                                     | 61/15000 [03:35<9:48:53,  2.37s/it]  0%|▊                                                                                                                                                                                                     | 62/15000 [03:37<9:48:06,  2.36s/it]  0%|▊                                                                                                                                                                                                     | 63/15000 [03:39<9:47:29,  2.36s/it]  0%|▊                                                                                                                                                                                                     | 64/15000 [03:42<9:46:54,  2.36s/it]  0%|▊                                                                                                                                                                                                     | 65/15000 [03:44<9:46:42,  2.36s/it]  0%|▊                                                                                                                                                                                                     | 66/15000 [03:47<9:47:09,  2.36s/it]  0%|▉                                                                                                                                                                                                     | 67/15000 [03:49<9:46:35,  2.36s/it]  0%|▉                                                                                                                                                                                                     | 68/15000 [03:51<9:45:51,  2.35s/it]  0%|▉                                                                                                                                                                                                     | 69/15000 [03:54<9:45:17,  2.35s/it]  0%|▉                                                                                                                                                                                                     | 70/15000 [03:56<9:45:08,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 6.0779, 'grad_norm': 5.0625, 'learning_rate': 4.685000000000001e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.23, 'tokens_per_second_per_gpu': 3490.0, 'total_tokens': 572786, 'epoch': 0.0}
+  0%|▉                                                                                                                                                                                                     | 70/15000 [03:56<9:45:08,  2.35s/it]  0%|▉                                                                                                                                                                                                     | 71/15000 [03:58<9:45:38,  2.35s/it]  0%|▉                                                                                                                                                                                                     | 72/15000 [04:01<9:45:06,  2.35s/it]  0%|▉                                                                                                                                                                                                     | 73/15000 [04:03<9:44:53,  2.35s/it]  0%|▉                                                                                                                                                                                                     | 74/15000 [04:05<9:44:53,  2.35s/it]  0%|▉                                                                                                                                                                                                     | 75/15000 [04:08<9:45:06,  2.35s/it]  1%|█                                                                                                                                                                                                     | 76/15000 [04:10<9:44:55,  2.35s/it]  1%|█                                                                                                                                                                                                     | 77/15000 [04:12<9:44:47,  2.35s/it]  1%|█                                                                                                                                                                                                     | 78/15000 [04:15<9:44:48,  2.35s/it]  1%|█                                                                                                                                                                                                     | 79/15000 [04:17<9:44:35,  2.35s/it]  1%|█                                                                                                                                                                                                     | 80/15000 [04:19<9:44:30,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 6.0471, 'grad_norm': 6.25, 'learning_rate': 5.001666666666667e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.23, 'tokens_per_second_per_gpu': 3490.28, 'total_tokens': 654560, 'epoch': 0.01}
+  1%|█                                                                                                                                                                                                     | 80/15000 [04:19<9:44:30,  2.35s/it]  1%|█                                                                                                                                                                                                     | 81/15000 [04:22<9:45:00,  2.35s/it]  1%|█                                                                                                                                                                                                     | 82/15000 [04:24<9:44:59,  2.35s/it]  1%|█                                                                                                                                                                                                     | 83/15000 [04:27<9:45:30,  2.36s/it]  1%|█                                                                                                                                                                                                     | 84/15000 [04:29<9:45:39,  2.36s/it]  1%|█                                                                                                                                                                                                     | 85/15000 [04:31<9:45:08,  2.35s/it]  1%|█▏                                                                                                                                                                                                    | 86/15000 [04:34<9:44:58,  2.35s/it]  1%|█▏                                                                                                                                                                                                    | 87/15000 [04:36<9:45:05,  2.35s/it]  1%|█▏                                                                                                                                                                                                    | 88/15000 [04:38<9:44:05,  2.35s/it]  1%|█▏                                                                                                                                                                                                    | 89/15000 [04:41<9:44:37,  2.35s/it]  1%|█▏                                                                                                                                                                                                    | 90/15000 [04:43<9:45:17,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 6.0474, 'grad_norm': 5.34375, 'learning_rate': 5.318333333333334e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.23, 'tokens_per_second_per_gpu': 3470.96, 'total_tokens': 736290, 'epoch': 0.01}
+  1%|█▏                                                                                                                                                                                                    | 90/15000 [04:43<9:45:17,  2.36s/it]  1%|█▏                                                                                                                                                                                                    | 91/15000 [04:45<9:44:55,  2.35s/it]  1%|█▏                                                                                                                                                                                                    | 92/15000 [04:48<9:44:28,  2.35s/it]  1%|█▏                                                                                                                                                                                                    | 93/15000 [04:50<9:44:47,  2.35s/it]  1%|█▏                                                                                                                                                                                                    | 94/15000 [04:52<9:44:41,  2.35s/it]  1%|█▎                                                                                                                                                                                                    | 95/15000 [04:55<9:44:28,  2.35s/it]  1%|█▎                                                                                                                                                                                                    | 96/15000 [04:57<9:44:08,  2.35s/it]  1%|█▎                                                                                                                                                                                                    | 97/15000 [04:59<9:43:54,  2.35s/it]  1%|█▎                                                                                                                                                                                                    | 98/15000 [05:02<9:43:40,  2.35s/it]  1%|█▎                                                                                                                                                                                                    | 99/15000 [05:04<9:43:32,  2.35s/it]  1%|█▎                                                                                                                                                                                                   | 100/15000 [05:07<9:43:28,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 6.0478, 'grad_norm': 4.53125, 'learning_rate': 5.635000000000001e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.23, 'tokens_per_second_per_gpu': 3494.24, 'total_tokens': 818131, 'epoch': 0.01}
+  1%|█▎                                                                                                                                                                                                   | 100/15000 [05:07<9:43:28,  2.35s/it]  1%|█▎                                                                                                                                                                                                   | 101/15000 [05:09<9:44:15,  2.35s/it]  1%|█▎                                                                                                                                                                                                   | 102/15000 [05:11<9:44:19,  2.35s/it]  1%|█▎                                                                                                                                                                                                   | 103/15000 [05:14<9:43:58,  2.35s/it]  1%|█▎                                                                                                                                                                                                   | 104/15000 [05:16<9:43:25,  2.35s/it]  1%|█▍                                                                                                                                                                                                   | 105/15000 [05:18<9:43:17,  2.35s/it]  1%|█▍                                                                                                                                                                                                   | 106/15000 [05:21<9:43:22,  2.35s/it]  1%|█▍                                                                                                                                                                                                   | 107/15000 [05:23<9:43:48,  2.35s/it]  1%|█▍                                                                                                                                                                                                   | 108/15000 [05:25<9:43:51,  2.35s/it]  1%|█▍                                                                                                                                                                                                   | 109/15000 [05:28<9:43:17,  2.35s/it]  1%|█▍                                                                                                                                                                                                   | 110/15000 [05:30<9:43:14,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 5.9979, 'grad_norm': 4.25, 'learning_rate': 5.9516666666666676e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.23, 'tokens_per_second_per_gpu': 3488.6, 'total_tokens': 899862, 'epoch': 0.01}
+  1%|█▍                                                                                                                                                                                                   | 110/15000 [05:30<9:43:14,  2.35s/it]  1%|█▍                                                                                                                                                                                                   | 111/15000 [05:32<9:42:59,  2.35s/it]  1%|█▍                                                                                                                                                                                                   | 112/15000 [05:35<9:43:26,  2.35s/it]  1%|█▍                                                                                                                                                                                                   | 113/15000 [05:37<9:43:24,  2.35s/it]  1%|█▍                                                                                                                                                                                                   | 114/15000 [05:39<9:43:30,  2.35s/it]  1%|█▌                                                                                                                                                                                                   | 115/15000 [05:42<9:43:47,  2.35s/it]  1%|█▌                                                                                                                                                                                                   | 116/15000 [05:44<9:43:33,  2.35s/it]  1%|█▌                                                                                                                                                                                                   | 117/15000 [05:47<9:44:11,  2.36s/it]  1%|█▌                                                                                                                                                                                                   | 118/15000 [05:49<9:43:12,  2.35s/it]  1%|█▌                                                                                                                                                                                                   | 119/15000 [05:51<9:43:19,  2.35s/it]  1%|█▌                                                                                                                                                                                                   | 120/15000 [05:54<9:43:06,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 6.0274, 'grad_norm': 4.75, 'learning_rate': 6.268333333333334e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.23, 'tokens_per_second_per_gpu': 3492.68, 'total_tokens': 981678, 'epoch': 0.01}
+  1%|█▌                                                                                                                                                                                                   | 120/15000 [05:54<9:43:06,  2.35s/it]  1%|█▌                                                                                                                                                                                                   | 121/15000 [05:56<9:43:13,  2.35s/it]  1%|█▌                                                                                                                                                                                                   | 122/15000 [05:58<9:43:09,  2.35s/it]  1%|█▌                                                                                                                                                                                                   | 123/15000 [06:01<9:43:24,  2.35s/it]  1%|█▋                                                                                                                                                                                                   | 124/15000 [06:03<9:43:01,  2.35s/it]  1%|█▋                                                                                                                                                                                                   | 125/15000 [06:05<9:42:58,  2.35s/it]  1%|█▋                                                                                                                                                                                                   | 126/15000 [06:08<9:43:10,  2.35s/it]  1%|█▋                                                                                                                                                                                                   | 127/15000 [06:10<9:43:19,  2.35s/it]  1%|��▋                                                                                                                                                                                                   | 128/15000 [06:12<9:43:25,  2.35s/it]  1%|█▋                                                                                                                                                                                                   | 129/15000 [06:15<9:42:42,  2.35s/it]  1%|█▋                                                                                                                                                                                                   | 130/15000 [06:17<9:43:02,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 5.9757, 'grad_norm': 4.75, 'learning_rate': 6.585e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.23, 'tokens_per_second_per_gpu': 3483.21, 'total_tokens': 1063499, 'epoch': 0.01}
+  1%|█▋                                                                                                                                                                                                   | 130/15000 [06:17<9:43:02,  2.35s/it]  1%|█▋                                                                                                                                                                                                   | 131/15000 [06:19<9:43:19,  2.35s/it]  1%|█▋                                                                                                                                                                                                   | 132/15000 [06:22<9:43:20,  2.35s/it]  1%|█▋                                                                                                                                                                                                   | 133/15000 [06:24<9:42:49,  2.35s/it]  1%|█▊                                                                                                                                                                                                   | 134/15000 [06:27<9:43:06,  2.35s/it]  1%|█▊                                                                                                                                                                                                   | 135/15000 [06:29<9:42:58,  2.35s/it]  1%|█▊                                                                                                                                                                                                   | 136/15000 [06:31<9:42:47,  2.35s/it]  1%|█▊                                                                                                                                                                                                   | 137/15000 [06:34<9:42:43,  2.35s/it]  1%|█▊                                                                                                                                                                                                   | 138/15000 [06:36<9:43:01,  2.35s/it]  1%|█▊                                                                                                                                                                                                   | 139/15000 [06:38<9:42:47,  2.35s/it]  1%|█▊                                                                                                                                                                                                   | 140/15000 [06:41<9:42:59,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 5.9856, 'grad_norm': 4.5625, 'learning_rate': 6.901666666666668e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.23, 'tokens_per_second_per_gpu': 3481.79, 'total_tokens': 1145278, 'epoch': 0.01}
+  1%|█▊                                                                                                                                                                                                   | 140/15000 [06:41<9:42:59,  2.35s/it]  1%|█▊                                                                                                                                                                                                   | 141/15000 [06:43<9:43:25,  2.36s/it]  1%|█▊                                                                                                                                                                                                   | 142/15000 [06:45<9:42:50,  2.35s/it]  1%|█▉                                                                                                                                                                                                   | 143/15000 [06:48<9:42:35,  2.35s/it]  1%|█▉                                                                                                                                                                                                   | 144/15000 [06:50<9:42:24,  2.35s/it]  1%|█▉                                                                                                                                                                                                   | 145/15000 [06:52<9:42:00,  2.35s/it]  1%|█▉                                                                                                                                                                                                   | 146/15000 [06:55<9:41:38,  2.35s/it]  1%|█▉                                                                                                                                                                                                   | 147/15000 [06:57<9:41:58,  2.35s/it]  1%|█▉                                                                                                                                                                                                   | 148/15000 [06:59<9:41:19,  2.35s/it]  1%|█▉                                                                                                                                                                                                   | 149/15000 [07:02<9:41:15,  2.35s/it]  1%|█▉                                                                                                                                                                                                   | 150/15000 [07:04<9:41:43,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 6.0773, 'grad_norm': 4.625, 'learning_rate': 7.2183333333333325e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.23, 'tokens_per_second_per_gpu': 3485.45, 'total_tokens': 1227107, 'epoch': 0.01}
+  1%|█▉                                                                                                                                                                                                   | 150/15000 [07:04<9:41:43,  2.35s/it]  1%|█▉                                                                                                                                                                                                   | 151/15000 [07:06<9:41:44,  2.35s/it]  1%|█▉                                                                                                                                                                                                   | 152/15000 [07:09<9:41:57,  2.35s/it]  1%|██                                                                                                                                                                                                   | 153/15000 [07:11<9:41:20,  2.35s/it]  1%|██                                                                                                                                                                                                   | 154/15000 [07:14<9:41:01,  2.35s/it]  1%|██                                                                                                                                                                                                   | 155/15000 [07:16<9:41:26,  2.35s/it]  1%|██                                                                                                                                                                                                   | 156/15000 [07:18<9:41:45,  2.35s/it]  1%|██                                                                                                                                                                                                   | 157/15000 [07:21<9:41:45,  2.35s/it]  1%|██                                                                                                                                                                                                   | 158/15000 [07:23<9:41:57,  2.35s/it]  1%|██                                                                                                                                                                                                   | 159/15000 [07:25<9:41:42,  2.35s/it]  1%|██                                                                                                                                                                                                   | 160/15000 [07:28<9:41:45,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 5.9336, 'grad_norm': 5.03125, 'learning_rate': 7.535000000000001e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.23, 'tokens_per_second_per_gpu': 3484.65, 'total_tokens': 1308857, 'epoch': 0.01}
+  1%|██                                                                                                                                                                                                   | 160/15000 [07:28<9:41:45,  2.35s/it]  1%|██                                                                                                                                                                                                   | 161/15000 [07:30<9:41:37,  2.35s/it]  1%|██▏                                                                                                                                                                                                  | 162/15000 [07:32<9:42:29,  2.36s/it]  1%|██▏                                                                                                                                                                                                  | 163/15000 [07:35<9:42:19,  2.35s/it]  1%|██▏                                                                                                                                                                                                  | 164/15000 [07:37<9:42:19,  2.36s/it]  1%|██▏                                                                                                                                                                                                  | 165/15000 [07:39<9:41:23,  2.35s/it]  1%|██▏                                                                                                                                                                                                  | 166/15000 [07:42<9:41:17,  2.35s/it]  1%|██▏                                                                                                                                                                                                  | 167/15000 [07:44<9:41:08,  2.35s/it]  1%|██▏                                                                                                                                                                                                  | 168/15000 [07:46<9:41:12,  2.35s/it]  1%|██▏                                                                                                                                                                                                  | 169/15000 [07:49<9:40:41,  2.35s/it]  1%|██▏                                                                                                                                                                                                  | 170/15000 [07:51<9:40:08,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 6.0057, 'grad_norm': 4.59375, 'learning_rate': 7.851666666666666e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.23, 'tokens_per_second_per_gpu': 3502.63, 'total_tokens': 1390652, 'epoch': 0.01}
+  1%|██▏                                                                                                                                                                                                  | 170/15000 [07:51<9:40:08,  2.35s/it]  1%|██▏                                                                                                                                                                                                  | 171/15000 [07:53<9:39:58,  2.35s/it]  1%|██▎                                                                                                                                                                                                  | 172/15000 [07:56<9:40:02,  2.35s/it]  1%|██▎                                                                                                                                                                                                  | 173/15000 [07:58<9:40:31,  2.35s/it]  1%|██▎                                                                                                                                                                                                  | 174/15000 [08:01<9:40:31,  2.35s/it]  1%|██▎                                                                                                                                                                                                  | 175/15000 [08:03<9:40:34,  2.35s/it]  1%|██▎                                                                                                                                                                                                  | 176/15000 [08:05<9:41:04,  2.35s/it]  1%|██▎                                                                                                                                                                                                  | 177/15000 [08:08<9:40:25,  2.35s/it]  1%|██▎                                                                                                                                                                                                  | 178/15000 [08:10<9:40:52,  2.35s/it]  1%|██▎                                                                                                                                                                                                  | 179/15000 [08:12<9:40:45,  2.35s/it]  1%|██▎                                                                                                                                                                                                  | 180/15000 [08:15<9:41:02,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 5.963, 'grad_norm': 3.921875, 'learning_rate': 8.168333333333333e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.23, 'tokens_per_second_per_gpu': 3479.78, 'total_tokens': 1472379, 'epoch': 0.01}
+  1%|██▎                                                                                                                                                                                                  | 180/15000 [08:15<9:41:02,  2.35s/it]  1%|██▍                                                                                                                                                                                                  | 181/15000 [08:17<9:41:28,  2.35s/it]  1%|██▍                                                                                                                                                                                                  | 182/15000 [08:19<9:40:53,  2.35s/it]  1%|██▍                                                                                                                                                                                                  | 183/15000 [08:22<9:40:28,  2.35s/it]  1%|██▍                                                                                                                                                                                                  | 184/15000 [08:24<9:40:25,  2.35s/it]  1%|██▍                                                                                                                                                                                                  | 185/15000 [08:26<9:40:40,  2.35s/it]  1%|██▍                                                                                                                                                                                                  | 186/15000 [08:29<9:40:58,  2.35s/it]  1%|██▍                                                                                                                                                                                                  | 187/15000 [08:31<9:40:50,  2.35s/it]  1%|██▍                                                                                                                                                                                                  | 188/15000 [08:33<9:41:02,  2.35s/it]  1%|██▍                                                                                                                                                                                                  | 189/15000 [08:36<9:40:58,  2.35s/it]  1%|██▍                                                                                                                                                                                                  | 190/15000 [08:38<9:40:55,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 5.9768, 'grad_norm': 3.859375, 'learning_rate': 8.485000000000001e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.23, 'tokens_per_second_per_gpu': 3486.13, 'total_tokens': 1554160, 'epoch': 0.01}
+  1%|██▍                                                                                                                                                                                                  | 190/15000 [08:38<9:40:55,  2.35s/it]  1%|██▌                                                                                                                                                                                                  | 191/15000 [08:41<9:41:30,  2.36s/it]  1%|██▌                                                                                                                                                                                                  | 192/15000 [08:43<9:41:11,  2.35s/it]  1%|██▌                                                                                                                                                                                                  | 193/15000 [08:45<9:41:44,  2.36s/it]  1%|██▌                                                                                                                                                                                                  | 194/15000 [08:48<9:41:23,  2.36s/it]  1%|██▌                                                                                                                                                                                                  | 195/15000 [08:50<9:40:47,  2.35s/it]  1%|██▌                                                                                                                                                                                                  | 196/15000 [08:52<9:40:27,  2.35s/it]  1%|██▌                                                                                                                                                                                                  | 197/15000 [08:55<9:40:38,  2.35s/it]  1%|██▌                                                                                                                                                                                                  | 198/15000 [08:57<9:40:28,  2.35s/it]  1%|██▌                                                                                                                                                                                                  | 199/15000 [08:59<9:40:28,  2.35s/it]  1%|██▋                                                                                                                                                                                                  | 200/15000 [09:02<9:40:30,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 5.9402, 'grad_norm': 4.09375, 'learning_rate': 8.801666666666666e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.23, 'tokens_per_second_per_gpu': 3480.95, 'total_tokens': 1635864, 'epoch': 0.01}
+  1%|██▋                                                                                                                                                                                                  | 200/15000 [09:02<9:40:30,  2.35s/it]  1%|██▋                                                                                                                                                                                                  | 201/15000 [09:04<9:40:45,  2.35s/it]  1%|██▋                                                                                                                                                                                                  | 202/15000 [09:06<9:40:44,  2.35s/it]  1%|██▋                                                                                                                                                                                                  | 203/15000 [09:09<9:40:19,  2.35s/it]  1%|██▋                                                                                                                                                                                                  | 204/15000 [09:11<9:39:48,  2.35s/it]  1%|██▋                                                                                                                                                                                                  | 205/15000 [09:13<9:40:14,  2.35s/it]  1%|██▋                                                                                                                                                                                                  | 206/15000 [09:16<9:40:15,  2.35s/it]  1%|██▋                                                                                                                                                                                                  | 207/15000 [09:18<9:40:26,  2.35s/it]  1%|██▋                                                                                                                                                                                                 | 208/15000 [09:21<10:16:58,  2.50s/it]  1%|██▋                                                                                                                                                                                                 | 209/15000 [09:23<10:05:42,  2.46s/it]  1%|██▊                                                                                                                                                                                                  | 210/15000 [09:26<9:58:23,  2.43s/it]                                                                                                                                                                                                                                                {'loss': 5.9831, 'grad_norm': 4.125, 'learning_rate': 9.118333333333334e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.23, 'tokens_per_second_per_gpu': 3476.03, 'total_tokens': 1717610, 'epoch': 0.01}
+  1%|██▊                                                                                                                                                                                                  | 210/15000 [09:26<9:58:23,  2.43s/it]  1%|██▊                                                                                                                                                                                                  | 211/15000 [09:28<9:53:18,  2.41s/it]  1%|██▊                                                                                                                                                                                                  | 212/15000 [09:30<9:49:47,  2.39s/it]  1%|██▊                                                                                                                                                                                                  | 213/15000 [09:33<9:46:15,  2.38s/it]  1%|██▊                                                                                                                                                                                                  | 214/15000 [09:35<9:43:32,  2.37s/it]  1%|██▊                                                                                                                                                                                                  | 215/15000 [09:38<9:42:43,  2.36s/it]  1%|██▊                                                                                                                                                                                                  | 216/15000 [09:40<9:41:38,  2.36s/it]  1%|██▊                                                                                                                                                                                                  | 217/15000 [09:42<9:41:13,  2.36s/it]  1%|██▊                                                                                                                                                                                                  | 218/15000 [09:45<9:40:16,  2.36s/it]  1%|██▉                                                                                                                                                                                                  | 219/15000 [09:47<9:39:58,  2.35s/it]  1%|██▉                                                                                                                                                                                                  | 220/15000 [09:49<9:40:28,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 5.8814, 'grad_norm': 3.34375, 'learning_rate': 9.434999999999999e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.23, 'tokens_per_second_per_gpu': 3468.67, 'total_tokens': 1799272, 'epoch': 0.01}
+  1%|██▉                                                                                                                                                                                                  | 220/15000 [09:49<9:40:28,  2.36s/it]  1%|██▉                                                                                                                                                                                                  | 221/15000 [09:52<9:40:28,  2.36s/it]  1%|██▉                                                                                                                                                                                                  | 222/15000 [09:54<9:40:03,  2.36s/it]  1%|██▉                                                                                                                                                                                                  | 223/15000 [09:56<9:39:41,  2.35s/it]  1%|██▉                                                                                                                                                                                                  | 224/15000 [09:59<9:39:23,  2.35s/it]  2%|██▉                                                                                                                                                                                                  | 225/15000 [10:01<9:39:53,  2.35s/it]  2%|██▉                                                                                                                                                                                                  | 226/15000 [10:03<9:39:51,  2.35s/it]  2%|██▉                                                                                                                                                                                                  | 227/15000 [10:06<9:39:48,  2.35s/it]  2%|██▉                                                                                                                                                                                                  | 228/15000 [10:08<9:39:34,  2.35s/it]  2%|███                                                                                                                                                                                                  | 229/15000 [10:10<9:39:39,  2.35s/it]  2%|███                                                                                                                                                                                                  | 230/15000 [10:13<9:39:03,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 6.0233, 'grad_norm': 4.375, 'learning_rate': 9.751666666666667e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.23, 'tokens_per_second_per_gpu': 3494.53, 'total_tokens': 1881046, 'epoch': 0.02}
+  2%|███                                                                                                                                                                                                  | 230/15000 [10:13<9:39:03,  2.35s/it]  2%|███                                                                                                                                                                                                  | 231/15000 [10:15<9:39:05,  2.35s/it]  2%|███                                                                                                                                                                                                  | 232/15000 [10:18<9:38:53,  2.35s/it]  2%|███                                                                                                                                                                                                  | 233/15000 [10:20<9:38:43,  2.35s/it]  2%|███                                                                                                                                                                                                  | 234/15000 [10:22<9:38:32,  2.35s/it]  2%|███                                                                                                                                                                                                  | 235/15000 [10:25<9:38:22,  2.35s/it]  2%|███                                                                                                                                                                                                  | 236/15000 [10:27<9:37:59,  2.35s/it]  2%|███                                                                                                                                                                                                  | 237/15000 [10:29<9:38:10,  2.35s/it]  2%|███▏                                                                                                                                                                                                 | 238/15000 [10:32<9:38:35,  2.35s/it]  2%|███▏                                                                                                                                                                                                 | 239/15000 [10:34<9:38:46,  2.35s/it]  2%|███▏                                                                                                                                                                                                 | 240/15000 [10:36<9:39:25,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 5.8645, 'grad_norm': 4.0625, 'learning_rate': 1.0068333333333333e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.23, 'tokens_per_second_per_gpu': 3471.79, 'total_tokens': 1962804, 'epoch': 0.02}
+  2%|███▏                                                                                                                                                                                                 | 240/15000 [10:36<9:39:25,  2.36s/it]  2%|███▏                                                                                                                                                                                                 | 241/15000 [10:39<9:39:07,  2.35s/it]  2%|███▏                                                                                                                                                                                                 | 242/15000 [10:41<9:38:26,  2.35s/it]  2%|███▏                                                                                                                                                                                                 | 243/15000 [10:43<9:38:26,  2.35s/it]  2%|███▏                                                                                                                                                                                                 | 244/15000 [10:46<9:38:08,  2.35s/it]  2%|███▏                                                                                                                                                                                                 | 245/15000 [10:48<9:38:20,  2.35s/it]  2%|███▏                                                                                                                                                                                                 | 246/15000 [10:50<9:38:42,  2.35s/it]  2%|███▏                                                                                                                                                                                                 | 247/15000 [10:53<9:38:15,  2.35s/it]  2%|███▎                                                                                                                                                                                                 | 248/15000 [10:55<9:38:37,  2.35s/it]  2%|███▎                                                                                                                                                                                                 | 249/15000 [10:58<9:38:32,  2.35s/it]  2%|███▎                                                                                                                                                                                                 | 250/15000 [11:00<9:38:13,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 5.8689, 'grad_norm': 3.734375, 'learning_rate': 1.0385e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.23, 'tokens_per_second_per_gpu': 3492.63, 'total_tokens': 2044612, 'epoch': 0.02}
+  2%|███▎                                                                                                                                                                                                 | 250/15000 [11:00<9:38:13,  2.35s/it]  2%|███▎                                                                                                                                                                                                 | 251/15000 [11:02<9:38:45,  2.35s/it]  2%|███▎                                                                                                                                                                                                 | 252/15000 [11:05<9:38:23,  2.35s/it]  2%|███▎                                                                                                                                                                                                 | 253/15000 [11:07<9:38:35,  2.35s/it]  2%|███▎                                                                                                                                                                                                 | 254/15000 [11:09<9:38:29,  2.35s/it]  2%|███▎                                                                                                                                                                                                 | 255/15000 [11:12<9:38:10,  2.35s/it]  2%|███▎                                                                                                                                                                                                 | 256/15000 [11:14<9:38:11,  2.35s/it]  2%|███▍                                                                                                                                                                                                 | 257/15000 [11:16<9:37:37,  2.35s/it]  2%|███▍                                                                                                                                                                                                 | 258/15000 [11:19<9:37:36,  2.35s/it]  2%|███▍                                                                                                                                                                                                 | 259/15000 [11:21<9:38:13,  2.35s/it]  2%|███▍                                                                                                                                                                                                 | 260/15000 [11:23<9:37:43,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 5.8429, 'grad_norm': 3.890625, 'learning_rate': 1.0701666666666666e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.23, 'tokens_per_second_per_gpu': 3491.33, 'total_tokens': 2126316, 'epoch': 0.02}
+  2%|███▍                                                                                                                                                                                                 | 260/15000 [11:23<9:37:43,  2.35s/it]  2%|███▍                                                                                                                                                                                                 | 261/15000 [11:26<9:38:26,  2.35s/it]  2%|███▍                                                                                                                                                                                                 | 262/15000 [11:28<9:38:39,  2.36s/it]  2%|███▍                                                                                                                                                                                                 | 263/15000 [11:30<9:38:45,  2.36s/it]  2%|███▍                                                                                                                                                                                                 | 264/15000 [11:33<9:38:31,  2.36s/it]  2%|███▍                                                                                                                                                                                                 | 265/15000 [11:35<9:37:36,  2.35s/it]  2%|███▍                                                                                                                                                                                                 | 266/15000 [11:38<9:37:48,  2.35s/it]  2%|███▌                                                                                                                                                                                                 | 267/15000 [11:40<9:37:36,  2.35s/it]  2%|███▌                                                                                                                                                                                                 | 268/15000 [11:42<9:37:22,  2.35s/it]  2%|███▌                                                                                                                                                                                                 | 269/15000 [11:45<9:37:37,  2.35s/it]  2%|███▌                                                                                                                                                                                                 | 270/15000 [11:47<9:37:41,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 5.9612, 'grad_norm': 3.328125, 'learning_rate': 1.1018333333333333e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.23, 'tokens_per_second_per_gpu': 3480.1, 'total_tokens': 2207993, 'epoch': 0.02}
+  2%|███▌                                                                                                                                                                                                 | 270/15000 [11:47<9:37:41,  2.35s/it]  2%|███▌                                                                                                                                                                                                 | 271/15000 [11:49<9:37:41,  2.35s/it]  2%|███▌                                                                                                                                                                                                 | 272/15000 [11:52<9:37:34,  2.35s/it]  2%|███▌                                                                                                                                                                                                 | 273/15000 [11:54<9:37:02,  2.35s/it]  2%|███▌                                                                                                                                                                                                 | 274/15000 [11:56<9:36:59,  2.35s/it]  2%|███▌                                                                                                                                                                                                 | 275/15000 [11:59<9:37:03,  2.35s/it]  2%|███▌                                                                                                                                                                                                 | 276/15000 [12:01<9:36:28,  2.35s/it]  2%|███▋                                                                                                                                                                                                 | 277/15000 [12:03<9:37:12,  2.35s/it]  2%|███▋                                                                                                                                                                                                 | 278/15000 [12:06<9:36:49,  2.35s/it]  2%|███▋                                                                                                                                                                                                 | 279/15000 [12:08<9:36:51,  2.35s/it]  2%|███▋                                                                                                                                                                                                 | 280/15000 [12:10<9:36:27,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 5.8409, 'grad_norm': 3.640625, 'learning_rate': 1.1335e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.23, 'tokens_per_second_per_gpu': 3497.06, 'total_tokens': 2289790, 'epoch': 0.02}
+  2%|███▋                                                                                                                                                                                                 | 280/15000 [12:10<9:36:27,  2.35s/it]  2%|███▋                                                                                                                                                                                                 | 281/15000 [12:13<9:36:32,  2.35s/it]  2%|███▋                                                                                                                                                                                                 | 282/15000 [12:15<9:36:34,  2.35s/it]  2%|███▋                                                                                                                                                                                                 | 283/15000 [12:17<9:36:28,  2.35s/it]  2%|███▋                                                                                                                                                                                                 | 284/15000 [12:20<9:36:51,  2.35s/it]  2%|███▋                                                                                                                                                                                                 | 285/15000 [12:22<9:36:55,  2.35s/it]  2%|███▊                                                                                                                                                                                                 | 286/15000 [12:25<9:36:51,  2.35s/it]  2%|███▊                                                                                                                                                                                                 | 287/15000 [12:27<9:36:55,  2.35s/it]  2%|███▊                                                                                                                                                                                                 | 288/15000 [12:29<9:37:51,  2.36s/it]  2%|███▊                                                                                                                                                                                                 | 289/15000 [12:32<9:38:12,  2.36s/it]  2%|███▊                                                                                                                                                                                                 | 290/15000 [12:34<9:37:54,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 5.7047, 'grad_norm': 3.203125, 'learning_rate': 1.1651666666666666e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.23, 'tokens_per_second_per_gpu': 3482.94, 'total_tokens': 2371549, 'epoch': 0.02}
+  2%|███▊                                                                                                                                                                                                 | 290/15000 [12:34<9:37:54,  2.36s/it]  2%|███▊                                                                                                                                                                                                 | 291/15000 [12:36<9:37:43,  2.36s/it]  2%|███▊                                                                                                                                                                                                 | 292/15000 [12:39<9:37:14,  2.35s/it]  2%|███▊                                                                                                                                                                                                 | 293/15000 [12:41<9:36:52,  2.35s/it]  2%|███▊                                                                                                                                                                                                 | 294/15000 [12:43<9:36:50,  2.35s/it]  2%|███▊                                                                                                                                                                                                 | 295/15000 [12:46<9:36:50,  2.35s/it]  2%|███▉                                                                                                                                                                                                 | 296/15000 [12:48<9:36:23,  2.35s/it]  2%|███▉                                                                                                                                                                                                 | 297/15000 [12:50<9:36:26,  2.35s/it]  2%|███▉                                                                                                                                                                                                 | 298/15000 [12:53<9:36:34,  2.35s/it]  2%|███▉                                                                                                                                                                                                 | 299/15000 [12:55<9:36:11,  2.35s/it]  2%|███▉                                                                                                                                                                                                 | 300/15000 [12:58<9:36:33,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 5.7264, 'grad_norm': 3.3125, 'learning_rate': 1.1968333333333334e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.23, 'tokens_per_second_per_gpu': 3473.36, 'total_tokens': 2453172, 'epoch': 0.02}
+  2%|███▉                                                                                                                                                                                                 | 300/15000 [12:58<9:36:33,  2.35s/it]  2%|███▉                                                                                                                                                                                                 | 301/15000 [13:00<9:36:24,  2.35s/it]  2%|███▉                                                                                                                                                                                                 | 302/15000 [13:02<9:36:17,  2.35s/it]  2%|███▉                                                                                                                                                                                                 | 303/15000 [13:05<9:35:58,  2.35s/it]  2%|███▉                                                                                                                                                                                                 | 304/15000 [13:07<9:35:59,  2.35s/it]  2%|████                                                                                                                                                                                                 | 305/15000 [13:09<9:35:56,  2.35s/it]  2%|████                                                                                                                                                                                                 | 306/15000 [13:12<9:36:13,  2.35s/it]  2%|████                                                                                                                                                                                                 | 307/15000 [13:14<9:35:25,  2.35s/it]  2%|████                                                                                                                                                                                                 | 308/15000 [13:16<9:35:22,  2.35s/it]  2%|████                                                                                                                                                                                                 | 309/15000 [13:19<9:35:39,  2.35s/it]  2%|████                                                                                                                                                                                                 | 310/15000 [13:21<9:35:34,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 5.752, 'grad_norm': 3.203125, 'learning_rate': 1.2285e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.23, 'tokens_per_second_per_gpu': 3484.78, 'total_tokens': 2534818, 'epoch': 0.02}
+  2%|████                                                                                                                                                                                                 | 310/15000 [13:21<9:35:34,  2.35s/it]  2%|████                                                                                                                                                                                                 | 311/15000 [13:23<9:36:10,  2.35s/it]  2%|████                                                                                                                                                                                                 | 312/15000 [13:26<9:35:45,  2.35s/it]  2%|████                                                                                                                                                                                                 | 313/15000 [13:28<9:35:29,  2.35s/it]  2%|████                                                                                                                                                                                                 | 314/15000 [13:30<9:35:09,  2.35s/it]  2%|████▏                                                                                                                                                                                                | 315/15000 [13:33<9:34:44,  2.35s/it]  2%|████▏                                                                                                                                                                                                | 316/15000 [13:35<9:35:12,  2.35s/it]  2%|████▏                                                                                                                                                                                                | 317/15000 [13:37<9:34:48,  2.35s/it]  2%|████▏                                                                                                                                                                                                | 318/15000 [13:40<9:34:55,  2.35s/it]  2%|████▏                                                                                                                                                                                                | 319/15000 [13:42<9:35:23,  2.35s/it]  2%|████▏                                                                                                                                                                                                | 320/15000 [13:45<9:35:34,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 5.7892, 'grad_norm': 3.734375, 'learning_rate': 1.2601666666666667e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.23, 'tokens_per_second_per_gpu': 3473.78, 'total_tokens': 2616367, 'epoch': 0.02}
+  2%|████▏                                                                                                                                                                                                | 320/15000 [13:45<9:35:34,  2.35s/it]  2%|████▏                                                                                                                                                                                                | 321/15000 [13:47<9:35:50,  2.35s/it]  2%|████▏                                                                                                                                                                                                | 322/15000 [13:49<9:35:09,  2.35s/it]  2%|████▏                                                                                                                                                                                                | 323/15000 [13:52<9:34:22,  2.35s/it]  2%|████▎                                                                                                                                                                                                | 324/15000 [13:54<9:35:00,  2.35s/it]  2%|████▎                                                                                                                                                                                                | 325/15000 [13:56<9:34:37,  2.35s/it]  2%|████▎                                                                                                                                                                                                | 326/15000 [13:59<9:34:27,  2.35s/it]  2%|████▎                                                                                                                                                                                                | 327/15000 [14:01<9:34:30,  2.35s/it]  2%|████▎                                                                                                                                                                                                | 328/15000 [14:03<9:35:22,  2.35s/it]  2%|████▎                                                                                                                                                                                                | 329/15000 [14:06<9:34:39,  2.35s/it]  2%|████▎                                                                                                                                                                                                | 330/15000 [14:08<9:34:40,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 5.7071, 'grad_norm': 3.453125, 'learning_rate': 1.2918333333333333e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.23, 'tokens_per_second_per_gpu': 3482.85, 'total_tokens': 2698002, 'epoch': 0.02}
+  2%|████▎                                                                                                                                                                                                | 330/15000 [14:08<9:34:40,  2.35s/it]  2%|████▎                                                                                                                                                                                                | 331/15000 [14:10<9:34:51,  2.35s/it]  2%|████▎                                                                                                                                                                                                | 332/15000 [14:13<9:34:21,  2.35s/it]  2%|████▎                                                                                                                                                                                                | 333/15000 [14:15<9:34:40,  2.35s/it]  2%|████▍                                                                                                                                                                                                | 334/15000 [14:17<9:35:02,  2.35s/it]  2%|████▍                                                                                                                                                                                                | 335/15000 [14:20<9:35:37,  2.36s/it]  2%|████▍                                                                                                                                                                                                | 336/15000 [14:22<9:34:57,  2.35s/it]  2%|████▍                                                                                                                                                                                                | 337/15000 [14:25<9:34:49,  2.35s/it]  2%|████▍                                                                                                                                                                                                | 338/15000 [14:27<9:34:59,  2.35s/it]  2%|████▍                                                                                                                                                                                                | 339/15000 [14:29<9:34:52,  2.35s/it]  2%|████▍                                                                                                                                                                                                | 340/15000 [14:32<9:34:48,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 5.6529, 'grad_norm': 2.921875, 'learning_rate': 1.3235e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.23, 'tokens_per_second_per_gpu': 3479.9, 'total_tokens': 2779609, 'epoch': 0.02}
+  2%|████▍                                                                                                                                                                                                | 340/15000 [14:32<9:34:48,  2.35s/it]  2%|████▍                                                                                                                                                                                                | 341/15000 [14:34<9:35:16,  2.35s/it]  2%|████▍                                                                                                                                                                                                | 342/15000 [14:36<9:35:28,  2.36s/it]  2%|████▌                                                                                                                                                                                                | 343/15000 [14:39<9:35:28,  2.36s/it]  2%|████▌                                                                                                                                                                                                | 344/15000 [14:41<9:34:42,  2.35s/it]  2%|████▌                                                                                                                                                                                                | 345/15000 [14:43<9:34:36,  2.35s/it]  2%|████▌                                                                                                                                                                                                | 346/15000 [14:46<9:34:59,  2.35s/it]  2%|████▌                                                                                                                                                                                                | 347/15000 [14:48<9:34:37,  2.35s/it]  2%|████▌                                                                                                                                                                                                | 348/15000 [14:50<9:34:06,  2.35s/it]  2%|████▌                                                                                                                                                                                                | 349/15000 [14:53<9:33:48,  2.35s/it]  2%|���███▌                                                                                                                                                                                                | 350/15000 [14:55<9:33:47,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 5.7297, 'grad_norm': 3.203125, 'learning_rate': 1.3551666666666666e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.23, 'tokens_per_second_per_gpu': 3477.37, 'total_tokens': 2861085, 'epoch': 0.02}
+  2%|████▌                                                                                                                                                                                                | 350/15000 [14:55<9:33:47,  2.35s/it]  2%|████▌                                                                                                                                                                                                | 351/15000 [14:57<9:34:31,  2.35s/it]  2%|████▌                                                                                                                                                                                                | 352/15000 [15:00<9:34:41,  2.35s/it]  2%|████▋                                                                                                                                                                                                | 353/15000 [15:02<9:33:48,  2.35s/it][2025-11-16 21:57:56,668] [INFO] [axolotl.utils.data.wrappers.get_dataset_wrapper:87] [PID:8163] Loading dataset: Goader/kobza-2m-jsonl with base_type: pretrain and prompt_style: None
+
+Tokenizing Prompts (num_proc=64):   0%|                                                                                                                                                                        | 0/10000 [00:00<?, ? examples/s][A
+Tokenizing Prompts (num_proc=64):   2%|██▍                                                                                                                                                           | 157/10000 [00:06<06:31, 25.12 examples/s][A
+Tokenizing Prompts (num_proc=64):   3%|████▉                                                                                                                                                         | 314/10000 [00:06<03:02, 53.17 examples/s][A
+Tokenizing Prompts (num_proc=64):   5%|███████▍                                                                                                                                                      | 471/10000 [00:07<01:45, 90.54 examples/s][A
+Tokenizing Prompts (num_proc=64):   6%|█████████▊                                                                                                                                                   | 628/10000 [00:08<01:25, 109.10 examples/s][A
+Tokenizing Prompts (num_proc=64):   8%|████████████▎                                                                                                                                                | 785/10000 [00:08<01:02, 147.08 examples/s][A
+Tokenizing Prompts (num_proc=64):   9%|██████████████▊                                                                                                                                              | 942/10000 [00:09<00:58, 155.44 examples/s][A
+Tokenizing Prompts (num_proc=64):  11%|█████████████████▏                                                                                                                                          | 1099/10000 [00:10<00:50, 175.11 examples/s][A
+Tokenizing Prompts (num_proc=64):  13%|███████████████████▌                                                                                                                                        | 1256/10000 [00:10<00:39, 223.60 examples/s][A
+Tokenizing Prompts (num_proc=64):  14%|██████████████████████                                                                                                                                      | 1413/10000 [00:11<00:40, 213.52 examples/s][A
+Tokenizing Prompts (num_proc=64):  16%|████████████████████████▍                                                                                                                                   | 1570/10000 [00:13<00:55, 151.67 examples/s][A
+Tokenizing Prompts (num_proc=64):  17%|██████████████████████████▉                                                                                                                                 | 1727/10000 [00:13<00:47, 175.03 examples/s][A
+Tokenizing Prompts (num_proc=64):  19%|█████████████████████████████▍                                                                                                                              | 1884/10000 [00:13<00:39, 204.54 examples/s][A
+Tokenizing Prompts (num_proc=64):  20%|███████████████████████████████▊                                                                                                                            | 2041/10000 [00:14<00:30, 261.55 examples/s][A
+Tokenizing Prompts (num_proc=64):  22%|██████████████████████████████████▎                                                                                                                         | 2198/10000 [00:15<00:38, 203.27 examples/s][A
+Tokenizing Prompts (num_proc=64):  24%|████████████████████████████████████▋                                                                                                                       | 2355/10000 [00:16<00:36, 212.32 examples/s][A
+Tokenizing Prompts (num_proc=64):  25%|███████████████████████████████████████▏                                                                                                                    | 2512/10000 [00:16<00:34, 218.00 examples/s][A
+Tokenizing Prompts (num_proc=64):  27%|█████████████████████████████████████████▌                                                                                                                  | 2668/10000 [00:17<00:33, 220.35 examples/s][A
+Tokenizing Prompts (num_proc=64):  28%|████████████████████████████████████████████                                                                                                                | 2824/10000 [00:18<00:32, 223.83 examples/s][A
+Tokenizing Prompts (num_proc=64):  30%|██████████████████████████████████████████████▍                                                                                                             | 2980/10000 [00:18<00:30, 228.20 examples/s][A
+Tokenizing Prompts (num_proc=64):  31%|████████████████████████████████████████████████▉                                                                                                           | 3136/10000 [00:19<00:30, 225.68 examples/s][A
+Tokenizing Prompts (num_proc=64):  33%|███████████████████████████████████████████████████▎                                                                                                        | 3292/10000 [00:19<00:23, 289.67 examples/s][A
+Tokenizing Prompts (num_proc=64):  34%|█████████████████████████████████████████████████████▊                                                                                                      | 3448/10000 [00:20<00:26, 242.86 examples/s][A
+Tokenizing Prompts (num_proc=64):  36%|████████████████████████████████████████████████████████▏                                                                                                   | 3604/10000 [00:21<00:25, 255.25 examples/s][A
+Tokenizing Prompts (num_proc=64):  38%|██████████████████████████████████████████████████████████▋                                                                                                 | 3760/10000 [00:21<00:24, 252.05 examples/s][A
+Tokenizing Prompts (num_proc=64):  39%|█████████████████████████████████████████████████████████████                                                                                               | 3916/10000 [00:22<00:25, 238.13 examples/s][A
+Tokenizing Prompts (num_proc=64):  41%|███████████████████████████████████████████████████████████████▌                                                                                            | 4072/10000 [00:23<00:24, 238.68 examples/s][A
+Tokenizing Prompts (num_proc=64):  42%|█████████████████████████████████████████████████████████████████▉                                                                                          | 4228/10000 [00:24<00:26, 220.33 examples/s][A
+Tokenizing Prompts (num_proc=64):  44%|████████████████████████████████████████████████████████████████████▍                                                                                       | 4384/10000 [00:24<00:23, 236.74 examples/s][A
+Tokenizing Prompts (num_proc=64):  45%|██████████████████████████████████████████████████████████████████████▊                                                                                     | 4540/10000 [00:25<00:22, 238.58 examples/s][A
+Tokenizing Prompts (num_proc=64):  47%|█████████████████████████████████████████████████████████████████████████▎                                                                                  | 4696/10000 [00:25<00:22, 235.25 examples/s][A
+Tokenizing Prompts (num_proc=64):  49%|███████████████████████████████████████████████████████████████████████████▋                                                                                | 4852/10000 [00:26<00:21, 234.47 examples/s][A
+Tokenizing Prompts (num_proc=64):  50%|██████████████████████████████████████████████████████████████████████████████                                                                              | 5008/10000 [00:27<00:21, 235.52 examples/s][A
+Tokenizing Prompts (num_proc=64):  52%|████████████████████████████████████████████████████████████████████████████████▌                                                                           | 5164/10000 [00:28<00:24, 194.06 examples/s][A
+Tokenizing Prompts (num_proc=64):  53%|██████████████████████████████████████████████████████████████████████████████████▉                                                                         | 5320/10000 [00:28<00:18, 252.67 examples/s][A
+Tokenizing Prompts (num_proc=64):  55%|█████████████████████████████████████████████████████████████████████████████████████▍                                                                      | 5476/10000 [00:29<00:18, 244.41 examples/s][A
+Tokenizing Prompts (num_proc=64):  56%|███████████████████████████████████████████████████████████████████████████████████████▊                                                                    | 5632/10000 [00:30<00:19, 222.91 examples/s][A
+Tokenizing Prompts (num_proc=64):  58%|██████████████████████████████████████████████████████████████████████████████████████████▎                                                                 | 5788/10000 [00:30<00:17, 243.97 examples/s][A
+Tokenizing Prompts (num_proc=64):  59%|████████████████████████████████████████████████████████████████████████████████████████████▋                                                               | 5944/10000 [00:31<00:20, 196.31 examples/s][A
+Tokenizing Prompts (num_proc=64):  61%|███████████████████████████████████████████████████████████████████████████████████████████████▏                                                            | 6100/10000 [00:32<00:16, 237.70 examples/s][A
+Tokenizing Prompts (num_proc=64):  63%|█████████████████████████████████████████████████████████████████████████████████████████████████▌                                                          | 6256/10000 [00:32<00:16, 230.78 examples/s][A
+Tokenizing Prompts (num_proc=64):  64%|████████████████████████████████████████████████████████████████████████████████████████████████████                                                        | 6412/10000 [00:33<00:17, 202.40 examples/s][A
+Tokenizing Prompts (num_proc=64):  66%|██████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                     | 6568/10000 [00:34<00:16, 211.34 examples/s][A
+Tokenizing Prompts (num_proc=64):  67%|████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                   | 6724/10000 [00:34<00:12, 252.36 examples/s][A
+Tokenizing Prompts (num_proc=64):  69%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                | 6880/10000 [00:35<00:14, 211.08 examples/s][A
+Tokenizing Prompts (num_proc=64):  70%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                              | 7036/10000 [00:35<00:11, 269.21 examples/s][A
+Tokenizing Prompts (num_proc=64):  72%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                           | 7192/10000 [00:37<00:13, 211.19 examples/s][A
+Tokenizing Prompts (num_proc=64):  73%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                         | 7348/10000 [00:37<00:12, 215.06 examples/s][A
+Tokenizing Prompts (num_proc=64):  75%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                       | 7504/10000 [00:38<00:11, 217.82 examples/s][A
+Tokenizing Prompts (num_proc=64):  77%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                    | 7660/10000 [00:39<00:08, 265.91 examples/s][A
+Tokenizing Prompts (num_proc=64):  78%|█████████████████████████████████████████████████████████��███████████████████████████████████████████████████████████████▉                                  | 7816/10000 [00:39<00:10, 217.90 examples/s][A
+Tokenizing Prompts (num_proc=64):  80%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                               | 7972/10000 [00:40<00:07, 257.93 examples/s][A
+Tokenizing Prompts (num_proc=64):  81%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                             | 8128/10000 [00:40<00:07, 252.92 examples/s][A
+Tokenizing Prompts (num_proc=64):  83%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                          | 8284/10000 [00:41<00:06, 248.70 examples/s][A
+Tokenizing Prompts (num_proc=64):  84%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                        | 8440/10000 [00:42<00:06, 223.21 examples/s][A
+Tokenizing Prompts (num_proc=64):  86%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                      | 8596/10000 [00:43<00:07, 195.45 examples/s][A
+Tokenizing Prompts (num_proc=64):  88%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                   | 8752/10000 [00:43<00:06, 206.92 examples/s][A
+Tokenizing Prompts (num_proc=64):  89%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                 | 8908/10000 [00:44<00:04, 241.71 examples/s][A
+Tokenizing Prompts (num_proc=64):  91%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍              | 9064/10000 [00:45<00:04, 209.77 examples/s][A
+Tokenizing Prompts (num_proc=64):  92%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊            | 9220/10000 [00:45<00:03, 220.03 examples/s][A
+Tokenizing Prompts (num_proc=64):  94%|████████████████████████████████████████████████████████���█████████████████████████████████████████████████████████████████████████████████████████▎         | 9376/10000 [00:46<00:02, 219.94 examples/s][A
+Tokenizing Prompts (num_proc=64):  95%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋       | 9532/10000 [00:47<00:02, 223.80 examples/s][A
+Tokenizing Prompts (num_proc=64):  97%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏    | 9688/10000 [00:47<00:01, 268.62 examples/s][A
+Tokenizing Prompts (num_proc=64):  98%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌  | 9844/10000 [00:48<00:00, 235.39 examples/s][A
+Tokenizing Prompts (num_proc=64): 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10000/10000 [00:48<00:00, 266.70 examples/s][ATokenizing Prompts (num_proc=64): 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10000/10000 [00:50<00:00, 198.43 examples/s]
+
+Dropping Long Sequences:   0%|                                                                                                                                                                                 | 0/10000 [00:00<?, ? examples/s][A
+Dropping Long Sequences:  10%|████████████████▌                                                                                                                                                    | 1000/10000 [00:01<00:13, 669.42 examples/s][A
+Dropping Long Sequences:  20%|████████████████████████████████▊                                                                                                                                   | 2000/10000 [00:01<00:06, 1319.17 examples/s][A
+Dropping Long Sequences:  30%|█████████████████████████████████████████████████▏                                                                                                                  | 3000/10000 [00:01<00:03, 1883.42 examples/s][A
+Dropping Long Sequences:  40%|█████████████████████████████████████████████████████████████████▌                                                                                                  | 4000/10000 [00:02<00:02, 2411.17 examples/s][A
+Dropping Long Sequences:  50%|██████████████████████████████████████████████████████████████████████████████████                                                                                  | 5000/10000 [00:02<00:01, 2820.26 examples/s][A
+Dropping Long Sequences:  60%|█████████��████████████████████████████████████████████████████████████████████████████████████████▍                                                                 | 6000/10000 [00:02<00:01, 3160.95 examples/s][A
+Dropping Long Sequences:  70%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                 | 7000/10000 [00:02<00:00, 3376.84 examples/s][A
+Dropping Long Sequences:  80%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                | 8000/10000 [00:03<00:00, 3402.15 examples/s][A
+Dropping Long Sequences:  90%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                | 9000/10000 [00:03<00:00, 3572.38 examples/s][A
+Dropping Long Sequences: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10000/10000 [00:03<00:00, 3594.16 examples/s][ADropping Long Sequences: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10000/10000 [00:03<00:00, 2596.60 examples/s]
+
+Add position_id column (Pretraining Sample Packing):   0%|                                                                                                                                                      | 0/8743 [00:00<?, ? examples/s][A
+Add position_id column (Pretraining Sample Packing):  11%|███████████████▊                                                                                                                          | 1000/8743 [00:01<00:10, 736.46 examples/s][A
+Add position_id column (Pretraining Sample Packing):  23%|███████████████████████████████▎                                                                                                         | 2000/8743 [00:01<00:04, 1549.44 examples/s][A
+Add position_id column (Pretraining Sample Packing):  34%|███████████████████████████████████████████████                                                                                          | 3000/8743 [00:01<00:02, 2419.00 examples/s][A
+Add position_id column (Pretraining Sample Packing):  46%|██████████████████████████████████████████████████████████████▋                                                                          | 4000/8743 [00:01<00:01, 3205.89 examples/s][A
+Add position_id column (Pretraining Sample Packing):  57%|██████████████████████████████████████████████████████████████████████████████▎                                                          | 5000/8743 [00:01<00:00, 4000.74 examples/s][A
+Add position_id column (Pretraining Sample Packing):  69%|███████████████████���██████████████████████████████████████████████████████████████████████████                                           | 6000/8743 [00:02<00:00, 4697.10 examples/s][A
+Add position_id column (Pretraining Sample Packing):  80%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                           | 7000/8743 [00:02<00:00, 5259.32 examples/s][A
+Add position_id column (Pretraining Sample Packing):  92%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎           | 8000/8743 [00:02<00:00, 5510.10 examples/s][A
+Add position_id column (Pretraining Sample Packing): 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 8743/8743 [00:02<00:00, 5813.11 examples/s][AAdd position_id column (Pretraining Sample Packing): 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 8743/8743 [00:02<00:00, 3429.31 examples/s]
+[2025-11-16 21:58:55,126] [DEBUG] [axolotl.utils.samplers.multipack.pack_parallel:177] [PID:8163] Using single process for pack_parallel, running sequentially.
+  2%|████▋                                                                                                                                                                                               | 354/15000 [16:09<88:42:59, 21.81s/it]  2%|████▋                                                                                                                                                                                               | 355/15000 [16:12<64:57:52, 15.97s/it]  2%|████▋                                                                                                                                                                                               | 356/15000 [16:14<48:19:48, 11.88s/it]  2%|████▋                                                                                                                                                                                               | 357/15000 [16:16<36:41:01,  9.02s/it]  2%|████▋                                                                                                                                                                                               | 358/15000 [16:19<28:32:37,  7.02s/it]  2%|████▋                                                                                                                                                                                               | 359/15000 [16:21<22:50:38,  5.62s/it]  2%|████▋                                                                                                                                                                                               | 360/15000 [16:23<18:51:52,  4.64s/it]                                                                                                                                                                                                                                                {'loss': 5.7351, 'grad_norm': 3.015625, 'learning_rate': 1.3868333333333332e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.23, 'tokens_per_second_per_gpu': 3312.97, 'total_tokens': 2938911, 'epoch': 0.02}
+  2%|████▋                                                                                                                                                                                               | 360/15000 [16:23<18:51:52,  4.64s/it]  2%|████▋                                                                                                                                                                                               | 361/15000 [16:26<16:04:39,  3.95s/it]  2%|████▋                                                                                                                                                                                               | 362/15000 [16:28<14:07:22,  3.47s/it]  2%|████▋                                                                                                                                                                                               | 363/15000 [16:30<12:45:16,  3.14s/it]  2%|████▊                                                                                                                                                                                               | 364/15000 [16:33<11:47:46,  2.90s/it]  2%|████▊                                                                                                                                                                                               | 365/15000 [16:35<11:07:10,  2.74s/it]  2%|████▊                                                                                                                                                                                               | 366/15000 [16:38<10:39:14,  2.62s/it]  2%|████▊                                                                                                                                                                                               | 367/15000 [16:40<10:19:13,  2.54s/it]  2%|████▊                                                                                                                                                                                               | 368/15000 [16:42<10:06:00,  2.49s/it]  2%|████▊                                                                                                                                                                                                | 369/15000 [16:45<9:55:58,  2.44s/it]  2%|████▊                                                                                                                                                                                                | 370/15000 [16:47<9:49:20,  2.42s/it]                                                                                                                                                                                                                                                {'loss': 5.6973, 'grad_norm': 2.8125, 'learning_rate': 1.4185e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.23, 'tokens_per_second_per_gpu': 3488.7, 'total_tokens': 3020781, 'epoch': 0.02}
+  2%|████▊                                                                                                                                                                                                | 370/15000 [16:47<9:49:20,  2.42s/it]  2%|████▊                                                                                                                                                                                                | 371/15000 [16:49<9:44:49,  2.40s/it]  2%|████▉                                                                                                                                                                                                | 372/15000 [16:52<9:41:14,  2.38s/it]  2%|████▉                                                                                                                                                                                                | 373/15000 [16:54<9:38:56,  2.37s/it]  2%|████▉                                                                                                                                                                                                | 374/15000 [16:56<9:37:33,  2.37s/it]  2%|████▉                                                                                                                                                                                                | 375/15000 [16:59<9:35:42,  2.36s/it]  3%|████▉                                                                                                                                                                                                | 376/15000 [17:01<9:34:14,  2.36s/it]  3%|████▉                                                                                                                                                                                                | 377/15000 [17:03<9:33:25,  2.35s/it]  3%|████▉                                                                                                                                                                                                | 378/15000 [17:06<9:33:10,  2.35s/it]  3%|████▉                                                                                                                                                                                                | 379/15000 [17:08<9:32:30,  2.35s/it]  3%|████▉                                                                                                                                                                                                | 380/15000 [17:10<9:32:07,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 5.7417, 'grad_norm': 3.03125, 'learning_rate': 1.4501666666666667e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.23, 'tokens_per_second_per_gpu': 3500.56, 'total_tokens': 3102605, 'epoch': 0.03}
+  3%|████▉                                                                                                                                                                                                | 380/15000 [17:10<9:32:07,  2.35s/it]  3%|█████                                                                                                                                                                                                | 381/15000 [17:13<9:31:58,  2.35s/it]  3%|█████                                                                                                                                                                                                | 382/15000 [17:15<9:32:18,  2.35s/it]  3%|█████                                                                                                                                                                                                | 383/15000 [17:17<9:32:24,  2.35s/it]  3%|█████                                                                                                                                                                                                | 384/15000 [17:20<9:32:47,  2.35s/it]  3%|█████                                                                                                                                                                                                | 385/15000 [17:22<9:32:34,  2.35s/it]  3%|█████                                                                                                                                                                                                | 386/15000 [17:25<9:32:25,  2.35s/it]  3%|█████                                                                                                                                                                                                | 387/15000 [17:27<9:32:11,  2.35s/it]  3%|█████                                                                                                                                                                                                | 388/15000 [17:29<9:32:02,  2.35s/it]  3%|█████                                                                                                                                                                                                | 389/15000 [17:32<9:31:53,  2.35s/it]  3%|█████                                                                                                                                                                                                | 390/15000 [17:34<9:33:09,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 5.679, 'grad_norm': 3.1875, 'learning_rate': 1.4818333333333333e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.23, 'tokens_per_second_per_gpu': 3468.34, 'total_tokens': 3184431, 'epoch': 0.03}
+  3%|█████                                                                                                                                                                                                | 390/15000 [17:34<9:33:09,  2.35s/it]  3%|█████▏                                                                                                                                                                                               | 391/15000 [17:36<9:33:18,  2.35s/it]  3%|█████▏                                                                                                                                                                                               | 392/15000 [17:39<9:33:00,  2.35s/it]  3%|█████▏                                                                                                                                                                                               | 393/15000 [17:41<9:32:22,  2.35s/it]  3%|█████▏                                                                                                                                                                                               | 394/15000 [17:43<9:31:49,  2.35s/it]  3%|█████▏                                                                                                                                                                                               | 395/15000 [17:46<9:31:39,  2.35s/it]  3%|█████▏                                                                                                                                                                                               | 396/15000 [17:48<9:31:28,  2.35s/it]  3%|█████▏                                                                                                                                                                                               | 397/15000 [17:50<9:32:19,  2.35s/it]  3%|█████▏                                                                                                                                                                                               | 398/15000 [17:53<9:32:03,  2.35s/it]  3%|█████▏                                                                                                                                                                                               | 399/15000 [17:55<9:32:04,  2.35s/it]  3%|█████▎                                                                                                                                                                                               | 400/15000 [17:57<9:32:27,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 5.5407, 'grad_norm': 3.078125, 'learning_rate': 1.5135e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.23, 'tokens_per_second_per_gpu': 3481.6, 'total_tokens': 3266230, 'epoch': 0.03}
+  3%|█████▎                                                                                                                                                                                               | 400/15000 [17:57<9:32:27,  2.35s/it]  3%|█████▎                                                                                                                                                                                               | 401/15000 [18:00<9:32:29,  2.35s/it]  3%|█████▎                                                                                                                                                                                               | 402/15000 [18:02<9:32:12,  2.35s/it]  3%|█████▎                                                                                                                                                                                               | 403/15000 [18:05<9:32:14,  2.35s/it]  3%|█████▎                                                                                                                                                                                               | 404/15000 [18:07<9:33:23,  2.36s/it]  3%|█████▎                                                                                                                                                                                               | 405/15000 [18:09<9:33:13,  2.36s/it]  3%|█████▎                                                                                                                                                                                               | 406/15000 [18:12<9:32:16,  2.35s/it]  3%|█████▎                                                                                                                                                                                               | 407/15000 [18:14<9:31:32,  2.35s/it]  3%|█████▎                                                                                                                                                                                               | 408/15000 [18:16<9:31:32,  2.35s/it]  3%|█████▎                                                                                                                                                                                               | 409/15000 [18:19<9:31:56,  2.35s/it]  3%|█████▍                                                                                                                                                                                               | 410/15000 [18:21<9:31:41,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 5.5644, 'grad_norm': 2.84375, 'learning_rate': 1.5451666666666666e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.23, 'tokens_per_second_per_gpu': 3493.68, 'total_tokens': 3348047, 'epoch': 0.03}
+  3%|█████▍                                                                                                                                                                                               | 410/15000 [18:21<9:31:41,  2.35s/it]  3%|█████▍                                                                                                                                                                                               | 411/15000 [18:23<9:32:18,  2.35s/it]  3%|█████▍                                                                                                                                                                                               | 412/15000 [18:26<9:32:01,  2.35s/it]  3%|█████▍                                                                                                                                                                                               | 413/15000 [18:28<9:32:27,  2.35s/it]  3%|█████▍                                                                                                                                                                                               | 414/15000 [18:30<9:31:45,  2.35s/it]  3%|█████▍                                                                                                                                                                                               | 415/15000 [18:33<9:31:43,  2.35s/it]  3%|█████▍                                                                                                                                                                                               | 416/15000 [18:35<9:31:59,  2.35s/it]  3%|█████▍                                                                                                                                                                                               | 417/15000 [18:37<9:31:45,  2.35s/it]  3%|█████▍                                                                                                                                                                                               | 418/15000 [18:40<9:31:35,  2.35s/it]  3%|█████▌                                                                                                                                                                                               | 419/15000 [18:42<9:31:18,  2.35s/it]  3%|█████▌                                                                                                                                                                                               | 420/15000 [18:45<9:30:43,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 5.596, 'grad_norm': 2.71875, 'learning_rate': 1.5768333333333333e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.23, 'tokens_per_second_per_gpu': 3503.13, 'total_tokens': 3429893, 'epoch': 0.03}
+  3%|█████▌                                                                                                                                                                                               | 420/15000 [18:45<9:30:43,  2.35s/it]  3%|█████▌                                                                                                                                                                                               | 421/15000 [18:47<9:31:18,  2.35s/it]  3%|█████▌                                                                                                                                                                                               | 422/15000 [18:49<9:31:23,  2.35s/it]  3%|█████▌                                                                                                                                                                                               | 423/15000 [18:52<9:31:09,  2.35s/it]  3%|█████▌                                                                                                                                                                                               | 424/15000 [18:54<9:31:13,  2.35s/it]  3%|█████▌                                                                                                                                                                                               | 425/15000 [18:56<9:31:20,  2.35s/it]  3%|█████▌                                                                                                                                                                                               | 426/15000 [18:59<9:31:14,  2.35s/it]  3%|█████▌                                                                                                                                                                                               | 427/15000 [19:01<9:30:52,  2.35s/it]  3%|█████▌                                                                                                                                                                                               | 428/15000 [19:03<9:30:42,  2.35s/it]  3%|█████▋                                                                                                                                                                                               | 429/15000 [19:06<9:30:48,  2.35s/it]  3%|█████▋                                                                                                                                                                                               | 430/15000 [19:08<9:31:22,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 5.6445, 'grad_norm': 2.546875, 'learning_rate': 1.6084999999999996e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.23, 'tokens_per_second_per_gpu': 3476.81, 'total_tokens': 3511657, 'epoch': 0.03}
+  3%|█████▋                                                                                                                                                                                               | 430/15000 [19:08<9:31:22,  2.35s/it]  3%|█████▋                                                                                                                                                                                               | 431/15000 [19:10<9:31:19,  2.35s/it]  3%|█████▋                                                                                                                                                                                               | 432/15000 [19:13<9:31:26,  2.35s/it]  3%|█████▋                                                                                                                                                                                               | 433/15000 [19:15<9:31:14,  2.35s/it]  3%|█████▋                                                                                                                                                                                               | 434/15000 [19:17<9:31:03,  2.35s/it]  3%|█████▋                                                                                                                                                                                               | 435/15000 [19:20<9:31:25,  2.35s/it]  3%|█████▋                                                                                                                                                                                               | 436/15000 [19:22<9:31:02,  2.35s/it]  3%|█████▋                                                                                                                                                                                               | 437/15000 [19:24<9:30:54,  2.35s/it]  3%|█████▊                                                                                                                                                                                               | 438/15000 [19:27<9:30:56,  2.35s/it]  3%|█████▊                                                                                                                                                                                               | 439/15000 [19:29<9:31:01,  2.35s/it]  3%|█████▊                                                                                                                                                                                               | 440/15000 [19:32<9:30:52,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 5.7595, 'grad_norm': 2.65625, 'learning_rate': 1.640166666666667e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.23, 'tokens_per_second_per_gpu': 3490.41, 'total_tokens': 3593479, 'epoch': 0.03}
+  3%|█████▊                                                                                                                                                                                               | 440/15000 [19:32<9:30:52,  2.35s/it]  3%|█████▊                                                                                                                                                                                               | 441/15000 [19:34<9:30:35,  2.35s/it]  3%|█████▊                                                                                                                                                                                               | 442/15000 [19:36<9:30:29,  2.35s/it]  3%|█████▊                                                                                                                                                                                               | 443/15000 [19:39<9:30:42,  2.35s/it]  3%|█████▊                                                                                                                                                                                               | 444/15000 [19:41<9:30:56,  2.35s/it]  3%|█████▊                                                                                                                                                                                               | 445/15000 [19:43<9:30:32,  2.35s/it]  3%|█████▊                                                                                                                                                                                               | 446/15000 [19:46<9:30:41,  2.35s/it]  3%|█████▊                                                                                                                                                                                               | 447/15000 [19:48<9:30:51,  2.35s/it]  3%|█████▉                                                                                                                                                                                               | 448/15000 [19:50<9:30:47,  2.35s/it]  3%|█████▉                                                                                                                                                                                               | 449/15000 [19:53<9:31:14,  2.36s/it]  3%|█████▉                                                                                                                                                                                               | 450/15000 [19:55<9:30:51,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 5.5173, 'grad_norm': 2.53125, 'learning_rate': 1.6718333333333332e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.23, 'tokens_per_second_per_gpu': 3487.88, 'total_tokens': 3675219, 'epoch': 0.03}
+  3%|█████▉                                                                                                                                                                                               | 450/15000 [19:55<9:30:51,  2.35s/it]  3%|█████▉                                                                                                                                                                                               | 451/15000 [19:57<9:30:20,  2.35s/it]  3%|█████▉                                                                                                                                                                                               | 452/15000 [20:00<9:30:07,  2.35s/it]  3%|█████▉                                                                                                                                                                                               | 453/15000 [20:02<9:30:06,  2.35s/it]  3%|█████▉                                                                                                                                                                                               | 454/15000 [20:04<9:30:03,  2.35s/it]  3%|█████▉                                                                                                                                                                                               | 455/15000 [20:07<9:29:58,  2.35s/it]  3%|█████▉                                                                                                                                                                                               | 456/15000 [20:09<9:29:58,  2.35s/it]  3%|██████                                                                                                                                                                                               | 457/15000 [20:12<9:29:53,  2.35s/it]  3%|██████                                                                                                                                                                                               | 458/15000 [20:14<9:30:19,  2.35s/it]  3%|██████                                                                                                                                                                                               | 459/15000 [20:16<9:29:51,  2.35s/it]  3%|██████                                                                                                                                                                                               | 460/15000 [20:19<9:30:19,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 5.6169, 'grad_norm': 2.78125, 'learning_rate': 1.7035e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.23, 'tokens_per_second_per_gpu': 3478.53, 'total_tokens': 3757006, 'epoch': 0.03}
+  3%|██████                                                                                                                                                                                               | 460/15000 [20:19<9:30:19,  2.35s/it]  3%|██████                                                                                                                                                                                               | 461/15000 [20:21<9:31:01,  2.36s/it]  3%|██████                                                                                                                                                                                               | 462/15000 [20:23<9:30:48,  2.36s/it]  3%|██████                                                                                                                                                                                               | 463/15000 [20:26<9:30:01,  2.35s/it]  3%|██████                                                                                                                                                                                               | 464/15000 [20:28<9:30:17,  2.35s/it]  3%|██████                                                                                                                                                                                               | 465/15000 [20:30<9:30:21,  2.35s/it]  3%|██████                                                                                                                                                                                               | 466/15000 [20:33<9:30:20,  2.35s/it]  3%|██████▏                                                                                                                                                                                              | 467/15000 [20:35<9:30:39,  2.36s/it]  3%|██████▏                                                                                                                                                                                              | 468/15000 [20:37<9:30:20,  2.35s/it]  3%|██████▏                                                                                                                                                                                             | 469/15000 [20:40<10:02:25,  2.49s/it]  3%|██████▏                                                                                                                                                                                              | 470/15000 [20:43<9:52:27,  2.45s/it]                                                                                                                                                                                                                                                {'loss': 5.5778, 'grad_norm': 2.34375, 'learning_rate': 1.7351666666666665e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.23, 'tokens_per_second_per_gpu': 3489.96, 'total_tokens': 3838798, 'epoch': 0.03}
+  3%|██████▏                                                                                                                                                                                              | 470/15000 [20:43<9:52:27,  2.45s/it]  3%|██████▏                                                                                                                                                                                              | 471/15000 [20:45<9:45:51,  2.42s/it]  3%|██████▏                                                                                                                                                                                              | 472/15000 [20:47<9:40:57,  2.40s/it]  3%|██████▏                                                                                                                                                                                              | 473/15000 [20:50<9:37:09,  2.38s/it]  3%|██████▏                                                                                                                                                                                              | 474/15000 [20:52<9:34:20,  2.37s/it]  3%|██████▏                                                                                                                                                                                              | 475/15000 [20:54<9:32:38,  2.37s/it]  3%|██████▎                                                                                                                                                                                              | 476/15000 [20:57<9:31:32,  2.36s/it]  3%|██████▎                                                                                                                                                                                              | 477/15000 [20:59<9:31:22,  2.36s/it]  3%|██████▎                                                                                                                                                                                              | 478/15000 [21:01<9:31:07,  2.36s/it]  3%|██████▎                                                                                                                                                                                              | 479/15000 [21:04<9:30:34,  2.36s/it]  3%|██████▎                                                                                                                                                                                              | 480/15000 [21:06<9:30:15,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 5.4445, 'grad_norm': 2.25, 'learning_rate': 1.7668333333333335e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.23, 'tokens_per_second_per_gpu': 3482.88, 'total_tokens': 3920531, 'epoch': 0.03}
+  3%|██████▎                                                                                                                                                                                              | 480/15000 [21:06<9:30:15,  2.36s/it]  3%|██████▎                                                                                                                                                                                              | 481/15000 [21:08<9:30:00,  2.36s/it]  3%|██████▎                                                                                                                                                                                              | 482/15000 [21:11<9:29:36,  2.35s/it]  3%|██████▎                                                                                                                                                                                              | 483/15000 [21:13<9:29:55,  2.36s/it]  3%|██████▎                                                                                                                                                                                              | 484/15000 [21:16<9:29:46,  2.36s/it]  3%|██████▎                                                                                                                                                                                              | 485/15000 [21:18<9:28:55,  2.35s/it]  3%|██████▍                                                                                                                                                                                              | 486/15000 [21:20<9:28:58,  2.35s/it]  3%|██████▍                                                                                                                                                                                              | 487/15000 [21:23<9:29:18,  2.35s/it]  3%|██████▍                                                                                                                                                                                              | 488/15000 [21:25<9:29:17,  2.35s/it]  3%|██████▍                                                                                                                                                                                              | 489/15000 [21:27<9:29:01,  2.35s/it]  3%|██████▍                                                                                                                                                                                              | 490/15000 [21:30<9:28:55,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 5.4299, 'grad_norm': 3.78125, 'learning_rate': 1.7984999999999998e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.23, 'tokens_per_second_per_gpu': 3487.0, 'total_tokens': 4002303, 'epoch': 0.03}
+  3%|██████▍                                                                                                                                                                                              | 490/15000 [21:30<9:28:55,  2.35s/it]  3%|██████▍                                                                                                                                                                                              | 491/15000 [21:32<9:29:30,  2.36s/it]  3%|██████▍                                                                                                                                                                                              | 492/15000 [21:34<9:29:04,  2.35s/it]  3%|██████▍                                                                                                                                                                                              | 493/15000 [21:37<9:29:07,  2.35s/it]  3%|██████▍                                                                                                                                                                                              | 494/15000 [21:39<9:28:42,  2.35s/it]  3%|██████▌                                                                                                                                                                                              | 495/15000 [21:41<9:29:00,  2.35s/it]  3%|██████▌                                                                                                                                                                                              | 496/15000 [21:44<9:29:19,  2.36s/it]  3%|██████▌                                                                                                                                                                                              | 497/15000 [21:46<9:30:02,  2.36s/it]  3%|██████▌                                                                                                                                                                                              | 498/15000 [21:48<9:29:17,  2.36s/it]  3%|██████▌                                                                                                                                                                                              | 499/15000 [21:51<9:28:58,  2.35s/it]  3%|██████▌                                                                                                                                                                                              | 500/15000 [21:53<9:29:06,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 5.3942, 'grad_norm': 2.203125, 'learning_rate': 1.8301666666666668e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.23, 'tokens_per_second_per_gpu': 3480.65, 'total_tokens': 4084085, 'epoch': 0.03}
+  3%|██████▌                                                                                                                                                                                              | 500/15000 [21:53<9:29:06,  2.35s/it]  3%|██████▌                                                                                                                                                                                              | 501/15000 [21:56<9:28:32,  2.35s/it]  3%|██████▌                                                                                                                                                                                              | 502/15000 [21:58<9:28:26,  2.35s/it]  3%|██████▌                                                                                                                                                                                              | 503/15000 [22:00<9:28:37,  2.35s/it]  3%|██████▌                                                                                                                                                                                              | 504/15000 [22:03<9:28:26,  2.35s/it]  3%|██████▋                                                                                                                                                                                              | 505/15000 [22:05<9:28:35,  2.35s/it]  3%|██████▋                                                                                                                                                                                              | 506/15000 [22:07<9:28:02,  2.35s/it]  3%|██████▋                                                                                                                                                                                              | 507/15000 [22:10<9:28:09,  2.35s/it]  3%|██████▋                                                                                                                                                                                              | 508/15000 [22:12<9:28:05,  2.35s/it]  3%|██████▋                                                                                                                                                                                              | 509/15000 [22:14<9:27:37,  2.35s/it]  3%|██████▋                                                                                                                                                                                              | 510/15000 [22:17<9:27:37,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 5.4095, 'grad_norm': 2.234375, 'learning_rate': 1.861833333333333e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.23, 'tokens_per_second_per_gpu': 3491.63, 'total_tokens': 4165907, 'epoch': 0.03}
+  3%|██████▋                                                                                                                                                                                              | 510/15000 [22:17<9:27:37,  2.35s/it]  3%|██████▋                                                                                                                                                                                              | 511/15000 [22:19<9:27:59,  2.35s/it]  3%|██████▋                                                                                                                                                                                              | 512/15000 [22:21<9:27:38,  2.35s/it]  3%|██████▋                                                                                                                                                                                              | 513/15000 [22:24<9:27:37,  2.35s/it]  3%|██████▊                                                                                                                                                                                              | 514/15000 [22:26<9:27:30,  2.35s/it]  3%|██████▊                                                                                                                                                                                              | 515/15000 [22:28<9:26:59,  2.35s/it]  3%|██████▊                                                                                                                                                                                              | 516/15000 [22:31<9:27:33,  2.35s/it]  3%|██████▊                                                                                                                                                                                              | 517/15000 [22:33<9:27:20,  2.35s/it]  3%|██████▊                                                                                                                                                                                              | 518/15000 [22:36<9:27:42,  2.35s/it]  3%|██████▊                                                                                                                                                                                              | 519/15000 [22:38<9:27:45,  2.35s/it]  3%|██████▊                                                                                                                                                                                              | 520/15000 [22:40<9:28:03,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 5.363, 'grad_norm': 2.0625, 'learning_rate': 1.8934999999999997e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.23, 'tokens_per_second_per_gpu': 3481.05, 'total_tokens': 4247715, 'epoch': 0.03}
+  3%|██████▊                                                                                                                                                                                              | 520/15000 [22:40<9:28:03,  2.35s/it]  3%|██████▊                                                                                                                                                                                              | 521/15000 [22:43<9:28:47,  2.36s/it]  3%|██████▊                                                                                                                                                                                              | 522/15000 [22:45<9:28:52,  2.36s/it]  3%|██████▊                                                                                                                                                                                              | 523/15000 [22:47<9:28:22,  2.36s/it]  3%|██████▉                                                                                                                                                                                              | 524/15000 [22:50<9:28:16,  2.36s/it]  4%|██████▉                                                                                                                                                                                              | 525/15000 [22:52<9:27:51,  2.35s/it]  4%|██████▉                                                                                                                                                                                              | 526/15000 [22:54<9:28:01,  2.35s/it]  4%|██████▉                                                                                                                                                                                              | 527/15000 [22:57<9:27:55,  2.35s/it]  4%|██████▉                                                                                                                                                                                              | 528/15000 [22:59<9:27:28,  2.35s/it]  4%|██████▉                                                                                                                                                                                              | 529/15000 [23:01<9:27:54,  2.35s/it]  4%|██████▉                                                                                                                                                                                              | 530/15000 [23:04<9:27:48,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 5.3589, 'grad_norm': 2.171875, 'learning_rate': 1.9251666666666667e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.23, 'tokens_per_second_per_gpu': 3484.97, 'total_tokens': 4329500, 'epoch': 0.04}
+  4%|██████▉                                                                                                                                                                                              | 530/15000 [23:04<9:27:48,  2.35s/it]  4%|██████▉                                                                                                                                                                                              | 531/15000 [23:06<9:27:55,  2.36s/it]  4%|██████▉                                                                                                                                                                                              | 532/15000 [23:09<9:28:27,  2.36s/it]  4%|███████                                                                                                                                                                                              | 533/15000 [23:11<9:27:57,  2.36s/it]  4%|███████                                                                                                                                                                                              | 534/15000 [23:13<9:28:02,  2.36s/it]  4%|███████                                                                                                                                                                                              | 535/15000 [23:16<9:27:53,  2.36s/it]  4%|███████                                                                                                                                                                                              | 536/15000 [23:18<9:27:32,  2.35s/it]  4%|███████                                                                                                                                                                                              | 537/15000 [23:20<9:27:24,  2.35s/it]  4%|███████                                                                                                                                                                                              | 538/15000 [23:23<9:27:16,  2.35s/it]  4%|███████                                                                                                                                                                                              | 539/15000 [23:25<9:27:43,  2.36s/it]  4%|███████                                                                                                                                                                                              | 540/15000 [23:27<9:27:25,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 5.2757, 'grad_norm': 2.15625, 'learning_rate': 1.9568333333333334e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.23, 'tokens_per_second_per_gpu': 3487.63, 'total_tokens': 4411275, 'epoch': 0.04}
+  4%|███████                                                                                                                                                                                              | 540/15000 [23:27<9:27:25,  2.35s/it]  4%|███████                                                                                                                                                                                              | 541/15000 [23:30<9:27:28,  2.35s/it]  4%|███████                                                                                                                                                                                              | 542/15000 [23:32<9:27:14,  2.35s/it]  4%|███████▏                                                                                                                                                                                             | 543/15000 [23:34<9:27:19,  2.35s/it]  4%|███████▏                                                                                                                                                                                             | 544/15000 [23:37<9:27:47,  2.36s/it]  4%|███████▏                                                                                                                                                                                             | 545/15000 [23:39<9:27:20,  2.35s/it]  4%|███████▏                                                                                                                                                                                             | 546/15000 [23:41<9:27:36,  2.36s/it]  4%|███████▏                                                                                                                                                                                             | 547/15000 [23:44<9:27:23,  2.36s/it]  4%|███████▏                                                                                                                                                                                             | 548/15000 [23:46<9:27:50,  2.36s/it]  4%|███████▏                                                                                                                                                                                             | 549/15000 [23:49<9:27:14,  2.36s/it]  4%|███████▏                                                                                                                                                                                             | 550/15000 [23:51<9:27:24,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 5.298, 'grad_norm': 1.9609375, 'learning_rate': 1.9884999999999997e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.23, 'tokens_per_second_per_gpu': 3479.38, 'total_tokens': 4493070, 'epoch': 0.04}
+  4%|███████▏                                                                                                                                                                                             | 550/15000 [23:51<9:27:24,  2.36s/it]  4%|███████▏                                                                                                                                                                                             | 551/15000 [23:53<9:26:56,  2.35s/it]  4%|███████▏                                                                                                                                                                                             | 552/15000 [23:56<9:26:48,  2.35s/it]  4%|███████▎                                                                                                                                                                                             | 553/15000 [23:58<9:26:57,  2.35s/it]  4%|███████▎                                                                                                                                                                                             | 554/15000 [24:00<9:26:27,  2.35s/it]  4%|███████▎                                                                                                                                                                                             | 555/15000 [24:03<9:26:16,  2.35s/it]  4%|███████▎                                                                                                                                                                                             | 556/15000 [24:05<9:26:12,  2.35s/it]  4%|███████▎                                                                                                                                                                                             | 557/15000 [24:07<9:25:20,  2.35s/it]  4%|███████▎                                                                                                                                                                                             | 558/15000 [24:10<9:25:44,  2.35s/it]  4%|███████▎                                                                                                                                                                                             | 559/15000 [24:12<9:25:28,  2.35s/it]  4%|███████▎                                                                                                                                                                                             | 560/15000 [24:14<9:25:25,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 5.3707, 'grad_norm': 2.03125, 'learning_rate': 2.0201666666666667e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.23, 'tokens_per_second_per_gpu': 3490.51, 'total_tokens': 4574822, 'epoch': 0.04}
+  4%|███████▎                                                                                                                                                                                             | 560/15000 [24:14<9:25:25,  2.35s/it]  4%|███████▎                                                                                                                                                                                             | 561/15000 [24:17<9:25:59,  2.35s/it]  4%|███████▍                                                                                                                                                                                             | 562/15000 [24:19<9:26:11,  2.35s/it]  4%|███████▍                                                                                                                                                                                             | 563/15000 [24:21<9:25:58,  2.35s/it]  4%|███████▍                                                                                                                                                                                             | 564/15000 [24:24<9:25:54,  2.35s/it]  4%|███████▍                                                                                                                                                                                             | 565/15000 [24:26<9:25:37,  2.35s/it]  4%|███████▍                                                                                                                                                                                             | 566/15000 [24:29<9:25:06,  2.35s/it]  4%|███████▍                                                                                                                                                                                             | 567/15000 [24:31<9:25:05,  2.35s/it]  4%|███████▍                                                                                                                                                                                             | 568/15000 [24:33<9:24:57,  2.35s/it]  4%|███████▍                                                                                                                                                                                             | 569/15000 [24:36<9:25:45,  2.35s/it]  4%|███████▍                                                                                                                                                                                             | 570/15000 [24:38<9:25:39,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 5.3575, 'grad_norm': 2.078125, 'learning_rate': 2.0518333333333333e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.23, 'tokens_per_second_per_gpu': 3486.94, 'total_tokens': 4656577, 'epoch': 0.04}
+  4%|███████▍                                                                                                                                                                                             | 570/15000 [24:38<9:25:39,  2.35s/it]  4%|███████▍                                                                                                                                                                                             | 571/15000 [24:40<9:25:34,  2.35s/it]  4%|███████▌                                                                                                                                                                                             | 572/15000 [24:43<9:25:13,  2.35s/it]  4%|███████▌                                                                                                                                                                                             | 573/15000 [24:45<9:25:46,  2.35s/it]  4%|███████▌                                                                                                                                                                                             | 574/15000 [24:47<9:25:27,  2.35s/it]  4%|███████▌                                                                                                                                                                                             | 575/15000 [24:50<9:25:29,  2.35s/it]  4%|███████▌                                                                                                                                                                                             | 576/15000 [24:52<9:25:04,  2.35s/it]  4%|███████▌                                                                                                                                                                                             | 577/15000 [24:54<9:24:57,  2.35s/it]  4%|███████▌                                                                                                                                                                                             | 578/15000 [24:57<9:25:30,  2.35s/it]  4%|███████▌                                                                                                                                                                                             | 579/15000 [24:59<9:25:28,  2.35s/it]  4%|███████▌                                                                                                                                                                                             | 580/15000 [25:01<9:26:02,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 5.2157, 'grad_norm': 1.8984375, 'learning_rate': 2.0835e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.23, 'tokens_per_second_per_gpu': 3472.8, 'total_tokens': 4738323, 'epoch': 0.04}
+  4%|███████▌                                                                                                                                                                                             | 580/15000 [25:01<9:26:02,  2.36s/it]  4%|███████▋                                                                                                                                                                                             | 581/15000 [25:04<9:25:57,  2.36s/it]  4%|███████▋                                                                                                                                                                                             | 582/15000 [25:06<9:25:58,  2.36s/it]  4%|███████▋                                                                                                                                                                                             | 583/15000 [25:09<9:25:43,  2.35s/it]  4%|███████▋                                                                                                                                                                                             | 584/15000 [25:11<9:25:52,  2.36s/it]  4%|███████▋                                                                                                                                                                                             | 585/15000 [25:13<9:26:04,  2.36s/it]  4%|███████▋                                                                                                                                                                                             | 586/15000 [25:16<9:26:15,  2.36s/it]  4%|███████▋                                                                                                                                                                                             | 587/15000 [25:18<9:25:19,  2.35s/it]  4%|███████▋                                                                                                                                                                                             | 588/15000 [25:20<9:25:21,  2.35s/it]  4%|███████▋                                                                                                                                                                                             | 589/15000 [25:23<9:25:28,  2.35s/it]  4%|███████▋                                                                                                                                                                                             | 590/15000 [25:25<9:25:30,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 5.2973, 'grad_norm': 2.0625, 'learning_rate': 2.1151666666666666e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.23, 'tokens_per_second_per_gpu': 3480.14, 'total_tokens': 4820047, 'epoch': 0.04}
+  4%|███████▋                                                                                                                                                                                             | 590/15000 [25:25<9:25:30,  2.35s/it]  4%|███████▊                                                                                                                                                                                             | 591/15000 [25:27<9:24:40,  2.35s/it]  4%|███████▊                                                                                                                                                                                             | 592/15000 [25:30<9:25:12,  2.35s/it]  4%|███████▊                                                                                                                                                                                             | 593/15000 [25:32<9:24:45,  2.35s/it]  4%|███████▊                                                                                                                                                                                             | 594/15000 [25:34<9:24:44,  2.35s/it]  4%|███████▊                                                                                                                                                                                             | 595/15000 [25:37<9:25:27,  2.36s/it]  4%|███████▊                                                                                                                                                                                             | 596/15000 [25:39<9:24:51,  2.35s/it]  4%|███████▊                                                                                                                                                                                             | 597/15000 [25:41<9:25:21,  2.36s/it]  4%|███████▊                                                                                                                                                                                             | 598/15000 [25:44<9:24:51,  2.35s/it]  4%|███████▊                                                                                                                                                                                             | 599/15000 [25:46<9:24:55,  2.35s/it]  4%|███████▉                                                                                                                                                                                             | 600/15000 [25:49<9:24:53,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 5.332, 'grad_norm': 1.9140625, 'learning_rate': 2.1468333333333332e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.23, 'tokens_per_second_per_gpu': 3485.94, 'total_tokens': 4901847, 'epoch': 0.04}
+  4%|███████▉                                                                                                                                                                                             | 600/15000 [25:49<9:24:53,  2.35s/it]  4%|███████▉                                                                                                                                                                                             | 601/15000 [25:51<9:24:57,  2.35s/it]  4%|███████▉                                                                                                                                                                                             | 602/15000 [25:53<9:24:48,  2.35s/it]  4%|███████▉                                                                                                                                                                                             | 603/15000 [25:56<9:24:44,  2.35s/it]  4%|███████▉                                                                                                                                                                                             | 604/15000 [25:58<9:24:12,  2.35s/it]  4%|███████▉                                                                                                                                                                                             | 605/15000 [26:00<9:24:06,  2.35s/it]  4%|███████▉                                                                                                                                                                                             | 606/15000 [26:03<9:23:58,  2.35s/it]  4%|███████▉                                                                                                                                                                                             | 607/15000 [26:05<9:24:00,  2.35s/it]  4%|███████▉                                                                                                                                                                                             | 608/15000 [26:07<9:24:38,  2.35s/it]  4%|███████▉                                                                                                                                                                                             | 609/15000 [26:10<9:24:40,  2.35s/it]  4%|████████                                                                                                                                                                                             | 610/15000 [26:12<9:23:51,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 5.2899, 'grad_norm': 1.8515625, 'learning_rate': 2.1785e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.23, 'tokens_per_second_per_gpu': 3496.48, 'total_tokens': 4983533, 'epoch': 0.04}
+  4%|████████                                                                                                                                                                                             | 610/15000 [26:12<9:23:51,  2.35s/it]  4%|████████                                                                                                                                                                                             | 611/15000 [26:14<9:23:53,  2.35s/it]  4%|████████                                                                                                                                                                                             | 612/15000 [26:17<9:24:13,  2.35s/it]  4%|████████                                                                                                                                                                                             | 613/15000 [26:19<9:23:42,  2.35s/it]  4%|████████                                                                                                                                                                                             | 614/15000 [26:21<9:24:19,  2.35s/it]  4%|████████                                                                                                                                                                                             | 615/15000 [26:24<9:23:28,  2.35s/it]  4%|████████                                                                                                                                                                                             | 616/15000 [26:26<9:24:19,  2.35s/it]  4%|████████                                                                                                                                                                                             | 617/15000 [26:29<9:23:58,  2.35s/it]  4%|████████                                                                                                                                                                                             | 618/15000 [26:31<9:23:40,  2.35s/it]  4%|████████▏                                                                                                                                                                                            | 619/15000 [26:33<9:23:18,  2.35s/it]  4%|████████▏                                                                                                                                                                                            | 620/15000 [26:36<9:23:44,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 5.1809, 'grad_norm': 1.859375, 'learning_rate': 2.210166666666667e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.23, 'tokens_per_second_per_gpu': 3474.44, 'total_tokens': 5065167, 'epoch': 0.04}
+  4%|████████▏                                                                                                                                                                                            | 620/15000 [26:36<9:23:44,  2.35s/it]  4%|████████▏                                                                                                                                                                                            | 621/15000 [26:38<9:23:47,  2.35s/it]  4%|████████▏                                                                                                                                                                                            | 622/15000 [26:40<9:23:29,  2.35s/it]  4%|████████▏                                                                                                                                                                                            | 623/15000 [26:43<9:23:45,  2.35s/it]  4%|████████▏                                                                                                                                                                                            | 624/15000 [26:45<9:23:23,  2.35s/it]  4%|████████▏                                                                                                                                                                                            | 625/15000 [26:47<9:23:15,  2.35s/it]  4%|████████▏                                                                                                                                                                                            | 626/15000 [26:50<9:23:22,  2.35s/it]  4%|████████▏                                                                                                                                                                                            | 627/15000 [26:52<9:24:12,  2.36s/it]  4%|████████▏                                                                                                                                                                                            | 628/15000 [26:54<9:23:55,  2.35s/it]  4%|████████▎                                                                                                                                                                                            | 629/15000 [26:57<9:24:07,  2.36s/it]  4%|████████▎                                                                                                                                                                                            | 630/15000 [26:59<9:23:51,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 5.2517, 'grad_norm': 1.828125, 'learning_rate': 2.2418333333333332e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.23, 'tokens_per_second_per_gpu': 3485.27, 'total_tokens': 5146897, 'epoch': 0.04}
+  4%|████████▎                                                                                                                                                                                            | 630/15000 [26:59<9:23:51,  2.35s/it]  4%|████████▎                                                                                                                                                                                            | 631/15000 [27:01<9:23:11,  2.35s/it]  4%|████████▎                                                                                                                                                                                            | 632/15000 [27:04<9:22:57,  2.35s/it]  4%|████████▎                                                                                                                                                                                            | 633/15000 [27:06<9:23:11,  2.35s/it]  4%|████████▎                                                                                                                                                                                            | 634/15000 [27:08<9:23:20,  2.35s/it]  4%|████████▎                                                                                                                                                                                            | 635/15000 [27:11<9:22:47,  2.35s/it]  4%|████████▎                                                                                                                                                                                            | 636/15000 [27:13<9:22:43,  2.35s/it]  4%|████████▎                                                                                                                                                                                            | 637/15000 [27:16<9:23:30,  2.35s/it]  4%|████████▍                                                                                                                                                                                            | 638/15000 [27:18<9:23:03,  2.35s/it]  4%|████████▍                                                                                                                                                                                            | 639/15000 [27:20<9:23:31,  2.35s/it]  4%|████████▍                                                                                                                                                                                            | 640/15000 [27:23<9:23:20,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 5.1762, 'grad_norm': 1.8671875, 'learning_rate': 2.2735e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.23, 'tokens_per_second_per_gpu': 3485.44, 'total_tokens': 5228639, 'epoch': 0.04}
+  4%|████████▍                                                                                                                                                                                            | 640/15000 [27:23<9:23:20,  2.35s/it]  4%|████████▍                                                                                                                                                                                            | 641/15000 [27:25<9:23:22,  2.35s/it]  4%|████████▍                                                                                                                                                                                            | 642/15000 [27:27<9:22:42,  2.35s/it]  4%|████████▍                                                                                                                                                                                            | 643/15000 [27:30<9:21:45,  2.35s/it]  4%|████████▍                                                                                                                                                                                            | 644/15000 [27:32<9:21:47,  2.35s/it]  4%|████████▍                                                                                                                                                                                            | 645/15000 [27:34<9:21:56,  2.35s/it]  4%|████████▍                                                                                                                                                                                            | 646/15000 [27:37<9:22:29,  2.35s/it]  4%|████████▍                                                                                                                                                                                            | 647/15000 [27:39<9:22:02,  2.35s/it]  4%|████████▌                                                                                                                                                                                            | 648/15000 [27:41<9:21:50,  2.35s/it]  4%|████████▌                                                                                                                                                                                            | 649/15000 [27:44<9:22:23,  2.35s/it]  4%|████████▌                                                                                                                                                                                            | 650/15000 [27:46<9:22:29,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 5.2779, 'grad_norm': 1.890625, 'learning_rate': 2.3051666666666665e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.23, 'tokens_per_second_per_gpu': 3482.84, 'total_tokens': 5310354, 'epoch': 0.04}
+  4%|████████▌                                                                                                                                                                                            | 650/15000 [27:46<9:22:29,  2.35s/it]  4%|████████▌                                                                                                                                                                                            | 651/15000 [27:48<9:22:57,  2.35s/it]  4%|████████▌                                                                                                                                                                                            | 652/15000 [27:51<9:22:50,  2.35s/it]  4%|████████▌                                                                                                                                                                                            | 653/15000 [27:53<9:22:40,  2.35s/it]  4%|████████▌                                                                                                                                                                                            | 654/15000 [27:56<9:22:35,  2.35s/it]  4%|████████▌                                                                                                                                                                                            | 655/15000 [27:58<9:22:24,  2.35s/it]  4%|████████▌                                                                                                                                                                                            | 656/15000 [28:00<9:22:06,  2.35s/it]  4%|████████▋                                                                                                                                                                                            | 657/15000 [28:03<9:22:05,  2.35s/it]  4%|████████▋                                                                                                                                                                                            | 658/15000 [28:05<9:22:09,  2.35s/it]  4%|████████▋                                                                                                                                                                                            | 659/15000 [28:07<9:22:14,  2.35s/it]  4%|████████▋                                                                                                                                                                                            | 660/15000 [28:10<9:22:03,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 5.2515, 'grad_norm': 1.921875, 'learning_rate': 2.3368333333333335e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.23, 'tokens_per_second_per_gpu': 3487.74, 'total_tokens': 5392081, 'epoch': 0.04}
+  4%|████████▋                                                                                                                                                                                            | 660/15000 [28:10<9:22:03,  2.35s/it]  4%|████████▋                                                                                                                                                                                            | 661/15000 [28:12<9:22:25,  2.35s/it]  4%|████████▋                                                                                                                                                                                            | 662/15000 [28:14<9:22:00,  2.35s/it]  4%|████████▋                                                                                                                                                                                            | 663/15000 [28:17<9:21:48,  2.35s/it]  4%|████████▋                                                                                                                                                                                            | 664/15000 [28:19<9:22:14,  2.35s/it]  4%|████████▋                                                                                                                                                                                            | 665/15000 [28:21<9:21:51,  2.35s/it]  4%|████████▋                                                                                                                                                                                            | 666/15000 [28:24<9:22:06,  2.35s/it]  4%|████████▊                                                                                                                                                                                            | 667/15000 [28:26<9:22:18,  2.35s/it]  4%|████████▊                                                                                                                                                                                            | 668/15000 [28:28<9:22:28,  2.35s/it]  4%|████████▊                                                                                                                                                                                            | 669/15000 [28:31<9:22:26,  2.35s/it]  4%|████████▊                                                                                                                                                                                            | 670/15000 [28:33<9:22:21,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 5.1507, 'grad_norm': 1.984375, 'learning_rate': 2.3684999999999998e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.23, 'tokens_per_second_per_gpu': 3481.51, 'total_tokens': 5473794, 'epoch': 0.04}
+  4%|████████▊                                                                                                                                                                                            | 670/15000 [28:33<9:22:21,  2.35s/it]  4%|████████▊                                                                                                                                                                                            | 671/15000 [28:36<9:22:38,  2.36s/it]  4%|████████▊                                                                                                                                                                                            | 672/15000 [28:38<9:22:14,  2.35s/it]  4%|████████▊                                                                                                                                                                                            | 673/15000 [28:40<9:21:57,  2.35s/it]  4%|████████▊                                                                                                                                                                                            | 674/15000 [28:43<9:21:57,  2.35s/it]  4%|████████▊                                                                                                                                                                                            | 675/15000 [28:45<9:21:36,  2.35s/it]  5%|████████▉                                                                                                                                                                                            | 676/15000 [28:47<9:21:40,  2.35s/it]  5%|████████▉                                                                                                                                                                                            | 677/15000 [28:50<9:21:49,  2.35s/it]  5%|████████▉                                                                                                                                                                                            | 678/15000 [28:52<9:21:38,  2.35s/it]  5%|████████▉                                                                                                                                                                                            | 679/15000 [28:54<9:21:56,  2.35s/it]  5%|████████▉                                                                                                                                                                                            | 680/15000 [28:57<9:21:55,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 5.0676, 'grad_norm': 1.8046875, 'learning_rate': 2.4001666666666668e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.23, 'tokens_per_second_per_gpu': 3478.78, 'total_tokens': 5555458, 'epoch': 0.05}
+  5%|████████▉                                                                                                                                                                                            | 680/15000 [28:57<9:21:55,  2.35s/it]  5%|████████▉                                                                                                                                                                                            | 681/15000 [28:59<9:22:08,  2.36s/it]  5%|████████▉                                                                                                                                                                                            | 682/15000 [29:01<9:22:01,  2.36s/it]  5%|████████▉                                                                                                                                                                                            | 683/15000 [29:04<9:21:35,  2.35s/it]  5%|████████▉                                                                                                                                                                                            | 684/15000 [29:06<9:21:07,  2.35s/it]  5%|████████▉                                                                                                                                                                                            | 685/15000 [29:08<9:21:03,  2.35s/it]  5%|█████████                                                                                                                                                                                            | 686/15000 [29:11<9:20:48,  2.35s/it]  5%|█████████                                                                                                                                                                                            | 687/15000 [29:13<9:20:52,  2.35s/it]  5%|█████████                                                                                                                                                                                            | 688/15000 [29:16<9:20:48,  2.35s/it]  5%|█████████                                                                                                                                                                                            | 689/15000 [29:18<9:20:37,  2.35s/it]  5%|█████████                                                                                                                                                                                            | 690/15000 [29:20<9:20:33,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 5.1131, 'grad_norm': 1.8046875, 'learning_rate': 2.431833333333333e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.23, 'tokens_per_second_per_gpu': 3482.94, 'total_tokens': 5637067, 'epoch': 0.05}
+  5%|█████████                                                                                                                                                                                            | 690/15000 [29:20<9:20:33,  2.35s/it]  5%|█████████                                                                                                                                                                                            | 691/15000 [29:23<9:21:09,  2.35s/it]  5%|█████████                                                                                                                                                                                            | 692/15000 [29:25<9:20:48,  2.35s/it]  5%|█████████                                                                                                                                                                                            | 693/15000 [29:27<9:21:04,  2.35s/it]  5%|█████████                                                                                                                                                                                            | 694/15000 [29:30<9:20:53,  2.35s/it]  5%|█████████▏                                                                                                                                                                                           | 695/15000 [29:32<9:20:46,  2.35s/it]  5%|█████████▏                                                                                                                                                                                           | 696/15000 [29:34<9:20:53,  2.35s/it]  5%|█████████▏                                                                                                                                                                                           | 697/15000 [29:37<9:21:04,  2.35s/it]  5%|█████████▏                                                                                                                                                                                           | 698/15000 [29:39<9:20:57,  2.35s/it]  5%|█████████▏                                                                                                                                                                                           | 699/15000 [29:41<9:21:21,  2.36s/it]  5%|█████████▏                                                                                                                                                                                           | 700/15000 [29:44<9:21:17,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 5.2028, 'grad_norm': 1.9765625, 'learning_rate': 2.4635e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.23, 'tokens_per_second_per_gpu': 3462.19, 'total_tokens': 5718338, 'epoch': 0.05}
+  5%|█████████▏                                                                                                                                                                                           | 700/15000 [29:44<9:21:17,  2.36s/it]  5%|█████████▏                                                                                                                                                                                           | 701/15000 [29:46<9:21:44,  2.36s/it]  5%|█████████▏                                                                                                                                                                                           | 702/15000 [29:48<9:21:25,  2.36s/it]  5%|█████████▏                                                                                                                                                                                           | 703/15000 [29:51<9:21:13,  2.36s/it]  5%|█████████▏                                                                                                                                                                                           | 704/15000 [29:53<9:20:58,  2.35s/it]  5%|█████████▎                                                                                                                                                                                           | 705/15000 [29:56<9:20:39,  2.35s/it]  5%|█████████▎                                                                                                                                                                                           | 706/15000 [29:58<9:20:19,  2.35s/it]  5%|█████████▎                                                                                                                                                                                           | 707/15000 [30:00<9:20:22,  2.35s/it]  5%|█████████▎                                                                                                                                                                                           | 708/15000 [30:03<9:19:48,  2.35s/it][2025-11-16 22:12:57,510] [INFO] [axolotl.utils.data.wrappers.get_dataset_wrapper:87] [PID:8163] Loading dataset: Goader/kobza-2m-jsonl with base_type: pretrain and prompt_style: None
+
+Tokenizing Prompts (num_proc=64):   0%|                                                                                                                                                                        | 0/10000 [00:00<?, ? examples/s][A
+Tokenizing Prompts (num_proc=64):   2%|██▍                                                                                                                                                           | 157/10000 [00:06<06:43, 24.38 examples/s][A
+Tokenizing Prompts (num_proc=64):   5%|███████▍                                                                                                                                                      | 471/10000 [00:07<01:59, 79.48 examples/s][A
+Tokenizing Prompts (num_proc=64):   6%|█████████▉                                                                                                                                                    | 628/10000 [00:08<01:36, 97.38 examples/s][A
+Tokenizing Prompts (num_proc=64):   8%|████████████▎                                                                                                                                                | 785/10000 [00:08<01:16, 120.26 examples/s][A
+Tokenizing Prompts (num_proc=64):   9%|██████████████▊                                                                                                                                              | 942/10000 [00:10<01:23, 108.44 examples/s][A
+Tokenizing Prompts (num_proc=64):  13%|███████████████████▌                                                                                                                                        | 1256/10000 [00:11<00:53, 164.91 examples/s][A
+Tokenizing Prompts (num_proc=64):  14%|██████████████████████                                                                                                                                      | 1413/10000 [00:12<00:50, 170.29 examples/s][A
+Tokenizing Prompts (num_proc=64):  16%|████████████████████████▍                                                                                                                                   | 1570/10000 [00:13<00:47, 175.84 examples/s][A
+Tokenizing Prompts (num_proc=64):  17%|██████████████████████████▉                                                                                                                                 | 1727/10000 [00:13<00:46, 177.88 examples/s][A
+Tokenizing Prompts (num_proc=64):  19%|█████████████████████████████▍                                                                                                                              | 1884/10000 [00:14<00:43, 187.08 examples/s][A
+Tokenizing Prompts (num_proc=64):  20%|███████████████████████████████▊                                                                                                                            | 2041/10000 [00:15<00:41, 190.64 examples/s][A
+Tokenizing Prompts (num_proc=64):  22%|██████████████████████████████████▎                                                                                                                         | 2198/10000 [00:16<00:40, 193.30 examples/s][A
+Tokenizing Prompts (num_proc=64):  24%|████████████████████████████████████▋                                                                                                                       | 2355/10000 [00:17<00:38, 197.18 examples/s][A
+Tokenizing Prompts (num_proc=64):  25%|███████████████████████████████████████▏                                                                                                                    | 2512/10000 [00:17<00:37, 198.86 examples/s][A
+Tokenizing Prompts (num_proc=64):  27%|█████████████████████████████████████████▌                                                                                                                  | 2668/10000 [00:18<00:38, 192.23 examples/s][A
+Tokenizing Prompts (num_proc=64):  28%|████████████████████████████████████████████                                                                                                                | 2824/10000 [00:19<00:35, 203.84 examples/s][A
+Tokenizing Prompts (num_proc=64):  30%|██████████████████████████████████████████████▍                                                                                                             | 2980/10000 [00:20<00:33, 207.97 examples/s][A
+Tokenizing Prompts (num_proc=64):  31%|████████████████████████████████████████████████▉                                                                                                           | 3136/10000 [00:20<00:33, 206.59 examples/s][A
+Tokenizing Prompts (num_proc=64):  33%|███████████████████████████████████████████████████▎                                                                                                        | 3292/10000 [00:21<00:36, 182.31 examples/s][A
+Tokenizing Prompts (num_proc=64):  34%|█████████████████████████████████████████████████████▊                                                                                                      | 3448/10000 [00:22<00:35, 182.17 examples/s][A
+Tokenizing Prompts (num_proc=64):  36%|████████████████████████████████████████████████████████▏                                                                                                   | 3604/10000 [00:23<00:33, 192.18 examples/s][A
+Tokenizing Prompts (num_proc=64):  38%|██████████████████████████████████████████████████████████▋                                                                                                 | 3760/10000 [00:24<00:31, 195.01 examples/s][A
+Tokenizing Prompts (num_proc=64):  39%|█████████████████████████████████████████████████████████████                                                                                               | 3916/10000 [00:24<00:30, 197.11 examples/s][A
+Tokenizing Prompts (num_proc=64):  41%|███████████████████████████████████████████████████████████████▌                                                                                            | 4072/10000 [00:25<00:32, 185.24 examples/s][A
+Tokenizing Prompts (num_proc=64):  42%|█████████████████████████████████████████████████████████████████▉                                                                                          | 4228/10000 [00:26<00:27, 207.15 examples/s][A
+Tokenizing Prompts (num_proc=64):  44%|████████████████████████████████████████████████████████████████████▍                                                                                       | 4384/10000 [00:27<00:27, 202.08 examples/s][A
+Tokenizing Prompts (num_proc=64):  45%|██████████████████████████████████████████████████████████████████████▊                                                                                     | 4540/10000 [00:28<00:27, 196.64 examples/s][A
+Tokenizing Prompts (num_proc=64):  47%|█████████████████████████████████████████████████████████████████████████▎                                                                                  | 4696/10000 [00:28<00:25, 205.86 examples/s][A
+Tokenizing Prompts (num_proc=64):  49%|███████████████████████████████████████████████████████████████████████████▋                                                                                | 4852/10000 [00:29<00:24, 207.69 examples/s][A
+Tokenizing Prompts (num_proc=64):  50%|██████████████████████████████████████████████████████████████████████████████                                                                              | 5008/10000 [00:30<00:27, 180.57 examples/s][A
+Tokenizing Prompts (num_proc=64):  52%|████████████████████████████████████████████████████████████████████████████████▌                                                                           | 5164/10000 [00:31<00:22, 213.49 examples/s][A
+Tokenizing Prompts (num_proc=64):  53%|██████████████████████████████████████████████████████████████████████████████████▉                                                                         | 5320/10000 [00:31<00:22, 209.84 examples/s][A
+Tokenizing Prompts (num_proc=64):  55%|█████████████████████████████████████████████████████████████████████████████████████▍                                                                      | 5476/10000 [00:32<00:21, 208.26 examples/s][A
+Tokenizing Prompts (num_proc=64):  56%|███████████████████████████████████████████████████████████████████████████████████████▊                                                                    | 5632/10000 [00:33<00:21, 206.77 examples/s][A
+Tokenizing Prompts (num_proc=64):  58%|██████████████████████████████████████████████████████████████████████████████████████████▎                                                                 | 5788/10000 [00:34<00:20, 204.44 examples/s][A
+Tokenizing Prompts (num_proc=64):  59%|████████████████████████████████████████████████████████████████████████████████████████████▋                                                               | 5944/10000 [00:34<00:19, 210.82 examples/s][A
+Tokenizing Prompts (num_proc=64):  61%|███████████████████████████████████████████████████████████████████████████████████████████████▏                                                            | 6100/10000 [00:35<00:18, 212.84 examples/s][A
+Tokenizing Prompts (num_proc=64):  63%|█████████████████████████████████████████████████████████████████████████████████████████████████▌                                                          | 6256/10000 [00:36<00:19, 194.81 examples/s][A
+Tokenizing Prompts (num_proc=64):  64%|████████████████████████████████████████████████████████████████████████████████████████████████████                                                        | 6412/10000 [00:37<00:17, 203.79 examples/s][A
+Tokenizing Prompts (num_proc=64):  66%|██████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                     | 6568/10000 [00:38<00:17, 196.70 examples/s][A
+Tokenizing Prompts (num_proc=64):  67%|████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                   | 6724/10000 [00:38<00:16, 196.07 examples/s][A
+Tokenizing Prompts (num_proc=64):  69%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                | 6880/10000 [00:39<00:15, 207.80 examples/s][A
+Tokenizing Prompts (num_proc=64):  70%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                              | 7036/10000 [00:41<00:18, 159.39 examples/s][A
+Tokenizing Prompts (num_proc=64):  73%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                         | 7348/10000 [00:41<00:12, 218.84 examples/s][A
+Tokenizing Prompts (num_proc=64):  75%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                       | 7504/10000 [00:42<00:11, 214.96 examples/s][A
+Tokenizing Prompts (num_proc=64):  77%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                    | 7660/10000 [00:43<00:10, 215.13 examples/s][A
+Tokenizing Prompts (num_proc=64):  78%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                  | 7816/10000 [00:44<00:10, 211.24 examples/s][A
+Tokenizing Prompts (num_proc=64):  80%|███████████████████████████████████████████████████████████████████████��████████████████████████████████████████████████████▎                               | 7972/10000 [00:44<00:09, 205.90 examples/s][A
+Tokenizing Prompts (num_proc=64):  81%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                             | 8128/10000 [00:45<00:08, 210.75 examples/s][A
+Tokenizing Prompts (num_proc=64):  83%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                          | 8284/10000 [00:46<00:08, 207.34 examples/s][A
+Tokenizing Prompts (num_proc=64):  84%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                        | 8440/10000 [00:47<00:07, 204.29 examples/s][A
+Tokenizing Prompts (num_proc=64):  86%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                      | 8596/10000 [00:47<00:06, 206.70 examples/s][A
+Tokenizing Prompts (num_proc=64):  88%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                   | 8752/10000 [00:48<00:05, 209.89 examples/s][A
+Tokenizing Prompts (num_proc=64):  89%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                 | 8908/10000 [00:49<00:05, 206.72 examples/s][A
+Tokenizing Prompts (num_proc=64):  91%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍              | 9064/10000 [00:50<00:04, 207.14 examples/s][A
+Tokenizing Prompts (num_proc=64):  92%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊            | 9220/10000 [00:51<00:03, 195.71 examples/s][A
+Tokenizing Prompts (num_proc=64):  94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎         | 9376/10000 [00:51<00:02, 211.08 examples/s][A
+Tokenizing Prompts (num_proc=64):  95%|█████████████████████████████████████████████████████��██████████████████████████████████████████████████████████████████████████████████████████████▋       | 9532/10000 [00:52<00:02, 207.96 examples/s][A
+Tokenizing Prompts (num_proc=64):  97%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏    | 9688/10000 [00:53<00:01, 211.37 examples/s][A
+Tokenizing Prompts (num_proc=64):  98%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌  | 9844/10000 [00:53<00:00, 207.21 examples/s][A
+Tokenizing Prompts (num_proc=64): 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10000/10000 [00:54<00:00, 212.44 examples/s][ATokenizing Prompts (num_proc=64): 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10000/10000 [00:56<00:00, 177.07 examples/s]
+
+Dropping Long Sequences:   0%|                                                                                                                                                                                 | 0/10002 [00:00<?, ? examples/s][A
+Dropping Long Sequences:  10%|████████████████▍                                                                                                                                                    | 1000/10002 [00:01<00:14, 623.09 examples/s][A
+Dropping Long Sequences:  20%|████████████████████████████████▊                                                                                                                                   | 2000/10002 [00:01<00:06, 1226.48 examples/s][A
+Dropping Long Sequences:  30%|█████████████████████████████████████████████████▏                                                                                                                  | 3000/10002 [00:02<00:03, 1780.19 examples/s][A
+Dropping Long Sequences:  40%|█████████████████████████████████████████████████████████████████▌                                                                                                  | 4000/10002 [00:02<00:02, 2256.64 examples/s][A
+Dropping Long Sequences:  50%|█████████████████████████████████████████████████████████████████████████████████▉                                                                                  | 5000/10002 [00:02<00:01, 2513.08 examples/s][A
+Dropping Long Sequences:  60%|██████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                 | 6000/10002 [00:02<00:01, 2776.46 examples/s][A
+Dropping Long Sequences:  70%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                 | 7000/10002 [00:03<00:01, 2913.01 examples/s][A
+Dropping Long Sequences:  80%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                | 8000/10002 [00:03<00:00, 3111.99 examples/s][A
+Dropping Long Sequences:  90%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                | 9000/10002 [00:03<00:00, 3361.94 examples/s][A
+Dropping Long Sequences: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉| 10000/10002 [00:04<00:00, 3296.00 examples/s][ADropping Long Sequences: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10002/10002 [00:04<00:00, 2370.33 examples/s]
+
+Add position_id column (Pretraining Sample Packing):   0%|                                                                                                                                                      | 0/8683 [00:00<?, ? examples/s][A
+Add position_id column (Pretraining Sample Packing):  12%|███████████████▉                                                                                                                          | 1000/8683 [00:01<00:10, 727.39 examples/s][A
+Add position_id column (Pretraining Sample Packing):  23%|███████████████████████████████▌                                                                                                         | 2000/8683 [00:01<00:04, 1512.41 examples/s][A
+Add position_id column (Pretraining Sample Packing):  35%|███████████████████████████████████████████████▎                                                                                         | 3000/8683 [00:01<00:02, 2334.68 examples/s][A
+Add position_id column (Pretraining Sample Packing):  46%|███████████████████████████████████████████████████████████████                                                                          | 4000/8683 [00:01<00:01, 3032.42 examples/s][A
+Add position_id column (Pretraining Sample Packing):  58%|██████████████████████████████████████████████████████████████████████████████▉                                                          | 5000/8683 [00:02<00:00, 3821.98 examples/s][A
+Add position_id column (Pretraining Sample Packing):  69%|██████████████████████████████████████████████████████████████████████████████████████████████▋                                          | 6000/8683 [00:02<00:00, 4436.34 examples/s][A
+Add position_id column (Pretraining Sample Packing):  81%|██████████████████████████████████████████████████��███████████████████████████████████████████████████████████▍                          | 7000/8683 [00:02<00:00, 5087.61 examples/s][A
+Add position_id column (Pretraining Sample Packing):  92%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏          | 8000/8683 [00:02<00:00, 5354.96 examples/s][AAdd position_id column (Pretraining Sample Packing): 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 8683/8683 [00:02<00:00, 3307.21 examples/s]
+[2025-11-16 22:14:02,933] [DEBUG] [axolotl.utils.samplers.multipack.pack_parallel:177] [PID:8163] Using single process for pack_parallel, running sequentially.
+  5%|█████████▎                                                                                                                                                                                          | 709/15000 [31:18<95:56:02, 24.17s/it]  5%|█████████▎                                                                                                                                                                                          | 710/15000 [31:20<69:56:51, 17.62s/it]                                                                                                                                                                                                                                                {'loss': 5.1102, 'grad_norm': 1.9140625, 'learning_rate': 2.4951666666666667e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3362.6, 'total_tokens': 5797120, 'epoch': 0.05}
+  5%|█████████▎                                                                                                                                                                                          | 710/15000 [31:20<69:56:51, 17.62s/it]  5%|█████████▎                                                                                                                                                                                          | 711/15000 [31:22<51:46:04, 13.04s/it]  5%|█████████▎                                                                                                                                                                                          | 712/15000 [31:25<39:03:12,  9.84s/it]  5%|█████████▎                                                                                                                                                                                          | 713/15000 [31:27<30:08:16,  7.59s/it]  5%|█████████▎                                                                                                                                                                                          | 714/15000 [31:29<23:53:40,  6.02s/it]  5%|█████████▎                                                                                                                                                                                          | 715/15000 [31:32<19:31:26,  4.92s/it]  5%|█████████▎                                                                                                                                                                                          | 716/15000 [31:34<16:28:35,  4.15s/it]  5%|█████████▎                                                                                                                                                                                          | 717/15000 [31:37<14:20:09,  3.61s/it]  5%|█████████▍                                                                                                                                                                                          | 718/15000 [31:39<12:50:01,  3.23s/it]  5%|█████████▍                                                                                                                                                                                          | 719/15000 [31:41<11:47:00,  2.97s/it]  5%|█████████▍                                                                                                                                                                                          | 720/15000 [31:44<11:02:46,  2.78s/it]                                                                                                                                                                                                                                                {'loss': 5.0783, 'grad_norm': 1.9140625, 'learning_rate': 2.5268333333333333e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3492.29, 'total_tokens': 5878983, 'epoch': 0.05}
+  5%|█████████▍                                                                                                                                                                                          | 720/15000 [31:44<11:02:46,  2.78s/it]  5%|█████████▍                                                                                                                                                                                          | 721/15000 [31:46<10:32:25,  2.66s/it]  5%|█████████▍                                                                                                                                                                                          | 722/15000 [31:48<10:10:23,  2.57s/it]  5%|█████████▍                                                                                                                                                                                           | 723/15000 [31:51<9:55:21,  2.50s/it]  5%|█████████▌                                                                                                                                                                                           | 724/15000 [31:53<9:44:06,  2.45s/it]  5%|█████████▌                                                                                                                                                                                           | 725/15000 [31:55<9:37:10,  2.43s/it]  5%|█████████▌                                                                                                                                                                                           | 726/15000 [31:58<9:31:59,  2.40s/it]  5%|█████████▌                                                                                                                                                                                           | 727/15000 [32:00<9:59:55,  2.52s/it]  5%|█████████▌                                                                                                                                                                                           | 728/15000 [32:03<9:47:56,  2.47s/it]  5%|█████████▌                                                                                                                                                                                           | 729/15000 [32:05<9:39:24,  2.44s/it]  5%|█████████▌                                                                                                                                                                                           | 730/15000 [32:08<9:33:40,  2.41s/it]                                                                                                                                                                                                                                                {'loss': 5.0785, 'grad_norm': 1.984375, 'learning_rate': 2.5584999999999996e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3484.96, 'total_tokens': 5960851, 'epoch': 0.05}
+  5%|█████████▌                                                                                                                                                                                           | 730/15000 [32:08<9:33:40,  2.41s/it]  5%|█████████▌                                                                                                                                                                                           | 731/15000 [32:10<9:29:31,  2.39s/it]  5%|█████████▌                                                                                                                                                                                           | 732/15000 [32:12<9:26:45,  2.38s/it]  5%|█████████▋                                                                                                                                                                                           | 733/15000 [32:15<9:23:58,  2.37s/it]  5%|█████████▋                                                                                                                                                                                           | 734/15000 [32:17<9:22:58,  2.37s/it]  5%|█████████▋                                                                                                                                                                                           | 735/15000 [32:19<9:21:25,  2.36s/it]  5%|█████████▋                                                                                                                                                                                           | 736/15000 [32:22<9:21:02,  2.36s/it]  5%|█████████▋                                                                                                                                                                                           | 737/15000 [32:24<9:20:39,  2.36s/it]  5%|█████████▋                                                                                                                                                                                           | 738/15000 [32:26<9:20:09,  2.36s/it]  5%|█████████▋                                                                                                                                                                                           | 739/15000 [32:29<9:19:28,  2.35s/it]  5%|█████████▋                                                                                                                                                                                           | 740/15000 [32:31<9:19:06,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 5.0783, 'grad_norm': 1.890625, 'learning_rate': 2.590166666666667e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3493.9, 'total_tokens': 6042688, 'epoch': 0.05}
+  5%|█████████▋                                                                                                                                                                                           | 740/15000 [32:31<9:19:06,  2.35s/it]  5%|█████████▋                                                                                                                                                                                           | 741/15000 [32:33<9:19:27,  2.35s/it]  5%|█████████▋                                                                                                                                                                                           | 742/15000 [32:36<9:19:25,  2.35s/it]  5%|█████████▊                                                                                                                                                                                           | 743/15000 [32:38<9:19:20,  2.35s/it]  5%|█████████▊                                                                                                                                                                                           | 744/15000 [32:40<9:19:20,  2.35s/it]  5%|█████████▊                                                                                                                                                                                           | 745/15000 [32:43<9:19:06,  2.35s/it]  5%|█████████▊                                                                                                                                                                                           | 746/15000 [32:45<9:18:43,  2.35s/it]  5%|█████████▊                                                                                                                                                                                           | 747/15000 [32:48<9:19:09,  2.35s/it]  5%|█████████▊                                                                                                                                                                                           | 748/15000 [32:50<9:19:17,  2.35s/it]  5%|█████████▊                                                                                                                                                                                           | 749/15000 [32:52<9:18:59,  2.35s/it]  5%|█████████▊                                                                                                                                                                                           | 750/15000 [32:55<9:18:37,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 5.0961, 'grad_norm': 1.8046875, 'learning_rate': 2.6218333333333333e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3491.72, 'total_tokens': 6124449, 'epoch': 0.05}
+  5%|█████████▊                                                                                                                                                                                           | 750/15000 [32:55<9:18:37,  2.35s/it]  5%|█████████▊                                                                                                                                                                                           | 751/15000 [32:57<9:20:25,  2.36s/it]  5%|█████████▉                                                                                                                                                                                           | 752/15000 [32:59<9:19:43,  2.36s/it]  5%|█████████▉                                                                                                                                                                                           | 753/15000 [33:02<9:19:17,  2.36s/it]  5%|█████████▉                                                                                                                                                                                           | 754/15000 [33:04<9:19:18,  2.36s/it]  5%|█████████▉                                                                                                                                                                                           | 755/15000 [33:06<9:18:57,  2.35s/it]  5%|█████████▉                                                                                                                                                                                           | 756/15000 [33:09<9:19:08,  2.36s/it]  5%|█████████▉                                                                                                                                                                                           | 757/15000 [33:11<9:18:24,  2.35s/it]  5%|█████████▉                                                                                                                                                                                           | 758/15000 [33:13<9:18:26,  2.35s/it]  5%|█████████▉                                                                                                                                                                                           | 759/15000 [33:16<9:17:56,  2.35s/it]  5%|█████████▉                                                                                                                                                                                           | 760/15000 [33:18<9:18:37,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 5.024, 'grad_norm': 1.9453125, 'learning_rate': 2.6535e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3477.55, 'total_tokens': 6206294, 'epoch': 0.05}
+  5%|█████████▉                                                                                                                                                                                           | 760/15000 [33:18<9:18:37,  2.35s/it]  5%|█████████▉                                                                                                                                                                                           | 761/15000 [33:21<9:18:52,  2.35s/it]  5%|██████████                                                                                                                                                                                           | 762/15000 [33:23<9:18:58,  2.36s/it]  5%|██████████                                                                                                                                                                                           | 763/15000 [33:25<9:19:00,  2.36s/it]  5%|██████████                                                                                                                                                                                           | 764/15000 [33:28<9:19:17,  2.36s/it]  5%|██████████                                                                                                                                                                                           | 765/15000 [33:30<9:19:34,  2.36s/it]  5%|██████████                                                                                                                                                                                           | 766/15000 [33:32<9:18:51,  2.36s/it]  5%|██████████                                                                                                                                                                                           | 767/15000 [33:35<9:18:26,  2.35s/it]  5%|██████████                                                                                                                                                                                           | 768/15000 [33:37<9:18:22,  2.35s/it]  5%|██████████                                                                                                                                                                                           | 769/15000 [33:39<9:18:21,  2.35s/it]  5%|██████████                                                                                                                                                                                           | 770/15000 [33:42<9:17:59,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 5.0353, 'grad_norm': 1.890625, 'learning_rate': 2.685166666666667e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3494.36, 'total_tokens': 6288134, 'epoch': 0.05}
+  5%|██████████                                                                                                                                                                                           | 770/15000 [33:42<9:17:59,  2.35s/it]  5%|██████████▏                                                                                                                                                                                          | 771/15000 [33:44<9:18:21,  2.35s/it]  5%|██████████▏                                                                                                                                                                                          | 772/15000 [33:46<9:18:14,  2.35s/it]  5%|██████████▏                                                                                                                                                                                          | 773/15000 [33:49<9:17:59,  2.35s/it]  5%|██████████▏                                                                                                                                                                                          | 774/15000 [33:51<9:17:47,  2.35s/it]  5%|██████████▏                                                                                                                                                                                          | 775/15000 [33:53<9:17:56,  2.35s/it]  5%|██████████▏                                                                                                                                                                                          | 776/15000 [33:56<9:17:36,  2.35s/it]  5%|██████████▏                                                                                                                                                                                          | 777/15000 [33:58<9:17:53,  2.35s/it]  5%|██████████▏                                                                                                                                                                                          | 778/15000 [34:01<9:17:00,  2.35s/it]  5%|██████████▏                                                                                                                                                                                          | 779/15000 [34:03<9:17:16,  2.35s/it]  5%|██████████▏                                                                                                                                                                                          | 780/15000 [34:05<9:17:19,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 5.037, 'grad_norm': 1.8671875, 'learning_rate': 2.7168333333333336e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3488.46, 'total_tokens': 6369946, 'epoch': 0.05}
+  5%|██████████▏                                                                                                                                                                                          | 780/15000 [34:05<9:17:19,  2.35s/it]  5%|██████████▎                                                                                                                                                                                          | 781/15000 [34:08<9:17:31,  2.35s/it]  5%|██████████▎                                                                                                                                                                                          | 782/15000 [34:10<9:17:22,  2.35s/it]  5%|██████████▎                                                                                                                                                                                          | 783/15000 [34:12<9:17:32,  2.35s/it]  5%|██████████▎                                                                                                                                                                                          | 784/15000 [34:15<9:17:19,  2.35s/it]  5%|██████████▎                                                                                                                                                                                          | 785/15000 [34:17<9:17:10,  2.35s/it]  5%|██████████▎                                                                                                                                                                                          | 786/15000 [34:19<9:17:59,  2.36s/it]  5%|██████████▎                                                                                                                                                                                          | 787/15000 [34:22<9:17:34,  2.35s/it]  5%|██████████▎                                                                                                                                                                                          | 788/15000 [34:24<9:17:14,  2.35s/it]  5%|██████████▎                                                                                                                                                                                          | 789/15000 [34:26<9:17:44,  2.35s/it]  5%|██████████▍                                                                                                                                                                                          | 790/15000 [34:29<9:17:54,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 5.0605, 'grad_norm': 1.7890625, 'learning_rate': 2.7485e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3479.33, 'total_tokens': 6451733, 'epoch': 0.05}
+  5%|██████████▍                                                                                                                                                                                          | 790/15000 [34:29<9:17:54,  2.36s/it]  5%|██████████▍                                                                                                                                                                                          | 791/15000 [34:31<9:17:46,  2.36s/it]  5%|██████████▍                                                                                                                                                                                          | 792/15000 [34:33<9:17:47,  2.36s/it]  5%|██████████▍                                                                                                                                                                                          | 793/15000 [34:36<9:16:58,  2.35s/it]  5%|██████████▍                                                                                                                                                                                          | 794/15000 [34:38<9:17:09,  2.35s/it]  5%|██████████▍                                                                                                                                                                                          | 795/15000 [34:41<9:17:04,  2.35s/it]  5%|██████████▍                                                                                                                                                                                          | 796/15000 [34:43<9:16:59,  2.35s/it]  5%|██████████▍                                                                                                                                                                                          | 797/15000 [34:45<9:16:55,  2.35s/it]  5%|██████████▍                                                                                                                                                                                          | 798/15000 [34:48<9:16:49,  2.35s/it]  5%|██████████▍                                                                                                                                                                                          | 799/15000 [34:50<9:17:20,  2.35s/it]  5%|██████████▌                                                                                                                                                                                          | 800/15000 [34:52<9:16:28,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 4.9442, 'grad_norm': 1.921875, 'learning_rate': 2.7801666666666665e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3501.09, 'total_tokens': 6533515, 'epoch': 0.05}
+  5%|██████████▌                                                                                                                                                                                          | 800/15000 [34:52<9:16:28,  2.35s/it]  5%|██████████▌                                                                                                                                                                                          | 801/15000 [34:55<9:16:22,  2.35s/it]  5%|██████████▌                                                                                                                                                                                          | 802/15000 [34:57<9:16:16,  2.35s/it]  5%|██████████▌                                                                                                                                                                                          | 803/15000 [34:59<9:16:11,  2.35s/it]  5%|██████████▌                                                                                                                                                                                          | 804/15000 [35:02<9:15:54,  2.35s/it]  5%|██████████▌                                                                                                                                                                                          | 805/15000 [35:04<9:16:07,  2.35s/it]  5%|██████████▌                                                                                                                                                                                          | 806/15000 [35:06<9:16:39,  2.35s/it]  5%|██████████▌                                                                                                                                                                                          | 807/15000 [35:09<9:16:57,  2.35s/it]  5%|██████████▌                                                                                                                                                                                          | 808/15000 [35:11<9:16:42,  2.35s/it]  5%|██████████▌                                                                                                                                                                                          | 809/15000 [35:13<9:16:37,  2.35s/it]  5%|██████████▋                                                                                                                                                                                          | 810/15000 [35:16<9:17:11,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 4.918, 'grad_norm': 1.9375, 'learning_rate': 2.8118333333333335e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3472.2, 'total_tokens': 6615280, 'epoch': 0.05}
+  5%|██████████▋                                                                                                                                                                                          | 810/15000 [35:16<9:17:11,  2.36s/it]  5%|██████████▋                                                                                                                                                                                          | 811/15000 [35:18<9:17:19,  2.36s/it]  5%|██████████▋                                                                                                                                                                                          | 812/15000 [35:21<9:17:39,  2.36s/it]  5%|██████████▋                                                                                                                                                                                          | 813/15000 [35:23<9:17:03,  2.36s/it]  5%|██████████▋                                                                                                                                                                                          | 814/15000 [35:25<9:16:16,  2.35s/it]  5%|██████████▋                                                                                                                                                                                          | 815/15000 [35:28<9:16:20,  2.35s/it]  5%|██████████▋                                                                                                                                                                                          | 816/15000 [35:30<9:16:42,  2.35s/it]  5%|██████████▋                                                                                                                                                                                          | 817/15000 [35:32<9:16:45,  2.36s/it]  5%|██████████▋                                                                                                                                                                                          | 818/15000 [35:35<9:16:54,  2.36s/it]  5%|██████████▊                                                                                                                                                                                          | 819/15000 [35:37<9:16:10,  2.35s/it]  5%|██████████▊                                                                                                                                                                                          | 820/15000 [35:39<9:16:14,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 4.8422, 'grad_norm': 1.7578125, 'learning_rate': 2.8435000000000005e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3483.78, 'total_tokens': 6697071, 'epoch': 0.05}
+  5%|██████████▊                                                                                                                                                                                          | 820/15000 [35:39<9:16:14,  2.35s/it]  5%|██████████▊                                                                                                                                                                                          | 821/15000 [35:42<9:16:19,  2.35s/it]  5%|██████████▊                                                                                                                                                                                          | 822/15000 [35:44<9:16:12,  2.35s/it]  5%|██████████▊                                                                                                                                                                                          | 823/15000 [35:46<9:16:40,  2.36s/it]  5%|██████████▊                                                                                                                                                                                          | 824/15000 [35:49<9:16:26,  2.36s/it]  6%|██████████▊                                                                                                                                                                                          | 825/15000 [35:51<9:16:56,  2.36s/it]  6%|██████████▊                                                                                                                                                                                          | 826/15000 [35:54<9:17:13,  2.36s/it]  6%|██████████▊                                                                                                                                                                                          | 827/15000 [35:56<9:16:13,  2.35s/it]  6%|██████████▊                                                                                                                                                                                          | 828/15000 [35:58<9:16:00,  2.35s/it]  6%|██████████▉                                                                                                                                                                                          | 829/15000 [36:01<9:16:16,  2.36s/it]  6%|██████████▉                                                                                                                                                                                          | 830/15000 [36:03<9:16:48,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 5.0569, 'grad_norm': 1.9609375, 'learning_rate': 2.8751666666666664e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3468.47, 'total_tokens': 6778821, 'epoch': 0.06}
+  6%|██████████▉                                                                                                                                                                                          | 830/15000 [36:03<9:16:48,  2.36s/it]  6%|██████████▉                                                                                                                                                                                          | 831/15000 [36:05<9:15:50,  2.35s/it]  6%|██████████▉                                                                                                                                                                                          | 832/15000 [36:08<9:16:18,  2.36s/it]  6%|██████████▉                                                                                                                                                                                          | 833/15000 [36:10<9:16:20,  2.36s/it]  6%|██████████▉                                                                                                                                                                                          | 834/15000 [36:12<9:16:06,  2.36s/it]  6%|██████████▉                                                                                                                                                                                          | 835/15000 [36:15<9:15:36,  2.35s/it]  6%|██████████▉                                                                                                                                                                                          | 836/15000 [36:17<9:15:30,  2.35s/it]  6%|██████████▉                                                                                                                                                                                          | 837/15000 [36:19<9:15:49,  2.35s/it]  6%|███████████                                                                                                                                                                                          | 838/15000 [36:22<9:16:12,  2.36s/it]  6%|███████████                                                                                                                                                                                          | 839/15000 [36:24<9:15:55,  2.36s/it]  6%|███████████                                                                                                                                                                                          | 840/15000 [36:26<9:16:13,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 4.9408, 'grad_norm': 1.8046875, 'learning_rate': 2.9068333333333338e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3474.99, 'total_tokens': 6860589, 'epoch': 0.06}
+  6%|███████████                                                                                                                                                                                          | 840/15000 [36:26<9:16:13,  2.36s/it]  6%|███████████                                                                                                                                                                                          | 841/15000 [36:29<9:16:16,  2.36s/it]  6%|███████████                                                                                                                                                                                          | 842/15000 [36:31<9:15:46,  2.36s/it]  6%|███████████                                                                                                                                                                                          | 843/15000 [36:34<9:15:50,  2.36s/it]  6%|███████████                                                                                                                                                                                          | 844/15000 [36:36<9:14:56,  2.35s/it]  6%|███████████                                                                                                                                                                                          | 845/15000 [36:38<9:15:15,  2.35s/it]  6%|███████████                                                                                                                                                                                          | 846/15000 [36:41<9:14:57,  2.35s/it]  6%|███████████                                                                                                                                                                                          | 847/15000 [36:43<9:14:52,  2.35s/it]  6%|███████████▏                                                                                                                                                                                         | 848/15000 [36:45<9:15:17,  2.35s/it]  6%|███████████▏                                                                                                                                                                                         | 849/15000 [36:48<9:14:55,  2.35s/it]  6%|███████████▏                                                                                                                                                                                         | 850/15000 [36:50<9:15:25,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 4.8503, 'grad_norm': 2.078125, 'learning_rate': 2.9385e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3475.08, 'total_tokens': 6942362, 'epoch': 0.06}
+  6%|███████████▏                                                                                                                                                                                         | 850/15000 [36:50<9:15:25,  2.36s/it]  6%|███████████▏                                                                                                                                                                                         | 851/15000 [36:52<9:16:07,  2.36s/it]  6%|███████████▏                                                                                                                                                                                         | 852/15000 [36:55<9:16:11,  2.36s/it]  6%|███████████▏                                                                                                                                                                                         | 853/15000 [36:57<9:16:09,  2.36s/it]  6%|███████████▏                                                                                                                                                                                         | 854/15000 [36:59<9:16:16,  2.36s/it]  6%|███████████▏                                                                                                                                                                                         | 855/15000 [37:02<9:15:48,  2.36s/it]  6%|███████████▏                                                                                                                                                                                         | 856/15000 [37:04<9:15:45,  2.36s/it]  6%|███████████▎                                                                                                                                                                                         | 857/15000 [37:07<9:14:53,  2.35s/it]  6%|███████████▎                                                                                                                                                                                         | 858/15000 [37:09<9:14:47,  2.35s/it]  6%|███████████▎                                                                                                                                                                                         | 859/15000 [37:11<9:14:46,  2.35s/it]  6%|███████████▎                                                                                                                                                                                         | 860/15000 [37:14<9:14:01,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 4.9112, 'grad_norm': 1.90625, 'learning_rate': 2.9701666666666667e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3498.49, 'total_tokens': 7024112, 'epoch': 0.06}
+  6%|███████████▎                                                                                                                                                                                         | 860/15000 [37:14<9:14:01,  2.35s/it]  6%|███████████▎                                                                                                                                                                                         | 861/15000 [37:16<9:14:21,  2.35s/it]  6%|███████████▎                                                                                                                                                                                         | 862/15000 [37:18<9:14:42,  2.35s/it]  6%|███████████▎                                                                                                                                                                                         | 863/15000 [37:21<9:14:42,  2.35s/it]  6%|███████████▎                                                                                                                                                                                         | 864/15000 [37:23<9:14:38,  2.35s/it]  6%|███████████▎                                                                                                                                                                                         | 865/15000 [37:25<9:14:25,  2.35s/it]  6%|███████████▎                                                                                                                                                                                         | 866/15000 [37:28<9:14:31,  2.35s/it]  6%|███████████▍                                                                                                                                                                                         | 867/15000 [37:30<9:14:18,  2.35s/it]  6%|███████████▍                                                                                                                                                                                         | 868/15000 [37:32<9:14:37,  2.35s/it]  6%|███████████▍                                                                                                                                                                                         | 869/15000 [37:35<9:14:49,  2.36s/it]  6%|███████████▍                                                                                                                                                                                         | 870/15000 [37:37<9:15:14,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 4.9577, 'grad_norm': 1.7421875, 'learning_rate': 3.0018333333333337e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3470.15, 'total_tokens': 7105835, 'epoch': 0.06}
+  6%|███████████▍                                                                                                                                                                                         | 870/15000 [37:37<9:15:14,  2.36s/it]  6%|███████████▍                                                                                                                                                                                         | 871/15000 [37:39<9:14:34,  2.36s/it]  6%|███████████▍                                                                                                                                                                                         | 872/15000 [37:42<9:14:42,  2.36s/it]  6%|███████████▍                                                                                                                                                                                         | 873/15000 [37:44<9:14:14,  2.35s/it]  6%|███████████▍                                                                                                                                                                                         | 874/15000 [37:47<9:13:58,  2.35s/it]  6%|███████████▍                                                                                                                                                                                         | 875/15000 [37:49<9:14:24,  2.36s/it]  6%|███████████▌                                                                                                                                                                                         | 876/15000 [37:51<9:14:15,  2.35s/it]  6%|███████████▌                                                                                                                                                                                         | 877/15000 [37:54<9:14:47,  2.36s/it]  6%|███████████▌                                                                                                                                                                                         | 878/15000 [37:56<9:14:38,  2.36s/it]  6%|███████████▌                                                                                                                                                                                         | 879/15000 [37:58<9:14:31,  2.36s/it]  6%|███████████▌                                                                                                                                                                                         | 880/15000 [38:01<9:14:05,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 4.7749, 'grad_norm': 1.765625, 'learning_rate': 3.0335000000000003e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3488.98, 'total_tokens': 7187608, 'epoch': 0.06}
+  6%|███████████▌                                                                                                                                                                                         | 880/15000 [38:01<9:14:05,  2.35s/it]  6%|███████████▌                                                                                                                                                                                         | 881/15000 [38:03<9:13:33,  2.35s/it]  6%|███████████▌                                                                                                                                                                                         | 882/15000 [38:05<9:13:27,  2.35s/it]  6%|███████████▌                                                                                                                                                                                         | 883/15000 [38:08<9:13:41,  2.35s/it]  6%|███████████▌                                                                                                                                                                                         | 884/15000 [38:10<9:13:04,  2.35s/it]  6%|███████████▌                                                                                                                                                                                         | 885/15000 [38:12<9:12:56,  2.35s/it]  6%|███████████▋                                                                                                                                                                                         | 886/15000 [38:15<9:12:52,  2.35s/it]  6%|███████████▋                                                                                                                                                                                         | 887/15000 [38:17<9:12:55,  2.35s/it]  6%|███████████▋                                                                                                                                                                                         | 888/15000 [38:19<9:12:46,  2.35s/it]  6%|███████████▋                                                                                                                                                                                         | 889/15000 [38:22<9:12:50,  2.35s/it]  6%|███████████▋                                                                                                                                                                                         | 890/15000 [38:24<9:12:52,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 4.8847, 'grad_norm': 1.8828125, 'learning_rate': 3.065166666666667e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3488.21, 'total_tokens': 7269390, 'epoch': 0.06}
+  6%|███████████▋                                                                                                                                                                                         | 890/15000 [38:24<9:12:52,  2.35s/it]  6%|███████████▋                                                                                                                                                                                         | 891/15000 [38:27<9:13:03,  2.35s/it]  6%|███████████▋                                                                                                                                                                                         | 892/15000 [38:29<9:12:31,  2.35s/it]  6%|███████████▋                                                                                                                                                                                         | 893/15000 [38:31<9:13:09,  2.35s/it]  6%|███████████▋                                                                                                                                                                                         | 894/15000 [38:34<9:12:39,  2.35s/it]  6%|███████████▊                                                                                                                                                                                         | 895/15000 [38:36<9:12:01,  2.35s/it]  6%|███████████▊                                                                                                                                                                                         | 896/15000 [38:38<9:12:09,  2.35s/it]  6%|███████████▊                                                                                                                                                                                         | 897/15000 [38:41<9:12:07,  2.35s/it]  6%|███████████▊                                                                                                                                                                                         | 898/15000 [38:43<9:12:18,  2.35s/it]  6%|███████████▊                                                                                                                                                                                         | 899/15000 [38:45<9:12:46,  2.35s/it]  6%|███████████▊                                                                                                                                                                                         | 900/15000 [38:48<9:12:56,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 4.8121, 'grad_norm': 1.9453125, 'learning_rate': 3.096833333333334e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3482.3, 'total_tokens': 7351155, 'epoch': 0.06}
+  6%|███████████▊                                                                                                                                                                                         | 900/15000 [38:48<9:12:56,  2.35s/it]  6%|███████████▊                                                                                                                                                                                         | 901/15000 [38:50<9:12:45,  2.35s/it]  6%|███████████▊                                                                                                                                                                                         | 902/15000 [38:52<9:12:33,  2.35s/it]  6%|███████████▊                                                                                                                                                                                         | 903/15000 [38:55<9:12:19,  2.35s/it]  6%|███████████▊                                                                                                                                                                                         | 904/15000 [38:57<9:12:09,  2.35s/it]  6%|███████████▉                                                                                                                                                                                         | 905/15000 [38:59<9:12:29,  2.35s/it]  6%|███████████▉                                                                                                                                                                                         | 906/15000 [39:02<9:12:53,  2.35s/it]  6%|███████████▉                                                                                                                                                                                         | 907/15000 [39:04<9:12:46,  2.35s/it]  6%|███████████▉                                                                                                                                                                                         | 908/15000 [39:07<9:12:48,  2.35s/it]  6%|███████████▉                                                                                                                                                                                         | 909/15000 [39:09<9:11:59,  2.35s/it]  6%|███████████▉                                                                                                                                                                                         | 910/15000 [39:11<9:12:04,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 4.831, 'grad_norm': 1.8125, 'learning_rate': 3.1285e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3488.13, 'total_tokens': 7432939, 'epoch': 0.06}
+  6%|███████████▉                                                                                                                                                                                         | 910/15000 [39:11<9:12:04,  2.35s/it]  6%|███████████▉                                                                                                                                                                                         | 911/15000 [39:14<9:11:52,  2.35s/it]  6%|███████████▉                                                                                                                                                                                         | 912/15000 [39:16<9:11:51,  2.35s/it]  6%|███████████▉                                                                                                                                                                                         | 913/15000 [39:18<9:11:57,  2.35s/it]  6%|████████████                                                                                                                                                                                         | 914/15000 [39:21<9:11:58,  2.35s/it]  6%|████████████                                                                                                                                                                                         | 915/15000 [39:23<9:12:05,  2.35s/it]  6%|████████████                                                                                                                                                                                         | 916/15000 [39:25<9:12:10,  2.35s/it]  6%|████████████                                                                                                                                                                                         | 917/15000 [39:28<9:12:11,  2.35s/it]  6%|████████████                                                                                                                                                                                         | 918/15000 [39:30<9:12:04,  2.35s/it]  6%|████████████                                                                                                                                                                                         | 919/15000 [39:32<9:12:03,  2.35s/it]  6%|████████████                                                                                                                                                                                         | 920/15000 [39:35<9:12:16,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 4.8369, 'grad_norm': 1.9140625, 'learning_rate': 3.1601666666666666e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3479.67, 'total_tokens': 7514670, 'epoch': 0.06}
+  6%|████████████                                                                                                                                                                                         | 920/15000 [39:35<9:12:16,  2.35s/it]  6%|████████████                                                                                                                                                                                         | 921/15000 [39:37<9:12:02,  2.35s/it]  6%|████████████                                                                                                                                                                                         | 922/15000 [39:39<9:11:49,  2.35s/it]  6%|████████████                                                                                                                                                                                         | 923/15000 [39:42<9:11:19,  2.35s/it]  6%|████████████▏                                                                                                                                                                                        | 924/15000 [39:44<9:11:11,  2.35s/it]  6%|████████████▏                                                                                                                                                                                        | 925/15000 [39:46<9:11:19,  2.35s/it]  6%|████████████▏                                                                                                                                                                                        | 926/15000 [39:49<9:11:23,  2.35s/it]  6%|████████████▏                                                                                                                                                                                        | 927/15000 [39:51<9:11:29,  2.35s/it]  6%|████████████▏                                                                                                                                                                                        | 928/15000 [39:54<9:11:07,  2.35s/it]  6%|████████████▏                                                                                                                                                                                        | 929/15000 [39:56<9:10:51,  2.35s/it]  6%|████████████▏                                                                                                                                                                                        | 930/15000 [39:58<9:10:52,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 4.9525, 'grad_norm': 1.8046875, 'learning_rate': 3.1918333333333336e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3491.57, 'total_tokens': 7596465, 'epoch': 0.06}
+  6%|████████████▏                                                                                                                                                                                        | 930/15000 [39:58<9:10:52,  2.35s/it]  6%|████████████▏                                                                                                                                                                                        | 931/15000 [40:01<9:10:30,  2.35s/it]  6%|████████████▏                                                                                                                                                                                        | 932/15000 [40:03<9:10:29,  2.35s/it]  6%|████████████▎                                                                                                                                                                                        | 933/15000 [40:05<9:11:05,  2.35s/it]  6%|████████████▎                                                                                                                                                                                        | 934/15000 [40:08<9:11:01,  2.35s/it]  6%|████████████▎                                                                                                                                                                                        | 935/15000 [40:10<9:10:57,  2.35s/it]  6%|████████████▎                                                                                                                                                                                        | 936/15000 [40:12<9:10:29,  2.35s/it]  6%|████████████▎                                                                                                                                                                                        | 937/15000 [40:15<9:10:03,  2.35s/it]  6%|████████████▎                                                                                                                                                                                        | 938/15000 [40:17<9:10:18,  2.35s/it]  6%|████████████▎                                                                                                                                                                                        | 939/15000 [40:19<9:10:04,  2.35s/it]  6%|████████████▎                                                                                                                                                                                        | 940/15000 [40:22<9:10:07,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 4.788, 'grad_norm': 1.8984375, 'learning_rate': 3.2235000000000006e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3487.07, 'total_tokens': 7678110, 'epoch': 0.06}
+  6%|████████████▎                                                                                                                                                                                        | 940/15000 [40:22<9:10:07,  2.35s/it]  6%|████████████▎                                                                                                                                                                                        | 941/15000 [40:24<9:10:33,  2.35s/it]  6%|████████████▎                                                                                                                                                                                        | 942/15000 [40:26<9:10:25,  2.35s/it]  6%|████████████▍                                                                                                                                                                                        | 943/15000 [40:29<9:10:37,  2.35s/it]  6%|████████████▍                                                                                                                                                                                        | 944/15000 [40:31<9:10:39,  2.35s/it]  6%|████████████▍                                                                                                                                                                                        | 945/15000 [40:33<9:10:44,  2.35s/it]  6%|████████████▍                                                                                                                                                                                        | 946/15000 [40:36<9:09:52,  2.35s/it]  6%|████████████▍                                                                                                                                                                                        | 947/15000 [40:38<9:09:37,  2.35s/it]  6%|████████████▍                                                                                                                                                                                        | 948/15000 [40:41<9:10:26,  2.35s/it]  6%|████████████▍                                                                                                                                                                                        | 949/15000 [40:43<9:10:28,  2.35s/it]  6%|████████████▍                                                                                                                                                                                        | 950/15000 [40:45<9:10:58,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 4.7703, 'grad_norm': 2.03125, 'learning_rate': 3.255166666666667e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3476.34, 'total_tokens': 7759846, 'epoch': 0.06}
+  6%|████████████▍                                                                                                                                                                                        | 950/15000 [40:45<9:10:58,  2.35s/it]  6%|████████████▍                                                                                                                                                                                        | 951/15000 [40:48<9:10:53,  2.35s/it]  6%|████████████▌                                                                                                                                                                                        | 952/15000 [40:50<9:11:16,  2.35s/it]  6%|████████████▌                                                                                                                                                                                        | 953/15000 [40:52<9:10:59,  2.35s/it]  6%|████████████▌                                                                                                                                                                                        | 954/15000 [40:55<9:10:46,  2.35s/it]  6%|████████████▌                                                                                                                                                                                        | 955/15000 [40:57<9:10:55,  2.35s/it]  6%|████████████▌                                                                                                                                                                                        | 956/15000 [40:59<9:10:39,  2.35s/it]  6%|████████████▌                                                                                                                                                                                        | 957/15000 [41:02<9:10:28,  2.35s/it]  6%|████████████▌                                                                                                                                                                                        | 958/15000 [41:04<9:10:13,  2.35s/it]  6%|████████████▌                                                                                                                                                                                        | 959/15000 [41:06<9:09:59,  2.35s/it]  6%|████████████▌                                                                                                                                                                                        | 960/15000 [41:09<9:10:10,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 4.7725, 'grad_norm': 1.8046875, 'learning_rate': 3.286833333333333e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3484.92, 'total_tokens': 7841610, 'epoch': 0.06}
+  6%|████████████▌                                                                                                                                                                                        | 960/15000 [41:09<9:10:10,  2.35s/it]  6%|████████████▌                                                                                                                                                                                        | 961/15000 [41:11<9:10:27,  2.35s/it]  6%|████████████▋                                                                                                                                                                                        | 962/15000 [41:13<9:10:26,  2.35s/it]  6%|████████████▋                                                                                                                                                                                        | 963/15000 [41:16<9:09:55,  2.35s/it]  6%|████████████▋                                                                                                                                                                                        | 964/15000 [41:18<9:10:45,  2.35s/it]  6%|████████████▋                                                                                                                                                                                        | 965/15000 [41:21<9:10:10,  2.35s/it]  6%|████████████▋                                                                                                                                                                                        | 966/15000 [41:23<9:10:27,  2.35s/it]  6%|████████████▋                                                                                                                                                                                        | 967/15000 [41:25<9:10:53,  2.36s/it]  6%|████████████▋                                                                                                                                                                                        | 968/15000 [41:28<9:10:10,  2.35s/it]  6%|████████████▋                                                                                                                                                                                        | 969/15000 [41:30<9:10:12,  2.35s/it]  6%|████████████▋                                                                                                                                                                                        | 970/15000 [41:32<9:10:01,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 4.7507, 'grad_norm': 1.96875, 'learning_rate': 3.3185e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3484.27, 'total_tokens': 7923270, 'epoch': 0.06}
+  6%|████████████▋                                                                                                                                                                                        | 970/15000 [41:32<9:10:01,  2.35s/it]  6%|████████████▊                                                                                                                                                                                        | 971/15000 [41:35<9:10:11,  2.35s/it]  6%|████████████▊                                                                                                                                                                                        | 972/15000 [41:37<9:09:22,  2.35s/it]  6%|████████████▊                                                                                                                                                                                        | 973/15000 [41:39<9:09:48,  2.35s/it]  6%|████████████▊                                                                                                                                                                                        | 974/15000 [41:42<9:09:32,  2.35s/it]  6%|████████████▊                                                                                                                                                                                        | 975/15000 [41:44<9:09:50,  2.35s/it]  7%|████████████▊                                                                                                                                                                                        | 976/15000 [41:46<9:09:47,  2.35s/it]  7%|████████████▊                                                                                                                                                                                        | 977/15000 [41:49<9:09:35,  2.35s/it]  7%|████████████▊                                                                                                                                                                                        | 978/15000 [41:51<9:09:37,  2.35s/it]  7%|████████████▊                                                                                                                                                                                        | 979/15000 [41:53<9:08:59,  2.35s/it]  7%|████████████▊                                                                                                                                                                                        | 980/15000 [41:56<9:09:22,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 4.8149, 'grad_norm': 1.828125, 'learning_rate': 3.3501666666666665e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3478.63, 'total_tokens': 8004950, 'epoch': 0.07}
+  7%|████████████▊                                                                                                                                                                                        | 980/15000 [41:56<9:09:22,  2.35s/it]  7%|████████████▉                                                                                                                                                                                        | 981/15000 [41:58<9:09:48,  2.35s/it]  7%|████████████▉                                                                                                                                                                                        | 982/15000 [42:00<9:09:34,  2.35s/it]  7%|████████████▉                                                                                                                                                                                        | 983/15000 [42:03<9:09:47,  2.35s/it]  7%|████████████▉                                                                                                                                                                                        | 984/15000 [42:05<9:09:22,  2.35s/it]  7%|████████████▉                                                                                                                                                                                        | 985/15000 [42:08<9:41:08,  2.49s/it]  7%|████████████▉                                                                                                                                                                                        | 986/15000 [42:10<9:30:53,  2.44s/it]  7%|████████████▉                                                                                                                                                                                        | 987/15000 [42:13<9:24:22,  2.42s/it]  7%|████████████▉                                                                                                                                                                                        | 988/15000 [42:15<9:19:47,  2.40s/it]  7%|████████████▉                                                                                                                                                                                        | 989/15000 [42:17<9:16:21,  2.38s/it]  7%|█████████████                                                                                                                                                                                        | 990/15000 [42:20<9:13:52,  2.37s/it]                                                                                                                                                                                                                                                {'loss': 4.7568, 'grad_norm': 1.8125, 'learning_rate': 3.3818333333333335e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3491.05, 'total_tokens': 8086662, 'epoch': 0.07}
+  7%|█████████████                                                                                                                                                                                        | 990/15000 [42:20<9:13:52,  2.37s/it]  7%|█████████████                                                                                                                                                                                        | 991/15000 [42:22<9:12:40,  2.37s/it]  7%|█████████████                                                                                                                                                                                        | 992/15000 [42:24<9:11:41,  2.36s/it]  7%|█████████████                                                                                                                                                                                        | 993/15000 [42:27<9:10:55,  2.36s/it]  7%|█████████████                                                                                                                                                                                        | 994/15000 [42:29<9:10:13,  2.36s/it]  7%|█████████████                                                                                                                                                                                        | 995/15000 [42:32<9:09:59,  2.36s/it]  7%|█████████████                                                                                                                                                                                        | 996/15000 [42:34<9:09:21,  2.35s/it]  7%|█████████████                                                                                                                                                                                        | 997/15000 [42:36<9:08:59,  2.35s/it]  7%|█████████████                                                                                                                                                                                        | 998/15000 [42:39<9:08:45,  2.35s/it]  7%|█████████████                                                                                                                                                                                        | 999/15000 [42:41<9:09:31,  2.35s/it]  7%|█████████████                                                                                                                                                                                       | 1000/15000 [42:43<9:09:13,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 4.6877, 'grad_norm': 1.8046875, 'learning_rate': 3.4135000000000004e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3487.24, 'total_tokens': 8168411, 'epoch': 0.07}
+  7%|█████████████                                                                                                                                                                                       | 1000/15000 [42:43<9:09:13,  2.35s/it]  7%|█████████████                                                                                                                                                                                       | 1001/15000 [42:46<9:09:25,  2.35s/it]  7%|█████████████                                                                                                                                                                                       | 1002/15000 [42:48<9:09:28,  2.36s/it]  7%|█████████████                                                                                                                                                                                       | 1003/15000 [42:50<9:09:39,  2.36s/it]  7%|█████████████                                                                                                                                                                                       | 1004/15000 [42:53<9:09:26,  2.36s/it]  7%|█████████████▏                                                                                                                                                                                      | 1005/15000 [42:55<9:09:10,  2.35s/it]  7%|█████████████▏                                                                                                                                                                                      | 1006/15000 [42:57<9:09:24,  2.36s/it]  7%|█████████████▏                                                                                                                                                                                      | 1007/15000 [43:00<9:08:54,  2.35s/it]  7%|█████████████▏                                                                                                                                                                                      | 1008/15000 [43:02<9:08:54,  2.35s/it]  7%|█████████████▏                                                                                                                                                                                      | 1009/15000 [43:04<9:09:27,  2.36s/it]  7%|█████████████▏                                                                                                                                                                                      | 1010/15000 [43:07<9:09:11,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 4.7834, 'grad_norm': 1.8046875, 'learning_rate': 3.445166666666667e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3485.46, 'total_tokens': 8250180, 'epoch': 0.07}
+  7%|█████████████▏                                                                                                                                                                                      | 1010/15000 [43:07<9:09:11,  2.36s/it]  7%|█████████████▏                                                                                                                                                                                      | 1011/15000 [43:09<9:09:26,  2.36s/it]  7%|█████████████▏                                                                                                                                                                                      | 1012/15000 [43:12<9:09:14,  2.36s/it]  7%|█████████████▏                                                                                                                                                                                      | 1013/15000 [43:14<9:08:59,  2.36s/it]  7%|█████████████▏                                                                                                                                                                                      | 1014/15000 [43:16<9:09:04,  2.36s/it]  7%|█████████████▎                                                                                                                                                                                      | 1015/15000 [43:19<9:09:09,  2.36s/it]  7%|█████████████▎                                                                                                                                                                                      | 1016/15000 [43:21<9:08:52,  2.36s/it]  7%|█████████████▎                                                                                                                                                                                      | 1017/15000 [43:23<9:08:33,  2.35s/it]  7%|█████████████▎                                                                                                                                                                                      | 1018/15000 [43:26<9:08:57,  2.36s/it]  7%|█████████████▎                                                                                                                                                                                      | 1019/15000 [43:28<9:08:58,  2.36s/it]  7%|█████████████▎                                                                                                                                                                                      | 1020/15000 [43:30<9:08:32,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 4.6052, 'grad_norm': 1.8125, 'learning_rate': 3.476833333333334e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3485.63, 'total_tokens': 8331857, 'epoch': 0.07}
+  7%|█████████████▎                                                                                                                                                                                      | 1020/15000 [43:30<9:08:32,  2.35s/it]  7%|█████████████▎                                                                                                                                                                                      | 1021/15000 [43:33<9:08:53,  2.36s/it]  7%|█████████████▎                                                                                                                                                                                      | 1022/15000 [43:35<9:08:41,  2.36s/it]  7%|█████████████▎                                                                                                                                                                                      | 1023/15000 [43:37<9:08:51,  2.36s/it]  7%|█████████████▍                                                                                                                                                                                      | 1024/15000 [43:40<9:08:10,  2.35s/it]  7%|█████████████▍                                                                                                                                                                                      | 1025/15000 [43:42<9:08:23,  2.35s/it]  7%|█████████████▍                                                                                                                                                                                      | 1026/15000 [43:45<9:07:45,  2.35s/it]  7%|█████████████▍                                                                                                                                                                                      | 1027/15000 [43:47<9:07:52,  2.35s/it]  7%|█████████████▍                                                                                                                                                                                      | 1028/15000 [43:49<9:08:10,  2.35s/it]  7%|█████████████▍                                                                                                                                                                                      | 1029/15000 [43:52<9:07:56,  2.35s/it]  7%|█████████████▍                                                                                                                                                                                      | 1030/15000 [43:54<9:07:50,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 4.5624, 'grad_norm': 1.8125, 'learning_rate': 3.508500000000001e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3480.18, 'total_tokens': 8413471, 'epoch': 0.07}
+  7%|█████████████▍                                                                                                                                                                                      | 1030/15000 [43:54<9:07:50,  2.35s/it]  7%|█████████████▍                                                                                                                                                                                      | 1031/15000 [43:56<9:07:43,  2.35s/it]  7%|█████████████▍                                                                                                                                                                                      | 1032/15000 [43:59<9:07:51,  2.35s/it]  7%|█████████████▍                                                                                                                                                                                      | 1033/15000 [44:01<9:07:56,  2.35s/it]  7%|█████████████▌                                                                                                                                                                                      | 1034/15000 [44:03<9:08:12,  2.36s/it]  7%|█████████████▌                                                                                                                                                                                      | 1035/15000 [44:06<9:08:08,  2.36s/it]  7%|█████████████▌                                                                                                                                                                                      | 1036/15000 [44:08<9:07:41,  2.35s/it]  7%|█████████████▌                                                                                                                                                                                      | 1037/15000 [44:10<9:07:46,  2.35s/it]  7%|█████████████▌                                                                                                                                                                                      | 1038/15000 [44:13<9:07:29,  2.35s/it]  7%|█████████████▌                                                                                                                                                                                      | 1039/15000 [44:15<9:06:59,  2.35s/it]  7%|█████████████▌                                                                                                                                                                                      | 1040/15000 [44:17<9:06:25,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 4.6422, 'grad_norm': 1.890625, 'learning_rate': 3.5401666666666663e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3497.58, 'total_tokens': 8495179, 'epoch': 0.07}
+  7%|█████████████▌                                                                                                                                                                                      | 1040/15000 [44:17<9:06:25,  2.35s/it]  7%|█████████████▌                                                                                                                                                                                      | 1041/15000 [44:20<9:07:12,  2.35s/it]  7%|█████████████▌                                                                                                                                                                                      | 1042/15000 [44:22<9:07:22,  2.35s/it]  7%|█████████████▋                                                                                                                                                                                      | 1043/15000 [44:25<9:07:26,  2.35s/it]  7%|█████████████▋                                                                                                                                                                                      | 1044/15000 [44:27<9:07:30,  2.35s/it]  7%|█████████████▋                                                                                                                                                                                      | 1045/15000 [44:29<9:07:32,  2.35s/it]  7%|█████████████▋                                                                                                                                                                                      | 1046/15000 [44:32<9:07:32,  2.35s/it]  7%|█████████████▋                                                                                                                                                                                      | 1047/15000 [44:34<9:07:13,  2.35s/it]  7%|█████████████▋                                                                                                                                                                                      | 1048/15000 [44:36<9:07:22,  2.35s/it]  7%|█████████████▋                                                                                                                                                                                      | 1049/15000 [44:39<9:07:36,  2.36s/it]  7%|█████████████▋                                                                                                                                                                                      | 1050/15000 [44:41<9:07:13,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 4.6209, 'grad_norm': 1.7578125, 'learning_rate': 3.571833333333334e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3486.37, 'total_tokens': 8576860, 'epoch': 0.07}
+  7%|█████████████▋                                                                                                                                                                                      | 1050/15000 [44:41<9:07:13,  2.35s/it]  7%|█████████████▋                                                                                                                                                                                      | 1051/15000 [44:43<9:06:40,  2.35s/it]  7%|█████████████▋                                                                                                                                                                                      | 1052/15000 [44:46<9:06:30,  2.35s/it]  7%|█████████████▊                                                                                                                                                                                      | 1053/15000 [44:48<9:06:07,  2.35s/it]  7%|█████████████▊                                                                                                                                                                                      | 1054/15000 [44:50<9:06:14,  2.35s/it]  7%|█████████████▊                                                                                                                                                                                      | 1055/15000 [44:53<9:06:21,  2.35s/it]  7%|█████████████▊                                                                                                                                                                                      | 1056/15000 [44:55<9:06:15,  2.35s/it]  7%|█████████████▊                                                                                                                                                                                      | 1057/15000 [44:57<9:06:44,  2.35s/it]  7%|█████████████▊                                                                                                                                                                                      | 1058/15000 [45:00<9:06:18,  2.35s/it]  7%|█████████████▊                                                                                                                                                                                      | 1059/15000 [45:02<9:06:06,  2.35s/it][2025-11-16 22:28:04,319] [INFO] [axolotl.utils.data.wrappers.get_dataset_wrapper:87] [PID:8163] Loading dataset: Goader/kobza-2m-jsonl with base_type: pretrain and prompt_style: None
+
+Tokenizing Prompts (num_proc=64):   0%|                                                                                                                                                                        | 0/10000 [00:00<?, ? examples/s][A
+Tokenizing Prompts (num_proc=64):   2%|██▍                                                                                                                                                           | 157/10000 [00:07<07:25, 22.08 examples/s][A
+Tokenizing Prompts (num_proc=64):   3%|████▉                                                                                                                                                         | 314/10000 [00:07<03:27, 46.66 examples/s][A
+Tokenizing Prompts (num_proc=64):   6%|█████████▊                                                                                                                                                   | 628/10000 [00:08<01:28, 106.26 examples/s][A
+Tokenizing Prompts (num_proc=64):   8%|████████████▎                                                                                                                                                | 785/10000 [00:09<01:14, 123.85 examples/s][A
+Tokenizing Prompts (num_proc=64):   9%|██████████████▊                                                                                                                                              | 942/10000 [00:10<01:04, 141.37 examples/s][A
+Tokenizing Prompts (num_proc=64):  11%|█████████████████▏                                                                                                                                          | 1099/10000 [00:10<00:55, 161.39 examples/s][A
+Tokenizing Prompts (num_proc=64):  13%|███████████████████▌                                                                                                                                        | 1256/10000 [00:11<00:48, 178.80 examples/s][A
+Tokenizing Prompts (num_proc=64):  14%|██████████████████████                                                                                                                                      | 1413/10000 [00:12<00:45, 187.92 examples/s][A
+Tokenizing Prompts (num_proc=64):  16%|████████████████████████▍                                                                                                                                   | 1570/10000 [00:12<00:42, 197.32 examples/s][A
+Tokenizing Prompts (num_proc=64):  17%|██████████████████████████▉                                                                                                                                 | 1727/10000 [00:13<00:39, 207.89 examples/s][A
+Tokenizing Prompts (num_proc=64):  19%|█████████████████████████████▍                                                                                                                              | 1884/10000 [00:14<00:38, 210.72 examples/s][A
+Tokenizing Prompts (num_proc=64):  20%|███████████████████████████████▊                                                                                                                            | 2041/10000 [00:14<00:36, 216.91 examples/s][A
+Tokenizing Prompts (num_proc=64):  22%|██████████████████████████████████▎                                                                                                                         | 2198/10000 [00:15<00:35, 221.20 examples/s][A
+Tokenizing Prompts (num_proc=64):  24%|████████████████████████████████████▋                                                                                                                       | 2355/10000 [00:16<00:34, 222.62 examples/s][A
+Tokenizing Prompts (num_proc=64):  25%|███████████████████████████████████████▏                                                                                                                    | 2512/10000 [00:16<00:32, 227.35 examples/s][A
+Tokenizing Prompts (num_proc=64):  27%|█████████████████████████████████████████▌                                                                                                                  | 2668/10000 [00:17<00:32, 228.89 examples/s][A
+Tokenizing Prompts (num_proc=64):  28%|████████████████████████████████████████████                                                                                                                | 2824/10000 [00:18<00:33, 215.51 examples/s][A
+Tokenizing Prompts (num_proc=64):  30%|██████████████████████████████████████████████▍                                                                                                             | 2980/10000 [00:18<00:30, 233.26 examples/s][A
+Tokenizing Prompts (num_proc=64):  31%|████████████████████████████████████████████████▉                                                                                                           | 3136/10000 [00:20<00:34, 196.31 examples/s][A
+Tokenizing Prompts (num_proc=64):  33%|███████████████████████████████████████████████████▎                                                                                                        | 3292/10000 [00:20<00:27, 243.54 examples/s][A
+Tokenizing Prompts (num_proc=64):  34%|█████████████████████████████████████████████████████▊                                                                                                      | 3448/10000 [00:20<00:26, 247.63 examples/s][A
+Tokenizing Prompts (num_proc=64):  36%|████████████████████████████████████████████████████████▏                                                                                                   | 3604/10000 [00:22<00:27, 232.62 examples/s][A
+Tokenizing Prompts (num_proc=64):  38%|██████████████████████████████████████████████████████████▋                                                                                                 | 3760/10000 [00:22<00:26, 236.48 examples/s][A
+Tokenizing Prompts (num_proc=64):  39%|█████████████████████████████████████████████████████████████                                                                                               | 3916/10000 [00:23<00:30, 199.37 examples/s][A
+Tokenizing Prompts (num_proc=64):  41%|███████████████████████████████████████████████████████████████▌                                                                                            | 4072/10000 [00:23<00:22, 259.77 examples/s][A
+Tokenizing Prompts (num_proc=64):  42%|█████████████████████████████████████████████████████████████████▉                                                                                          | 4228/10000 [00:24<00:23, 240.72 examples/s][A
+Tokenizing Prompts (num_proc=64):  44%|████████████████████████████████████████████████████████████████████▍                                                                                       | 4384/10000 [00:25<00:27, 202.17 examples/s][A
+Tokenizing Prompts (num_proc=64):  45%|██████████████████████████████████████████████████████████████████████▊                                                                                     | 4540/10000 [00:25<00:21, 252.51 examples/s][A
+Tokenizing Prompts (num_proc=64):  47%|█████████████████████████████████████████████████████████████████████████▎                                                                                  | 4696/10000 [00:26<00:20, 254.06 examples/s][A
+Tokenizing Prompts (num_proc=64):  49%|███████████████████████████████████████████████████████████████████████████▋                                                                                | 4852/10000 [00:26<00:20, 247.67 examples/s][A
+Tokenizing Prompts (num_proc=64):  50%|██████████████████████████████████████████████████████████████████████████████                                                                              | 5008/10000 [00:27<00:21, 235.08 examples/s][A
+Tokenizing Prompts (num_proc=64):  52%|████████████████████████████████████████████████████████████████████████████████▌                                                                           | 5164/10000 [00:28<00:20, 230.77 examples/s][A
+Tokenizing Prompts (num_proc=64):  53%|██████████████████████████████████████████████████████████████████████████████████▉                                                                         | 5320/10000 [00:29<00:19, 238.16 examples/s][A
+Tokenizing Prompts (num_proc=64):  55%|██████████████████████���██████████████████████████████████████████████████████████████▍                                                                      | 5476/10000 [00:29<00:18, 246.85 examples/s][A
+Tokenizing Prompts (num_proc=64):  56%|███████████████████████████████████████████████████████████████████████████████████████▊                                                                    | 5632/10000 [00:30<00:18, 240.65 examples/s][A
+Tokenizing Prompts (num_proc=64):  58%|██████████████████████████████████████████████████████████████████████████████████████████▎                                                                 | 5788/10000 [00:31<00:21, 199.36 examples/s][A
+Tokenizing Prompts (num_proc=64):  59%|████████████████████████████████████████████████████████████████████████████████████████████▋                                                               | 5944/10000 [00:31<00:15, 257.60 examples/s][A
+Tokenizing Prompts (num_proc=64):  61%|███████████████████████████████████████████████████████████████████████████████████████████████▏                                                            | 6100/10000 [00:32<00:15, 244.98 examples/s][A
+Tokenizing Prompts (num_proc=64):  63%|█████████████████████████████████████████████████████████████████████████████████████████████████▌                                                          | 6256/10000 [00:32<00:15, 243.05 examples/s][A
+Tokenizing Prompts (num_proc=64):  64%|████████████████████████████████████████████████████████████████████████████████████████████████████                                                        | 6412/10000 [00:33<00:15, 237.64 examples/s][A
+Tokenizing Prompts (num_proc=64):  66%|██████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                     | 6568/10000 [00:34<00:14, 238.86 examples/s][A
+Tokenizing Prompts (num_proc=64):  67%|████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                   | 6724/10000 [00:35<00:14, 232.38 examples/s][A
+Tokenizing Prompts (num_proc=64):  69%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                | 6880/10000 [00:35<00:13, 232.85 examples/s][A
+Tokenizing Prompts (num_proc=64):  70%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                              | 7036/10000 [00:36<00:13, 227.02 examples/s][A
+Tokenizing Prompts (num_proc=64):  72%|████████████████████████████████████████████████████████████████████████████████████████████████████████████���███▏                                           | 7192/10000 [00:36<00:11, 241.17 examples/s][A
+Tokenizing Prompts (num_proc=64):  73%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                         | 7348/10000 [00:37<00:11, 235.41 examples/s][A
+Tokenizing Prompts (num_proc=64):  75%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                       | 7504/10000 [00:38<00:10, 244.36 examples/s][A
+Tokenizing Prompts (num_proc=64):  77%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                    | 7660/10000 [00:39<00:11, 202.47 examples/s][A
+Tokenizing Prompts (num_proc=64):  78%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                  | 7816/10000 [00:39<00:08, 247.00 examples/s][A
+Tokenizing Prompts (num_proc=64):  80%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                               | 7972/10000 [00:40<00:08, 246.56 examples/s][A
+Tokenizing Prompts (num_proc=64):  81%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                             | 8128/10000 [00:41<00:07, 234.70 examples/s][A
+Tokenizing Prompts (num_proc=64):  83%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                          | 8284/10000 [00:41<00:07, 240.08 examples/s][A
+Tokenizing Prompts (num_proc=64):  84%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                        | 8440/10000 [00:42<00:06, 245.58 examples/s][A
+Tokenizing Prompts (num_proc=64):  86%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                      | 8596/10000 [00:42<00:05, 241.88 examples/s][A
+Tokenizing Prompts (num_proc=64):  88%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                   | 8752/10000 [00:43<00:06, 200.39 examples/s][A
+Tokenizing Prompts (num_proc=64):  89%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                 | 8908/10000 [00:44<00:04, 235.08 examples/s][A
+Tokenizing Prompts (num_proc=64):  91%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍              | 9064/10000 [00:45<00:04, 210.07 examples/s][A
+Tokenizing Prompts (num_proc=64):  92%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊            | 9220/10000 [00:45<00:03, 254.78 examples/s][A
+Tokenizing Prompts (num_proc=64):  94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎         | 9376/10000 [00:46<00:02, 261.58 examples/s][A
+Tokenizing Prompts (num_proc=64):  95%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋       | 9532/10000 [00:46<00:01, 242.35 examples/s][A
+Tokenizing Prompts (num_proc=64):  97%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏    | 9688/10000 [00:47<00:01, 249.48 examples/s][A
+Tokenizing Prompts (num_proc=64):  98%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌  | 9844/10000 [00:48<00:00, 235.60 examples/s][A
+Tokenizing Prompts (num_proc=64): 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10000/10000 [00:48<00:00, 241.64 examples/s][ATokenizing Prompts (num_proc=64): 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10000/10000 [00:51<00:00, 195.84 examples/s]
+
+Dropping Long Sequences:   0%|                                                                                                                                                                                 | 0/10000 [00:00<?, ? examples/s][A
+Dropping Long Sequences:  10%|████████████████▌                                                                                                                                                    | 1000/10000 [00:01<00:13, 674.10 examples/s][A
+Dropping Long Sequences:  20%|████████████████████████████████▊                                                                                                                                   | 2000/10000 [00:01<00:06, 1326.32 examples/s][A
+Dropping Long Sequences:  30%|█████████████████████████████████████████████████▏                                                                                                                  | 3000/10000 [00:01<00:03, 1889.66 examples/s][A
+Dropping Long Sequences:  40%|█████████████████████████████████████████████████████████████████▌                                                                                                  | 4000/10000 [00:02<00:02, 2327.95 examples/s][A
+Dropping Long Sequences:  50%|██████████████████████████████████████████████████████████████████████████████████                                                                                  | 5000/10000 [00:02<00:01, 2693.96 examples/s][A
+Dropping Long Sequences:  60%|██████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                 | 6000/10000 [00:02<00:01, 2990.46 examples/s][A
+Dropping Long Sequences:  70%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                 | 7000/10000 [00:03<00:00, 3162.82 examples/s][A
+Dropping Long Sequences:  80%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                | 8000/10000 [00:03<00:00, 3246.57 examples/s][A
+Dropping Long Sequences:  90%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                | 9000/10000 [00:03<00:00, 3396.49 examples/s][A
+Dropping Long Sequences: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10000/10000 [00:03<00:00, 3465.18 examples/s][ADropping Long Sequences: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10000/10000 [00:03<00:00, 2520.52 examples/s]
+
+Add position_id column (Pretraining Sample Packing):   0%|                                                                                                                                                      | 0/8735 [00:00<?, ? examples/s][A
+Add position_id column (Pretraining Sample Packing):  11%|███████████████▊                                                                                                                          | 1000/8735 [00:01<00:10, 759.69 examples/s][A
+Add position_id column (Pretraining Sample Packing):  23%|███████████████████████████████▎                                                                                                         | 2000/8735 [00:01<00:04, 1581.56 examples/s][A
+Add position_id column (Pretraining Sample Packing):  34%|███████████████████████████████████████████████                                                                                          | 3000/8735 [00:01<00:02, 2435.98 examples/s][A
+Add position_id column (Pretraining Sample Packing):  46%|██████████████████████████████████████████████████████████████▋                                                                          | 4000/8735 [00:01<00:01, 3224.14 examples/s][A
+Add position_id column (Pretraining Sample Packing):  57%|██████████████████████████████████████████████████████████████████████████████▍                                                          | 5000/8735 [00:01<00:00, 3997.96 examples/s][A
+Add position_id column (Pretraining Sample Packing):  69%|██████████████████████████████████████████████████████████████████████████████████████████████                                           | 6000/8735 [00:02<00:00, 4632.80 examples/s][A
+Add position_id column (Pretraining Sample Packing):  80%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                           | 7000/8735 [00:02<00:00, 5225.12 examples/s][A
+Add position_id column (Pretraining Sample Packing):  92%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍           | 8000/8735 [00:02<00:00, 5406.37 examples/s][A
+Add position_id column (Pretraining Sample Packing): 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 8735/8735 [00:02<00:00, 5684.71 examples/s][AAdd position_id column (Pretraining Sample Packing): 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 8735/8735 [00:02<00:00, 3430.48 examples/s]
+[2025-11-16 22:29:03,673] [DEBUG] [axolotl.utils.samplers.multipack.pack_parallel:177] [PID:8163] Using single process for pack_parallel, running sequentially.
+  7%|█████████████▊                                                                                                                                                                                     | 1060/15000 [46:18<95:04:11, 24.55s/it]                                                                                                                                                                                                                                                {'loss': 4.6379, 'grad_norm': 1.84375, 'learning_rate': 3.6035e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3452.78, 'total_tokens': 8657893, 'epoch': 0.07}
+  7%|█████████████▊                                                                                                                                                                                     | 1060/15000 [46:18<95:04:11, 24.55s/it]  7%|█████████████▊                                                                                                                                                                                     | 1061/15000 [46:21<69:16:45, 17.89s/it]  7%|█████████████▊                                                                                                                                                                                     | 1062/15000 [46:23<51:13:48, 13.23s/it]  7%|█████████████▊                                                                                                                                                                                     | 1063/15000 [46:26<38:35:43,  9.97s/it]  7%|█████████████▊                                                                                                                                                                                     | 1064/15000 [46:28<29:44:50,  7.68s/it]  7%|█████████████▊                                                                                                                                                                                     | 1065/15000 [46:30<23:33:03,  6.08s/it]  7%|█████████████▊                                                                                                                                                                                     | 1066/15000 [46:33<19:13:13,  4.97s/it]  7%|█████████████▊                                                                                                                                                                                     | 1067/15000 [46:35<16:11:18,  4.18s/it]  7%|█████████████▉                                                                                                                                                                                     | 1068/15000 [46:37<14:03:37,  3.63s/it]  7%|█████████████▉                                                                                                                                                                                     | 1069/15000 [46:40<12:33:55,  3.25s/it]  7%|█████████████▉                                                                                                                                                                                     | 1070/15000 [46:42<11:31:59,  2.98s/it]                                                                                                                                                                                                                                                {'loss': 4.6808, 'grad_norm': 1.8515625, 'learning_rate': 3.6351666666666666e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3481.46, 'total_tokens': 8739756, 'epoch': 0.07}
+  7%|█████████████▉                                                                                                                                                                                     | 1070/15000 [46:42<11:31:59,  2.98s/it]  7%|█████████████▉                                                                                                                                                                                     | 1071/15000 [46:44<10:48:23,  2.79s/it]  7%|█████████████▉                                                                                                                                                                                     | 1072/15000 [46:47<10:17:23,  2.66s/it]  7%|██████████████                                                                                                                                                                                      | 1073/15000 [46:49<9:56:02,  2.57s/it]  7%|██████████████                                                                                                                                                                                      | 1074/15000 [46:51<9:40:59,  2.50s/it]  7%|██████████████                                                                                                                                                                                      | 1075/15000 [46:54<9:30:14,  2.46s/it]  7%|██████████████                                                                                                                                                                                      | 1076/15000 [46:56<9:22:21,  2.42s/it]  7%|██████████████                                                                                                                                                                                      | 1077/15000 [46:58<9:17:28,  2.40s/it]  7%|██████████████                                                                                                                                                                                      | 1078/15000 [47:01<9:14:16,  2.39s/it]  7%|██████████████                                                                                                                                                                                      | 1079/15000 [47:03<9:11:35,  2.38s/it]  7%|██████████████                                                                                                                                                                                      | 1080/15000 [47:06<9:09:55,  2.37s/it]                                                                                                                                                                                                                                                {'loss': 4.6416, 'grad_norm': 1.7890625, 'learning_rate': 3.6668333333333336e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3487.86, 'total_tokens': 8821603, 'epoch': 0.07}
+  7%|██████████████                                                                                                                                                                                      | 1080/15000 [47:06<9:09:55,  2.37s/it]  7%|██████████████▏                                                                                                                                                                                     | 1081/15000 [47:08<9:08:50,  2.37s/it]  7%|██████████████▏                                                                                                                                                                                     | 1082/15000 [47:10<9:08:20,  2.36s/it]  7%|██████████████▏                                                                                                                                                                                     | 1083/15000 [47:13<9:07:55,  2.36s/it]  7%|██████████████▏                                                                                                                                                                                     | 1084/15000 [47:15<9:07:21,  2.36s/it]  7%|██████████████▏                                                                                                                                                                                     | 1085/15000 [47:17<9:07:06,  2.36s/it]  7%|██████████████▏                                                                                                                                                                                     | 1086/15000 [47:20<9:06:37,  2.36s/it]  7%|██████████████▏                                                                                                                                                                                     | 1087/15000 [47:22<9:06:03,  2.35s/it]  7%|██████████████▏                                                                                                                                                                                     | 1088/15000 [47:24<9:05:19,  2.35s/it]  7%|██████████████▏                                                                                                                                                                                     | 1089/15000 [47:27<9:05:39,  2.35s/it]  7%|██████████████▏                                                                                                                                                                                     | 1090/15000 [47:29<9:05:41,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 4.6269, 'grad_norm': 1.96875, 'learning_rate': 3.6985000000000006e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3485.33, 'total_tokens': 8903407, 'epoch': 0.07}
+  7%|██████████████▏                                                                                                                                                                                     | 1090/15000 [47:29<9:05:41,  2.35s/it]  7%|██████████████▎                                                                                                                                                                                     | 1091/15000 [47:31<9:06:02,  2.36s/it]  7%|██████████████▎                                                                                                                                                                                     | 1092/15000 [47:34<9:05:56,  2.36s/it]  7%|██████████████▎                                                                                                                                                                                     | 1093/15000 [47:36<9:05:48,  2.35s/it]  7%|██████████████▎                                                                                                                                                                                     | 1094/15000 [47:39<9:05:50,  2.36s/it]  7%|██████████████▎                                                                                                                                                                                     | 1095/15000 [47:41<9:05:54,  2.36s/it]  7%|██████████████▎                                                                                                                                                                                     | 1096/15000 [47:43<9:05:48,  2.36s/it]  7%|██████████████▎                                                                                                                                                                                     | 1097/15000 [47:46<9:05:49,  2.36s/it]  7%|██████████████▎                                                                                                                                                                                     | 1098/15000 [47:48<9:05:26,  2.35s/it]  7%|██████████████▎                                                                                                                                                                                     | 1099/15000 [47:50<9:05:46,  2.36s/it]  7%|██████████████▎                                                                                                                                                                                     | 1100/15000 [47:53<9:05:35,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 4.5209, 'grad_norm': 1.7578125, 'learning_rate': 3.730166666666667e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3486.59, 'total_tokens': 8985218, 'epoch': 0.07}
+  7%|██████████████▎                                                                                                                                                                                     | 1100/15000 [47:53<9:05:35,  2.36s/it]  7%|██████████████▍                                                                                                                                                                                     | 1101/15000 [47:55<9:05:11,  2.35s/it]  7%|██████████████▍                                                                                                                                                                                     | 1102/15000 [47:57<9:05:21,  2.35s/it]  7%|██████████████▍                                                                                                                                                                                     | 1103/15000 [48:00<9:05:20,  2.35s/it]  7%|██████████████▍                                                                                                                                                                                     | 1104/15000 [48:02<9:05:33,  2.36s/it]  7%|██████████████▍                                                                                                                                                                                     | 1105/15000 [48:04<9:05:19,  2.35s/it]  7%|██████████████▍                                                                                                                                                                                     | 1106/15000 [48:07<9:05:24,  2.36s/it]  7%|██████████████▍                                                                                                                                                                                     | 1107/15000 [48:09<9:05:40,  2.36s/it]  7%|██████████████▍                                                                                                                                                                                     | 1108/15000 [48:11<9:05:44,  2.36s/it]  7%|██████████████▍                                                                                                                                                                                     | 1109/15000 [48:14<9:05:52,  2.36s/it]  7%|██████████████▌                                                                                                                                                                                     | 1110/15000 [48:16<9:05:12,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 4.4774, 'grad_norm': 1.6875, 'learning_rate': 3.761833333333333e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3492.56, 'total_tokens': 9067005, 'epoch': 0.07}
+  7%|██████████████▌                                                                                                                                                                                     | 1110/15000 [48:16<9:05:12,  2.36s/it]  7%|██████████████▌                                                                                                                                                                                     | 1111/15000 [48:19<9:05:06,  2.35s/it]  7%|██████████████▌                                                                                                                                                                                     | 1112/15000 [48:21<9:04:58,  2.35s/it]  7%|██████████████▌                                                                                                                                                                                     | 1113/15000 [48:23<9:04:27,  2.35s/it]  7%|██████████████▌                                                                                                                                                                                     | 1114/15000 [48:26<9:04:20,  2.35s/it]  7%|██████████████▌                                                                                                                                                                                     | 1115/15000 [48:28<9:04:13,  2.35s/it]  7%|██████████████▌                                                                                                                                                                                     | 1116/15000 [48:30<9:04:23,  2.35s/it]  7%|██████████████▌                                                                                                                                                                                     | 1117/15000 [48:33<9:04:11,  2.35s/it]  7%|██████████████▌                                                                                                                                                                                     | 1118/15000 [48:35<9:03:54,  2.35s/it]  7%|██████████████▌                                                                                                                                                                                     | 1119/15000 [48:37<9:03:48,  2.35s/it]  7%|██████████████▋                                                                                                                                                                                     | 1120/15000 [48:40<9:04:04,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 4.5418, 'grad_norm': 1.8671875, 'learning_rate': 3.7935e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3484.49, 'total_tokens': 9148810, 'epoch': 0.07}
+  7%|██████████████▋                                                                                                                                                                                     | 1120/15000 [48:40<9:04:04,  2.35s/it]  7%|██████████████▋                                                                                                                                                                                     | 1121/15000 [48:42<9:04:03,  2.35s/it]  7%|██████████████▋                                                                                                                                                                                     | 1122/15000 [48:44<9:04:24,  2.35s/it]  7%|██████████████▋                                                                                                                                                                                     | 1123/15000 [48:47<9:04:07,  2.35s/it]  7%|██████████████▋                                                                                                                                                                                     | 1124/15000 [48:49<9:03:56,  2.35s/it]  8%|██████████████▋                                                                                                                                                                                     | 1125/15000 [48:51<9:03:50,  2.35s/it]  8%|██████████████▋                                                                                                                                                                                     | 1126/15000 [48:54<9:03:24,  2.35s/it]  8%|██████████████▋                                                                                                                                                                                     | 1127/15000 [48:56<9:03:15,  2.35s/it]  8%|██████████████▋                                                                                                                                                                                     | 1128/15000 [48:59<9:05:12,  2.36s/it]  8%|██████████████▊                                                                                                                                                                                     | 1129/15000 [49:01<9:04:41,  2.36s/it]  8%|██████████████▊                                                                                                                                                                                     | 1130/15000 [49:03<9:04:47,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 4.5458, 'grad_norm': 1.7890625, 'learning_rate': 3.825166666666667e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3479.74, 'total_tokens': 9230627, 'epoch': 0.08}
+  8%|██████████████▊                                                                                                                                                                                     | 1130/15000 [49:03<9:04:47,  2.36s/it]  8%|██████████████▊                                                                                                                                                                                     | 1131/15000 [49:06<9:04:17,  2.35s/it]  8%|██████████████▊                                                                                                                                                                                     | 1132/15000 [49:08<9:03:41,  2.35s/it]  8%|██████████████▊                                                                                                                                                                                     | 1133/15000 [49:10<9:03:49,  2.35s/it]  8%|██████████████▊                                                                                                                                                                                     | 1134/15000 [49:13<9:03:52,  2.35s/it]  8%|██████████████▊                                                                                                                                                                                     | 1135/15000 [49:15<9:03:39,  2.35s/it]  8%|██████████████▊                                                                                                                                                                                     | 1136/15000 [49:17<9:03:42,  2.35s/it]  8%|██████████████▊                                                                                                                                                                                     | 1137/15000 [49:20<9:03:24,  2.35s/it]  8%|██████████████▊                                                                                                                                                                                     | 1138/15000 [49:22<9:03:03,  2.35s/it]  8%|██████████████▉                                                                                                                                                                                     | 1139/15000 [49:24<9:03:45,  2.35s/it]  8%|██████████████▉                                                                                                                                                                                     | 1140/15000 [49:27<9:03:51,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 4.485, 'grad_norm': 1.8046875, 'learning_rate': 3.8568333333333335e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3482.76, 'total_tokens': 9312432, 'epoch': 0.08}
+  8%|██████████████▉                                                                                                                                                                                     | 1140/15000 [49:27<9:03:51,  2.35s/it]  8%|██████████████▉                                                                                                                                                                                     | 1141/15000 [49:29<9:03:59,  2.36s/it]  8%|██████████████▉                                                                                                                                                                                     | 1142/15000 [49:31<9:03:41,  2.35s/it]  8%|██████████████▉                                                                                                                                                                                     | 1143/15000 [49:34<9:03:17,  2.35s/it]  8%|██████████████▉                                                                                                                                                                                     | 1144/15000 [49:36<9:02:51,  2.35s/it]  8%|██████████████▉                                                                                                                                                                                     | 1145/15000 [49:39<9:03:32,  2.35s/it]  8%|██████████████▉                                                                                                                                                                                     | 1146/15000 [49:41<9:04:02,  2.36s/it]  8%|██████████████▉                                                                                                                                                                                     | 1147/15000 [49:43<9:04:01,  2.36s/it]  8%|███████████████                                                                                                                                                                                     | 1148/15000 [49:46<9:04:00,  2.36s/it]  8%|███████████████                                                                                                                                                                                     | 1149/15000 [49:48<9:04:03,  2.36s/it]  8%|███████████████                                                                                                                                                                                     | 1150/15000 [49:50<9:04:03,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 4.3985, 'grad_norm': 1.8203125, 'learning_rate': 3.8885000000000005e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3480.6, 'total_tokens': 9394236, 'epoch': 0.08}
+  8%|███████████████                                                                                                                                                                                     | 1150/15000 [49:50<9:04:03,  2.36s/it]  8%|███████████████                                                                                                                                                                                     | 1151/15000 [49:53<9:03:54,  2.36s/it]  8%|███████████████                                                                                                                                                                                     | 1152/15000 [49:55<9:04:05,  2.36s/it]  8%|███████████████                                                                                                                                                                                     | 1153/15000 [49:57<9:04:00,  2.36s/it]  8%|███████████████                                                                                                                                                                                     | 1154/15000 [50:00<9:03:39,  2.36s/it]  8%|███████████████                                                                                                                                                                                     | 1155/15000 [50:02<9:03:32,  2.36s/it]  8%|███████████████                                                                                                                                                                                     | 1156/15000 [50:04<9:03:18,  2.35s/it]  8%|███████████████                                                                                                                                                                                     | 1157/15000 [50:07<9:02:59,  2.35s/it]  8%|███████████████▏                                                                                                                                                                                    | 1158/15000 [50:09<9:02:35,  2.35s/it]  8%|███████████████▏                                                                                                                                                                                    | 1159/15000 [50:12<9:02:12,  2.35s/it]  8%|███████████████▏                                                                                                                                                                                    | 1160/15000 [50:14<9:02:20,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 4.5888, 'grad_norm': 1.7734375, 'learning_rate': 3.920166666666667e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3487.56, 'total_tokens': 9476036, 'epoch': 0.08}
+  8%|███████████████▏                                                                                                                                                                                    | 1160/15000 [50:14<9:02:20,  2.35s/it]  8%|███████████████▏                                                                                                                                                                                    | 1161/15000 [50:16<9:03:01,  2.35s/it]  8%|███████████████▏                                                                                                                                                                                    | 1162/15000 [50:19<9:03:02,  2.35s/it]  8%|███████████████▏                                                                                                                                                                                    | 1163/15000 [50:21<9:03:01,  2.35s/it]  8%|███████████████▏                                                                                                                                                                                    | 1164/15000 [50:23<9:03:05,  2.36s/it]  8%|███████████████▏                                                                                                                                                                                    | 1165/15000 [50:26<9:03:05,  2.36s/it]  8%|███████████████▏                                                                                                                                                                                    | 1166/15000 [50:28<9:02:30,  2.35s/it]  8%|███████████████▏                                                                                                                                                                                    | 1167/15000 [50:30<9:01:59,  2.35s/it]  8%|███████████████▎                                                                                                                                                                                    | 1168/15000 [50:33<9:01:42,  2.35s/it]  8%|███████████████▎                                                                                                                                                                                    | 1169/15000 [50:35<9:02:08,  2.35s/it]  8%|███████████████▎                                                                                                                                                                                    | 1170/15000 [50:37<9:02:07,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 4.5333, 'grad_norm': 1.796875, 'learning_rate': 3.951833333333334e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3488.21, 'total_tokens': 9557837, 'epoch': 0.08}
+  8%|███████████████▎                                                                                                                                                                                    | 1170/15000 [50:37<9:02:07,  2.35s/it]  8%|███████████████▎                                                                                                                                                                                    | 1171/15000 [50:40<9:02:08,  2.35s/it]  8%|███████████████▎                                                                                                                                                                                    | 1172/15000 [50:42<9:02:06,  2.35s/it]  8%|███████████████▎                                                                                                                                                                                    | 1173/15000 [50:44<9:01:55,  2.35s/it]  8%|███████████████▎                                                                                                                                                                                    | 1174/15000 [50:47<9:02:28,  2.35s/it]  8%|███████████████▎                                                                                                                                                                                    | 1175/15000 [50:49<9:01:59,  2.35s/it]  8%|███████████████▎                                                                                                                                                                                    | 1176/15000 [50:52<9:01:33,  2.35s/it]  8%|███████████████▍                                                                                                                                                                                    | 1177/15000 [50:54<9:01:17,  2.35s/it]  8%|███████████████▍                                                                                                                                                                                    | 1178/15000 [50:56<9:01:31,  2.35s/it]  8%|███████████████▍                                                                                                                                                                                    | 1179/15000 [50:59<9:01:10,  2.35s/it]  8%|███████████████▍                                                                                                                                                                                    | 1180/15000 [51:01<9:00:57,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 4.4828, 'grad_norm': 1.7578125, 'learning_rate': 3.983500000000001e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3496.66, 'total_tokens': 9639641, 'epoch': 0.08}
+  8%|███████████████▍                                                                                                                                                                                    | 1180/15000 [51:01<9:00:57,  2.35s/it]  8%|███████████████▍                                                                                                                                                                                    | 1181/15000 [51:03<9:01:27,  2.35s/it]  8%|███████████████▍                                                                                                                                                                                    | 1182/15000 [51:06<9:02:04,  2.35s/it]  8%|███████████████▍                                                                                                                                                                                    | 1183/15000 [51:08<9:01:51,  2.35s/it]  8%|███████████████▍                                                                                                                                                                                    | 1184/15000 [51:10<9:01:09,  2.35s/it]  8%|███████████████▍                                                                                                                                                                                    | 1185/15000 [51:13<9:01:23,  2.35s/it]  8%|███████████████▍                                                                                                                                                                                    | 1186/15000 [51:15<9:01:41,  2.35s/it]  8%|███████████████▌                                                                                                                                                                                    | 1187/15000 [51:17<9:01:29,  2.35s/it]  8%|███████████████▌                                                                                                                                                                                    | 1188/15000 [51:20<9:01:30,  2.35s/it]  8%|███████████████▌                                                                                                                                                                                    | 1189/15000 [51:22<9:01:27,  2.35s/it]  8%|███████████████▌                                                                                                                                                                                    | 1190/15000 [51:24<9:01:15,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 4.4408, 'grad_norm': 1.7421875, 'learning_rate': 4.0151666666666664e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3490.28, 'total_tokens': 9721421, 'epoch': 0.08}
+  8%|███████████████▌                                                                                                                                                                                    | 1190/15000 [51:24<9:01:15,  2.35s/it]  8%|███████████████▌                                                                                                                                                                                    | 1191/15000 [51:27<9:01:40,  2.35s/it]  8%|███████████████▌                                                                                                                                                                                    | 1192/15000 [51:29<9:01:24,  2.35s/it]  8%|███████████████▌                                                                                                                                                                                    | 1193/15000 [51:31<9:01:09,  2.35s/it]  8%|███████████████▌                                                                                                                                                                                    | 1194/15000 [51:34<9:01:18,  2.35s/it]  8%|███████████████▌                                                                                                                                                                                    | 1195/15000 [51:36<9:01:05,  2.35s/it]  8%|███████████████▋                                                                                                                                                                                    | 1196/15000 [51:39<9:01:07,  2.35s/it]  8%|███████████████▋                                                                                                                                                                                    | 1197/15000 [51:41<9:01:14,  2.35s/it]  8%|███████████████▋                                                                                                                                                                                    | 1198/15000 [51:43<9:01:26,  2.35s/it]  8%|███████████████▋                                                                                                                                                                                    | 1199/15000 [51:46<9:00:44,  2.35s/it]  8%|███████████████▋                                                                                                                                                                                    | 1200/15000 [51:48<9:00:56,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 4.5233, 'grad_norm': 1.78125, 'learning_rate': 4.0468333333333334e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3483.5, 'total_tokens': 9803187, 'epoch': 0.08}
+  8%|███████████████▋                                                                                                                                                                                    | 1200/15000 [51:48<9:00:56,  2.35s/it]  8%|███████████████▋                                                                                                                                                                                    | 1201/15000 [51:50<9:01:20,  2.35s/it]  8%|███████████████▋                                                                                                                                                                                    | 1202/15000 [51:53<9:01:27,  2.35s/it]  8%|███████████████▋                                                                                                                                                                                    | 1203/15000 [51:55<9:01:26,  2.35s/it]  8%|███████████████▋                                                                                                                                                                                    | 1204/15000 [51:57<9:00:55,  2.35s/it]  8%|███████████████▋                                                                                                                                                                                    | 1205/15000 [52:00<9:01:13,  2.35s/it]  8%|███████████████▊                                                                                                                                                                                    | 1206/15000 [52:02<9:01:01,  2.35s/it]  8%|███████████████▊                                                                                                                                                                                    | 1207/15000 [52:04<9:01:13,  2.35s/it]  8%|███████████████▊                                                                                                                                                                                    | 1208/15000 [52:07<9:00:58,  2.35s/it]  8%|███████████████▊                                                                                                                                                                                    | 1209/15000 [52:09<9:00:30,  2.35s/it]  8%|███████████████▊                                                                                                                                                                                    | 1210/15000 [52:11<9:00:07,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 4.3665, 'grad_norm': 1.75, 'learning_rate': 4.0785e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3490.82, 'total_tokens': 9884860, 'epoch': 0.08}
+  8%|███████████████▊                                                                                                                                                                                    | 1210/15000 [52:11<9:00:07,  2.35s/it]  8%|███████████████▊                                                                                                                                                                                    | 1211/15000 [52:14<9:00:03,  2.35s/it]  8%|███████████████▊                                                                                                                                                                                    | 1212/15000 [52:16<9:00:24,  2.35s/it]  8%|███████████████▊                                                                                                                                                                                    | 1213/15000 [52:19<9:00:12,  2.35s/it]  8%|███████████████▊                                                                                                                                                                                    | 1214/15000 [52:21<9:00:13,  2.35s/it]  8%|███████████████▉                                                                                                                                                                                    | 1215/15000 [52:23<8:59:54,  2.35s/it]  8%|███████████████▉                                                                                                                                                                                    | 1216/15000 [52:26<8:59:56,  2.35s/it]  8%|███████████████▉                                                                                                                                                                                    | 1217/15000 [52:28<8:59:59,  2.35s/it]  8%|███████████████▉                                                                                                                                                                                    | 1218/15000 [52:30<8:59:38,  2.35s/it]  8%|███████████████▉                                                                                                                                                                                    | 1219/15000 [52:33<8:59:26,  2.35s/it]  8%|███████████████▉                                                                                                                                                                                    | 1220/15000 [52:35<8:59:46,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 4.3972, 'grad_norm': 1.90625, 'learning_rate': 4.1101666666666666e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3483.59, 'total_tokens': 9966619, 'epoch': 0.08}
+  8%|███████████████▉                                                                                                                                                                                    | 1220/15000 [52:35<8:59:46,  2.35s/it]  8%|███████████████▉                                                                                                                                                                                    | 1221/15000 [52:37<9:00:01,  2.35s/it]  8%|███████████████▉                                                                                                                                                                                    | 1222/15000 [52:40<8:59:59,  2.35s/it]  8%|███████████████▉                                                                                                                                                                                    | 1223/15000 [52:42<9:00:19,  2.35s/it]  8%|███████████████▉                                                                                                                                                                                    | 1224/15000 [52:44<9:00:10,  2.35s/it]  8%|████████████████                                                                                                                                                                                    | 1225/15000 [52:47<8:59:49,  2.35s/it]  8%|████████████████                                                                                                                                                                                    | 1226/15000 [52:49<8:59:15,  2.35s/it]  8%|████████████████                                                                                                                                                                                    | 1227/15000 [52:51<8:59:15,  2.35s/it]  8%|████████████████                                                                                                                                                                                    | 1228/15000 [52:54<8:59:22,  2.35s/it]  8%|████████████████                                                                                                                                                                                    | 1229/15000 [52:56<8:59:38,  2.35s/it]  8%|████████████████                                                                                                                                                                                    | 1230/15000 [52:58<8:59:19,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 4.3494, 'grad_norm': 1.6796875, 'learning_rate': 4.1418333333333336e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3494.42, 'total_tokens': 10048398, 'epoch': 0.08}
+  8%|████████████████                                                                                                                                                                                    | 1230/15000 [52:59<8:59:19,  2.35s/it]  8%|████████████████                                                                                                                                                                                    | 1231/15000 [53:01<8:59:02,  2.35s/it]  8%|████████████████                                                                                                                                                                                    | 1232/15000 [53:03<8:58:39,  2.35s/it]  8%|████████████████                                                                                                                                                                                    | 1233/15000 [53:06<8:58:40,  2.35s/it]  8%|████████████████                                                                                                                                                                                    | 1234/15000 [53:08<8:58:54,  2.35s/it]  8%|████████████████▏                                                                                                                                                                                   | 1235/15000 [53:10<8:58:50,  2.35s/it]  8%|████████████████▏                                                                                                                                                                                   | 1236/15000 [53:13<8:58:42,  2.35s/it]  8%|████████████████▏                                                                                                                                                                                   | 1237/15000 [53:15<8:59:00,  2.35s/it]  8%|████████████████▏                                                                                                                                                                                   | 1238/15000 [53:17<8:59:11,  2.35s/it]  8%|████████████████▏                                                                                                                                                                                   | 1239/15000 [53:20<8:59:17,  2.35s/it]  8%|████████████████▏                                                                                                                                                                                   | 1240/15000 [53:22<8:59:36,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 4.2849, 'grad_norm': 1.8203125, 'learning_rate': 4.1735e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3481.33, 'total_tokens': 10130186, 'epoch': 0.08}
+  8%|████████████████▏                                                                                                                                                                                   | 1240/15000 [53:22<8:59:36,  2.35s/it]  8%|████████████████▏                                                                                                                                                                                   | 1241/15000 [53:24<9:00:03,  2.36s/it]  8%|████████████████▏                                                                                                                                                                                   | 1242/15000 [53:27<8:59:43,  2.35s/it]  8%|████████████████▏                                                                                                                                                                                   | 1243/15000 [53:30<9:30:51,  2.49s/it]  8%|████████████████▎                                                                                                                                                                                   | 1244/15000 [53:32<9:21:45,  2.45s/it]  8%|████████████████▎                                                                                                                                                                                   | 1245/15000 [53:34<9:15:14,  2.42s/it]  8%|████████████████▎                                                                                                                                                                                   | 1246/15000 [53:37<9:10:39,  2.40s/it]  8%|████████████████▎                                                                                                                                                                                   | 1247/15000 [53:39<9:08:01,  2.39s/it]  8%|████████████████▎                                                                                                                                                                                   | 1248/15000 [53:41<9:05:34,  2.38s/it]  8%|████████████████▎                                                                                                                                                                                   | 1249/15000 [53:44<9:03:44,  2.37s/it]  8%|████████████████▎                                                                                                                                                                                   | 1250/15000 [53:46<9:02:03,  2.37s/it]                                                                                                                                                                                                                                                {'loss': 4.3823, 'grad_norm': 1.6953125, 'learning_rate': 4.205166666666667e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3492.55, 'total_tokens': 10211958, 'epoch': 0.08}
+  8%|████████████████▎                                                                                                                                                                                   | 1250/15000 [53:46<9:02:03,  2.37s/it]  8%|████████████████▎                                                                                                                                                                                   | 1251/15000 [53:48<9:01:21,  2.36s/it]  8%|████████████████▎                                                                                                                                                                                   | 1252/15000 [53:51<9:00:18,  2.36s/it]  8%|████████████████▎                                                                                                                                                                                   | 1253/15000 [53:53<8:59:23,  2.35s/it]  8%|████████████████▍                                                                                                                                                                                   | 1254/15000 [53:55<8:58:38,  2.35s/it]  8%|████████████████▍                                                                                                                                                                                   | 1255/15000 [53:58<8:59:09,  2.35s/it]  8%|████████████████▍                                                                                                                                                                                   | 1256/15000 [54:00<8:58:50,  2.35s/it]  8%|████████████████▍                                                                                                                                                                                   | 1257/15000 [54:02<8:58:37,  2.35s/it]  8%|████████████████▍                                                                                                                                                                                   | 1258/15000 [54:05<8:58:50,  2.35s/it]  8%|████████████████▍                                                                                                                                                                                   | 1259/15000 [54:07<8:58:46,  2.35s/it]  8%|████████████████▍                                                                                                                                                                                   | 1260/15000 [54:10<8:59:07,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 4.2436, 'grad_norm': 1.78125, 'learning_rate': 4.236833333333334e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3480.38, 'total_tokens': 10293784, 'epoch': 0.08}
+  8%|████████████████▍                                                                                                                                                                                   | 1260/15000 [54:10<8:59:07,  2.35s/it]  8%|████████████████▍                                                                                                                                                                                   | 1261/15000 [54:12<8:59:02,  2.35s/it]  8%|████████████████▍                                                                                                                                                                                   | 1262/15000 [54:14<8:58:40,  2.35s/it]  8%|████████████████▌                                                                                                                                                                                   | 1263/15000 [54:17<8:58:44,  2.35s/it]  8%|████████████████▌                                                                                                                                                                                   | 1264/15000 [54:19<8:58:27,  2.35s/it]  8%|████████████████▌                                                                                                                                                                                   | 1265/15000 [54:21<8:58:41,  2.35s/it]  8%|████████████████▌                                                                                                                                                                                   | 1266/15000 [54:24<8:58:07,  2.35s/it]  8%|████████████████▌                                                                                                                                                                                   | 1267/15000 [54:26<8:57:31,  2.35s/it]  8%|████████████████▌                                                                                                                                                                                   | 1268/15000 [54:28<8:58:06,  2.35s/it]  8%|████████████████▌                                                                                                                                                                                   | 1269/15000 [54:31<8:58:07,  2.35s/it]  8%|████████████████▌                                                                                                                                                                                   | 1270/15000 [54:33<8:58:19,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 4.254, 'grad_norm': 1.8671875, 'learning_rate': 4.2685e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3483.38, 'total_tokens': 10375568, 'epoch': 0.08}
+  8%|████████████████▌                                                                                                                                                                                   | 1270/15000 [54:33<8:58:19,  2.35s/it]  8%|████████████████▌                                                                                                                                                                                   | 1271/15000 [54:35<8:58:13,  2.35s/it]  8%|████████████████▌                                                                                                                                                                                   | 1272/15000 [54:38<8:58:20,  2.35s/it]  8%|████████████████▋                                                                                                                                                                                   | 1273/15000 [54:40<8:58:15,  2.35s/it]  8%|████████████████▋                                                                                                                                                                                   | 1274/15000 [54:42<8:57:57,  2.35s/it]  8%|████████████████▋                                                                                                                                                                                   | 1275/15000 [54:45<8:58:03,  2.35s/it]  9%|████████████████▋                                                                                                                                                                                   | 1276/15000 [54:47<8:57:58,  2.35s/it]  9%|████████████████▋                                                                                                                                                                                   | 1277/15000 [54:50<8:58:05,  2.35s/it]  9%|████████████████▋                                                                                                                                                                                   | 1278/15000 [54:52<8:57:46,  2.35s/it]  9%|████████████████▋                                                                                                                                                                                   | 1279/15000 [54:54<8:57:32,  2.35s/it]  9%|████████████████▋                                                                                                                                                                                   | 1280/15000 [54:57<8:57:39,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 4.3142, 'grad_norm': 1.9140625, 'learning_rate': 4.3001666666666665e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3483.57, 'total_tokens': 10457286, 'epoch': 0.09}
+  9%|████████████████▋                                                                                                                                                                                   | 1280/15000 [54:57<8:57:39,  2.35s/it]  9%|████████████████▋                                                                                                                                                                                   | 1281/15000 [54:59<8:58:21,  2.35s/it]  9%|████████████████▊                                                                                                                                                                                   | 1282/15000 [55:01<8:58:14,  2.35s/it]  9%|████████████████▊                                                                                                                                                                                   | 1283/15000 [55:04<8:58:23,  2.35s/it]  9%|████████████████▊                                                                                                                                                                                   | 1284/15000 [55:06<8:58:09,  2.35s/it]  9%|████████████████▊                                                                                                                                                                                   | 1285/15000 [55:08<8:57:55,  2.35s/it]  9%|████████████████▊                                                                                                                                                                                   | 1286/15000 [55:11<8:58:17,  2.36s/it]  9%|████████████████▊                                                                                                                                                                                   | 1287/15000 [55:13<8:57:22,  2.35s/it]  9%|████████████████▊                                                                                                                                                                                   | 1288/15000 [55:15<8:58:01,  2.35s/it]  9%|████████████████▊                                                                                                                                                                                   | 1289/15000 [55:18<8:57:59,  2.35s/it]  9%|████████████████▊                                                                                                                                                                                   | 1290/15000 [55:20<8:58:08,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 4.2351, 'grad_norm': 1.7109375, 'learning_rate': 4.3318333333333335e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3478.15, 'total_tokens': 10539011, 'epoch': 0.09}
+  9%|████████████████▊                                                                                                                                                                                   | 1290/15000 [55:20<8:58:08,  2.36s/it]  9%|████████████████▊                                                                                                                                                                                   | 1291/15000 [55:22<8:57:58,  2.35s/it]  9%|████████████████▉                                                                                                                                                                                   | 1292/15000 [55:25<8:58:21,  2.36s/it]  9%|████████████████▉                                                                                                                                                                                   | 1293/15000 [55:27<8:57:59,  2.35s/it]  9%|████████████████▉                                                                                                                                                                                   | 1294/15000 [55:30<8:57:42,  2.35s/it]  9%|████████████████▉                                                                                                                                                                                   | 1295/15000 [55:32<8:57:57,  2.36s/it]  9%|████████████████▉                                                                                                                                                                                   | 1296/15000 [55:34<8:57:13,  2.35s/it]  9%|████████████████▉                                                                                                                                                                                   | 1297/15000 [55:37<8:56:35,  2.35s/it]  9%|████████████████▉                                                                                                                                                                                   | 1298/15000 [55:39<8:56:22,  2.35s/it]  9%|████████████████▉                                                                                                                                                                                   | 1299/15000 [55:41<8:56:08,  2.35s/it]  9%|████████████████▉                                                                                                                                                                                   | 1300/15000 [55:44<8:56:13,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 4.2818, 'grad_norm': 1.75, 'learning_rate': 4.3635000000000005e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3488.74, 'total_tokens': 10620737, 'epoch': 0.09}
+  9%|████████████████▉                                                                                                                                                                                   | 1300/15000 [55:44<8:56:13,  2.35s/it]  9%|████████████████▉                                                                                                                                                                                   | 1301/15000 [55:46<8:56:33,  2.35s/it]  9%|█████████████████                                                                                                                                                                                   | 1302/15000 [55:48<8:57:18,  2.35s/it]  9%|█████████████████                                                                                                                                                                                   | 1303/15000 [55:51<8:57:07,  2.35s/it]  9%|█████████████████                                                                                                                                                                                   | 1304/15000 [55:53<8:56:51,  2.35s/it]  9%|█████████████████                                                                                                                                                                                   | 1305/15000 [55:55<8:56:24,  2.35s/it]  9%|█████████████████                                                                                                                                                                                   | 1306/15000 [55:58<8:56:47,  2.35s/it]  9%|█████████████████                                                                                                                                                                                   | 1307/15000 [56:00<8:56:46,  2.35s/it]  9%|█████████████████                                                                                                                                                                                   | 1308/15000 [56:02<8:56:58,  2.35s/it]  9%|█████████████████                                                                                                                                                                                   | 1309/15000 [56:05<8:56:41,  2.35s/it]  9%|█████████████████                                                                                                                                                                                   | 1310/15000 [56:07<8:56:53,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 4.3605, 'grad_norm': 1.9609375, 'learning_rate': 4.395166666666667e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3481.34, 'total_tokens': 10702489, 'epoch': 0.09}
+  9%|█████████████████                                                                                                                                                                                   | 1310/15000 [56:07<8:56:53,  2.35s/it]  9%|█████████████████▏                                                                                                                                                                                  | 1311/15000 [56:09<8:56:17,  2.35s/it]  9%|█████████████████▏                                                                                                                                                                                  | 1312/15000 [56:12<8:56:20,  2.35s/it]  9%|█████████████████▏                                                                                                                                                                                  | 1313/15000 [56:14<8:56:28,  2.35s/it]  9%|█████████████████▏                                                                                                                                                                                  | 1314/15000 [56:17<8:56:55,  2.35s/it]  9%|█████████████████▏                                                                                                                                                                                  | 1315/15000 [56:19<8:56:39,  2.35s/it]  9%|█████████████████▏                                                                                                                                                                                  | 1316/15000 [56:21<8:56:27,  2.35s/it]  9%|█████████████████▏                                                                                                                                                                                  | 1317/15000 [56:24<8:56:28,  2.35s/it]  9%|█████████████████▏                                                                                                                                                                                  | 1318/15000 [56:26<8:55:53,  2.35s/it]  9%|█████████████████▏                                                                                                                                                                                  | 1319/15000 [56:28<8:55:51,  2.35s/it]  9%|█████████████████▏                                                                                                                                                                                  | 1320/15000 [56:31<8:55:55,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 4.2808, 'grad_norm': 2.125, 'learning_rate': 4.426833333333333e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3486.63, 'total_tokens': 10784235, 'epoch': 0.09}
+  9%|█████████████████▏                                                                                                                                                                                  | 1320/15000 [56:31<8:55:55,  2.35s/it]  9%|█████████████████▎                                                                                                                                                                                  | 1321/15000 [56:33<8:56:24,  2.35s/it]  9%|█████████████████▎                                                                                                                                                                                  | 1322/15000 [56:35<8:55:57,  2.35s/it]  9%|█████████████████▎                                                                                                                                                                                  | 1323/15000 [56:38<8:55:55,  2.35s/it]  9%|█████████████████▎                                                                                                                                                                                  | 1324/15000 [56:40<8:55:52,  2.35s/it]  9%|█████████████████▎                                                                                                                                                                                  | 1325/15000 [56:42<8:55:44,  2.35s/it]  9%|█████████████████▎                                                                                                                                                                                  | 1326/15000 [56:45<8:55:45,  2.35s/it]  9%|█████████████████▎                                                                                                                                                                                  | 1327/15000 [56:47<8:55:37,  2.35s/it]  9%|█████████████████▎                                                                                                                                                                                  | 1328/15000 [56:49<8:55:36,  2.35s/it]  9%|█████████████████▎                                                                                                                                                                                  | 1329/15000 [56:52<8:55:54,  2.35s/it]  9%|█████████████████▍                                                                                                                                                                                  | 1330/15000 [56:54<8:56:04,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 4.2641, 'grad_norm': 1.6875, 'learning_rate': 4.458500000000001e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3481.04, 'total_tokens': 10865970, 'epoch': 0.09}
+  9%|█████████████████▍                                                                                                                                                                                  | 1330/15000 [56:54<8:56:04,  2.35s/it]  9%|█████████████████▍                                                                                                                                                                                  | 1331/15000 [56:57<8:55:34,  2.35s/it]  9%|█████████████████▍                                                                                                                                                                                  | 1332/15000 [56:59<8:55:18,  2.35s/it]  9%|█████████████████▍                                                                                                                                                                                  | 1333/15000 [57:01<8:55:30,  2.35s/it]  9%|█████████████████▍                                                                                                                                                                                  | 1334/15000 [57:04<8:55:16,  2.35s/it]  9%|█████████████████▍                                                                                                                                                                                  | 1335/15000 [57:06<8:55:11,  2.35s/it]  9%|█████████████████▍                                                                                                                                                                                  | 1336/15000 [57:08<8:54:49,  2.35s/it]  9%|█████████████████▍                                                                                                                                                                                  | 1337/15000 [57:11<8:55:40,  2.35s/it]  9%|█████████████████▍                                                                                                                                                                                  | 1338/15000 [57:13<8:55:12,  2.35s/it]  9%|█████████████████▍                                                                                                                                                                                  | 1339/15000 [57:15<8:55:27,  2.35s/it]  9%|█████████████████▌                                                                                                                                                                                  | 1340/15000 [57:18<8:55:10,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 4.2969, 'grad_norm': 1.90625, 'learning_rate': 4.490166666666667e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3488.32, 'total_tokens': 10947632, 'epoch': 0.09}
+  9%|█████████████████▌                                                                                                                                                                                  | 1340/15000 [57:18<8:55:10,  2.35s/it]  9%|█████████████████▌                                                                                                                                                                                  | 1341/15000 [57:20<8:55:37,  2.35s/it]  9%|█████████████████▌                                                                                                                                                                                  | 1342/15000 [57:22<8:55:34,  2.35s/it]  9%|█████████████████▌                                                                                                                                                                                  | 1343/15000 [57:25<8:55:50,  2.35s/it]  9%|█████████████████▌                                                                                                                                                                                  | 1344/15000 [57:27<8:55:32,  2.35s/it]  9%|█████████████████▌                                                                                                                                                                                  | 1345/15000 [57:29<8:55:23,  2.35s/it]  9%|█████████████████▌                                                                                                                                                                                  | 1346/15000 [57:32<8:55:25,  2.35s/it]  9%|█████████████████▌                                                                                                                                                                                  | 1347/15000 [57:34<8:55:22,  2.35s/it]  9%|█████████████████▌                                                                                                                                                                                  | 1348/15000 [57:37<8:55:40,  2.35s/it]  9%|█████████████████▋                                                                                                                                                                                  | 1349/15000 [57:39<8:55:03,  2.35s/it]  9%|█████████████████▋                                                                                                                                                                                  | 1350/15000 [57:41<8:55:10,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 4.2342, 'grad_norm': 1.703125, 'learning_rate': 4.5218333333333334e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3479.3, 'total_tokens': 11029287, 'epoch': 0.09}
+  9%|█████████████████▋                                                                                                                                                                                  | 1350/15000 [57:41<8:55:10,  2.35s/it]  9%|█████████████████▋                                                                                                                                                                                  | 1351/15000 [57:44<8:55:45,  2.36s/it]  9%|█████████████████▋                                                                                                                                                                                  | 1352/15000 [57:46<8:56:09,  2.36s/it]  9%|█████████████████▋                                                                                                                                                                                  | 1353/15000 [57:48<8:55:06,  2.35s/it]  9%|█████████████████▋                                                                                                                                                                                  | 1354/15000 [57:51<8:55:21,  2.35s/it]  9%|█████████████████▋                                                                                                                                                                                  | 1355/15000 [57:53<8:55:23,  2.35s/it]  9%|█████████████████▋                                                                                                                                                                                  | 1356/15000 [57:55<8:55:16,  2.35s/it]  9%|█████████████████▋                                                                                                                                                                                  | 1357/15000 [57:58<8:55:03,  2.35s/it]  9%|█████████████████▋                                                                                                                                                                                  | 1358/15000 [58:00<8:55:17,  2.35s/it]  9%|█████████████████▊                                                                                                                                                                                  | 1359/15000 [58:02<8:55:06,  2.35s/it]  9%|█████████████████▊                                                                                                                                                                                  | 1360/15000 [58:05<8:54:42,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 4.2378, 'grad_norm': 1.8046875, 'learning_rate': 4.5535000000000004e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3491.03, 'total_tokens': 11111021, 'epoch': 0.09}
+  9%|█████████████████▊                                                                                                                                                                                  | 1360/15000 [58:05<8:54:42,  2.35s/it]  9%|█████████████████▊                                                                                                                                                                                  | 1361/15000 [58:07<8:54:36,  2.35s/it]  9%|█████████████████▊                                                                                                                                                                                  | 1362/15000 [58:09<8:54:35,  2.35s/it]  9%|█████████████████▊                                                                                                                                                                                  | 1363/15000 [58:12<8:54:20,  2.35s/it]  9%|█████████████████▊                                                                                                                                                                                  | 1364/15000 [58:14<8:54:29,  2.35s/it]  9%|█████████████████▊                                                                                                                                                                                  | 1365/15000 [58:16<8:53:51,  2.35s/it]  9%|█████████████████▊                                                                                                                                                                                  | 1366/15000 [58:19<8:54:29,  2.35s/it]  9%|█████████████████▊                                                                                                                                                                                  | 1367/15000 [58:21<8:54:29,  2.35s/it]  9%|█████████████████▉                                                                                                                                                                                  | 1368/15000 [58:24<8:54:17,  2.35s/it]  9%|█████████████████▉                                                                                                                                                                                  | 1369/15000 [58:26<8:54:12,  2.35s/it]  9%|█████████████████▉                                                                                                                                                                                  | 1370/15000 [58:28<8:54:38,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 4.148, 'grad_norm': 1.828125, 'learning_rate': 4.585166666666667e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3472.57, 'total_tokens': 11192669, 'epoch': 0.09}
+  9%|█████████████████▉                                                                                                                                                                                  | 1370/15000 [58:28<8:54:38,  2.35s/it]  9%|█████████████████▉                                                                                                                                                                                  | 1371/15000 [58:31<8:54:54,  2.35s/it]  9%|█████████████████▉                                                                                                                                                                                  | 1372/15000 [58:33<8:54:21,  2.35s/it]  9%|█████████████████▉                                                                                                                                                                                  | 1373/15000 [58:35<8:54:25,  2.35s/it]  9%|█████████████████▉                                                                                                                                                                                  | 1374/15000 [58:38<8:54:46,  2.35s/it]  9%|█████████████████▉                                                                                                                                                                                  | 1375/15000 [58:40<8:54:09,  2.35s/it]  9%|█████████████████▉                                                                                                                                                                                  | 1376/15000 [58:42<8:54:26,  2.35s/it]  9%|█████████████████▉                                                                                                                                                                                  | 1377/15000 [58:45<8:54:00,  2.35s/it]  9%|██████████████████                                                                                                                                                                                  | 1378/15000 [58:47<8:54:23,  2.35s/it]  9%|██████████████████                                                                                                                                                                                  | 1379/15000 [58:49<8:54:21,  2.35s/it]  9%|██████████████████                                                                                                                                                                                  | 1380/15000 [58:52<8:53:51,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 4.1601, 'grad_norm': 1.7734375, 'learning_rate': 4.6168333333333337e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3492.97, 'total_tokens': 11274402, 'epoch': 0.09}
+  9%|██████████████████                                                                                                                                                                                  | 1380/15000 [58:52<8:53:51,  2.35s/it]  9%|██████████████████                                                                                                                                                                                  | 1381/15000 [58:54<8:54:03,  2.35s/it]  9%|██████████████████                                                                                                                                                                                  | 1382/15000 [58:57<8:53:37,  2.35s/it]  9%|██████████████████                                                                                                                                                                                  | 1383/15000 [58:59<8:53:23,  2.35s/it]  9%|██████████████████                                                                                                                                                                                  | 1384/15000 [59:01<8:53:12,  2.35s/it]  9%|██████████████████                                                                                                                                                                                  | 1385/15000 [59:04<8:53:22,  2.35s/it]  9%|██████████████████                                                                                                                                                                                  | 1386/15000 [59:06<8:52:42,  2.35s/it]  9%|██████████████████                                                                                                                                                                                  | 1387/15000 [59:08<8:52:39,  2.35s/it]  9%|██████████████████▏                                                                                                                                                                                 | 1388/15000 [59:11<8:52:40,  2.35s/it]  9%|██████████████████▏                                                                                                                                                                                 | 1389/15000 [59:13<8:52:34,  2.35s/it]  9%|██████████████████▏                                                                                                                                                                                 | 1390/15000 [59:15<8:52:48,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 4.203, 'grad_norm': 1.7421875, 'learning_rate': 4.6485000000000006e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3485.11, 'total_tokens': 11356111, 'epoch': 0.09}
+  9%|██████████████████▏                                                                                                                                                                                 | 1390/15000 [59:15<8:52:48,  2.35s/it]  9%|██████████████████▏                                                                                                                                                                                 | 1391/15000 [59:18<8:53:22,  2.35s/it]  9%|██████████████████▏                                                                                                                                                                                 | 1392/15000 [59:20<8:53:14,  2.35s/it]  9%|██████████████████▏                                                                                                                                                                                 | 1393/15000 [59:22<8:53:44,  2.35s/it]  9%|██████████████████▏                                                                                                                                                                                 | 1394/15000 [59:25<8:53:21,  2.35s/it]  9%|██████████████████▏                                                                                                                                                                                 | 1395/15000 [59:27<8:53:19,  2.35s/it]  9%|██████████████████▏                                                                                                                                                                                 | 1396/15000 [59:29<8:53:16,  2.35s/it]  9%|██████████████████▎                                                                                                                                                                                 | 1397/15000 [59:32<8:53:21,  2.35s/it]  9%|██████████████████▎                                                                                                                                                                                 | 1398/15000 [59:34<8:53:22,  2.35s/it]  9%|██████████████████▎                                                                                                                                                                                 | 1399/15000 [59:36<8:53:17,  2.35s/it]  9%|██████████████████▎                                                                                                                                                                                 | 1400/15000 [59:39<8:53:19,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 4.1423, 'grad_norm': 1.8125, 'learning_rate': 4.680166666666666e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3475.46, 'total_tokens': 11437660, 'epoch': 0.09}
+  9%|██████████████████▎                                                                                                                                                                                 | 1400/15000 [59:39<8:53:19,  2.35s/it]  9%|██████████████████▎                                                                                                                                                                                 | 1401/15000 [59:41<8:53:44,  2.35s/it]  9%|██████████████████▎                                                                                                                                                                                 | 1402/15000 [59:44<8:53:38,  2.35s/it]  9%|██████████████████▎                                                                                                                                                                                 | 1403/15000 [59:46<8:53:15,  2.35s/it]  9%|██████████████████▎                                                                                                                                                                                 | 1404/15000 [59:48<8:53:12,  2.35s/it]  9%|██████████████████▎                                                                                                                                                                                 | 1405/15000 [59:51<8:53:13,  2.35s/it]  9%|██████████████████▎                                                                                                                                                                                 | 1406/15000 [59:53<8:52:54,  2.35s/it]  9%|██████████████████▍                                                                                                                                                                                 | 1407/15000 [59:55<8:53:07,  2.35s/it]  9%|██████████████████▍                                                                                                                                                                                 | 1408/15000 [59:58<8:52:50,  2.35s/it]  9%|██████████████████▏                                                                                                                                                                               | 1409/15000 [1:00:00<8:52:48,  2.35s/it]  9%|██████████████████▏                                                                                                                                                                               | 1410/15000 [1:00:02<8:52:56,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 4.2185, 'grad_norm': 1.7421875, 'learning_rate': 4.711833333333334e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3470.62, 'total_tokens': 11519130, 'epoch': 0.09}
+  9%|██████████████████▏                                                                                                                                                                               | 1410/15000 [1:00:02<8:52:56,  2.35s/it]  9%|██████████████████▏                                                                                                                                                                               | 1411/15000 [1:00:05<8:53:15,  2.35s/it]  9%|██████████████████▎                                                                                                                                                                               | 1412/15000 [1:00:07<8:52:54,  2.35s/it]  9%|██████████████████▎                                                                                                                                                                               | 1413/15000 [1:00:09<8:52:27,  2.35s/it][2025-11-16 22:43:13,250] [INFO] [axolotl.utils.data.wrappers.get_dataset_wrapper:87] [PID:8163] Loading dataset: Goader/kobza-2m-jsonl with base_type: pretrain and prompt_style: None
+
+Tokenizing Prompts (num_proc=64):   0%|                                                                                                                                                                        | 0/10000 [00:00<?, ? examples/s][A
+Tokenizing Prompts (num_proc=64):   2%|██▍                                                                                                                                                           | 157/10000 [00:05<06:12, 26.43 examples/s][A
+Tokenizing Prompts (num_proc=64):   3%|████▉                                                                                                                                                         | 314/10000 [00:06<02:56, 54.74 examples/s][A
+Tokenizing Prompts (num_proc=64):   5%|███████▍                                                                                                                                                      | 471/10000 [00:07<01:49, 87.15 examples/s][A
+Tokenizing Prompts (num_proc=64):   6%|█████████▊                                                                                                                                                   | 628/10000 [00:08<01:30, 103.78 examples/s][A
+Tokenizing Prompts (num_proc=64):   8%|████████████▎                                                                                                                                                | 785/10000 [00:08<01:02, 148.36 examples/s][A
+Tokenizing Prompts (num_proc=64):   9%|██████████████▊                                                                                                                                              | 942/10000 [00:09<00:55, 164.48 examples/s][A
+Tokenizing Prompts (num_proc=64):  11%|█████████████████▏                                                                                                                                          | 1099/10000 [00:09<00:47, 188.91 examples/s][A
+Tokenizing Prompts (num_proc=64):  13%|███████████████████▌                                                                                                                                        | 1256/10000 [00:10<00:44, 198.46 examples/s][A
+Tokenizing Prompts (num_proc=64):  14%|██████████████████████                                                                                                                                      | 1413/10000 [00:11<00:42, 202.98 examples/s][A
+Tokenizing Prompts (num_proc=64):  16%|████████████████████████▍                                                                                                                                   | 1570/10000 [00:11<00:37, 222.49 examples/s][A
+Tokenizing Prompts (num_proc=64):  17%|██████████████████████████▉                                                                                                                                 | 1727/10000 [00:12<00:37, 219.03 examples/s][A
+Tokenizing Prompts (num_proc=64):  19%|█████████████████████████████▍                                                                                                                              | 1884/10000 [00:13<00:35, 229.71 examples/s][A
+Tokenizing Prompts (num_proc=64):  20%|███████████████████████████████▊                                                                                                                            | 2041/10000 [00:13<00:33, 235.79 examples/s][A
+Tokenizing Prompts (num_proc=64):  22%|██████████████████████████████████▎                                                                                                                         | 2198/10000 [00:14<00:32, 240.01 examples/s][A
+Tokenizing Prompts (num_proc=64):  24%|████████████████████████████████████▋                                                                                                                       | 2355/10000 [00:15<00:33, 225.15 examples/s][A
+Tokenizing Prompts (num_proc=64):  25%|███████████████████████████████████████▏                                                                                                                    | 2512/10000 [00:16<00:36, 202.43 examples/s][A
+Tokenizing Prompts (num_proc=64):  27%|█████████████████████████████████████████▌                                                                                                                  | 2668/10000 [00:16<00:28, 255.81 examples/s][A
+Tokenizing Prompts (num_proc=64):  28%|████████████████████████████████████████████                                                                                                                | 2824/10000 [00:17<00:34, 207.76 examples/s][A
+Tokenizing Prompts (num_proc=64):  30%|██████████████████████████████████████████████▍                                                                                                             | 2980/10000 [00:18<00:32, 214.65 examples/s][A
+Tokenizing Prompts (num_proc=64):  31%|████████████████████████████████████████████████▉                                                                                                           | 3136/10000 [00:18<00:26, 256.75 examples/s][A
+Tokenizing Prompts (num_proc=64):  33%|███████████████████████████████████████████████████▎                                                                                                        | 3292/10000 [00:19<00:25, 261.05 examples/s][A
+Tokenizing Prompts (num_proc=64):  34%|█████████████████████████████████████████████████████▊                                                                                                      | 3448/10000 [00:19<00:25, 254.96 examples/s][A
+Tokenizing Prompts (num_proc=64):  36%|████████████████████████████████████████████████████████▏                                                                                                   | 3604/10000 [00:20<00:26, 245.01 examples/s][A
+Tokenizing Prompts (num_proc=64):  38%|██████████████████████████████████████████████████████████▋                                                                                                 | 3760/10000 [00:21<00:26, 239.22 examples/s][A
+Tokenizing Prompts (num_proc=64):  39%|█████████████████████████████████████████████████████████████                                                                                               | 3916/10000 [00:21<00:24, 245.52 examples/s][A
+Tokenizing Prompts (num_proc=64):  41%|███████████████████████████████████████████████████████████████▌                                                                                            | 4072/10000 [00:22<00:24, 240.91 examples/s][A
+Tokenizing Prompts (num_proc=64):  42%|███████████████████████████████████████████████��█████████████████▉                                                                                          | 4228/10000 [00:23<00:23, 240.84 examples/s][A
+Tokenizing Prompts (num_proc=64):  44%|████████████████████████████████████████████████████████████████████▍                                                                                       | 4384/10000 [00:24<00:24, 232.90 examples/s][A
+Tokenizing Prompts (num_proc=64):  45%|██████████████████████████████████████████████████████████████████████▊                                                                                     | 4540/10000 [00:24<00:23, 234.24 examples/s][A
+Tokenizing Prompts (num_proc=64):  47%|█████████████████████████████████████████████████████████████████████████▎                                                                                  | 4696/10000 [00:25<00:25, 204.36 examples/s][A
+Tokenizing Prompts (num_proc=64):  49%|███████████████████████████████████████████████████████████████████████████▋                                                                                | 4852/10000 [00:25<00:21, 241.52 examples/s][A
+Tokenizing Prompts (num_proc=64):  50%|██████████████████████████████████████████████████████████████████████████████                                                                              | 5008/10000 [00:26<00:19, 252.27 examples/s][A
+Tokenizing Prompts (num_proc=64):  52%|████████████████████████████████████████████████████████████████████████████████▌                                                                           | 5164/10000 [00:26<00:19, 247.87 examples/s][A
+Tokenizing Prompts (num_proc=64):  53%|██████████████████████████████████████████████████████████████████████████████████▉                                                                         | 5320/10000 [00:27<00:19, 245.10 examples/s][A
+Tokenizing Prompts (num_proc=64):  55%|█████████████████████████████████████████████████████████████████████████████████████▍                                                                      | 5476/10000 [00:28<00:18, 245.47 examples/s][A
+Tokenizing Prompts (num_proc=64):  56%|███████████████████████████████████████████████████████████████████████████████████████▊                                                                    | 5632/10000 [00:29<00:18, 233.23 examples/s][A
+Tokenizing Prompts (num_proc=64):  58%|██████████████████████████████████████████████████████████████████████████████████████████▎                                                                 | 5788/10000 [00:30<00:18, 228.97 examples/s][A
+Tokenizing Prompts (num_proc=64):  59%|████████████████████████████████████████████████████████████████████████████████████████████▋                                                               | 5944/10000 [00:30<00:16, 239.80 examples/s][A
+Tokenizing Prompts (num_proc=64):  61%|███████████████████████████████████████████████████████████████████████████████████████████████▏                                                            | 6100/10000 [00:30<00:16, 242.31 examples/s][A
+Tokenizing Prompts (num_proc=64):  63%|█████████████████████████████████████████████████████████████████████████████████████████████████▌                                                          | 6256/10000 [00:32<00:18, 201.72 examples/s][A
+Tokenizing Prompts (num_proc=64):  64%|████████████████████████████████████████████████████████████████████████████████████████████████████                                                        | 6412/10000 [00:32<00:14, 254.68 examples/s][A
+Tokenizing Prompts (num_proc=64):  66%|██████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                     | 6568/10000 [00:32<00:13, 248.36 examples/s][A
+Tokenizing Prompts (num_proc=64):  67%|████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                   | 6724/10000 [00:33<00:13, 246.06 examples/s][A
+Tokenizing Prompts (num_proc=64):  69%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                | 6880/10000 [00:34<00:13, 233.91 examples/s][A
+Tokenizing Prompts (num_proc=64):  70%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                              | 7036/10000 [00:34<00:12, 243.74 examples/s][A
+Tokenizing Prompts (num_proc=64):  72%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                           | 7192/10000 [00:35<00:13, 200.94 examples/s][A
+Tokenizing Prompts (num_proc=64):  73%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                         | 7348/10000 [00:36<00:10, 250.62 examples/s][A
+Tokenizing Prompts (num_proc=64):  75%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                       | 7504/10000 [00:36<00:10, 248.57 examples/s][A
+Tokenizing Prompts (num_proc=64):  77%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                    | 7660/10000 [00:37<00:09, 248.41 examples/s][A
+Tokenizing Prompts (num_proc=64):  78%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                  | 7816/10000 [00:38<00:09, 238.35 examples/s][A
+Tokenizing Prompts (num_proc=64):  80%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                               | 7972/10000 [00:39<00:09, 205.84 examples/s][A
+Tokenizing Prompts (num_proc=64):  81%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                             | 8128/10000 [00:39<00:07, 249.06 examples/s][A
+Tokenizing Prompts (num_proc=64):  83%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                          | 8284/10000 [00:40<00:08, 210.90 examples/s][A
+Tokenizing Prompts (num_proc=64):  84%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                        | 8440/10000 [00:40<00:05, 262.12 examples/s][A
+Tokenizing Prompts (num_proc=64):  86%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                      | 8596/10000 [00:41<00:05, 256.99 examples/s][A
+Tokenizing Prompts (num_proc=64):  88%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                   | 8752/10000 [00:42<00:05, 233.98 examples/s][A
+Tokenizing Prompts (num_proc=64):  89%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                 | 8908/10000 [00:42<00:04, 247.30 examples/s][A
+Tokenizing Prompts (num_proc=64):  91%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍              | 9064/10000 [00:43<00:03, 248.36 examples/s][A
+Tokenizing Prompts (num_proc=64):  92%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊            | 9220/10000 [00:44<00:03, 203.22 examples/s][A
+Tokenizing Prompts (num_proc=64):  94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████���         | 9376/10000 [00:44<00:02, 256.95 examples/s][A
+Tokenizing Prompts (num_proc=64):  95%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋       | 9532/10000 [00:45<00:01, 246.76 examples/s][A
+Tokenizing Prompts (num_proc=64):  97%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏    | 9688/10000 [00:46<00:01, 243.56 examples/s][A
+Tokenizing Prompts (num_proc=64):  98%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌  | 9844/10000 [00:46<00:00, 238.26 examples/s][A
+Tokenizing Prompts (num_proc=64): 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10000/10000 [00:47<00:00, 244.02 examples/s][ATokenizing Prompts (num_proc=64): 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10000/10000 [00:49<00:00, 201.96 examples/s]
+
+Dropping Long Sequences:   0%|                                                                                                                                                                                 | 0/10000 [00:00<?, ? examples/s][A
+Dropping Long Sequences:  10%|████████████████▌                                                                                                                                                    | 1000/10000 [00:01<00:12, 705.24 examples/s][A
+Dropping Long Sequences:  20%|████████████████████████████████▊                                                                                                                                   | 2000/10000 [00:01<00:05, 1341.03 examples/s][A
+Dropping Long Sequences:  30%|█████████████████████████████████████████████████▏                                                                                                                  | 3000/10000 [00:01<00:03, 1899.43 examples/s][A
+Dropping Long Sequences:  40%|█████████████████████████████████████████████████████████████████▌                                                                                                  | 4000/10000 [00:02<00:02, 2391.03 examples/s][A
+Dropping Long Sequences:  50%|██████████████████████████████████████████████████████████████████████████████████                                                                                  | 5000/10000 [00:02<00:01, 2767.73 examples/s][A
+Dropping Long Sequences:  60%|██████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                 | 6000/10000 [00:02<00:01, 3114.07 examples/s][A
+Dropping Long Sequences:  70%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                 | 7000/10000 [00:02<00:00, 3377.54 examples/s][A
+Dropping Long Sequences:  80%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                | 8000/10000 [00:03<00:00, 3510.73 examples/s][A
+Dropping Long Sequences:  90%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                | 9000/10000 [00:03<00:00, 3568.61 examples/s][A
+Dropping Long Sequences: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10000/10000 [00:03<00:00, 3618.72 examples/s][ADropping Long Sequences: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10000/10000 [00:03<00:00, 2624.11 examples/s]
+
+Add position_id column (Pretraining Sample Packing):   0%|                                                                                                                                                      | 0/8701 [00:00<?, ? examples/s][A
+Add position_id column (Pretraining Sample Packing):  11%|███████████████▊                                                                                                                          | 1000/8701 [00:01<00:09, 776.61 examples/s][A
+Add position_id column (Pretraining Sample Packing):  23%|███████████████████████████████▍                                                                                                         | 2000/8701 [00:01<00:04, 1608.41 examples/s][A
+Add position_id column (Pretraining Sample Packing):  34%|███████████████████████████████████████████████▏                                                                                         | 3000/8701 [00:01<00:02, 2476.64 examples/s][A
+Add position_id column (Pretraining Sample Packing):  46%|██████████████████████████████████████████████████████████████▉                                                                          | 4000/8701 [00:01<00:01, 3227.15 examples/s][A
+Add position_id column (Pretraining Sample Packing):  57%|██████████████████████████████████████████████████████████████████████████████▋                                                          | 5000/8701 [00:01<00:00, 3995.75 examples/s][A
+Add position_id column (Pretraining Sample Packing):  69%|██████████████████████████████████████████████████████████████████████████████████████████████▍                                          | 6000/8701 [00:02<00:00, 4653.90 examples/s][A
+Add position_id column (Pretraining Sample Packing):  80%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                          | 7000/8701 [00:02<00:00, 5208.20 examples/s][A
+Add position_id column (Pretraining Sample Packing):  92%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉           | 8000/8701 [00:02<00:00, 5408.58 examples/s][AAdd position_id column (Pretraining Sample Packing): 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 8701/8701 [00:02<00:00, 3466.71 examples/s]
+[2025-11-16 22:44:10,713] [DEBUG] [axolotl.utils.samplers.multipack.pack_parallel:177] [PID:8163] Using single process for pack_parallel, running sequentially.
+  9%|██████████████████▏                                                                                                                                                                              | 1414/15000 [1:01:25<92:12:06, 24.43s/it]  9%|██████████████████▏                                                                                                                                                                              | 1415/15000 [1:01:28<67:11:48, 17.81s/it]  9%|██████████████████▏                                                                                                                                                                              | 1416/15000 [1:01:30<49:41:47, 13.17s/it]  9%|██████████████████▏                                                                                                                                                                              | 1417/15000 [1:01:32<37:26:49,  9.92s/it]  9%|██████████████████▏                                                                                                                                                                              | 1418/15000 [1:01:35<28:52:24,  7.65s/it]  9%|██████████████████▎                                                                                                                                                                              | 1419/15000 [1:01:37<22:52:02,  6.06s/it]  9%|██████████████████▎                                                                                                                                                                              | 1420/15000 [1:01:39<18:39:38,  4.95s/it]                                                                                                                                                                                                                                                {'loss': 4.1117, 'grad_norm': 1.796875, 'learning_rate': 4.7435e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3408.5, 'total_tokens': 11598845, 'epoch': 0.09}
+  9%|██████████████████▎                                                                                                                                                                              | 1420/15000 [1:01:39<18:39:38,  4.95s/it]  9%|██████████████████▎                                                                                                                                                                              | 1421/15000 [1:01:42<15:43:16,  4.17s/it]  9%|██████████████████▎                                                                                                                                                                              | 1422/15000 [1:01:44<13:39:54,  3.62s/it]  9%|██████████████████▎                                                                                                                                                                              | 1423/15000 [1:01:47<12:13:29,  3.24s/it]  9%|██████████████████▎                                                                                                                                                                              | 1424/15000 [1:01:49<11:13:03,  2.97s/it] 10%|██████████████████▎                                                                                                                                                                              | 1425/15000 [1:01:51<10:30:48,  2.79s/it] 10%|██████████████████▎                                                                                                                                                                              | 1426/15000 [1:01:54<10:01:10,  2.66s/it] 10%|██████████████████▍                                                                                                                                                                               | 1427/15000 [1:01:56<9:40:37,  2.57s/it] 10%|██████████████████▍                                                                                                                                                                               | 1428/15000 [1:01:58<9:25:49,  2.50s/it] 10%|██████████████████▍                                                                                                                                                                               | 1429/15000 [1:02:01<9:15:15,  2.45s/it] 10%|██████████████████▍                                                                                                                                                                               | 1430/15000 [1:02:03<9:08:01,  2.42s/it]                                                                                                                                                                                                                                                {'loss': 4.0602, 'grad_norm': 1.7890625, 'learning_rate': 4.7751666666666665e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3495.36, 'total_tokens': 11680691, 'epoch': 0.1}
+ 10%|██████████████████▍                                                                                                                                                                               | 1430/15000 [1:02:03<9:08:01,  2.42s/it] 10%|██████████████████▌                                                                                                                                                                               | 1431/15000 [1:02:05<9:03:14,  2.40s/it] 10%|██████████████████▌                                                                                                                                                                               | 1432/15000 [1:02:08<8:59:48,  2.39s/it] 10%|██████████████████▌                                                                                                                                                                               | 1433/15000 [1:02:10<8:57:31,  2.38s/it] 10%|██████████████████▌                                                                                                                                                                               | 1434/15000 [1:02:12<8:56:14,  2.37s/it] 10%|██████████████████▌                                                                                                                                                                               | 1435/15000 [1:02:15<8:54:44,  2.37s/it] 10%|██████████████████▌                                                                                                                                                                               | 1436/15000 [1:02:17<8:53:23,  2.36s/it] 10%|██████████████████▌                                                                                                                                                                               | 1437/15000 [1:02:19<8:53:03,  2.36s/it] 10%|██████████████████▌                                                                                                                                                                               | 1438/15000 [1:02:22<8:52:45,  2.36s/it] 10%|██████████████████▌                                                                                                                                                                               | 1439/15000 [1:02:24<8:52:43,  2.36s/it] 10%|██████████████████▌                                                                                                                                                                               | 1440/15000 [1:02:27<8:52:36,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 4.0499, 'grad_norm': 1.7578125, 'learning_rate': 4.8068333333333335e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3485.35, 'total_tokens': 11762552, 'epoch': 0.1}
+ 10%|██████████████████▌                                                                                                                                                                               | 1440/15000 [1:02:27<8:52:36,  2.36s/it] 10%|██████████████████▋                                                                                                                                                                               | 1441/15000 [1:02:29<8:52:35,  2.36s/it] 10%|██████████████████▋                                                                                                                                                                               | 1442/15000 [1:02:31<8:52:20,  2.36s/it] 10%|██████████████████▋                                                                                                                                                                               | 1443/15000 [1:02:34<8:52:04,  2.35s/it] 10%|██████████████████▋                                                                                                                                                                               | 1444/15000 [1:02:36<8:52:09,  2.36s/it] 10%|██████████████████▋                                                                                                                                                                               | 1445/15000 [1:02:38<8:52:41,  2.36s/it] 10%|██████████████████▋                                                                                                                                                                               | 1446/15000 [1:02:41<8:52:22,  2.36s/it] 10%|██████████████████▋                                                                                                                                                                               | 1447/15000 [1:02:43<8:52:06,  2.36s/it] 10%|██████████████████▋                                                                                                                                                                               | 1448/15000 [1:02:45<8:51:43,  2.35s/it] 10%|██████████████████▋                                                                                                                                                                               | 1449/15000 [1:02:48<8:51:35,  2.35s/it] 10%|██████████████████▊                                                                                                                                                                               | 1450/15000 [1:02:50<8:51:25,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 4.1921, 'grad_norm': 1.7421875, 'learning_rate': 4.8385000000000005e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3490.59, 'total_tokens': 11844404, 'epoch': 0.1}
+ 10%|██████████████████▊                                                                                                                                                                               | 1450/15000 [1:02:50<8:51:25,  2.35s/it] 10%|██████████████████▊                                                                                                                                                                               | 1451/15000 [1:02:52<8:50:54,  2.35s/it] 10%|██████████████████▊                                                                                                                                                                               | 1452/15000 [1:02:55<8:51:10,  2.35s/it] 10%|██████████████████▊                                                                                                                                                                               | 1453/15000 [1:02:57<8:50:32,  2.35s/it] 10%|██████████████████▊                                                                                                                                                                               | 1454/15000 [1:02:59<8:50:57,  2.35s/it] 10%|██████████████████▊                                                                                                                                                                               | 1455/15000 [1:03:02<8:50:42,  2.35s/it] 10%|██████████████████▊                                                                                                                                                                               | 1456/15000 [1:03:04<8:51:08,  2.35s/it] 10%|██████████████████▊                                                                                                                                                                               | 1457/15000 [1:03:07<8:51:29,  2.35s/it] 10%|██████████████████▊                                                                                                                                                                               | 1458/15000 [1:03:09<8:51:43,  2.36s/it] 10%|██████████████████▊                                                                                                                                                                               | 1459/15000 [1:03:11<8:51:48,  2.36s/it] 10%|██████████████████▉                                                                                                                                                                               | 1460/15000 [1:03:14<8:51:01,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 4.0597, 'grad_norm': 1.8984375, 'learning_rate': 4.870166666666667e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3499.66, 'total_tokens': 11926231, 'epoch': 0.1}
+ 10%|██████████████████▉                                                                                                                                                                               | 1460/15000 [1:03:14<8:51:01,  2.35s/it] 10%|██████████████████▉                                                                                                                                                                               | 1461/15000 [1:03:16<8:51:05,  2.35s/it] 10%|██████████████████▉                                                                                                                                                                               | 1462/15000 [1:03:18<8:50:58,  2.35s/it] 10%|██████████████████▉                                                                                                                                                                               | 1463/15000 [1:03:21<8:50:59,  2.35s/it] 10%|██████████████████▉                                                                                                                                                                               | 1464/15000 [1:03:23<8:51:01,  2.35s/it] 10%|██████████████████▉                                                                                                                                                                               | 1465/15000 [1:03:25<8:51:02,  2.35s/it] 10%|██████████████████▉                                                                                                                                                                               | 1466/15000 [1:03:28<8:50:41,  2.35s/it] 10%|██████████████████▉                                                                                                                                                                               | 1467/15000 [1:03:30<8:50:33,  2.35s/it] 10%|██████████████████▉                                                                                                                                                                               | 1468/15000 [1:03:32<8:50:44,  2.35s/it] 10%|██████████████████▉                                                                                                                                                                               | 1469/15000 [1:03:35<8:50:43,  2.35s/it] 10%|███████████████████                                                                                                                                                                               | 1470/15000 [1:03:37<8:50:56,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 4.1181, 'grad_norm': 1.671875, 'learning_rate': 4.901833333333333e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3481.76, 'total_tokens': 12008057, 'epoch': 0.1}
+ 10%|███████████████████                                                                                                                                                                               | 1470/15000 [1:03:37<8:50:56,  2.35s/it] 10%|███████████████████                                                                                                                                                                               | 1471/15000 [1:03:39<8:50:48,  2.35s/it] 10%|███████████████████                                                                                                                                                                               | 1472/15000 [1:03:42<8:51:11,  2.36s/it] 10%|███████████████████                                                                                                                                                                               | 1473/15000 [1:03:44<8:50:50,  2.35s/it] 10%|███████████████████                                                                                                                                                                               | 1474/15000 [1:03:47<8:50:33,  2.35s/it] 10%|███████████████████                                                                                                                                                                               | 1475/15000 [1:03:49<8:49:43,  2.35s/it] 10%|███████████████████                                                                                                                                                                               | 1476/15000 [1:03:51<8:49:16,  2.35s/it] 10%|███████████████████                                                                                                                                                                               | 1477/15000 [1:03:54<8:49:54,  2.35s/it] 10%|███████████████████                                                                                                                                                                               | 1478/15000 [1:03:56<8:49:44,  2.35s/it] 10%|███████████████████▏                                                                                                                                                                              | 1479/15000 [1:03:58<8:49:38,  2.35s/it] 10%|███████████████████▏                                                                                                                                                                              | 1480/15000 [1:04:01<8:49:44,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 4.1293, 'grad_norm': 1.7734375, 'learning_rate': 4.9335e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3490.06, 'total_tokens': 12089905, 'epoch': 0.1}
+ 10%|███████████████████▏                                                                                                                                                                              | 1480/15000 [1:04:01<8:49:44,  2.35s/it] 10%|███████████████████▏                                                                                                                                                                              | 1481/15000 [1:04:03<8:49:34,  2.35s/it] 10%|███████████████████▏                                                                                                                                                                              | 1482/15000 [1:04:05<8:49:18,  2.35s/it] 10%|███████████████████▏                                                                                                                                                                              | 1483/15000 [1:04:08<8:49:24,  2.35s/it] 10%|███████████████████▏                                                                                                                                                                              | 1484/15000 [1:04:10<8:49:08,  2.35s/it] 10%|███████████████████▏                                                                                                                                                                              | 1485/15000 [1:04:12<8:49:07,  2.35s/it] 10%|███████████████████▏                                                                                                                                                                              | 1486/15000 [1:04:15<8:48:55,  2.35s/it] 10%|███████████████████▏                                                                                                                                                                              | 1487/15000 [1:04:17<8:49:41,  2.35s/it] 10%|███████████████████▏                                                                                                                                                                              | 1488/15000 [1:04:19<8:49:49,  2.35s/it] 10%|███████████████████▎                                                                                                                                                                              | 1489/15000 [1:04:22<8:49:26,  2.35s/it] 10%|███████████████████▎                                                                                                                                                                              | 1490/15000 [1:04:24<8:49:18,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 4.0182, 'grad_norm': 1.84375, 'learning_rate': 4.965166666666667e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3491.31, 'total_tokens': 12171697, 'epoch': 0.1}
+ 10%|███████████████████▎                                                                                                                                                                              | 1490/15000 [1:04:24<8:49:18,  2.35s/it] 10%|███████████████████▎                                                                                                                                                                              | 1491/15000 [1:04:26<8:49:28,  2.35s/it] 10%|███████████████████▎                                                                                                                                                                              | 1492/15000 [1:04:29<8:49:41,  2.35s/it] 10%|███████████████████▎                                                                                                                                                                              | 1493/15000 [1:04:31<8:49:45,  2.35s/it] 10%|███████████████████▎                                                                                                                                                                              | 1494/15000 [1:04:34<8:49:57,  2.35s/it] 10%|███████████████████▎                                                                                                                                                                              | 1495/15000 [1:04:36<8:49:40,  2.35s/it] 10%|███████████████████▎                                                                                                                                                                              | 1496/15000 [1:04:38<8:49:17,  2.35s/it] 10%|███████████████████▎                                                                                                                                                                              | 1497/15000 [1:04:41<8:49:22,  2.35s/it] 10%|███████████████████▎                                                                                                                                                                              | 1498/15000 [1:04:43<8:48:47,  2.35s/it] 10%|███████████████████▍                                                                                                                                                                              | 1499/15000 [1:04:45<8:48:47,  2.35s/it] 10%|███████████████████▍                                                                                                                                                                              | 1500/15000 [1:04:48<9:19:30,  2.49s/it]                                                                                                                                                                                                                                                {'loss': 4.0194, 'grad_norm': 1.71875, 'learning_rate': 4.9968333333333334e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 2923.08, 'total_tokens': 12253498, 'epoch': 0.1}
+ 10%|███████████████████▍                                                                                                                                                                              | 1500/15000 [1:04:48<9:19:30,  2.49s/it] 10%|███████████████████▍                                                                                                                                                                              | 1501/15000 [1:04:50<9:10:40,  2.45s/it] 10%|███████████████████▍                                                                                                                                                                              | 1502/15000 [1:04:53<9:03:50,  2.42s/it] 10%|███████████████████▍                                                                                                                                                                              | 1503/15000 [1:04:55<8:59:36,  2.40s/it] 10%|███████████████████▍                                                                                                                                                                              | 1504/15000 [1:04:58<8:56:00,  2.38s/it] 10%|███████████████████▍                                                                                                                                                                              | 1505/15000 [1:05:00<8:53:26,  2.37s/it] 10%|███████████████████▍                                                                                                                                                                              | 1506/15000 [1:05:02<8:51:45,  2.36s/it] 10%|███████████████████▍                                                                                                                                                                              | 1507/15000 [1:05:05<8:50:52,  2.36s/it] 10%|███████████████████▌                                                                                                                                                                              | 1508/15000 [1:05:07<8:50:34,  2.36s/it] 10%|███████████████████▌                                                                                                                                                                              | 1509/15000 [1:05:09<8:49:51,  2.36s/it] 10%|███████████████████▌                                                                                                                                                                              | 1510/15000 [1:05:12<8:49:40,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 3.9848, 'grad_norm': 1.8125, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3486.56, 'total_tokens': 12335335, 'epoch': 0.1}
+ 10%|███████████████████▌                                                                                                                                                                              | 1510/15000 [1:05:12<8:49:40,  2.36s/it] 10%|███████████████████▌                                                                                                                                                                              | 1511/15000 [1:05:14<8:49:23,  2.35s/it] 10%|███████████████████▌                                                                                                                                                                              | 1512/15000 [1:05:16<8:49:06,  2.35s/it] 10%|███████████████████▌                                                                                                                                                                              | 1513/15000 [1:05:19<8:49:02,  2.35s/it] 10%|███████████████████▌                                                                                                                                                                              | 1514/15000 [1:05:21<8:48:57,  2.35s/it] 10%|███████████████████▌                                                                                                                                                                              | 1515/15000 [1:05:23<8:48:47,  2.35s/it] 10%|███████████████████▌                                                                                                                                                                              | 1516/15000 [1:05:26<8:48:42,  2.35s/it] 10%|███████████████████▌                                                                                                                                                                              | 1517/15000 [1:05:28<8:48:43,  2.35s/it] 10%|███████████████████▋                                                                                                                                                                              | 1518/15000 [1:05:30<8:49:08,  2.35s/it] 10%|███████████████████▋                                                                                                                                                                              | 1519/15000 [1:05:33<8:49:00,  2.35s/it] 10%|███████████████████▋                                                                                                                                                                              | 1520/15000 [1:05:35<8:49:14,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 4.0046, 'grad_norm': 1.8359375, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3479.47, 'total_tokens': 12417148, 'epoch': 0.1}
+ 10%|███████████████████▋                                                                                                                                                                              | 1520/15000 [1:05:35<8:49:14,  2.36s/it] 10%|███████████████████▋                                                                                                                                                                              | 1521/15000 [1:05:38<8:49:13,  2.36s/it] 10%|███████████████████▋                                                                                                                                                                              | 1522/15000 [1:05:40<8:48:54,  2.35s/it] 10%|███████████████████▋                                                                                                                                                                              | 1523/15000 [1:05:42<8:48:37,  2.35s/it] 10%|███████████████████▋                                                                                                                                                                              | 1524/15000 [1:05:45<8:48:30,  2.35s/it] 10%|███████████████████▋                                                                                                                                                                              | 1525/15000 [1:05:47<8:48:39,  2.35s/it] 10%|███████████████████▋                                                                                                                                                                              | 1526/15000 [1:05:49<8:48:40,  2.35s/it] 10%|███████████████████▋                                                                                                                                                                              | 1527/15000 [1:05:52<8:48:34,  2.35s/it] 10%|███████████████████▊                                                                                                                                                                              | 1528/15000 [1:05:54<8:48:43,  2.35s/it] 10%|███████████████████▊                                                                                                                                                                              | 1529/15000 [1:05:56<8:48:59,  2.36s/it] 10%|███████████████████▊                                                                                                                                                                              | 1530/15000 [1:05:59<8:48:23,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 4.0027, 'grad_norm': 1.734375, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3492.7, 'total_tokens': 12498910, 'epoch': 0.1}
+ 10%|███████████████████▊                                                                                                                                                                              | 1530/15000 [1:05:59<8:48:23,  2.35s/it] 10%|███████████████████▊                                                                                                                                                                              | 1531/15000 [1:06:01<8:48:14,  2.35s/it] 10%|███████████████████▊                                                                                                                                                                              | 1532/15000 [1:06:03<8:48:07,  2.35s/it] 10%|███████████████████▊                                                                                                                                                                              | 1533/15000 [1:06:06<8:47:55,  2.35s/it] 10%|███████████████████▊                                                                                                                                                                              | 1534/15000 [1:06:08<8:48:07,  2.35s/it] 10%|███████████████████▊                                                                                                                                                                              | 1535/15000 [1:06:10<8:48:16,  2.35s/it] 10%|███████████████████▊                                                                                                                                                                              | 1536/15000 [1:06:13<8:47:59,  2.35s/it] 10%|███████████████████▉                                                                                                                                                                              | 1537/15000 [1:06:15<8:48:04,  2.35s/it] 10%|███████████████████▉                                                                                                                                                                              | 1538/15000 [1:06:18<8:47:47,  2.35s/it] 10%|███████████████████▉                                                                                                                                                                              | 1539/15000 [1:06:20<8:47:43,  2.35s/it] 10%|███████████████████▉                                                                                                                                                                              | 1540/15000 [1:06:22<8:47:52,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 3.9914, 'grad_norm': 2.796875, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3485.64, 'total_tokens': 12580741, 'epoch': 0.1}
+ 10%|███████████████████▉                                                                                                                                                                              | 1540/15000 [1:06:22<8:47:52,  2.35s/it] 10%|███████████████████▉                                                                                                                                                                              | 1541/15000 [1:06:25<8:47:54,  2.35s/it] 10%|███████████████████▉                                                                                                                                                                              | 1542/15000 [1:06:27<8:47:41,  2.35s/it] 10%|███████████████████▉                                                                                                                                                                              | 1543/15000 [1:06:29<8:47:49,  2.35s/it] 10%|███████████████████▉                                                                                                                                                                              | 1544/15000 [1:06:32<8:47:57,  2.35s/it] 10%|███████████████████▉                                                                                                                                                                              | 1545/15000 [1:06:34<8:47:19,  2.35s/it] 10%|███████████████████▉                                                                                                                                                                              | 1546/15000 [1:06:36<8:47:47,  2.35s/it] 10%|████████████████████                                                                                                                                                                              | 1547/15000 [1:06:39<8:47:49,  2.35s/it] 10%|████████████████████                                                                                                                                                                              | 1548/15000 [1:06:41<8:47:59,  2.35s/it] 10%|████████████████████                                                                                                                                                                              | 1549/15000 [1:06:43<8:47:35,  2.35s/it] 10%|████████████████████                                                                                                                                                                              | 1550/15000 [1:06:46<8:47:23,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 3.9565, 'grad_norm': 1.78125, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3489.23, 'total_tokens': 12662523, 'epoch': 0.1}
+ 10%|████████████████████                                                                                                                                                                              | 1550/15000 [1:06:46<8:47:23,  2.35s/it] 10%|████████████████████                                                                                                                                                                              | 1551/15000 [1:06:48<8:47:44,  2.35s/it] 10%|████████████████████                                                                                                                                                                              | 1552/15000 [1:06:50<8:47:11,  2.35s/it] 10%|████████████████████                                                                                                                                                                              | 1553/15000 [1:06:53<8:47:21,  2.35s/it] 10%|████████████████████                                                                                                                                                                              | 1554/15000 [1:06:55<8:47:36,  2.35s/it] 10%|████████████████████                                                                                                                                                                              | 1555/15000 [1:06:58<8:47:30,  2.35s/it] 10%|████████████████████                                                                                                                                                                              | 1556/15000 [1:07:00<8:47:36,  2.35s/it] 10%|████████████████████▏                                                                                                                                                                             | 1557/15000 [1:07:02<8:47:20,  2.35s/it] 10%|████████████████████▏                                                                                                                                                                             | 1558/15000 [1:07:05<8:47:22,  2.35s/it] 10%|████████████████████▏                                                                                                                                                                             | 1559/15000 [1:07:07<8:47:09,  2.35s/it] 10%|████████████████████▏                                                                                                                                                                             | 1560/15000 [1:07:09<8:46:47,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 4.0292, 'grad_norm': 1.765625, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3495.22, 'total_tokens': 12744344, 'epoch': 0.1}
+ 10%|████████████████████▏                                                                                                                                                                             | 1560/15000 [1:07:09<8:46:47,  2.35s/it] 10%|████████████████████▏                                                                                                                                                                             | 1561/15000 [1:07:12<8:47:14,  2.35s/it] 10%|████████████████████▏                                                                                                                                                                             | 1562/15000 [1:07:14<8:47:00,  2.35s/it] 10%|████████████████████▏                                                                                                                                                                             | 1563/15000 [1:07:16<8:47:33,  2.36s/it] 10%|████████████████████▏                                                                                                                                                                             | 1564/15000 [1:07:19<8:47:09,  2.35s/it] 10%|████████████████████▏                                                                                                                                                                             | 1565/15000 [1:07:21<8:46:54,  2.35s/it] 10%|████████████████████▎                                                                                                                                                                             | 1566/15000 [1:07:23<8:46:43,  2.35s/it] 10%|████████████████████▎                                                                                                                                                                             | 1567/15000 [1:07:26<8:46:22,  2.35s/it] 10%|████████████████████▎                                                                                                                                                                             | 1568/15000 [1:07:28<8:46:16,  2.35s/it] 10%|████████████████████▎                                                                                                                                                                             | 1569/15000 [1:07:30<8:46:08,  2.35s/it] 10%|████████████████████▎                                                                                                                                                                             | 1570/15000 [1:07:33<8:45:46,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 3.9047, 'grad_norm': 1.7109375, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3497.78, 'total_tokens': 12826139, 'epoch': 0.1}
+ 10%|████████████████████▎                                                                                                                                                                             | 1570/15000 [1:07:33<8:45:46,  2.35s/it] 10%|████████████████████▎                                                                                                                                                                             | 1571/15000 [1:07:35<8:45:47,  2.35s/it] 10%|████████████████████▎                                                                                                                                                                             | 1572/15000 [1:07:37<8:45:33,  2.35s/it] 10%|████████████████████▎                                                                                                                                                                             | 1573/15000 [1:07:40<8:45:31,  2.35s/it] 10%|████████████████████▎                                                                                                                                                                             | 1574/15000 [1:07:42<8:45:34,  2.35s/it] 10%|████████████████████▎                                                                                                                                                                             | 1575/15000 [1:07:45<8:45:34,  2.35s/it] 11%|████████████████████▍                                                                                                                                                                             | 1576/15000 [1:07:47<8:46:14,  2.35s/it] 11%|████████████████████▍                                                                                                                                                                             | 1577/15000 [1:07:49<8:46:40,  2.35s/it] 11%|████████████████████▍                                                                                                                                                                             | 1578/15000 [1:07:52<8:46:37,  2.35s/it] 11%|████████████████████▍                                                                                                                                                                             | 1579/15000 [1:07:54<8:46:20,  2.35s/it] 11%|████████████████████▍                                                                                                                                                                             | 1580/15000 [1:07:56<8:46:27,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 3.8529, 'grad_norm': 1.6328125, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3482.4, 'total_tokens': 12907917, 'epoch': 0.11}
+ 11%|████████████████████▍                                                                                                                                                                             | 1580/15000 [1:07:56<8:46:27,  2.35s/it] 11%|████████████████████▍                                                                                                                                                                             | 1581/15000 [1:07:59<8:46:44,  2.36s/it] 11%|████████████████████▍                                                                                                                                                                             | 1582/15000 [1:08:01<8:46:53,  2.36s/it] 11%|████████████████████▍                                                                                                                                                                             | 1583/15000 [1:08:03<8:46:30,  2.35s/it] 11%|████████████████████▍                                                                                                                                                                             | 1584/15000 [1:08:06<8:46:05,  2.35s/it] 11%|████████████████████▍                                                                                                                                                                             | 1585/15000 [1:08:08<8:45:28,  2.35s/it] 11%|████████████████████▌                                                                                                                                                                             | 1586/15000 [1:08:10<8:45:27,  2.35s/it] 11%|████████████████████▌                                                                                                                                                                             | 1587/15000 [1:08:13<8:45:17,  2.35s/it] 11%|████████████████████▌                                                                                                                                                                             | 1588/15000 [1:08:15<8:46:16,  2.35s/it] 11%|████████████████████▌                                                                                                                                                                             | 1589/15000 [1:08:18<8:46:30,  2.36s/it] 11%|████████████████████▌                                                                                                                                                                             | 1590/15000 [1:08:20<8:46:34,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 3.9207, 'grad_norm': 1.7265625, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3479.39, 'total_tokens': 12989706, 'epoch': 0.11}
+ 11%|████████████████████▌                                                                                                                                                                             | 1590/15000 [1:08:20<8:46:34,  2.36s/it] 11%|████████████████████▌                                                                                                                                                                             | 1591/15000 [1:08:22<8:45:59,  2.35s/it] 11%|████████████████████▌                                                                                                                                                                             | 1592/15000 [1:08:25<8:45:12,  2.35s/it] 11%|████████████████████▌                                                                                                                                                                             | 1593/15000 [1:08:27<8:45:08,  2.35s/it] 11%|████████████████████▌                                                                                                                                                                             | 1594/15000 [1:08:29<8:45:20,  2.35s/it] 11%|████████████████████▋                                                                                                                                                                             | 1595/15000 [1:08:32<8:45:52,  2.35s/it] 11%|████████████████████▋                                                                                                                                                                             | 1596/15000 [1:08:34<8:45:45,  2.35s/it] 11%|████████████████████▋                                                                                                                                                                             | 1597/15000 [1:08:36<8:46:06,  2.36s/it] 11%|████████████████████▋                                                                                                                                                                             | 1598/15000 [1:08:39<8:46:05,  2.36s/it] 11%|████████████████████▋                                                                                                                                                                             | 1599/15000 [1:08:41<8:45:36,  2.35s/it] 11%|████████████████████▋                                                                                                                                                                             | 1600/15000 [1:08:43<8:45:17,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 3.9206, 'grad_norm': 1.78125, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3491.91, 'total_tokens': 13071487, 'epoch': 0.11}
+ 11%|████████████████████▋                                                                                                                                                                             | 1600/15000 [1:08:43<8:45:17,  2.35s/it] 11%|████████████████████▋                                                                                                                                                                             | 1601/15000 [1:08:46<8:45:54,  2.35s/it] 11%|████████████████████▋                                                                                                                                                                             | 1602/15000 [1:08:48<8:45:35,  2.35s/it] 11%|████████████████████▋                                                                                                                                                                             | 1603/15000 [1:08:50<8:45:29,  2.35s/it] 11%|████████████████████▋                                                                                                                                                                             | 1604/15000 [1:08:53<8:45:15,  2.35s/it] 11%|████████████████████▊                                                                                                                                                                             | 1605/15000 [1:08:55<8:45:14,  2.35s/it] 11%|████████████████████▊                                                                                                                                                                             | 1606/15000 [1:08:58<8:45:07,  2.35s/it] 11%|████████████████████▊                                                                                                                                                                             | 1607/15000 [1:09:00<8:45:28,  2.35s/it] 11%|████████████████████▊                                                                                                                                                                             | 1608/15000 [1:09:02<8:45:21,  2.35s/it] 11%|████████████████████▊                                                                                                                                                                             | 1609/15000 [1:09:05<8:45:00,  2.35s/it] 11%|████████████████████▊                                                                                                                                                                             | 1610/15000 [1:09:07<8:44:58,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 3.8144, 'grad_norm': 1.7265625, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3486.08, 'total_tokens': 13153255, 'epoch': 0.11}
+ 11%|████████████████████▊                                                                                                                                                                             | 1610/15000 [1:09:07<8:44:58,  2.35s/it] 11%|████████████████████▊                                                                                                                                                                             | 1611/15000 [1:09:09<8:45:09,  2.35s/it] 11%|████████████████████▊                                                                                                                                                                             | 1612/15000 [1:09:12<8:44:51,  2.35s/it] 11%|████████████████████▊                                                                                                                                                                             | 1613/15000 [1:09:14<8:44:53,  2.35s/it] 11%|████████████████████▊                                                                                                                                                                             | 1614/15000 [1:09:16<8:45:12,  2.35s/it] 11%|████████████████████▉                                                                                                                                                                             | 1615/15000 [1:09:19<8:45:04,  2.35s/it] 11%|████████████████████▉                                                                                                                                                                             | 1616/15000 [1:09:21<8:44:34,  2.35s/it] 11%|████████████████████▉                                                                                                                                                                             | 1617/15000 [1:09:23<8:44:54,  2.35s/it] 11%|████████████████████▉                                                                                                                                                                             | 1618/15000 [1:09:26<8:44:15,  2.35s/it] 11%|████████████████████▉                                                                                                                                                                             | 1619/15000 [1:09:28<8:44:19,  2.35s/it] 11%|████████████████████▉                                                                                                                                                                             | 1620/15000 [1:09:30<8:44:47,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 3.9314, 'grad_norm': 1.7109375, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3473.63, 'total_tokens': 13234933, 'epoch': 0.11}
+ 11%|████████████████████▉                                                                                                                                                                             | 1620/15000 [1:09:30<8:44:47,  2.35s/it] 11%|████████████████████▉                                                                                                                                                                             | 1621/15000 [1:09:33<8:44:40,  2.35s/it] 11%|████████████████████▉                                                                                                                                                                             | 1622/15000 [1:09:35<8:44:12,  2.35s/it] 11%|████████████████████▉                                                                                                                                                                             | 1623/15000 [1:09:38<8:44:44,  2.35s/it] 11%|█████████████████████                                                                                                                                                                             | 1624/15000 [1:09:40<8:44:49,  2.35s/it] 11%|█████████████████████                                                                                                                                                                             | 1625/15000 [1:09:42<8:44:29,  2.35s/it] 11%|█████████████████████                                                                                                                                                                             | 1626/15000 [1:09:45<8:45:00,  2.36s/it] 11%|█████████████████████                                                                                                                                                                             | 1627/15000 [1:09:47<8:44:46,  2.35s/it] 11%|█████████████████████                                                                                                                                                                             | 1628/15000 [1:09:49<8:44:16,  2.35s/it] 11%|█████████████████████                                                                                                                                                                             | 1629/15000 [1:09:52<8:43:47,  2.35s/it] 11%|█████████████████████                                                                                                                                                                             | 1630/15000 [1:09:54<8:44:06,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 3.8425, 'grad_norm': 1.8515625, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3479.52, 'total_tokens': 13316653, 'epoch': 0.11}
+ 11%|█████████████████████                                                                                                                                                                             | 1630/15000 [1:09:54<8:44:06,  2.35s/it] 11%|█████████████████████                                                                                                                                                                             | 1631/15000 [1:09:56<8:44:23,  2.35s/it] 11%|█████████████████████                                                                                                                                                                             | 1632/15000 [1:09:59<8:44:24,  2.35s/it] 11%|█████████████████████                                                                                                                                                                             | 1633/15000 [1:10:01<8:44:25,  2.35s/it] 11%|█████████████████████▏                                                                                                                                                                            | 1634/15000 [1:10:03<8:43:53,  2.35s/it] 11%|█████████████████████▏                                                                                                                                                                            | 1635/15000 [1:10:06<8:43:39,  2.35s/it] 11%|█████████████████████▏                                                                                                                                                                            | 1636/15000 [1:10:08<8:43:21,  2.35s/it] 11%|█████████████████████▏                                                                                                                                                                            | 1637/15000 [1:10:10<8:43:17,  2.35s/it] 11%|████████���████████████▏                                                                                                                                                                            | 1638/15000 [1:10:13<8:43:29,  2.35s/it] 11%|█████████████████████▏                                                                                                                                                                            | 1639/15000 [1:10:15<8:43:45,  2.35s/it] 11%|█████████████████████▏                                                                                                                                                                            | 1640/15000 [1:10:17<8:43:47,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 3.8656, 'grad_norm': 1.78125, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3485.42, 'total_tokens': 13398420, 'epoch': 0.11}
+ 11%|█████████████████████▏                                                                                                                                                                            | 1640/15000 [1:10:17<8:43:47,  2.35s/it] 11%|█████████████████████▏                                                                                                                                                                            | 1641/15000 [1:10:20<8:44:04,  2.35s/it] 11%|█████████████████████▏                                                                                                                                                                            | 1642/15000 [1:10:22<8:44:12,  2.35s/it] 11%|█████████████████████▏                                                                                                                                                                            | 1643/15000 [1:10:25<8:43:18,  2.35s/it] 11%|█████████████████████▎                                                                                                                                                                            | 1644/15000 [1:10:27<8:43:13,  2.35s/it] 11%|█████████████████████▎                                                                                                                                                                            | 1645/15000 [1:10:29<8:43:40,  2.35s/it] 11%|█████████████████████▎                                                                                                                                                                            | 1646/15000 [1:10:32<8:43:43,  2.35s/it] 11%|█████████████████████▎                                                                                                                                                                            | 1647/15000 [1:10:34<8:43:31,  2.35s/it] 11%|█████████████████████▎                                                                                                                                                                            | 1648/15000 [1:10:36<8:42:59,  2.35s/it] 11%|█████████████████████▎                                                                                                                                                                            | 1649/15000 [1:10:39<8:43:15,  2.35s/it] 11%|█████████████████████▎                                                                                                                                                                            | 1650/15000 [1:10:41<8:43:20,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 3.9287, 'grad_norm': 1.8046875, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3485.18, 'total_tokens': 13480194, 'epoch': 0.11}
+ 11%|█████████████████████▎                                                                                                                                                                            | 1650/15000 [1:10:41<8:43:20,  2.35s/it] 11%|█████████████████████▎                                                                                                                                                                            | 1651/15000 [1:10:43<8:43:23,  2.35s/it] 11%|█████████████████████▎                                                                                                                                                                            | 1652/15000 [1:10:46<8:42:58,  2.35s/it] 11%|█████████████████████▍                                                                                                                                                                            | 1653/15000 [1:10:48<8:43:43,  2.35s/it] 11%|█████████████████████▍                                                                                                                                                                            | 1654/15000 [1:10:50<8:43:49,  2.35s/it] 11%|█████████████████████▍                                                                                                                                                                            | 1655/15000 [1:10:53<8:44:04,  2.36s/it] 11%|█████████████████████▍                                                                                                                                                                            | 1656/15000 [1:10:55<8:44:13,  2.36s/it] 11%|█████████████████████▍                                                                                                                                                                            | 1657/15000 [1:10:57<8:43:45,  2.36s/it] 11%|█████████████████████▍                                                                                                                                                                            | 1658/15000 [1:11:00<8:43:58,  2.36s/it] 11%|█████████████████████▍                                                                                                                                                                            | 1659/15000 [1:11:02<8:43:28,  2.35s/it] 11%|█████████████████████▍                                                                                                                                                                            | 1660/15000 [1:11:05<8:43:24,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 3.9035, 'grad_norm': 1.7734375, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3480.84, 'total_tokens': 13561883, 'epoch': 0.11}
+ 11%|█████████████████████▍                                                                                                                                                                            | 1660/15000 [1:11:05<8:43:24,  2.35s/it] 11%|█████████████████████▍                                                                                                                                                                            | 1661/15000 [1:11:07<8:43:26,  2.35s/it] 11%|█████████████████████▍                                                                                                                                                                            | 1662/15000 [1:11:09<8:43:12,  2.35s/it] 11%|█████████████████████▌                                                                                                                                                                            | 1663/15000 [1:11:12<8:43:20,  2.35s/it] 11%|█████████████████████▌                                                                                                                                                                            | 1664/15000 [1:11:14<8:42:47,  2.35s/it] 11%|█████████████████████▌                                                                                                                                                                            | 1665/15000 [1:11:16<8:42:48,  2.35s/it] 11%|█████████████████████▌                                                                                                                                                                            | 1666/15000 [1:11:19<8:42:52,  2.35s/it] 11%|█████████████████████▌                                                                                                                                                                            | 1667/15000 [1:11:21<8:42:48,  2.35s/it] 11%|█████████████████████▌                                                                                                                                                                            | 1668/15000 [1:11:23<8:42:16,  2.35s/it] 11%|█████████████████████▌                                                                                                                                                                            | 1669/15000 [1:11:26<8:42:36,  2.35s/it] 11%|█████████████████████▌                                                                                                                                                                            | 1670/15000 [1:11:28<8:43:26,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 3.8247, 'grad_norm': 1.90625, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3467.1, 'total_tokens': 13643633, 'epoch': 0.11}
+ 11%|█████████████████████▌                                                                                                                                                                            | 1670/15000 [1:11:28<8:43:26,  2.36s/it] 11%|█████████████████████▌                                                                                                                                                                            | 1671/15000 [1:11:30<8:43:40,  2.36s/it] 11%|█████████████████████▌                                                                                                                                                                            | 1672/15000 [1:11:33<8:43:25,  2.36s/it] 11%|█████████████████████▋                                                                                                                                                                            | 1673/15000 [1:11:35<8:43:15,  2.36s/it] 11%|█████████████████████▋                                                                                                                                                                            | 1674/15000 [1:11:38<8:43:26,  2.36s/it] 11%|█████████████████████▋                                                                                                                                                                            | 1675/15000 [1:11:40<8:43:13,  2.36s/it] 11%|█████████████████████▋                                                                                                                                                                            | 1676/15000 [1:11:42<8:42:47,  2.35s/it] 11%|█████████████████████▋                                                                                                                                                                            | 1677/15000 [1:11:45<8:42:59,  2.36s/it] 11%|█████████████████████▋                                                                                                                                                                            | 1678/15000 [1:11:47<8:42:57,  2.36s/it] 11%|█████████████████████▋                                                                                                                                                                            | 1679/15000 [1:11:49<8:42:58,  2.36s/it] 11%|█████████████████████▋                                                                                                                                                                            | 1680/15000 [1:11:52<8:42:41,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 3.8611, 'grad_norm': 1.8359375, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3488.07, 'total_tokens': 13725425, 'epoch': 0.11}
+ 11%|█████████████████████▋                                                                                                                                                                            | 1680/15000 [1:11:52<8:42:41,  2.35s/it] 11%|█████████████████████▋                                                                                                                                                                            | 1681/15000 [1:11:54<8:42:58,  2.36s/it] 11%|█████████████████████▊                                                                                                                                                                            | 1682/15000 [1:11:56<8:42:57,  2.36s/it] 11%|█████████████████████▊                                                                                                                                                                            | 1683/15000 [1:11:59<8:43:20,  2.36s/it] 11%|█████████████████████▊                                                                                                                                                                            | 1684/15000 [1:12:01<8:42:51,  2.36s/it] 11%|█████████████████████▊                                                                                                                                                                            | 1685/15000 [1:12:03<8:44:04,  2.36s/it] 11%|█████████████████████▊                                                                                                                                                                            | 1686/15000 [1:12:06<8:43:49,  2.36s/it] 11%|█████████████████████▊                                                                                                                                                                            | 1687/15000 [1:12:08<8:43:29,  2.36s/it] 11%|█████████████████████▊                                                                                                                                                                            | 1688/15000 [1:12:11<8:43:27,  2.36s/it] 11%|█████████████████████▊                                                                                                                                                                            | 1689/15000 [1:12:13<8:44:27,  2.36s/it] 11%|█████████████████████▊                                                                                                                                                                            | 1690/15000 [1:12:15<8:44:20,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 3.8707, 'grad_norm': 1.953125, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3469.07, 'total_tokens': 13807185, 'epoch': 0.11}
+ 11%|█████████████████████▊                                                                                                                                                                            | 1690/15000 [1:12:15<8:44:20,  2.36s/it] 11%|█████████████████████▊                                                                                                                                                                            | 1691/15000 [1:12:18<8:43:51,  2.36s/it] 11%|█████████████████████▉                                                                                                                                                                            | 1692/15000 [1:12:20<8:43:34,  2.36s/it] 11%|█████████████████████▉                                                                                                                                                                            | 1693/15000 [1:12:22<8:43:11,  2.36s/it] 11%|█████████████████████▉                                                                                                                                                                            | 1694/15000 [1:12:25<8:42:51,  2.36s/it] 11%|█████████████████████▉                                                                                                                                                                            | 1695/15000 [1:12:27<8:42:28,  2.36s/it] 11%|█████████████████████▉                                                                                                                                                                            | 1696/15000 [1:12:29<8:42:52,  2.36s/it] 11%|█████████████████████▉                                                                                                                                                                            | 1697/15000 [1:12:32<8:43:02,  2.36s/it] 11%|█████████████████████▉                                                                                                                                                                            | 1698/15000 [1:12:34<8:42:41,  2.36s/it] 11%|█████████████████████▉                                                                                                                                                                            | 1699/15000 [1:12:36<8:42:08,  2.36s/it] 11%|█████████████████████▉                                                                                                                                                                            | 1700/15000 [1:12:39<8:42:20,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 3.8305, 'grad_norm': 1.8359375, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3475.43, 'total_tokens': 13888935, 'epoch': 0.11}
+ 11%|█████████████████████▉                                                                                                                                                                            | 1700/15000 [1:12:39<8:42:20,  2.36s/it] 11%|█████████████████████▉                                                                                                                                                                            | 1701/15000 [1:12:41<8:42:15,  2.36s/it] 11%|██████████████████████                                                                                                                                                                            | 1702/15000 [1:12:44<8:42:37,  2.36s/it] 11%|██████████████████████                                                                                                                                                                            | 1703/15000 [1:12:46<8:43:05,  2.36s/it] 11%|██████████████████████                                                                                                                                                                            | 1704/15000 [1:12:48<8:42:51,  2.36s/it] 11%|██████████████████████                                                                                                                                                                            | 1705/15000 [1:12:51<8:42:50,  2.36s/it] 11%|██████████████████████                                                                                                                                                                            | 1706/15000 [1:12:53<8:42:15,  2.36s/it] 11%|██████████████████████                                                                                                                                                                            | 1707/15000 [1:12:55<8:41:41,  2.35s/it] 11%|██████████████████████                                                                                                                                                                            | 1708/15000 [1:12:58<8:41:38,  2.35s/it] 11%|██████████████████████                                                                                                                                                                            | 1709/15000 [1:13:00<8:42:16,  2.36s/it] 11%|██████████████████████                                                                                                                                                                            | 1710/15000 [1:13:02<8:42:01,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 3.7959, 'grad_norm': 1.90625, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3481.48, 'total_tokens': 13970660, 'epoch': 0.11}
+ 11%|██████████████████████                                                                                                                                                                            | 1710/15000 [1:13:02<8:42:01,  2.36s/it] 11%|██████████████████████▏                                                                                                                                                                           | 1711/15000 [1:13:05<8:42:27,  2.36s/it] 11%|██████████████████████▏                                                                                                                                                                           | 1712/15000 [1:13:07<8:42:44,  2.36s/it] 11%|██████████████████████▏                                                                                                                                                                           | 1713/15000 [1:13:09<8:42:45,  2.36s/it] 11%|██████████████████████▏                                                                                                                                                                           | 1714/15000 [1:13:12<8:42:26,  2.36s/it] 11%|██████████████████████▏                                                                                                                                                                           | 1715/15000 [1:13:14<8:42:18,  2.36s/it] 11%|██████████████████████▏                                                                                                                                                                           | 1716/15000 [1:13:17<8:42:11,  2.36s/it] 11%|██████████████████████▏                                                                                                                                                                           | 1717/15000 [1:13:19<8:41:52,  2.36s/it] 11%|██████████████████████▏                                                                                                                                                                           | 1718/15000 [1:13:21<8:41:40,  2.36s/it] 11%|██████████████████████▏                                                                                                                                                                           | 1719/15000 [1:13:24<8:42:00,  2.36s/it] 11%|██████████████████████▏                                                                                                                                                                           | 1720/15000 [1:13:26<8:41:23,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 3.7998, 'grad_norm': 1.703125, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3487.83, 'total_tokens': 14052380, 'epoch': 0.11}
+ 11%|██████████████████████▏                                                                                                                                                                           | 1720/15000 [1:13:26<8:41:23,  2.36s/it] 11%|██████████████████████▎                                                                                                                                                                           | 1721/15000 [1:13:28<8:41:46,  2.36s/it] 11%|██████████████████████▎                                                                                                                                                                           | 1722/15000 [1:13:31<8:41:43,  2.36s/it] 11%|██████████████████████▎                                                                                                                                                                           | 1723/15000 [1:13:33<8:41:23,  2.36s/it] 11%|██████████████████████▎                                                                                                                                                                           | 1724/15000 [1:13:35<8:41:34,  2.36s/it] 12%|██████████████████████▎                                                                                                                                                                           | 1725/15000 [1:13:38<8:41:27,  2.36s/it] 12%|██████████████████████▎                                                                                                                                                                           | 1726/15000 [1:13:40<8:41:46,  2.36s/it] 12%|██████████████████████▎                                                                                                                                                                           | 1727/15000 [1:13:43<8:41:54,  2.36s/it] 12%|██████████████████████▎                                                                                                                                                                           | 1728/15000 [1:13:45<8:41:39,  2.36s/it] 12%|██████████████████████▎                                                                                                                                                                           | 1729/15000 [1:13:47<8:41:25,  2.36s/it] 12%|██████████████████████▎                                                                                                                                                                           | 1730/15000 [1:13:50<8:41:14,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 3.7896, 'grad_norm': 1.96875, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3476.67, 'total_tokens': 14134021, 'epoch': 0.12}
+ 12%|██████████████████████▎                                                                                                                                                                           | 1730/15000 [1:13:50<8:41:14,  2.36s/it] 12%|██████████████████████▍                                                                                                                                                                           | 1731/15000 [1:13:52<8:41:27,  2.36s/it] 12%|██████████████████████▍                                                                                                                                                                           | 1732/15000 [1:13:54<8:41:28,  2.36s/it] 12%|██████████████████████▍                                                                                                                                                                           | 1733/15000 [1:13:57<8:40:53,  2.36s/it] 12%|██████████████████████▍                                                                                                                                                                           | 1734/15000 [1:13:59<8:40:46,  2.36s/it] 12%|██████████████████████▍                                                                                                                                                                           | 1735/15000 [1:14:01<8:40:21,  2.35s/it] 12%|██████████████████████▍                                                                                                                                                                           | 1736/15000 [1:14:04<8:40:10,  2.35s/it] 12%|██████████████████████▍                                                                                                                                                                           | 1737/15000 [1:14:06<8:40:39,  2.36s/it] 12%|██████████████████████▍                                                                                                                                                                           | 1738/15000 [1:14:08<8:40:40,  2.36s/it] 12%|██████████████████████▍                                                                                                                                                                           | 1739/15000 [1:14:11<8:40:25,  2.35s/it] 12%|██████████████████████▌                                                                                                                                                                           | 1740/15000 [1:14:13<8:40:32,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 3.7947, 'grad_norm': 1.9765625, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3474.39, 'total_tokens': 14215666, 'epoch': 0.12}
+ 12%|██████████████████████▌                                                                                                                                                                           | 1740/15000 [1:14:13<8:40:32,  2.36s/it] 12%|██████████████████████▌                                                                                                                                                                           | 1741/15000 [1:14:15<8:41:01,  2.36s/it] 12%|██████████████████████▌                                                                                                                                                                           | 1742/15000 [1:14:18<8:41:01,  2.36s/it] 12%|██████████████████████▌                                                                                                                                                                           | 1743/15000 [1:14:20<8:40:26,  2.36s/it] 12%|██████████████████████▌                                                                                                                                                                           | 1744/15000 [1:14:23<8:40:50,  2.36s/it] 12%|██████████████████████▌                                                                                                                                                                           | 1745/15000 [1:14:25<8:40:55,  2.36s/it] 12%|██████████████████████▌                                                                                                                                                                           | 1746/15000 [1:14:27<8:40:08,  2.35s/it] 12%|██████████████████████▌                                                                                                                                                                           | 1747/15000 [1:14:30<8:40:06,  2.35s/it] 12%|██████████████████████▌                                                                                                                                                                           | 1748/15000 [1:14:32<8:40:13,  2.36s/it] 12%|██████████████████████▌                                                                                                                                                                           | 1749/15000 [1:14:34<8:40:12,  2.36s/it] 12%|██████████████████████▋                                                                                                                                                                           | 1750/15000 [1:14:37<8:40:09,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 3.7786, 'grad_norm': 1.78125, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3477.01, 'total_tokens': 14297316, 'epoch': 0.12}
+ 12%|██████████████████████▋                                                                                                                                                                           | 1750/15000 [1:14:37<8:40:09,  2.36s/it] 12%|██████████████████████▋                                                                                                                                                                           | 1751/15000 [1:14:39<8:40:21,  2.36s/it] 12%|██████████████████████▋                                                                                                                                                                           | 1752/15000 [1:14:41<8:39:37,  2.35s/it] 12%|██████████████████████▋                                                                                                                                                                           | 1753/15000 [1:14:44<8:40:03,  2.36s/it] 12%|██████████████████████▋                                                                                                                                                                           | 1754/15000 [1:14:46<8:40:07,  2.36s/it] 12%|██████████████████████▋                                                                                                                                                                           | 1755/15000 [1:14:48<8:39:44,  2.35s/it] 12%|██████████████████████▋                                                                                                                                                                           | 1756/15000 [1:14:51<8:39:37,  2.35s/it] 12%|██████████████████████▋                                                                                                                                                                           | 1757/15000 [1:14:53<8:39:45,  2.35s/it] 12%|██████████████████████▋                                                                                                                                                                           | 1758/15000 [1:14:56<9:25:18,  2.56s/it] 12%|██████████████████████▋                                                                                                                                                                           | 1759/15000 [1:14:59<9:11:45,  2.50s/it] 12%|██████████████████████▊                                                                                                                                                                           | 1760/15000 [1:15:01<9:01:59,  2.46s/it]                                                                                                                                                                                                                                                {'loss': 3.6826, 'grad_norm': 1.75, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3477.14, 'total_tokens': 14378907, 'epoch': 0.12}
+ 12%|██████████████████████▊                                                                                                                                                                           | 1760/15000 [1:15:01<9:01:59,  2.46s/it] 12%|██████████████████████▊                                                                                                                                                                           | 1761/15000 [1:15:03<8:55:18,  2.43s/it] 12%|██████████████████████▊                                                                                                                                                                           | 1762/15000 [1:15:06<8:50:36,  2.40s/it] 12%|██████████████████████▊                                                                                                                                                                           | 1763/15000 [1:15:08<8:47:08,  2.39s/it] 12%|██████████████████████▊                                                                                                                                                                           | 1764/15000 [1:15:10<8:45:02,  2.38s/it] 12%|██████████████████████▊                                                                                                                                                                           | 1765/15000 [1:15:13<8:42:56,  2.37s/it] 12%|██████████████████████▊                                                                                                                                                                           | 1766/15000 [1:15:15<8:41:28,  2.36s/it] 12%|██████████████████████▊                                                                                                                                                                           | 1767/15000 [1:15:17<8:40:01,  2.36s/it] 12%|██████████████████████▊                                                                                                                                                                           | 1768/15000 [1:15:20<8:40:15,  2.36s/it] 12%|██████████████████████▉                                                                                                                                                                           | 1769/15000 [1:15:22<8:39:26,  2.36s/it][2025-11-16 22:58:27,792] [INFO] [axolotl.utils.data.wrappers.get_dataset_wrapper:87] [PID:8163] Loading dataset: Goader/kobza-2m-jsonl with base_type: pretrain and prompt_style: None
+
+Tokenizing Prompts (num_proc=64):   0%|                                                                                                                                                                        | 0/10000 [00:00<?, ? examples/s][A
+Tokenizing Prompts (num_proc=64):   2%|██▍                                                                                                                                                           | 157/10000 [00:06<06:10, 26.56 examples/s][A
+Tokenizing Prompts (num_proc=64):   3%|████▉                                                                                                                                                         | 314/10000 [00:06<02:51, 56.47 examples/s][A
+Tokenizing Prompts (num_proc=64):   5%|███████▍                                                                                                                                                      | 471/10000 [00:07<01:50, 86.52 examples/s][A
+Tokenizing Prompts (num_proc=64):   6%|█████████▊                                                                                                                                                   | 628/10000 [00:08<01:29, 104.77 examples/s][A
+Tokenizing Prompts (num_proc=64):   8%|████████████▎                                                                                                                                                | 785/10000 [00:08<01:10, 131.07 examples/s][A
+Tokenizing Prompts (num_proc=64):   9%|██████████████▊                                                                                                                                              | 942/10000 [00:09<00:51, 176.29 examples/s][A
+Tokenizing Prompts (num_proc=64):  11%|█████████████████▏                                                                                                                                          | 1099/10000 [00:10<00:53, 166.92 examples/s][A
+Tokenizing Prompts (num_proc=64):  13%|███████████████████▌                                                                                                                                        | 1256/10000 [00:10<00:41, 210.83 examples/s][A
+Tokenizing Prompts (num_proc=64):  14%|██████████████████████                                                                                                                                      | 1413/10000 [00:11<00:40, 213.12 examples/s][A
+Tokenizing Prompts (num_proc=64):  16%|████████████████████████▍                                                                                                                                   | 1570/10000 [00:11<00:37, 227.59 examples/s][A
+Tokenizing Prompts (num_proc=64):  17%|██████████████████████████▉                                                                                                                                 | 1727/10000 [00:12<00:35, 232.37 examples/s][A
+Tokenizing Prompts (num_proc=64):  19%|█████████████████████████████▍                                                                                                                              | 1884/10000 [00:13<00:37, 215.05 examples/s][A
+Tokenizing Prompts (num_proc=64):  20%|███████████████████████████████▊                                                                                                                            | 2041/10000 [00:14<00:35, 221.09 examples/s][A
+Tokenizing Prompts (num_proc=64):  22%|██████████████████████████████████▎                                                                                                                         | 2198/10000 [00:14<00:38, 202.51 examples/s][A
+Tokenizing Prompts (num_proc=64):  24%|████████████████████████████████████▋                                                                                                                       | 2355/10000 [00:15<00:30, 248.89 examples/s][A
+Tokenizing Prompts (num_proc=64):  25%|███████████████████████████████████████▏                                                                                                                    | 2512/10000 [00:15<00:31, 238.76 examples/s][A
+Tokenizing Prompts (num_proc=64):  27%|█████████████████████████████████████████▌                                                                                                                  | 2668/10000 [00:16<00:29, 250.10 examples/s][A
+Tokenizing Prompts (num_proc=64):  28%|████████████████████████████████████████████                                                                                                                | 2824/10000 [00:17<00:29, 245.46 examples/s][A
+Tokenizing Prompts (num_proc=64):  30%|██████████████████████████████████████████████▍                                                                                                             | 2980/10000 [00:17<00:30, 232.21 examples/s][A
+Tokenizing Prompts (num_proc=64):  31%|████████████████████████████████████████████████▉                                                                                                           | 3136/10000 [00:18<00:27, 245.53 examples/s][A
+Tokenizing Prompts (num_proc=64):  33%|███████████████████████████████████████████████████▎                                                                                                        | 3292/10000 [00:19<00:33, 199.99 examples/s][A
+Tokenizing Prompts (num_proc=64):  34%|█████████████████████████████████████████████████████▊                                                                                                      | 3448/10000 [00:20<00:27, 236.49 examples/s][A
+Tokenizing Prompts (num_proc=64):  36%|████████████████████████████████████████████████████████▏                                                                                                   | 3604/10000 [00:20<00:30, 210.99 examples/s][A
+Tokenizing Prompts (num_proc=64):  38%|██████████████████████████████████████████████████████████▋                                                                                                 | 3760/10000 [00:21<00:23, 261.36 examples/s][A
+Tokenizing Prompts (num_proc=64):  39%|█████████████████████████████████████████████████████████████                                                                                               | 3916/10000 [00:22<00:28, 214.10 examples/s][A
+Tokenizing Prompts (num_proc=64):  41%|███████████████████████████████████████████████████████████████▌                                                                                            | 4072/10000 [00:22<00:27, 218.75 examples/s][A
+Tokenizing Prompts (num_proc=64):  42%|█████████████████████████████████████████████████████████████████▉                                                                                          | 4228/10000 [00:23<00:25, 222.64 examples/s][A
+Tokenizing Prompts (num_proc=64):  44%|████████████████████████████████████████████████████████████████████▍                                                                                       | 4384/10000 [00:23<00:20, 273.14 examples/s][A
+Tokenizing Prompts (num_proc=64):  45%|██████████████████████████████████████████████████████████████████████▊                                                                                     | 4540/10000 [00:24<00:20, 266.38 examples/s][A
+Tokenizing Prompts (num_proc=64):  47%|█████████████████████████████████████████████████████████████████████████▎                                                                                  | 4696/10000 [00:25<00:21, 244.24 examples/s][A
+Tokenizing Prompts (num_proc=64):  49%|███████████████████████████████████████████████████████████████████████████▋                                                                                | 4852/10000 [00:25<00:20, 248.82 examples/s][A
+Tokenizing Prompts (num_proc=64):  50%|██████████████████████████████████████████████████████████████████████████████                                                                              | 5008/10000 [00:26<00:24, 204.69 examples/s][A
+Tokenizing Prompts (num_proc=64):  52%|████████████████████████████████████████████████████████████████████████████████▌                                                                           | 5164/10000 [00:27<00:20, 238.67 examples/s][A
+Tokenizing Prompts (num_proc=64):  53%|██████████████████████████████████████████████████████████████████████████████████▉                                                                         | 5320/10000 [00:27<00:18, 250.33 examples/s][A
+Tokenizing Prompts (num_proc=64):  55%|█████████████████████████████████████████████████████████████████████████████████████▍                                                                      | 5476/10000 [00:28<00:18, 240.55 examples/s][A
+Tokenizing Prompts (num_proc=64):  56%|███████████████████████████████████████████████████████████████████████████████████████▊                                                                    | 5632/10000 [00:29<00:17, 245.19 examples/s][A
+Tokenizing Prompts (num_proc=64):  58%|██████████████████████████████████████████████████████████████████████████████████████████▎                                                                 | 5788/10000 [00:30<00:18, 224.53 examples/s][A
+Tokenizing Prompts (num_proc=64):  59%|████████████████████████████████████████████████████████████████████████████████████████████▋                                                               | 5944/10000 [00:30<00:17, 229.42 examples/s][A
+Tokenizing Prompts (num_proc=64):  61%|██████████████████████████████████��████████████████████████████████████████████████████████████▏                                                            | 6100/10000 [00:31<00:17, 228.41 examples/s][A
+Tokenizing Prompts (num_proc=64):  63%|█████████████████████████████████████████████████████████████████████████████████████████████████▌                                                          | 6256/10000 [00:31<00:15, 244.24 examples/s][A
+Tokenizing Prompts (num_proc=64):  64%|████████████████████████████████████████████████████████████████████████████████████████████████████                                                        | 6412/10000 [00:32<00:14, 243.60 examples/s][A
+Tokenizing Prompts (num_proc=64):  66%|██████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                     | 6568/10000 [00:33<00:14, 237.21 examples/s][A
+Tokenizing Prompts (num_proc=64):  67%|████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                   | 6724/10000 [00:34<00:16, 204.44 examples/s][A
+Tokenizing Prompts (num_proc=64):  69%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                | 6880/10000 [00:34<00:14, 213.15 examples/s][A
+Tokenizing Prompts (num_proc=64):  70%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                              | 7036/10000 [00:35<00:11, 255.89 examples/s][A
+Tokenizing Prompts (num_proc=64):  72%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                           | 7192/10000 [00:36<00:11, 237.39 examples/s][A
+Tokenizing Prompts (num_proc=64):  73%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                         | 7348/10000 [00:36<00:11, 239.78 examples/s][A
+Tokenizing Prompts (num_proc=64):  75%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                       | 7504/10000 [00:37<00:09, 252.95 examples/s][A
+Tokenizing Prompts (num_proc=64):  77%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                    | 7660/10000 [00:38<00:09, 240.91 examples/s][A
+Tokenizing Prompts (num_proc=64):  78%|█████████████████████████████████████████████████���███████████████████████████████████████████████████████████████████████▉                                  | 7816/10000 [00:38<00:08, 245.72 examples/s][A
+Tokenizing Prompts (num_proc=64):  80%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                               | 7972/10000 [00:39<00:10, 201.32 examples/s][A
+Tokenizing Prompts (num_proc=64):  81%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                             | 8128/10000 [00:39<00:07, 254.83 examples/s][A
+Tokenizing Prompts (num_proc=64):  83%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                          | 8284/10000 [00:40<00:06, 247.64 examples/s][A
+Tokenizing Prompts (num_proc=64):  84%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                        | 8440/10000 [00:41<00:06, 243.82 examples/s][A
+Tokenizing Prompts (num_proc=64):  86%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                      | 8596/10000 [00:42<00:06, 227.84 examples/s][A
+Tokenizing Prompts (num_proc=64):  88%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                   | 8752/10000 [00:42<00:05, 233.83 examples/s][A
+Tokenizing Prompts (num_proc=64):  89%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                 | 8908/10000 [00:43<00:05, 200.73 examples/s][A
+Tokenizing Prompts (num_proc=64):  91%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍              | 9064/10000 [00:44<00:03, 234.61 examples/s][A
+Tokenizing Prompts (num_proc=64):  92%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊            | 9220/10000 [00:44<00:03, 252.54 examples/s][A
+Tokenizing Prompts (num_proc=64):  94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎         | 9376/10000 [00:45<00:02, 240.99 examples/s][A
+Tokenizing Prompts (num_proc=64):  95%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋       | 9532/10000 [00:45<00:01, 246.34 examples/s][A
+Tokenizing Prompts (num_proc=64):  97%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏    | 9688/10000 [00:46<00:01, 235.75 examples/s][A
+Tokenizing Prompts (num_proc=64):  98%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌  | 9844/10000 [00:47<00:00, 229.07 examples/s][A
+Tokenizing Prompts (num_proc=64): 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10000/10000 [00:47<00:00, 239.85 examples/s][ATokenizing Prompts (num_proc=64): 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10000/10000 [00:49<00:00, 200.83 examples/s]
+
+Dropping Long Sequences:   0%|                                                                                                                                                                                 | 0/10002 [00:00<?, ? examples/s][A
+Dropping Long Sequences:  10%|████████████████▍                                                                                                                                                    | 1000/10002 [00:01<00:13, 672.89 examples/s][A
+Dropping Long Sequences:  20%|████████████████████████████████▊                                                                                                                                   | 2000/10002 [00:01<00:06, 1239.95 examples/s][A
+Dropping Long Sequences:  30%|█████████████████████████████████████████████████▏                                                                                                                  | 3000/10002 [00:02<00:03, 1808.43 examples/s][A
+Dropping Long Sequences:  40%|█████████████████████████████████████████████████████████████████▌                                                                                                  | 4000/10002 [00:02<00:02, 2235.13 examples/s][A
+Dropping Long Sequences:  50%|█████████████████████████████████████████████████████████████████████████████████▉                                                                                  | 5000/10002 [00:02<00:01, 2575.23 examples/s][A
+Dropping Long Sequences:  60%|█���████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                 | 6000/10002 [00:02<00:01, 2889.96 examples/s][A
+Dropping Long Sequences:  70%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                 | 7000/10002 [00:03<00:00, 3153.24 examples/s][A
+Dropping Long Sequences:  80%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                | 8000/10002 [00:03<00:00, 3329.86 examples/s][A
+Dropping Long Sequences:  90%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                | 9000/10002 [00:03<00:00, 3364.84 examples/s][A
+Dropping Long Sequences: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉| 10000/10002 [00:03<00:00, 3523.53 examples/s][ADropping Long Sequences: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10002/10002 [00:04<00:00, 2480.53 examples/s]
+
+Add position_id column (Pretraining Sample Packing):   0%|                                                                                                                                                      | 0/8675 [00:00<?, ? examples/s][A
+Add position_id column (Pretraining Sample Packing):  12%|███████████████▉                                                                                                                          | 1000/8675 [00:01<00:10, 765.75 examples/s][A
+Add position_id column (Pretraining Sample Packing):  23%|███████████████████████████████▌                                                                                                         | 2000/8675 [00:01<00:04, 1584.54 examples/s][A
+Add position_id column (Pretraining Sample Packing):  35%|███████████████████████████████████████████████▍                                                                                         | 3000/8675 [00:01<00:02, 2440.55 examples/s][A
+Add position_id column (Pretraining Sample Packing):  46%|███████████████████████████████████████████████████████████████▏                                                                         | 4000/8675 [00:01<00:01, 3197.55 examples/s][A
+Add position_id column (Pretraining Sample Packing):  58%|██████████████████████████████████████████████████████████████████████████████▉                                                          | 5000/8675 [00:01<00:00, 3962.00 examples/s][A
+Add position_id column (Pretraining Sample Packing):  69%|█████████��████████████████████████████████████████████████████████████████████████████████████▊                                          | 6000/8675 [00:02<00:00, 4636.02 examples/s][A
+Add position_id column (Pretraining Sample Packing):  81%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                          | 7000/8675 [00:02<00:00, 5223.07 examples/s][A
+Add position_id column (Pretraining Sample Packing):  92%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎          | 8000/8675 [00:02<00:00, 5474.16 examples/s][AAdd position_id column (Pretraining Sample Packing): 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 8675/8675 [00:02<00:00, 3433.07 examples/s]
+[2025-11-16 22:59:25,784] [DEBUG] [axolotl.utils.samplers.multipack.pack_parallel:177] [PID:8163] Using single process for pack_parallel, running sequentially.
+ 12%|██████████████████████▊                                                                                                                                                                          | 1770/15000 [1:16:40<92:18:08, 25.12s/it]                                                                                                                                                                                                                                                {'loss': 3.8345, 'grad_norm': 1.8984375, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3445.82, 'total_tokens': 14459812, 'epoch': 0.12}
+ 12%|██████████████████████▊                                                                                                                                                                          | 1770/15000 [1:16:40<92:18:08, 25.12s/it] 12%|██████████████████████▊                                                                                                                                                                          | 1771/15000 [1:16:43<67:11:51, 18.29s/it] 12%|██████████████████████▊                                                                                                                                                                          | 1772/15000 [1:16:45<49:37:49, 13.51s/it] 12%|██████████████████████▊                                                                                                                                                                          | 1773/15000 [1:16:47<37:19:35, 10.16s/it] 12%|██████████████████████▊                                                                                                                                                                          | 1774/15000 [1:16:50<28:43:14,  7.82s/it] 12%|██████████████████████▊                                                                                                                                                                          | 1775/15000 [1:16:52<22:42:00,  6.18s/it] 12%|██████████████████████▊                                                                                                                                                                          | 1776/15000 [1:16:54<18:29:03,  5.03s/it] 12%|██████████████████████▊                                                                                                                                                                          | 1777/15000 [1:16:57<15:31:18,  4.23s/it] 12%|██████████████████████▉                                                                                                                                                                          | 1778/15000 [1:16:59<13:26:57,  3.66s/it] 12%|██████████████████████▉                                                                                                                                                                          | 1779/15000 [1:17:01<12:00:23,  3.27s/it] 12%|██████████████████████▉                                                                                                                                                                          | 1780/15000 [1:17:04<10:59:48,  2.99s/it]                                                                                                                                                                                                                                                {'loss': 3.7544, 'grad_norm': 2.203125, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3487.77, 'total_tokens': 14541657, 'epoch': 0.12}
+ 12%|██████████████████████▉                                                                                                                                                                          | 1780/15000 [1:17:04<10:59:48,  2.99s/it] 12%|██████████████████████▉                                                                                                                                                                          | 1781/15000 [1:17:06<10:17:29,  2.80s/it] 12%|███████████████████████                                                                                                                                                                           | 1782/15000 [1:17:09<9:48:07,  2.67s/it] 12%|███████████████████████                                                                                                                                                                           | 1783/15000 [1:17:11<9:27:01,  2.57s/it] 12%|███████████████████████                                                                                                                                                                           | 1784/15000 [1:17:13<9:12:10,  2.51s/it] 12%|███████████████████████                                                                                                                                                                           | 1785/15000 [1:17:16<9:02:19,  2.46s/it] 12%|███████████████████████                                                                                                                                                                           | 1786/15000 [1:17:18<8:54:53,  2.43s/it] 12%|███████████████████████                                                                                                                                                                           | 1787/15000 [1:17:20<8:49:30,  2.40s/it] 12%|███████████████████████                                                                                                                                                                           | 1788/15000 [1:17:23<8:46:18,  2.39s/it] 12%|███████████████████████▏                                                                                                                                                                          | 1789/15000 [1:17:25<8:43:57,  2.38s/it] 12%|███████████████████████▏                                                                                                                                                                          | 1790/15000 [1:17:27<8:42:23,  2.37s/it]                                                                                                                                                                                                                                                {'loss': 3.7459, 'grad_norm': 1.78125, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3483.07, 'total_tokens': 14623498, 'epoch': 0.12}
+ 12%|███████████████████████▏                                                                                                                                                                          | 1790/15000 [1:17:27<8:42:23,  2.37s/it] 12%|███████████████████████▏                                                                                                                                                                          | 1791/15000 [1:17:30<8:41:13,  2.37s/it] 12%|███████████████████████▏                                                                                                                                                                          | 1792/15000 [1:17:32<8:40:06,  2.36s/it] 12%|███████████████████████▏                                                                                                                                                                          | 1793/15000 [1:17:34<8:39:26,  2.36s/it] 12%|███████████████████████▏                                                                                                                                                                          | 1794/15000 [1:17:37<8:38:58,  2.36s/it] 12%|███████████████████████▏                                                                                                                                                                          | 1795/15000 [1:17:39<8:38:20,  2.36s/it] 12%|███████████████████████▏                                                                                                                                                                          | 1796/15000 [1:17:41<8:38:02,  2.35s/it] 12%|███████████████████████▏                                                                                                                                                                          | 1797/15000 [1:17:44<8:37:52,  2.35s/it] 12%|███████████████████████▎                                                                                                                                                                          | 1798/15000 [1:17:46<8:37:41,  2.35s/it] 12%|███████████████████████▎                                                                                                                                                                          | 1799/15000 [1:17:49<8:38:20,  2.36s/it] 12%|███████████████████████▎                                                                                                                                                                          | 1800/15000 [1:17:51<8:37:40,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 3.6041, 'grad_norm': 1.796875, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3497.62, 'total_tokens': 14705326, 'epoch': 0.12}
+ 12%|███████████████████████▎                                                                                                                                                                          | 1800/15000 [1:17:51<8:37:40,  2.35s/it] 12%|███████████████████████▎                                                                                                                                                                          | 1801/15000 [1:17:53<8:37:53,  2.35s/it] 12%|███████████████████████▎                                                                                                                                                                          | 1802/15000 [1:17:56<8:38:10,  2.36s/it] 12%|███████████████████████▎                                                                                                                                                                          | 1803/15000 [1:17:58<8:37:59,  2.36s/it] 12%|███████████████████████▎                                                                                                                                                                          | 1804/15000 [1:18:00<8:37:38,  2.35s/it] 12%|███████████████████████▎                                                                                                                                                                          | 1805/15000 [1:18:03<8:37:13,  2.35s/it] 12%|███████████████████████▎                                                                                                                                                                          | 1806/15000 [1:18:05<8:37:51,  2.35s/it] 12%|███████████████████████▎                                                                                                                                                                          | 1807/15000 [1:18:07<8:37:43,  2.35s/it] 12%|███████████████████████▍                                                                                                                                                                          | 1808/15000 [1:18:10<8:37:20,  2.35s/it] 12%|███████████████████████▍                                                                                                                                                                          | 1809/15000 [1:18:12<8:37:05,  2.35s/it] 12%|███████████████████████▍                                                                                                                                                                          | 1810/15000 [1:18:14<8:36:58,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 3.7298, 'grad_norm': 1.7421875, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3488.95, 'total_tokens': 14787105, 'epoch': 0.12}
+ 12%|███████████████████████▍                                                                                                                                                                          | 1810/15000 [1:18:14<8:36:58,  2.35s/it] 12%|███████████████████████▍                                                                                                                                                                          | 1811/15000 [1:18:17<8:37:01,  2.35s/it] 12%|███████████████████████▍                                                                                                                                                                          | 1812/15000 [1:18:19<8:37:17,  2.35s/it] 12%|███████████████████████▍                                                                                                                                                                          | 1813/15000 [1:18:21<8:36:54,  2.35s/it] 12%|███████████████████████▍                                                                                                                                                                          | 1814/15000 [1:18:24<8:36:46,  2.35s/it] 12%|███████████████████████▍                                                                                                                                                                          | 1815/15000 [1:18:26<8:36:41,  2.35s/it] 12%|███████████████████████▍                                                                                                                                                                          | 1816/15000 [1:18:29<8:37:18,  2.35s/it] 12%|███████████████████████▍                                                                                                                                                                          | 1817/15000 [1:18:31<8:37:10,  2.35s/it] 12%|███████████████████████▌                                                                                                                                                                          | 1818/15000 [1:18:33<8:37:08,  2.35s/it] 12%|███████████████████████▌                                                                                                                                                                          | 1819/15000 [1:18:36<8:37:07,  2.35s/it] 12%|███████████████████████▌                                                                                                                                                                          | 1820/15000 [1:18:38<8:36:34,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 3.745, 'grad_norm': 1.7890625, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3498.4, 'total_tokens': 14868936, 'epoch': 0.12}
+ 12%|███████████████████████▌                                                                                                                                                                          | 1820/15000 [1:18:38<8:36:34,  2.35s/it] 12%|███████████████████████▌                                                                                                                                                                          | 1821/15000 [1:18:40<8:36:20,  2.35s/it] 12%|███████████████████████▌                                                                                                                                                                          | 1822/15000 [1:18:43<8:35:59,  2.35s/it] 12%|███████████████████████▌                                                                                                                                                                          | 1823/15000 [1:18:45<8:36:20,  2.35s/it] 12%|███████████████████████▌                                                                                                                                                                          | 1824/15000 [1:18:47<8:36:45,  2.35s/it] 12%|███████████████████████▌                                                                                                                                                                          | 1825/15000 [1:18:50<8:37:19,  2.36s/it] 12%|███████████████████████▌                                                                                                                                                                          | 1826/15000 [1:18:52<8:37:07,  2.36s/it] 12%|███████████████████████▋                                                                                                                                                                          | 1827/15000 [1:18:54<8:36:10,  2.35s/it] 12%|███████████████████████▋                                                                                                                                                                          | 1828/15000 [1:18:57<8:36:34,  2.35s/it] 12%|███████████████████████▋                                                                                                                                                                          | 1829/15000 [1:18:59<8:36:25,  2.35s/it] 12%|███████████████████████▋                                                                                                                                                                          | 1830/15000 [1:19:01<8:36:42,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 3.7293, 'grad_norm': 1.8203125, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3481.55, 'total_tokens': 14950765, 'epoch': 0.12}
+ 12%|███████████████████████▋                                                                                                                                                                          | 1830/15000 [1:19:02<8:36:42,  2.35s/it] 12%|███████████████████████▋                                                                                                                                                                          | 1831/15000 [1:19:04<8:36:55,  2.36s/it] 12%|███████████████████████▋                                                                                                                                                                          | 1832/15000 [1:19:06<8:36:44,  2.35s/it] 12%|███████████████████████▋                                                                                                                                                                          | 1833/15000 [1:19:09<8:36:59,  2.36s/it] 12%|███████████████████████▋                                                                                                                                                                          | 1834/15000 [1:19:11<8:36:50,  2.36s/it] 12%|███████████████████████▋                                                                                                                                                                          | 1835/15000 [1:19:13<8:37:15,  2.36s/it] 12%|███████████████████████▋                                                                                                                                                                          | 1836/15000 [1:19:16<8:37:09,  2.36s/it] 12%|███████████████████████▊                                                                                                                                                                          | 1837/15000 [1:19:18<8:36:50,  2.36s/it] 12%|███████████████████████▊                                                                                                                                                                          | 1838/15000 [1:19:20<8:36:48,  2.36s/it] 12%|███████████████████████▊                                                                                                                                                                          | 1839/15000 [1:19:23<8:36:13,  2.35s/it] 12%|███████████████████████▊                                                                                                                                                                          | 1840/15000 [1:19:25<8:35:58,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 3.7094, 'grad_norm': 3.96875, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3491.3, 'total_tokens': 15032572, 'epoch': 0.12}
+ 12%|███████████████████████▊                                                                                                                                                                          | 1840/15000 [1:19:25<8:35:58,  2.35s/it] 12%|███████████████████████▊                                                                                                                                                                          | 1841/15000 [1:19:27<8:36:15,  2.35s/it] 12%|███████████████████████▊                                                                                                                                                                          | 1842/15000 [1:19:30<8:36:11,  2.35s/it] 12%|███████████████████████▊                                                                                                                                                                          | 1843/15000 [1:19:32<8:35:52,  2.35s/it] 12%|███████████████████████▊                                                                                                                                                                          | 1844/15000 [1:19:34<8:36:26,  2.36s/it] 12%|███████████████████████▊                                                                                                                                                                          | 1845/15000 [1:19:37<8:36:33,  2.36s/it] 12%|███████████████████████▊                                                                                                                                                                          | 1846/15000 [1:19:39<8:36:15,  2.35s/it] 12%|███████████████████████▉                                                                                                                                                                          | 1847/15000 [1:19:42<8:36:39,  2.36s/it] 12%|███████████████████████▉                                                                                                                                                                          | 1848/15000 [1:19:44<8:36:45,  2.36s/it] 12%|███████████████████████▉                                                                                                                                                                          | 1849/15000 [1:19:46<8:37:04,  2.36s/it] 12%|███████████████████████▉                                                                                                                                                                          | 1850/15000 [1:19:49<8:36:11,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 3.7369, 'grad_norm': 1.7734375, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3496.37, 'total_tokens': 15114360, 'epoch': 0.12}
+ 12%|███████████████████████▉                                                                                                                                                                          | 1850/15000 [1:19:49<8:36:11,  2.36s/it] 12%|███████████████████████▉                                                                                                                                                                          | 1851/15000 [1:19:51<8:36:22,  2.36s/it] 12%|███████████████████████▉                                                                                                                                                                          | 1852/15000 [1:19:53<8:36:12,  2.36s/it] 12%|███████████████████████▉                                                                                                                                                                          | 1853/15000 [1:19:56<8:36:18,  2.36s/it] 12%|███████████████████████▉                                                                                                                                                                          | 1854/15000 [1:19:58<8:36:16,  2.36s/it] 12%|███████████████████████▉                                                                                                                                                                          | 1855/15000 [1:20:00<8:35:58,  2.36s/it] 12%|████████████████████████                                                                                                                                                                          | 1856/15000 [1:20:03<8:35:43,  2.35s/it] 12%|████████████████████████                                                                                                                                                                          | 1857/15000 [1:20:05<8:35:59,  2.36s/it] 12%|████████████████████████                                                                                                                                                                          | 1858/15000 [1:20:07<8:35:06,  2.35s/it] 12%|████████████████████████                                                                                                                                                                          | 1859/15000 [1:20:10<8:35:14,  2.35s/it] 12%|████████████████████████                                                                                                                                                                          | 1860/15000 [1:20:12<8:35:53,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 3.7554, 'grad_norm': 1.84375, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3469.03, 'total_tokens': 15196093, 'epoch': 0.12}
+ 12%|████████���███████████████                                                                                                                                                                          | 1860/15000 [1:20:12<8:35:53,  2.36s/it] 12%|████████████████████████                                                                                                                                                                          | 1861/15000 [1:20:15<8:36:06,  2.36s/it] 12%|████████████████████████                                                                                                                                                                          | 1862/15000 [1:20:17<8:36:04,  2.36s/it] 12%|████████████████████████                                                                                                                                                                          | 1863/15000 [1:20:19<8:36:03,  2.36s/it] 12%|████████████████████████                                                                                                                                                                          | 1864/15000 [1:20:22<8:36:32,  2.36s/it] 12%|████████████████████████                                                                                                                                                                          | 1865/15000 [1:20:24<8:36:50,  2.36s/it] 12%|████████████████████████▏                                                                                                                                                                         | 1866/15000 [1:20:26<8:36:06,  2.36s/it] 12%|████████████████████████▏                                                                                                                                                                         | 1867/15000 [1:20:29<8:36:08,  2.36s/it] 12%|████████████████████████▏                                                                                                                                                                         | 1868/15000 [1:20:31<8:36:00,  2.36s/it] 12%|████████████████████████▏                                                                                                                                                                         | 1869/15000 [1:20:33<8:36:02,  2.36s/it] 12%|████████████████████████▏                                                                                                                                                                         | 1870/15000 [1:20:36<8:35:42,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 3.7003, 'grad_norm': 1.6953125, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3485.56, 'total_tokens': 15277878, 'epoch': 0.12}
+ 12%|████████████████████████▏                                                                                                                                                                         | 1870/15000 [1:20:36<8:35:42,  2.36s/it] 12%|████████████████████████▏                                                                                                                                                                         | 1871/15000 [1:20:38<8:35:29,  2.36s/it] 12%|████████████████████████▏                                                                                                                                                                         | 1872/15000 [1:20:40<8:35:19,  2.36s/it] 12%|████████████████████████▏                                                                                                                                                                         | 1873/15000 [1:20:43<8:35:00,  2.35s/it] 12%|████████████████████████▏                                                                                                                                                                         | 1874/15000 [1:20:45<8:34:55,  2.35s/it] 12%|█���██████████████████████▎                                                                                                                                                                         | 1875/15000 [1:20:48<8:34:57,  2.35s/it] 13%|████████████████████████▎                                                                                                                                                                         | 1876/15000 [1:20:50<8:34:47,  2.35s/it] 13%|████████████████████████▎                                                                                                                                                                         | 1877/15000 [1:20:52<8:34:45,  2.35s/it] 13%|████████████████████████▎                                                                                                                                                                         | 1878/15000 [1:20:55<8:34:14,  2.35s/it] 13%|████████████████████████▎                                                                                                                                                                         | 1879/15000 [1:20:57<8:34:09,  2.35s/it] 13%|████████████████████████▎                                                                                                                                                                         | 1880/15000 [1:20:59<8:34:37,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 3.6007, 'grad_norm': 2.140625, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3478.1, 'total_tokens': 15359678, 'epoch': 0.13}
+ 13%|████████████████████████▎                                                                                                                                                                         | 1880/15000 [1:20:59<8:34:37,  2.35s/it] 13%|████████████████████████▎                                                                                                                                                                         | 1881/15000 [1:21:02<8:35:05,  2.36s/it] 13%|████████████████████████▎                                                                                                                                                                         | 1882/15000 [1:21:04<8:34:25,  2.35s/it] 13%|████████████████████████▎                                                                                                                                                                         | 1883/15000 [1:21:06<8:34:41,  2.35s/it] 13%|████████████████████████▎                                                                                                                                                                         | 1884/15000 [1:21:09<8:35:08,  2.36s/it] 13%|████████████████████████▍                                                                                                                                                                         | 1885/15000 [1:21:11<8:35:02,  2.36s/it] 13%|████████████████████████▍                                                                                                                                                                         | 1886/15000 [1:21:13<8:35:06,  2.36s/it] 13%|████████████████████████▍                                                                                                                                                                         | 1887/15000 [1:21:16<8:34:50,  2.36s/it] 13%|████████████████████████▍                                                                                                                                                                         | 1888/15000 [1:21:18<8:34:47,  2.36s/it] 13%|████████████████████████▍                                                                                                                                                                         | 1889/15000 [1:21:20<8:34:55,  2.36s/it] 13%|████████████████████████▍                                                                                                                                                                         | 1890/15000 [1:21:23<8:34:43,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 3.579, 'grad_norm': 1.7109375, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3485.28, 'total_tokens': 15441472, 'epoch': 0.13}
+ 13%|████████████████████████▍                                                                                                                                                                         | 1890/15000 [1:21:23<8:34:43,  2.36s/it] 13%|████████████████████████▍                                                                                                                                                                         | 1891/15000 [1:21:25<8:34:39,  2.36s/it] 13%|████████████████████████▍                                                                                                                                                                         | 1892/15000 [1:21:28<8:34:51,  2.36s/it] 13%|████████████████████████▍                                                                                                                                                                         | 1893/15000 [1:21:30<8:34:34,  2.36s/it] 13%|████████████████████████▍                                                                                                                                                                         | 1894/15000 [1:21:32<8:34:42,  2.36s/it] 13%|████████████████████████▌                                                                                                                                                                         | 1895/15000 [1:21:35<8:34:23,  2.36s/it] 13%|████████████████████████▌                                                                                                                                                                         | 1896/15000 [1:21:37<8:34:27,  2.36s/it] 13%|████████████████████████▌                                                                                                                                                                         | 1897/15000 [1:21:39<8:34:25,  2.36s/it] 13%|████████████████████████▌                                                                                                                                                                         | 1898/15000 [1:21:42<8:34:15,  2.35s/it] 13%|████████████████████████▌                                                                                                                                                                         | 1899/15000 [1:21:44<8:33:58,  2.35s/it] 13%|████████████████████████▌                                                                                                                                                                         | 1900/15000 [1:21:46<8:33:54,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 3.6984, 'grad_norm': 1.765625, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3484.63, 'total_tokens': 15523244, 'epoch': 0.13}
+ 13%|████████████████████████▌                                                                                                                                                                         | 1900/15000 [1:21:46<8:33:54,  2.35s/it] 13%|████████████████████████▌                                                                                                                                                                         | 1901/15000 [1:21:49<8:33:36,  2.35s/it] 13%|████████████████████████▌                                                                                                                                                                         | 1902/15000 [1:21:51<8:33:47,  2.35s/it] 13%|████████████████████████▌                                                                                                                                                                         | 1903/15000 [1:21:53<8:34:02,  2.35s/it] 13%|████████████████████████▋                                                                                                                                                                         | 1904/15000 [1:21:56<8:33:51,  2.35s/it] 13%|████████████████████████▋                                                                                                                                                                         | 1905/15000 [1:21:58<8:33:43,  2.35s/it] 13%|████████████████████████▋                                                                                                                                                                         | 1906/15000 [1:22:00<8:33:39,  2.35s/it] 13%|████████████████████████▋                                                                                                                                                                         | 1907/15000 [1:22:03<8:33:44,  2.35s/it] 13%|████████████████████████▋                                                                                                                                                                         | 1908/15000 [1:22:05<8:33:30,  2.35s/it] 13%|████████████████████████▋                                                                                                                                                                         | 1909/15000 [1:22:08<8:34:01,  2.36s/it] 13%|████████████████████████▋                                                                                                                                                                         | 1910/15000 [1:22:10<8:33:46,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 3.6802, 'grad_norm': 1.7421875, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3485.0, 'total_tokens': 15604995, 'epoch': 0.13}
+ 13%|████████████████████████▋                                                                                                                                                                         | 1910/15000 [1:22:10<8:33:46,  2.36s/it] 13%|████████████████████████▋                                                                                                                                                                         | 1911/15000 [1:22:12<8:33:44,  2.35s/it] 13%|████████████████████████▋                                                                                                                                                                         | 1912/15000 [1:22:15<8:34:08,  2.36s/it] 13%|████████████████████████▋                                                                                                                                                                         | 1913/15000 [1:22:17<8:33:38,  2.35s/it] 13%|████████████████████████▊                                                                                                                                                                         | 1914/15000 [1:22:19<8:33:33,  2.35s/it] 13%|████████████████████████▊                                                                                                                                                                         | 1915/15000 [1:22:22<8:33:06,  2.35s/it] 13%|████████████████████████▊                                                                                                                                                                         | 1916/15000 [1:22:24<8:33:36,  2.36s/it] 13%|████████████████████████▊                                                                                                                                                                         | 1917/15000 [1:22:26<8:33:39,  2.36s/it] 13%|████████████████████████▊                                                                                                                                                                         | 1918/15000 [1:22:29<8:33:47,  2.36s/it] 13%|████████████████████████▊                                                                                                                                                                         | 1919/15000 [1:22:31<8:33:57,  2.36s/it] 13%|████████████████████████▊                                                                                                                                                                         | 1920/15000 [1:22:33<8:33:52,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 3.6474, 'grad_norm': 1.8125, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3480.39, 'total_tokens': 15686774, 'epoch': 0.13}
+ 13%|████████████████████████▊                                                                                                                                                                         | 1920/15000 [1:22:33<8:33:52,  2.36s/it] 13%|████████████████████████▊                                                                                                                                                                         | 1921/15000 [1:22:36<8:33:28,  2.36s/it] 13%|████████████████████████▊                                                                                                                                                                         | 1922/15000 [1:22:38<8:32:57,  2.35s/it] 13%|████████████████████████▊                                                                                                                                                                         | 1923/15000 [1:22:41<8:32:50,  2.35s/it] 13%|████████████████████████▉                                                                                                                                                                         | 1924/15000 [1:22:43<8:33:26,  2.36s/it] 13%|████████████████████████▉                                                                                                                                                                         | 1925/15000 [1:22:45<8:33:49,  2.36s/it] 13%|████████████████████████▉                                                                                                                                                                         | 1926/15000 [1:22:48<8:33:55,  2.36s/it] 13%|████████████████████████▉                                                                                                                                                                         | 1927/15000 [1:22:50<8:33:16,  2.36s/it] 13%|████████████████████████▉                                                                                                                                                                         | 1928/15000 [1:22:52<8:32:25,  2.35s/it] 13%|████████████████████████▉                                                                                                                                                                         | 1929/15000 [1:22:55<8:32:56,  2.35s/it] 13%|████████████████████████▉                                                                                                                                                                         | 1930/15000 [1:22:57<8:33:08,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 3.6538, 'grad_norm': 1.796875, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3478.87, 'total_tokens': 15768567, 'epoch': 0.13}
+ 13%|████████████████████████▉                                                                                                                                                                         | 1930/15000 [1:22:57<8:33:08,  2.36s/it] 13%|████████████████████████▉                                                                                                                                                                         | 1931/15000 [1:22:59<8:33:31,  2.36s/it] 13%|████████████████████████▉                                                                                                                                                                         | 1932/15000 [1:23:02<8:33:08,  2.36s/it] 13%|█████████████████████████                                                                                                                                                                         | 1933/15000 [1:23:04<8:32:38,  2.35s/it] 13%|█████████████████████████                                                                                                                                                                         | 1934/15000 [1:23:06<8:32:05,  2.35s/it] 13%|█████████████████████████                                                                                                                                                                         | 1935/15000 [1:23:09<8:31:57,  2.35s/it] 13%|█████████████████████████                                                                                                                                                                         | 1936/15000 [1:23:11<8:32:53,  2.36s/it] 13%|█████████████████████████                                                                                                                                                                         | 1937/15000 [1:23:14<8:33:00,  2.36s/it] 13%|█████████████████████████                                                                                                                                                                         | 1938/15000 [1:23:16<8:32:41,  2.36s/it] 13%|█████████████████████████                                                                                                                                                                         | 1939/15000 [1:23:18<8:32:37,  2.35s/it] 13%|█████████████████████████                                                                                                                                                                         | 1940/15000 [1:23:21<8:32:47,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 3.6871, 'grad_norm': 1.9140625, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3480.87, 'total_tokens': 15850404, 'epoch': 0.13}
+ 13%|█████████████████████████                                                                                                                                                                         | 1940/15000 [1:23:21<8:32:47,  2.36s/it] 13%|█████████████████████████                                                                                                                                                                         | 1941/15000 [1:23:23<8:32:39,  2.36s/it] 13%|█████████████████████████                                                                                                                                                                         | 1942/15000 [1:23:25<8:32:56,  2.36s/it] 13%|█████████████████████████▏                                                                                                                                                                        | 1943/15000 [1:23:28<8:32:36,  2.36s/it] 13%|█████���███████████████████▏                                                                                                                                                                        | 1944/15000 [1:23:30<8:32:12,  2.35s/it] 13%|█████████████████████████▏                                                                                                                                                                        | 1945/15000 [1:23:32<8:32:20,  2.35s/it] 13%|█████████████████████████▏                                                                                                                                                                        | 1946/15000 [1:23:35<8:32:08,  2.35s/it] 13%|█████████████████████████▏                                                                                                                                                                        | 1947/15000 [1:23:37<8:32:07,  2.35s/it] 13%|█████████████████████████▏                                                                                                                                                                        | 1948/15000 [1:23:39<8:31:58,  2.35s/it] 13%|█████████████████████████▏                                                                                                                                                                        | 1949/15000 [1:23:42<8:31:19,  2.35s/it] 13%|█████████████████████████▏                                                                                                                                                                        | 1950/15000 [1:23:44<8:31:15,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 3.6564, 'grad_norm': 1.7890625, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3489.34, 'total_tokens': 15932169, 'epoch': 0.13}
+ 13%|█████████████████████████▏                                                                                                                                                                        | 1950/15000 [1:23:44<8:31:15,  2.35s/it] 13%|█████████████████████████▏                                                                                                                                                                        | 1951/15000 [1:23:46<8:31:39,  2.35s/it] 13%|█████████████████████████▏                                                                                                                                                                        | 1952/15000 [1:23:49<8:31:52,  2.35s/it] 13%|█████████████████████████▎                                                                                                                                                                        | 1953/15000 [1:23:51<8:31:57,  2.35s/it] 13%|█████████████████████████▎                                                                                                                                                                        | 1954/15000 [1:23:54<8:31:46,  2.35s/it] 13%|█████████████████████████▎                                                                                                                                                                        | 1955/15000 [1:23:56<8:31:35,  2.35s/it] 13%|█████████████████████████▎                                                                                                                                                                        | 1956/15000 [1:23:58<8:31:49,  2.35s/it] 13%|█████████████████████████▎                                                                                                                                                                        | 1957/15000 [1:24:01<8:31:11,  2.35s/it] 13%|█████████████████████████▎                                                                                                                                                                        | 1958/15000 [1:24:03<8:31:26,  2.35s/it] 13%|█████████████████████████▎                                                                                                                                                                        | 1959/15000 [1:24:05<8:31:22,  2.35s/it] 13%|█████████████████████████▎                                                                                                                                                                        | 1960/15000 [1:24:08<8:30:59,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 3.5298, 'grad_norm': 1.7421875, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3493.27, 'total_tokens': 16013926, 'epoch': 0.13}
+ 13%|█████████████████████████▎                                                                                                                                                                        | 1960/15000 [1:24:08<8:30:59,  2.35s/it] 13%|█████████████████████████▎                                                                                                                                                                        | 1961/15000 [1:24:10<8:31:12,  2.35s/it] 13%|█████████████████████████▍                                                                                                                                                                        | 1962/15000 [1:24:12<8:31:02,  2.35s/it] 13%|█████████████████████████▍                                                                                                                                                                        | 1963/15000 [1:24:15<8:31:00,  2.35s/it] 13%|█████████████████████████▍                                                                                                                                                                        | 1964/15000 [1:24:17<8:31:24,  2.35s/it] 13%|█████████████████████████▍                                                                                                                                                                        | 1965/15000 [1:24:19<8:31:15,  2.35s/it] 13%|█████████████████████████▍                                                                                                                                                                        | 1966/15000 [1:24:22<8:31:04,  2.35s/it] 13%|█████████████████████████▍                                                                                                                                                                        | 1967/15000 [1:24:24<8:30:59,  2.35s/it] 13%|█████████████████████████▍                                                                                                                                                                        | 1968/15000 [1:24:26<8:31:17,  2.35s/it] 13%|█████████████████████████▍                                                                                                                                                                        | 1969/15000 [1:24:29<8:30:45,  2.35s/it] 13%|█████████████████████████▍                                                                                                                                                                        | 1970/15000 [1:24:31<8:30:27,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 3.6094, 'grad_norm': 1.84375, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3493.61, 'total_tokens': 16095705, 'epoch': 0.13}
+ 13%|█████████████████████████▍                                                                                                                                                                        | 1970/15000 [1:24:31<8:30:27,  2.35s/it] 13%|█████████████████████████▍                                                                                                                                                                        | 1971/15000 [1:24:34<8:30:11,  2.35s/it] 13%|█████████████████████████▌                                                                                                                                                                        | 1972/15000 [1:24:36<8:30:20,  2.35s/it] 13%|█████████████████████████▌                                                                                                                                                                        | 1973/15000 [1:24:38<8:29:36,  2.35s/it] 13%|█████████████████████████▌                                                                                                                                                                        | 1974/15000 [1:24:41<8:30:22,  2.35s/it] 13%|█████████████████████████▌                                                                                                                                                                        | 1975/15000 [1:24:43<8:30:41,  2.35s/it] 13%|█████████████████████████▌                                                                                                                                                                        | 1976/15000 [1:24:45<8:30:29,  2.35s/it] 13%|█████████████████████████▌                                                                                                                                                                        | 1977/15000 [1:24:48<8:30:54,  2.35s/it] 13%|█████████████████████████▌                                                                                                                                                                        | 1978/15000 [1:24:50<8:30:54,  2.35s/it] 13%|█████████████████████████▌                                                                                                                                                                        | 1979/15000 [1:24:52<8:31:03,  2.35s/it] 13%|█████████████████████████▌                                                                                                                                                                        | 1980/15000 [1:24:55<8:30:59,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 3.5588, 'grad_norm': 1.859375, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3483.62, 'total_tokens': 16177472, 'epoch': 0.13}
+ 13%|█████████████████████████▌                                                                                                                                                                        | 1980/15000 [1:24:55<8:30:59,  2.35s/it] 13%|█████████████████████████▌                                                                                                                                                                        | 1981/15000 [1:24:57<8:30:52,  2.35s/it] 13%|█████████████████████████▋                                                                                                                                                                        | 1982/15000 [1:24:59<8:30:45,  2.35s/it] 13%|█████████████████████████▋                                                                                                                                                                        | 1983/15000 [1:25:02<8:30:56,  2.36s/it] 13%|█████████████████████████▋                                                                                                                                                                        | 1984/15000 [1:25:04<8:31:13,  2.36s/it] 13%|█████████████████████████▋                                                                                                                                                                        | 1985/15000 [1:25:06<8:30:39,  2.35s/it] 13%|█████████████████████████▋                                                                                                                                                                        | 1986/15000 [1:25:09<8:31:04,  2.36s/it] 13%|█████████████████████████▋                                                                                                                                                                        | 1987/15000 [1:25:11<8:30:59,  2.36s/it] 13%|█████████████████████████▋                                                                                                                                                                        | 1988/15000 [1:25:14<8:30:27,  2.35s/it] 13%|█████████████████████████▋                                                                                                                                                                        | 1989/15000 [1:25:16<8:30:29,  2.35s/it] 13%|█████████████████████████▋                                                                                                                                                                        | 1990/15000 [1:25:18<8:30:01,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 3.6027, 'grad_norm': 1.78125, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3492.61, 'total_tokens': 16259218, 'epoch': 0.13}
+ 13%|█████████████████████████▋                                                                                                                                                                        | 1990/15000 [1:25:18<8:30:01,  2.35s/it] 13%|█████████████████████████▊                                                                                                                                                                        | 1991/15000 [1:25:21<8:30:11,  2.35s/it] 13%|█████████████████████████▊                                                                                                                                                                        | 1992/15000 [1:25:23<8:30:15,  2.35s/it] 13%|█████████████████████████▊                                                                                                                                                                        | 1993/15000 [1:25:25<8:30:06,  2.35s/it] 13%|█████████████████████████▊                                                                                                                                                                        | 1994/15000 [1:25:28<8:30:33,  2.36s/it] 13%|█████████████████████████▊                                                                                                                                                                        | 1995/15000 [1:25:30<8:29:58,  2.35s/it] 13%|█████████████████████████▊                                                                                                                                                                        | 1996/15000 [1:25:32<8:29:31,  2.35s/it] 13%|█████████████████████████▊                                                                                                                                                                        | 1997/15000 [1:25:35<8:29:42,  2.35s/it] 13%|█████████████████████████▊                                                                                                                                                                        | 1998/15000 [1:25:37<8:30:12,  2.35s/it] 13%|█████████████████████████▊                                                                                                                                                                        | 1999/15000 [1:25:39<8:30:32,  2.36s/it] 13%|█████████████████████████▊                                                                                                                                                                        | 2000/15000 [1:25:42<8:30:13,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 3.4904, 'grad_norm': 1.671875, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3486.47, 'total_tokens': 16340964, 'epoch': 0.13}
+ 13%|█████████████████████████▊                                                                                                                                                                        | 2000/15000 [1:25:42<8:30:13,  2.35s/it] 13%|█████████████████████████▉                                                                                                                                                                        | 2001/15000 [1:25:44<8:29:44,  2.35s/it] 13%|█████████████████████████▉                                                                                                                                                                        | 2002/15000 [1:25:46<8:29:24,  2.35s/it] 13%|█████████████████████████▉                                                                                                                                                                        | 2003/15000 [1:25:49<8:30:15,  2.36s/it] 13%|█████████████████████████▉                                                                                                                                                                        | 2004/15000 [1:25:51<8:30:12,  2.36s/it] 13%|█████████████████████████▉                                                                                                                                                                        | 2005/15000 [1:25:54<8:29:33,  2.35s/it] 13%|█████████████████████████▉                                                                                                                                                                        | 2006/15000 [1:25:56<8:29:34,  2.35s/it] 13%|█████████████████████████▉                                                                                                                                                                        | 2007/15000 [1:25:58<8:29:35,  2.35s/it] 13%|█████████████████████████▉                                                                                                                                                                        | 2008/15000 [1:26:01<8:29:31,  2.35s/it] 13%|█████████████████████████▉                                                                                                                                                                        | 2009/15000 [1:26:03<8:29:14,  2.35s/it] 13%|█████████████████████████▉                                                                                                                                                                        | 2010/15000 [1:26:05<8:29:40,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 3.5372, 'grad_norm': 1.8125, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3475.26, 'total_tokens': 16422712, 'epoch': 0.13}
+ 13%|█████████████████████████▉                                                                                                                                                                        | 2010/15000 [1:26:05<8:29:40,  2.35s/it] 13%|██████████████████████████                                                                                                                                                                        | 2011/15000 [1:26:08<8:30:08,  2.36s/it] 13%|██████████████████████████                                                                                                                                                                        | 2012/15000 [1:26:10<8:30:00,  2.36s/it] 13%|██████████████████████████                                                                                                                                                                        | 2013/15000 [1:26:12<8:29:47,  2.36s/it] 13%|██████████████████████████                                                                                                                                                                        | 2014/15000 [1:26:15<8:29:17,  2.35s/it] 13%|██████████████████████████                                                                                                                                                                        | 2015/15000 [1:26:17<8:29:08,  2.35s/it] 13%|██████████████████████████                                                                                                                                                                        | 2016/15000 [1:26:19<8:29:41,  2.36s/it] 13%|██████████████████████████                                                                                                                                                                        | 2017/15000 [1:26:22<8:29:50,  2.36s/it] 13%|██████████████████████████                                                                                                                                                                        | 2018/15000 [1:26:24<8:29:55,  2.36s/it] 13%|██████████████████████████                                                                                                                                                                        | 2019/15000 [1:26:27<8:29:56,  2.36s/it] 13%|██████████████████████████▏                                                                                                                                                                       | 2020/15000 [1:26:29<8:29:13,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 3.5845, 'grad_norm': 1.921875, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3493.0, 'total_tokens': 16504426, 'epoch': 0.13}
+ 13%|██████████████████████████▏                                                                                                                                                                       | 2020/15000 [1:26:29<8:29:13,  2.35s/it] 13%|██████████████████████████▏                                                                                                                                                                       | 2021/15000 [1:26:32<9:00:47,  2.50s/it] 13%|██████████████████████████▏                                                                                                                                                                       | 2022/15000 [1:26:34<8:51:26,  2.46s/it] 13%|██████████████████████████▏                                                                                                                                                                       | 2023/15000 [1:26:36<8:44:34,  2.43s/it] 13%|██████████████████████████▏                                                                                                                                                                       | 2024/15000 [1:26:39<8:40:15,  2.41s/it] 14%|██████████████████████████▏                                                                                                                                                                       | 2025/15000 [1:26:41<8:37:08,  2.39s/it] 14%|██████████████████████████▏                                                                                                                                                                       | 2026/15000 [1:26:43<8:34:58,  2.38s/it] 14%|██████████████████████████▏                                                                                                                                                                       | 2027/15000 [1:26:46<8:33:21,  2.37s/it] 14%|██████████████████████████▏                                                                                                                                                                       | 2028/15000 [1:26:48<8:31:51,  2.37s/it] 14%|██████████████████████████▏                                                                                                                                                                       | 2029/15000 [1:26:51<8:31:12,  2.36s/it] 14%|██████████████████████████▎                                                                                                                                                                       | 2030/15000 [1:26:53<8:30:16,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 3.5428, 'grad_norm': 1.859375, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3487.82, 'total_tokens': 16586184, 'epoch': 0.14}
+ 14%|██████████████████████████▎                                                                                                                                                                       | 2030/15000 [1:26:53<8:30:16,  2.36s/it] 14%|██████████████████████████▎                                                                                                                                                                       | 2031/15000 [1:26:55<8:30:31,  2.36s/it] 14%|██████████████████████████▎                                                                                                                                                                       | 2032/15000 [1:26:58<8:30:20,  2.36s/it] 14%|██████████████████████████▎                                                                                                                                                                       | 2033/15000 [1:27:00<8:29:58,  2.36s/it] 14%|██████████████████████████▎                                                                                                                                                                       | 2034/15000 [1:27:02<8:29:47,  2.36s/it] 14%|██████████████████████████▎                                                                                                                                                                       | 2035/15000 [1:27:05<8:29:44,  2.36s/it] 14%|██████████████████████████▎                                                                                                                                                                       | 2036/15000 [1:27:07<8:29:26,  2.36s/it] 14%|██████████████████████████▎                                                                                                                                                                       | 2037/15000 [1:27:09<8:29:16,  2.36s/it] 14%|██████████████████████████▎                                                                                                                                                                       | 2038/15000 [1:27:12<8:29:06,  2.36s/it] 14%|██████████████████████████▎                                                                                                                                                                       | 2039/15000 [1:27:14<8:28:52,  2.36s/it] 14%|██████████████████████████▍                                                                                                                                                                       | 2040/15000 [1:27:16<8:29:01,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 3.4763, 'grad_norm': 1.8515625, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3472.98, 'total_tokens': 16667853, 'epoch': 0.14}
+ 14%|██████████████████████████▍                                                                                                                                                                       | 2040/15000 [1:27:16<8:29:01,  2.36s/it] 14%|██████████████████████████▍                                                                                                                                                                       | 2041/15000 [1:27:19<8:28:59,  2.36s/it] 14%|██████████████████████████▍                                                                                                                                                                       | 2042/15000 [1:27:21<8:29:12,  2.36s/it] 14%|██████████████████████████▍                                                                                                                                                                       | 2043/15000 [1:27:24<8:29:13,  2.36s/it] 14%|██████████████████████████▍                                                                                                                                                                       | 2044/15000 [1:27:26<8:29:03,  2.36s/it] 14%|██████████████████████████▍                                                                                                                                                                       | 2045/15000 [1:27:28<8:29:10,  2.36s/it] 14%|██████████████████████████▍                                                                                                                                                                       | 2046/15000 [1:27:31<8:28:43,  2.36s/it] 14%|██████████████████████████▍                                                                                                                                                                       | 2047/15000 [1:27:33<8:28:54,  2.36s/it] 14%|██████████████████████████▍                                                                                                                                                                       | 2048/15000 [1:27:35<8:28:38,  2.36s/it] 14%|██████████████████████████▌                                                                                                                                                                       | 2049/15000 [1:27:38<8:28:36,  2.36s/it] 14%|██████████████████████████▌                                                                                                                                                                       | 2050/15000 [1:27:40<8:28:41,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 3.5132, 'grad_norm': 1.8828125, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3478.1, 'total_tokens': 16749627, 'epoch': 0.14}
+ 14%|██████████████████████████▌                                                                                                                                                                       | 2050/15000 [1:27:40<8:28:41,  2.36s/it] 14%|██████████████████████████▌                                                                                                                                                                       | 2051/15000 [1:27:42<8:28:44,  2.36s/it] 14%|██████████████████████████▌                                                                                                                                                                       | 2052/15000 [1:27:45<8:28:27,  2.36s/it] 14%|██████████████████████████▌                                                                                                                                                                       | 2053/15000 [1:27:47<8:28:16,  2.36s/it] 14%|██████████████████████████▌                                                                                                                                                                       | 2054/15000 [1:27:49<8:28:14,  2.36s/it] 14%|██████████████████████████▌                                                                                                                                                                       | 2055/15000 [1:27:52<8:27:57,  2.35s/it] 14%|██████████████████████████▌                                                                                                                                                                       | 2056/15000 [1:27:54<8:27:44,  2.35s/it] 14%|██████████████████████████▌                                                                                                                                                                       | 2057/15000 [1:27:57<8:27:46,  2.35s/it] 14%|██████████████████████████▌                                                                                                                                                                       | 2058/15000 [1:27:59<8:27:46,  2.35s/it] 14%|██████████████████████████▋                                                                                                                                                                       | 2059/15000 [1:28:01<8:27:37,  2.35s/it] 14%|██████████████████████████▋                                                                                                                                                                       | 2060/15000 [1:28:04<8:26:40,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 3.4795, 'grad_norm': 1.734375, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3501.75, 'total_tokens': 16831314, 'epoch': 0.14}
+ 14%|██████████████████████████▋                                                                                                                                                                       | 2060/15000 [1:28:04<8:26:40,  2.35s/it] 14%|██████████████████████████▋                                                                                                                                                                       | 2061/15000 [1:28:06<8:26:58,  2.35s/it] 14%|██████████████████████████▋                                                                                                                                                                       | 2062/15000 [1:28:08<8:27:15,  2.35s/it] 14%|██████████████████████████▋                                                                                                                                                                       | 2063/15000 [1:28:11<8:27:10,  2.35s/it] 14%|██████████████████████████▋                                                                                                                                                                       | 2064/15000 [1:28:13<8:27:23,  2.35s/it] 14%|██████████████████████████▋                                                                                                                                                                       | 2065/15000 [1:28:15<8:26:50,  2.35s/it] 14%|██████████████████████████▋                                                                                                                                                                       | 2066/15000 [1:28:18<8:26:51,  2.35s/it] 14%|██████████████████████████▋                                                                                                                                                                       | 2067/15000 [1:28:20<8:27:19,  2.35s/it] 14%|██████████████████████████▋                                                                                                                                                                       | 2068/15000 [1:28:22<8:27:13,  2.35s/it] 14%|██████████████████████████▊                                                                                                                                                                       | 2069/15000 [1:28:25<8:27:25,  2.35s/it] 14%|██████████████████████████▊                                                                                                                                                                       | 2070/15000 [1:28:27<8:27:08,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 3.5549, 'grad_norm': 1.7578125, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3483.47, 'total_tokens': 16912944, 'epoch': 0.14}
+ 14%|██████████████████████████▊                                                                                                                                                                       | 2070/15000 [1:28:27<8:27:08,  2.35s/it] 14%|██████████████████████████▊                                                                                                                                                                       | 2071/15000 [1:28:29<8:27:04,  2.35s/it] 14%|██████████████████████████▊                                                                                                                                                                       | 2072/15000 [1:28:32<8:27:06,  2.35s/it] 14%|██████████████████████████▊                                                                                                                                                                       | 2073/15000 [1:28:34<8:27:09,  2.35s/it] 14%|██████████████████████████▊                                                                                                                                                                       | 2074/15000 [1:28:37<8:26:34,  2.35s/it] 14%|██████████████████████████▊                                                                                                                                                                       | 2075/15000 [1:28:39<8:26:44,  2.35s/it] 14%|██████████████████████████▊                                                                                                                                                                       | 2076/15000 [1:28:41<8:26:57,  2.35s/it] 14%|██████████████████████████▊                                                                                                                                                                       | 2077/15000 [1:28:44<8:26:35,  2.35s/it] 14%|██████████████████████████▉                                                                                                                                                                       | 2078/15000 [1:28:46<8:26:46,  2.35s/it] 14%|██████████████████████████▉                                                                                                                                                                       | 2079/15000 [1:28:48<8:26:11,  2.35s/it] 14%|██████████████████████████▉                                                                                                                                                                       | 2080/15000 [1:28:51<8:26:43,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 3.51, 'grad_norm': 1.84375, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3469.11, 'total_tokens': 16994546, 'epoch': 0.14}
+ 14%|██████████████████████████▉                                                                                                                                                                       | 2080/15000 [1:28:51<8:26:43,  2.35s/it] 14%|██████████████████████████▉                                                                                                                                                                       | 2081/15000 [1:28:53<8:26:41,  2.35s/it] 14%|██████████████████████████▉                                                                                                                                                                       | 2082/15000 [1:28:55<8:26:52,  2.35s/it] 14%|██████████████████████████▉                                                                                                                                                                       | 2083/15000 [1:28:58<8:26:51,  2.35s/it] 14%|██████████████████████████▉                                                                                                                                                                       | 2084/15000 [1:29:00<8:27:16,  2.36s/it] 14%|██████████████████████████▉                                                                                                                                                                       | 2085/15000 [1:29:02<8:27:21,  2.36s/it] 14%|██████████████████████████▉                                                                                                                                                                       | 2086/15000 [1:29:05<8:26:57,  2.36s/it] 14%|██████████████████████████▉                                                                                                                                                                       | 2087/15000 [1:29:07<8:26:10,  2.35s/it] 14%|███████████████████████████                                                                                                                                                                       | 2088/15000 [1:29:09<8:26:40,  2.35s/it] 14%|███████████████████████████                                                                                                                                                                       | 2089/15000 [1:29:12<8:26:32,  2.35s/it] 14%|███████████████████████████                                                                                                                                                                       | 2090/15000 [1:29:14<8:26:49,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 3.6024, 'grad_norm': 1.78125, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3473.93, 'total_tokens': 17076247, 'epoch': 0.14}
+ 14%|███████████████████████████                                                                                                                                                                       | 2090/15000 [1:29:14<8:26:49,  2.36s/it] 14%|███████████████████████████                                                                                                                                                                       | 2091/15000 [1:29:17<8:26:47,  2.36s/it] 14%|███████████████████████████                                                                                                                                                                       | 2092/15000 [1:29:19<8:26:19,  2.35s/it] 14%|███████████████████████████                                                                                                                                                                       | 2093/15000 [1:29:21<8:26:12,  2.35s/it] 14%|███████████████████████████                                                                                                                                                                       | 2094/15000 [1:29:24<8:26:17,  2.35s/it] 14%|███████████████████████████                                                                                                                                                                       | 2095/15000 [1:29:26<8:25:56,  2.35s/it] 14%|███████████████████████████                                                                                                                                                                       | 2096/15000 [1:29:28<8:25:22,  2.35s/it] 14%|███████████████████████████                                                                                                                                                                       | 2097/15000 [1:29:31<8:26:03,  2.35s/it] 14%|███████████████████████████▏                                                                                                                                                                      | 2098/15000 [1:29:33<8:25:41,  2.35s/it] 14%|███████████████████████████▏                                                                                                                                                                      | 2099/15000 [1:29:35<8:26:01,  2.35s/it] 14%|███████████████████████████▏                                                                                                                                                                      | 2100/15000 [1:29:38<8:26:10,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 3.5043, 'grad_norm': 1.8125, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3473.08, 'total_tokens': 17157842, 'epoch': 0.14}
+ 14%|███████████████████████████▏                                                                                                                                                                      | 2100/15000 [1:29:38<8:26:10,  2.35s/it] 14%|███████████████████████████▏                                                                                                                                                                      | 2101/15000 [1:29:40<8:26:06,  2.35s/it] 14%|███████████████████████████▏                                                                                                                                                                      | 2102/15000 [1:29:42<8:25:51,  2.35s/it] 14%|███████████████████████████▏                                                                                                                                                                      | 2103/15000 [1:29:45<8:25:29,  2.35s/it] 14%|███████████████████████████▏                                                                                                                                                                      | 2104/15000 [1:29:47<8:26:01,  2.35s/it] 14%|███████████████████████████▏                                                                                                                                                                      | 2105/15000 [1:29:49<8:25:39,  2.35s/it] 14%|███████████████████████████▏                                                                                                                                                                      | 2106/15000 [1:29:52<8:25:31,  2.35s/it] 14%|███████████████████████████▎                                                                                                                                                                      | 2107/15000 [1:29:54<8:25:42,  2.35s/it] 14%|███████████████████████████▎                                                                                                                                                                      | 2108/15000 [1:29:57<8:24:52,  2.35s/it] 14%|███████████████████████████▎                                                                                                                                                                      | 2109/15000 [1:29:59<8:25:30,  2.35s/it] 14%|███████████████████████████▎                                                                                                                                                                      | 2110/15000 [1:30:01<8:25:57,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 3.5416, 'grad_norm': 1.8671875, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3469.75, 'total_tokens': 17239505, 'epoch': 0.14}
+ 14%|███████████████████████████▎                                                                                                                                                                      | 2110/15000 [1:30:01<8:25:57,  2.36s/it] 14%|███████████████████████████▎                                                                                                                                                                      | 2111/15000 [1:30:04<8:25:27,  2.35s/it] 14%|███████████████████████████▎                                                                                                                                                                      | 2112/15000 [1:30:06<8:25:36,  2.35s/it] 14%|███████████████████████████▎                                                                                                                                                                      | 2113/15000 [1:30:08<8:25:22,  2.35s/it] 14%|███████████████████████████▎                                                                                                                                                                      | 2114/15000 [1:30:11<8:25:52,  2.36s/it] 14%|███████████████████████████▎                                                                                                                                                                      | 2115/15000 [1:30:13<8:26:03,  2.36s/it] 14%|███████████████████████████▎                                                                                                                                                                      | 2116/15000 [1:30:15<8:25:29,  2.35s/it] 14%|███████████████████████████▍                                                                                                                                                                      | 2117/15000 [1:30:18<8:25:55,  2.36s/it] 14%|███████████████████████████▍                                                                                                                                                                      | 2118/15000 [1:30:20<8:25:13,  2.35s/it] 14%|███████████████████████████▍                                                                                                                                                                      | 2119/15000 [1:30:22<8:25:27,  2.35s/it] 14%|███████████████████████████▍                                                                                                                                                                      | 2120/15000 [1:30:25<8:25:08,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 3.4722, 'grad_norm': 1.7890625, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3481.2, 'total_tokens': 17321059, 'epoch': 0.14}
+ 14%|███████████████████████████▍                                                                                                                                                                      | 2120/15000 [1:30:25<8:25:08,  2.35s/it] 14%|███████████████████████████▍                                                                                                                                                                      | 2121/15000 [1:30:27<8:25:19,  2.35s/it] 14%|███████████████████████████▍                                                                                                                                                                      | 2122/15000 [1:30:29<8:25:23,  2.35s/it] 14%|███████████████████████████▍                                                                                                                                                                      | 2123/15000 [1:30:32<8:25:33,  2.36s/it] 14%|███████████████████████████▍                                                                                                                                                                      | 2124/15000 [1:30:34<8:25:22,  2.35s/it] 14%|███████████████████████████▍                                                                                                                                                                      | 2125/15000 [1:30:37<8:25:24,  2.36s/it] 14%|███████████████████████████▍                                                                                                                                                                      | 2126/15000 [1:30:39<8:25:26,  2.36s/it][2025-11-16 23:13:34,020] [INFO] [axolotl.utils.data.wrappers.get_dataset_wrapper:87] [PID:8163] Loading dataset: Goader/kobza-2m-jsonl with base_type: pretrain and prompt_style: None
+
+Tokenizing Prompts (num_proc=64):   0%|                                                                                                                                                                        | 0/10000 [00:00<?, ? examples/s][A
+Tokenizing Prompts (num_proc=64):   2%|██▍                                                                                                                                                           | 157/10000 [00:05<06:04, 27.04 examples/s][A
+Tokenizing Prompts (num_proc=64):   3%|████▉                                                                                                                                                         | 314/10000 [00:06<03:08, 51.30 examples/s][A
+Tokenizing Prompts (num_proc=64):   5%|███████▍                                                                                                                                                      | 471/10000 [00:07<02:02, 77.95 examples/s][A
+Tokenizing Prompts (num_proc=64):   6%|█████████▊                                                                                                                                                   | 628/10000 [00:08<01:19, 117.57 examples/s][A
+Tokenizing Prompts (num_proc=64):   8%|████████████▎                                                                                                                                                | 785/10000 [00:09<01:15, 122.76 examples/s][A
+Tokenizing Prompts (num_proc=64):  11%|█████████████████▏                                                                                                                                          | 1099/10000 [00:11<01:04, 137.62 examples/s][A
+Tokenizing Prompts (num_proc=64):  14%|██████████████████████                                                                                                                                      | 1413/10000 [00:11<00:38, 224.99 examples/s][A
+Tokenizing Prompts (num_proc=64):  16%|████████████████████████▍                                                                                                                                   | 1570/10000 [00:12<00:37, 226.22 examples/s][A
+Tokenizing Prompts (num_proc=64):  17%|██████████████████████████▉                                                                                                                                 | 1727/10000 [00:12<00:37, 220.78 examples/s][A
+Tokenizing Prompts (num_proc=64):  19%|█████████████████████████████▍                                                                                                                              | 1884/10000 [00:13<00:36, 224.69 examples/s][A
+Tokenizing Prompts (num_proc=64):  20%|███████████████████████████████▊                                                                                                                            | 2041/10000 [00:14<00:35, 222.29 examples/s][A
+Tokenizing Prompts (num_proc=64):  22%|███████���██████████████████████████▎                                                                                                                         | 2198/10000 [00:15<00:37, 207.14 examples/s][A
+Tokenizing Prompts (num_proc=64):  24%|████████████████████████████████████▋                                                                                                                       | 2355/10000 [00:15<00:35, 214.68 examples/s][A
+Tokenizing Prompts (num_proc=64):  25%|███████████████████████████████████████▏                                                                                                                    | 2512/10000 [00:17<00:37, 200.01 examples/s][A
+Tokenizing Prompts (num_proc=64):  27%|█████████████████████████████████████████▌                                                                                                                  | 2668/10000 [00:17<00:33, 216.47 examples/s][A
+Tokenizing Prompts (num_proc=64):  28%|████████████████████████████████████████████                                                                                                                | 2824/10000 [00:17<00:32, 218.30 examples/s][A
+Tokenizing Prompts (num_proc=64):  30%|██████████████████████████████████████████████▍                                                                                                             | 2980/10000 [00:18<00:32, 219.24 examples/s][A
+Tokenizing Prompts (num_proc=64):  31%|████████████████████████████████████████████████▉                                                                                                           | 3136/10000 [00:19<00:32, 212.41 examples/s][A
+Tokenizing Prompts (num_proc=64):  33%|███████████████████████████████████████████████████▎                                                                                                        | 3292/10000 [00:20<00:29, 224.43 examples/s][A
+Tokenizing Prompts (num_proc=64):  34%|█████████████████████████████████████████████████████▊                                                                                                      | 3448/10000 [00:20<00:28, 232.28 examples/s][A
+Tokenizing Prompts (num_proc=64):  36%|████████████████████████████████████████████████████████▏                                                                                                   | 3604/10000 [00:21<00:30, 212.27 examples/s][A
+Tokenizing Prompts (num_proc=64):  38%|██████████████████████████████████████████████████████████▋                                                                                                 | 3760/10000 [00:22<00:34, 179.64 examples/s][A
+Tokenizing Prompts (num_proc=64):  39%|█████████████████████████████████████████████████████████████                                                                                               | 3916/10000 [00:23<00:27, 219.14 examples/s][A
+Tokenizing Prompts (num_proc=64):  41%|███████████████████████████████████████████████████████████████▌                                                                                            | 4072/10000 [00:23<00:26, 224.24 examples/s][A
+Tokenizing Prompts (num_proc=64):  42%|█████████████████████████████████████████████████████████████████▉                                                                                          | 4228/10000 [00:24<00:29, 193.82 examples/s][A
+Tokenizing Prompts (num_proc=64):  44%|████████████████████████████████████████████████████████████████████▍                                                                                       | 4384/10000 [00:25<00:23, 244.15 examples/s][A
+Tokenizing Prompts (num_proc=64):  45%|██████████████████████████████████████████████████████████████████████▊                                                                                     | 4540/10000 [00:25<00:22, 237.90 examples/s][A
+Tokenizing Prompts (num_proc=64):  47%|█████████████████████████████████████████████████████████████████████████▎                                                                                  | 4696/10000 [00:26<00:22, 240.67 examples/s][A
+Tokenizing Prompts (num_proc=64):  49%|███████████████████████████████████████████████████████████████████████████▋                                                                                | 4852/10000 [00:27<00:23, 218.87 examples/s][A
+Tokenizing Prompts (num_proc=64):  50%|██████████████████████████████████████████████████████████████████████████████                                                                              | 5008/10000 [00:27<00:21, 234.93 examples/s][A
+Tokenizing Prompts (num_proc=64):  52%|████████████████████████████████████████████████████████████████████████████████▌                                                                           | 5164/10000 [00:28<00:25, 193.07 examples/s][A
+Tokenizing Prompts (num_proc=64):  53%|██████████████████████████████████████████████████████████████████████████████████▉                                                                         | 5320/10000 [00:29<00:19, 236.87 examples/s][A
+Tokenizing Prompts (num_proc=64):  55%|█████████████████████████████████████████████████████████████████████████████████████▍                                                                      | 5476/10000 [00:29<00:18, 248.30 examples/s][A
+Tokenizing Prompts (num_proc=64):  56%|███████████████████████████████████████████████████████████████████████████████████████▊                                                                    | 5632/10000 [00:30<00:19, 224.65 examples/s][A
+Tokenizing Prompts (num_proc=64):  58%|██████████████████████████████████████████████████████████████████████████████████████████▎                                                                 | 5788/10000 [00:31<00:16, 247.79 examples/s][A
+Tokenizing Prompts (num_proc=64):  59%|████████████████████████████████████████████████████████████████████████████████████████████▋                                                               | 5944/10000 [00:31<00:16, 239.10 examples/s][A
+Tokenizing Prompts (num_proc=64):  61%|███████████████████████████████████████████████████████████████████████████████████████████████▏                                                            | 6100/10000 [00:32<00:18, 215.72 examples/s][A
+Tokenizing Prompts (num_proc=64):  63%|█████████████████████████████████████████████████████████████████████████████████████████████████▌                                                          | 6256/10000 [00:33<00:18, 199.85 examples/s][A
+Tokenizing Prompts (num_proc=64):  64%|████████████��███████████████████████████████████████████████████████████████████████████████████████                                                        | 6412/10000 [00:34<00:17, 204.48 examples/s][A
+Tokenizing Prompts (num_proc=64):  66%|██████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                     | 6568/10000 [00:35<00:16, 211.10 examples/s][A
+Tokenizing Prompts (num_proc=64):  67%|████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                   | 6724/10000 [00:35<00:12, 272.34 examples/s][A
+Tokenizing Prompts (num_proc=64):  69%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                | 6880/10000 [00:36<00:14, 208.15 examples/s][A
+Tokenizing Prompts (num_proc=64):  70%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                              | 7036/10000 [00:36<00:11, 254.38 examples/s][A
+Tokenizing Prompts (num_proc=64):  72%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                           | 7192/10000 [00:37<00:10, 256.90 examples/s][A
+Tokenizing Prompts (num_proc=64):  73%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                         | 7348/10000 [00:38<00:11, 238.62 examples/s][A
+Tokenizing Prompts (num_proc=64):  75%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                       | 7504/10000 [00:38<00:09, 255.31 examples/s][A
+Tokenizing Prompts (num_proc=64):  77%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                    | 7660/10000 [00:39<00:09, 237.82 examples/s][A
+Tokenizing Prompts (num_proc=64):  78%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                  | 7816/10000 [00:40<00:09, 230.69 examples/s][A
+Tokenizing Prompts (num_proc=64):  80%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                               | 7972/10000 [00:40<00:08, 233.27 examples/s][A
+Tokenizing Prompts (num_proc=64):  81%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                             | 8128/10000 [00:41<00:08, 229.25 examples/s][A
+Tokenizing Prompts (num_proc=64):  83%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                          | 8284/10000 [00:42<00:07, 229.50 examples/s][A
+Tokenizing Prompts (num_proc=64):  84%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                        | 8440/10000 [00:43<00:08, 186.62 examples/s][A
+Tokenizing Prompts (num_proc=64):  86%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                      | 8596/10000 [00:43<00:07, 199.45 examples/s][A
+Tokenizing Prompts (num_proc=64):  88%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                   | 8752/10000 [00:44<00:04, 254.55 examples/s][A
+Tokenizing Prompts (num_proc=64):  89%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                 | 8908/10000 [00:44<00:04, 248.35 examples/s][A
+Tokenizing Prompts (num_proc=64):  91%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍              | 9064/10000 [00:45<00:03, 237.52 examples/s][A
+Tokenizing Prompts (num_proc=64):  92%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊            | 9220/10000 [00:46<00:03, 201.41 examples/s][A
+Tokenizing Prompts (num_proc=64):  94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎         | 9376/10000 [00:47<00:02, 231.09 examples/s][A
+Tokenizing Prompts (num_proc=64):  95%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████���████████▋       | 9532/10000 [00:47<00:02, 224.24 examples/s][A
+Tokenizing Prompts (num_proc=64):  97%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏    | 9688/10000 [00:48<00:01, 229.78 examples/s][A
+Tokenizing Prompts (num_proc=64):  98%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌  | 9844/10000 [00:49<00:00, 226.94 examples/s][A
+Tokenizing Prompts (num_proc=64): 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10000/10000 [00:50<00:00, 208.25 examples/s][ATokenizing Prompts (num_proc=64): 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10000/10000 [00:51<00:00, 193.65 examples/s]
+
+Dropping Long Sequences:   0%|                                                                                                                                                                                 | 0/10003 [00:00<?, ? examples/s][A
+Dropping Long Sequences:  10%|████████████████▍                                                                                                                                                    | 1000/10003 [00:01<00:13, 657.59 examples/s][A
+Dropping Long Sequences:  20%|████████████████████████████████▊                                                                                                                                   | 2000/10003 [00:01<00:06, 1273.16 examples/s][A
+Dropping Long Sequences:  30%|█████████████████████████████████████████████████▏                                                                                                                  | 3000/10003 [00:02<00:03, 1826.26 examples/s][A
+Dropping Long Sequences:  40%|█████████████████████████████████████████████████████████████████▌                                                                                                  | 4000/10003 [00:02<00:02, 2237.35 examples/s][A
+Dropping Long Sequences:  50%|█████████████████████████████████████████████████████████████████████████████████▉                                                                                  | 5000/10003 [00:02<00:01, 2637.93 examples/s][A
+Dropping Long Sequences:  60%|██████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                 | 6000/10003 [00:02<00:01, 3045.12 examples/s][A
+Dropping Long Sequences:  70%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                 | 7000/10003 [00:03<00:00, 3277.95 examples/s][A
+Dropping Long Sequences:  80%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                | 8000/10003 [00:03<00:00, 3456.41 examples/s][A
+Dropping Long Sequences:  90%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                | 9000/10003 [00:03<00:00, 3440.44 examples/s][A
+Dropping Long Sequences: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉| 10000/10003 [00:03<00:00, 3489.20 examples/s][ADropping Long Sequences: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10003/10003 [00:03<00:00, 2510.51 examples/s]
+
+Add position_id column (Pretraining Sample Packing):   0%|                                                                                                                                                      | 0/8712 [00:00<?, ? examples/s][A
+Add position_id column (Pretraining Sample Packing):  11%|███████████████▊                                                                                                                          | 1000/8712 [00:01<00:09, 791.98 examples/s][A
+Add position_id column (Pretraining Sample Packing):  23%|███████████████████████████████▍                                                                                                         | 2000/8712 [00:01<00:04, 1646.43 examples/s][A
+Add position_id column (Pretraining Sample Packing):  34%|███████████████████████████████████████████████▏                                                                                         | 3000/8712 [00:01<00:02, 2546.09 examples/s][A
+Add position_id column (Pretraining Sample Packing):  46%|██████████████████████████████████████████████████████████████▉                                                                          | 4000/8712 [00:01<00:01, 3355.40 examples/s][A
+Add position_id column (Pretraining Sample Packing):  57%|██████████████████████████████████████████████████████████████████████████████▋                                                          | 5000/8712 [00:01<00:00, 4114.21 examples/s][A
+Add position_id column (Pretraining Sample Packing):  69%|██████████████████████████████████████████████████████████████████████████████████████████████▎                                          | 6000/8712 [00:01<00:00, 4754.04 examples/s][A
+Add position_id column (Pretraining Sample Packing):  80%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████                           | 7000/8712 [00:02<00:00, 5309.65 examples/s][A
+Add position_id column (Pretraining Sample Packing):  92%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊           | 8000/8712 [00:02<00:00, 5593.16 examples/s][AAdd position_id column (Pretraining Sample Packing): 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 8712/8712 [00:02<00:00, 3549.05 examples/s]
+[2025-11-16 23:14:33,830] [DEBUG] [axolotl.utils.samplers.multipack.pack_parallel:177] [PID:8163] Using single process for pack_parallel, running sequentially.
+ 14%|███████████████████████████▎                                                                                                                                                                     | 2127/15000 [1:31:48<80:13:16, 22.43s/it] 14%|███████████████████████████▍                                                                                                                                                                     | 2128/15000 [1:31:51<58:39:53, 16.41s/it] 14%|███████████████████████████▍                                                                                                                                                                     | 2129/15000 [1:31:53<43:34:46, 12.19s/it] 14%|███████████████████████████▍                                                                                                                                                                     | 2130/15000 [1:31:55<33:01:13,  9.24s/it]                                                                                                                                                                                                                                                {'loss': 3.4617, 'grad_norm': 1.828125, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3375.81, 'total_tokens': 17400050, 'epoch': 0.14}
+ 14%|███████████████████████████▍                                                                                                                                                                     | 2130/15000 [1:31:55<33:01:13,  9.24s/it] 14%|███████████████████████████▍                                                                                                                                                                     | 2131/15000 [1:31:58<25:38:08,  7.17s/it] 14%|███████████████████████████▍                                                                                                                                                                     | 2132/15000 [1:32:00<20:27:49,  5.73s/it] 14%|███████████████████████████▍                                                                                                                                                                     | 2133/15000 [1:32:02<16:50:21,  4.71s/it] 14%|███████████████████████████▍                                                                                                                                                                     | 2134/15000 [1:32:05<14:18:29,  4.00s/it] 14%|███████████████████████████▍                                                                                                                                                                     | 2135/15000 [1:32:07<12:32:09,  3.51s/it] 14%|███████████████████████████▍                                                                                                                                                                     | 2136/15000 [1:32:09<11:17:53,  3.16s/it] 14%|███████████████████████████▍                                                                                                                                                                     | 2137/15000 [1:32:12<10:25:43,  2.92s/it] 14%|███████████████████████████▋                                                                                                                                                                      | 2138/15000 [1:32:14<9:49:14,  2.75s/it] 14%|███████████████████████████▋                                                                                                                                                                      | 2139/15000 [1:32:16<9:23:41,  2.63s/it] 14%|███████████████████████████▋                                                                                                                                                                      | 2140/15000 [1:32:19<9:06:06,  2.55s/it]                                                                                                                                                                                                                                                {'loss': 3.4419, 'grad_norm': 1.828125, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3483.49, 'total_tokens': 17481918, 'epoch': 0.14}
+ 14%|███████████████████████████▋                                                                                                                                                                      | 2140/15000 [1:32:19<9:06:06,  2.55s/it] 14%|███████████████████████████▋                                                                                                                                                                      | 2141/15000 [1:32:21<8:53:57,  2.49s/it] 14%|███████████████████████████▋                                                                                                                                                                      | 2142/15000 [1:32:23<8:44:29,  2.45s/it] 14%|███████████████████████████▋                                                                                                                                                                      | 2143/15000 [1:32:26<8:38:18,  2.42s/it] 14%|███████████████████████████▋                                                                                                                                                                      | 2144/15000 [1:32:28<8:34:13,  2.40s/it] 14%|███████████████████████████▋                                                                                                                                                                      | 2145/15000 [1:32:31<8:31:04,  2.39s/it] 14%|███████████████████████████▊                                                                                                                                                                      | 2146/15000 [1:32:33<8:28:38,  2.37s/it] 14%|███████████████████████████▊                                                                                                                                                                      | 2147/15000 [1:32:35<8:26:44,  2.37s/it] 14%|███████████████████████████▊                                                                                                                                                                      | 2148/15000 [1:32:38<8:26:05,  2.36s/it] 14%|███████████████████████████▊                                                                                                                                                                      | 2149/15000 [1:32:40<8:25:51,  2.36s/it] 14%|███████████████████████████▊                                                                                                                                                                      | 2150/15000 [1:32:42<8:25:11,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 3.5142, 'grad_norm': 5.40625, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3490.07, 'total_tokens': 17563760, 'epoch': 0.14}
+ 14%|███████████████████████████▊                                                                                                                                                                      | 2150/15000 [1:32:42<8:25:11,  2.36s/it] 14%|███████████████████████████▊                                                                                                                                                                      | 2151/15000 [1:32:45<8:25:07,  2.36s/it] 14%|███████████████████████████▊                                                                                                                                                                      | 2152/15000 [1:32:47<8:24:44,  2.36s/it] 14%|███████████████████████████▊                                                                                                                                                                      | 2153/15000 [1:32:49<8:24:19,  2.36s/it] 14%|███████████████████████████▊                                                                                                                                                                      | 2154/15000 [1:32:52<8:23:28,  2.35s/it] 14%|███████████████████████████▊                                                                                                                                                                      | 2155/15000 [1:32:54<8:22:54,  2.35s/it] 14%|███████████████████████████▉                                                                                                                                                                      | 2156/15000 [1:32:56<8:22:57,  2.35s/it] 14%|███████████████████████████▉                                                                                                                                                                      | 2157/15000 [1:32:59<8:23:07,  2.35s/it] 14%|███████████████████████████▉                                                                                                                                                                      | 2158/15000 [1:33:01<8:23:10,  2.35s/it] 14%|███████████████████████████▉                                                                                                                                                                      | 2159/15000 [1:33:03<8:23:08,  2.35s/it] 14%|███████████████████████████▉                                                                                                                                                                      | 2160/15000 [1:33:06<8:23:17,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 3.5239, 'grad_norm': 1.703125, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3486.3, 'total_tokens': 17645581, 'epoch': 0.14}
+ 14%|███████████████████████████▉                                                                                                                                                                      | 2160/15000 [1:33:06<8:23:17,  2.35s/it] 14%|███████████████████████████▉                                                                                                                                                                      | 2161/15000 [1:33:08<8:23:37,  2.35s/it] 14%|███████████████████████████▉                                                                                                                                                                      | 2162/15000 [1:33:11<8:23:48,  2.35s/it] 14%|███████████████████████████▉                                                                                                                                                                      | 2163/15000 [1:33:13<8:23:39,  2.35s/it] 14%|███████��███████████████████▉                                                                                                                                                                      | 2164/15000 [1:33:15<8:24:00,  2.36s/it] 14%|████████████████████████████                                                                                                                                                                      | 2165/15000 [1:33:18<8:23:51,  2.36s/it] 14%|████████████████████████████                                                                                                                                                                      | 2166/15000 [1:33:20<8:23:54,  2.36s/it] 14%|████████████████████████████                                                                                                                                                                      | 2167/15000 [1:33:22<8:23:33,  2.35s/it] 14%|████████████████████████████                                                                                                                                                                      | 2168/15000 [1:33:25<8:23:45,  2.36s/it] 14%|████████████████████████████                                                                                                                                                                      | 2169/15000 [1:33:27<8:23:26,  2.35s/it] 14%|████████████████████████████                                                                                                                                                                      | 2170/15000 [1:33:29<8:23:23,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 3.4824, 'grad_norm': 1.7734375, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3486.32, 'total_tokens': 17727404, 'epoch': 0.14}
+ 14%|████████████████████████████                                                                                                                                                                      | 2170/15000 [1:33:29<8:23:23,  2.35s/it] 14%|████████████████████████████                                                                                                                                                                      | 2171/15000 [1:33:32<8:23:35,  2.36s/it] 14%|████████████████████████████                                                                                                                                                                      | 2172/15000 [1:33:34<8:23:34,  2.36s/it] 14%|████████████████████████████                                                                                                                                                                      | 2173/15000 [1:33:36<8:23:17,  2.35s/it] 14%|████████████████████████████                                                                                                                                                                      | 2174/15000 [1:33:39<8:23:50,  2.36s/it] 14%|████████████████████████████▏                                                                                                                                                                     | 2175/15000 [1:33:41<8:24:02,  2.36s/it] 15%|████████████████████████████▏                                                                                                                                                                     | 2176/15000 [1:33:43<8:23:22,  2.36s/it] 15%|████████████████████████████▏                                                                                                                                                                     | 2177/15000 [1:33:46<8:22:50,  2.35s/it] 15%|████████████████████████████▏                                                                                                                                                                     | 2178/15000 [1:33:48<8:23:06,  2.35s/it] 15%|████████████████████████████▏                                                                                                                                                                     | 2179/15000 [1:33:51<8:23:37,  2.36s/it] 15%|████████████████████████████▏                                                                                                                                                                     | 2180/15000 [1:33:53<8:23:33,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 3.4964, 'grad_norm': 1.7890625, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3483.05, 'total_tokens': 17809243, 'epoch': 0.15}
+ 15%|████████████████████████████▏                                                                                                                                                                     | 2180/15000 [1:33:53<8:23:33,  2.36s/it] 15%|████████████████████████████▏                                                                                                                                                                     | 2181/15000 [1:33:55<8:23:00,  2.35s/it] 15%|████████████████████████████▏                                                                                                                                                                     | 2182/15000 [1:33:58<8:22:58,  2.35s/it] 15%|████████████████████████████▏                                                                                                                                                                     | 2183/15000 [1:34:00<8:22:40,  2.35s/it] 15%|████████████████████████████▏                                                                                                                                                                     | 2184/15000 [1:34:02<8:22:55,  2.35s/it] 15%|████████████████████████████▎                                                                                                                                                                     | 2185/15000 [1:34:05<8:22:38,  2.35s/it] 15%|████████████████████████████▎                                                                                                                                                                     | 2186/15000 [1:34:07<8:22:46,  2.35s/it] 15%|████████████████████████████▎                                                                                                                                                                     | 2187/15000 [1:34:09<8:22:52,  2.35s/it] 15%|████████████████████████████▎                                                                                                                                                                     | 2188/15000 [1:34:12<8:22:31,  2.35s/it] 15%|████████████████████████████▎                                                                                                                                                                     | 2189/15000 [1:34:14<8:22:47,  2.35s/it] 15%|████████████████████████████▎                                                                                                                                                                     | 2190/15000 [1:34:16<8:22:25,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 3.4985, 'grad_norm': 1.78125, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3492.09, 'total_tokens': 17891045, 'epoch': 0.15}
+ 15%|████████████████████████████▎                                                                                                                                                                     | 2190/15000 [1:34:16<8:22:25,  2.35s/it] 15%|████████████████████████████▎                                                                                                                                                                     | 2191/15000 [1:34:19<8:22:47,  2.36s/it] 15%|████████████████████████████▎                                                                                                                                                                     | 2192/15000 [1:34:21<8:22:16,  2.35s/it] 15%|████████████████████████████▎                                                                                                                                                                     | 2193/15000 [1:34:24<8:22:31,  2.35s/it] 15%|████████████████████████████▍                                                                                                                                                                     | 2194/15000 [1:34:26<8:22:16,  2.35s/it] 15%|████████████████████████████▍                                                                                                                                                                     | 2195/15000 [1:34:28<8:22:38,  2.36s/it] 15%|████████████████████████████▍                                                                                                                                                                     | 2196/15000 [1:34:31<8:22:39,  2.36s/it] 15%|████████████████████████████▍                                                                                                                                                                     | 2197/15000 [1:34:33<8:22:30,  2.35s/it] 15%|████████████████████████████▍                                                                                                                                                                     | 2198/15000 [1:34:35<8:22:26,  2.35s/it] 15%|████████████████████████████▍                                                                                                                                                                     | 2199/15000 [1:34:38<8:21:38,  2.35s/it] 15%|████████████████████████████▍                                                                                                                                                                     | 2200/15000 [1:34:40<8:21:41,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 3.4955, 'grad_norm': 1.7109375, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3487.82, 'total_tokens': 17972854, 'epoch': 0.15}
+ 15%|████████████████████████████▍                                                                                                                                                                     | 2200/15000 [1:34:40<8:21:41,  2.35s/it] 15%|████████████████████████████▍                                                                                                                                                                     | 2201/15000 [1:34:42<8:21:43,  2.35s/it] 15%|████████████████████████████▍                                                                                                                                                                     | 2202/15000 [1:34:45<8:21:49,  2.35s/it] 15%|████████████████████████████▍                                                                                                                                                                     | 2203/15000 [1:34:47<8:22:26,  2.36s/it] 15%|████████████████████████████▌                                                                                                                                                                     | 2204/15000 [1:34:49<8:22:16,  2.36s/it] 15%|████████████████████████████▌                                                                                                                                                                     | 2205/15000 [1:34:52<8:21:55,  2.35s/it] 15%|████████████████████████████▌                                                                                                                                                                     | 2206/15000 [1:34:54<8:22:01,  2.35s/it] 15%|████████████████████████████▌                                                                                                                                                                     | 2207/15000 [1:34:56<8:22:23,  2.36s/it] 15%|████████████████████████████▌                                                                                                                                                                     | 2208/15000 [1:34:59<8:22:35,  2.36s/it] 15%|████████████████████████████▌                                                                                                                                                                     | 2209/15000 [1:35:01<8:22:03,  2.36s/it] 15%|████████████████████████████▌                                                                                                                                                                     | 2210/15000 [1:35:04<8:22:23,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 3.4296, 'grad_norm': 1.671875, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3474.75, 'total_tokens': 18054646, 'epoch': 0.15}
+ 15%|████████████████████████████▌                                                                                                                                                                     | 2210/15000 [1:35:04<8:22:23,  2.36s/it] 15%|████████████████████████████▌                                                                                                                                                                     | 2211/15000 [1:35:06<8:22:27,  2.36s/it] 15%|████████████████████████████▌                                                                                                                                                                     | 2212/15000 [1:35:08<8:22:05,  2.36s/it] 15%|████████████████████████████▌                                                                                                                                                                     | 2213/15000 [1:35:11<8:21:51,  2.35s/it] 15%|████████████████████████████▋                                                                                                                                                                     | 2214/15000 [1:35:13<8:21:44,  2.35s/it] 15%|████████████████████████████▋                                                                                                                                                                     | 2215/15000 [1:35:15<8:21:41,  2.35s/it] 15%|████████████████████████████▋                                                                                                                                                                     | 2216/15000 [1:35:18<8:21:04,  2.35s/it] 15%|████████████████████████████▋                                                                                                                                                                     | 2217/15000 [1:35:20<8:21:05,  2.35s/it] 15%|████████████████████████████▋                                                                                                                                                                     | 2218/15000 [1:35:22<8:20:51,  2.35s/it] 15%|████████████████████████████▋                                                                                                                                                                     | 2219/15000 [1:35:25<8:21:05,  2.35s/it] 15%|████████████████████████████▋                                                                                                                                                                     | 2220/15000 [1:35:27<8:21:07,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 3.4852, 'grad_norm': 2.5625, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3486.84, 'total_tokens': 18136458, 'epoch': 0.15}
+ 15%|████████████████████████████▋                                                                                                                                                                     | 2220/15000 [1:35:27<8:21:07,  2.35s/it] 15%|████████████████████████████▋                                                                                                                                                                     | 2221/15000 [1:35:29<8:21:26,  2.35s/it] 15%|████████████████████████████▋                                                                                                                                                                     | 2222/15000 [1:35:32<8:21:13,  2.35s/it] 15%|████████████████████████████▊                                                                                                                                                                     | 2223/15000 [1:35:34<8:21:33,  2.36s/it] 15%|████████████████████████████▊                                                                                                                                                                     | 2224/15000 [1:35:36<8:21:58,  2.36s/it] 15%|████████████████████████████▊                                                                                                                                                                     | 2225/15000 [1:35:39<8:22:03,  2.36s/it] 15%|████████████████████████████▊                                                                                                                                                                     | 2226/15000 [1:35:41<8:21:32,  2.36s/it] 15%|████████████████████████████▊                                                                                                                                                                     | 2227/15000 [1:35:44<8:21:41,  2.36s/it] 15%|████████████████████████████▊                                                                                                                                                                     | 2228/15000 [1:35:46<8:21:40,  2.36s/it] 15%|████████████████████████████▊                                                                                                                                                                     | 2229/15000 [1:35:48<8:21:33,  2.36s/it] 15%|████████████████████████████▊                                                                                                                                                                     | 2230/15000 [1:35:51<8:21:23,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 3.4953, 'grad_norm': 1.75, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3483.1, 'total_tokens': 18218215, 'epoch': 0.15}
+ 15%|████████████████████████████▊                                                                                                                                                                     | 2230/15000 [1:35:51<8:21:23,  2.36s/it] 15%|████████████████████████████▊                                                                                                                                                                     | 2231/15000 [1:35:53<8:21:22,  2.36s/it] 15%|████████████████████████████▊                                                                                                                                                                     | 2232/15000 [1:35:55<8:20:57,  2.35s/it] 15%|████████████████████████████▉                                                                                                                                                                     | 2233/15000 [1:35:58<8:20:26,  2.35s/it] 15%|████████████████████████████▉                                                                                                                                                                     | 2234/15000 [1:36:00<8:21:09,  2.36s/it] 15%|████████████████████████████▉                                                                                                                                                                     | 2235/15000 [1:36:02<8:20:58,  2.35s/it] 15%|████████████████████████████▉                                                                                                                                                                     | 2236/15000 [1:36:05<8:21:25,  2.36s/it] 15%|████████████████████████████▉                                                                                                                                                                     | 2237/15000 [1:36:07<8:21:36,  2.36s/it] 15%|████████████████████████████▉                                                                                                                                                                     | 2238/15000 [1:36:09<8:20:53,  2.35s/it] 15%|████████████████████████████▉                                                                                                                                                                     | 2239/15000 [1:36:12<8:21:11,  2.36s/it] 15%|████████████████████████████▉                                                                                                                                                                     | 2240/15000 [1:36:14<8:20:49,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 3.4303, 'grad_norm': 1.8828125, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3489.36, 'total_tokens': 18300025, 'epoch': 0.15}
+ 15%|████████████████████████████▉                                                                                                                                                                     | 2240/15000 [1:36:14<8:20:49,  2.36s/it] 15%|████████████████████████████▉                                                                                                                                                                     | 2241/15000 [1:36:17<8:21:04,  2.36s/it] 15%|████████████████████████████▉                                                                                                                                                                     | 2242/15000 [1:36:19<8:20:39,  2.35s/it] 15%|█████████████████████████████                                                                                                                                                                     | 2243/15000 [1:36:21<8:20:33,  2.35s/it] 15%|█████████████████████████████                                                                                                                                                                     | 2244/15000 [1:36:24<8:20:27,  2.35s/it] 15%|█████████████████████████████                                                                                                                                                                     | 2245/15000 [1:36:26<8:19:53,  2.35s/it] 15%|█████████████████████████████                                                                                                                                                                     | 2246/15000 [1:36:28<8:20:13,  2.35s/it] 15%|█████████████████████████████                                                                                                                                                                     | 2247/15000 [1:36:31<8:20:39,  2.36s/it] 15%|█████████████████████████████                                                                                                                                                                     | 2248/15000 [1:36:33<8:20:15,  2.35s/it] 15%|█████████████████████████████                                                                                                                                                                     | 2249/15000 [1:36:35<8:20:25,  2.35s/it] 15%|█████████████████████████████                                                                                                                                                                     | 2250/15000 [1:36:38<8:20:40,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 3.399, 'grad_norm': 2.21875, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3477.1, 'total_tokens': 18381818, 'epoch': 0.15}
+ 15%|█████████████████████████████                                                                                                                                                                     | 2250/15000 [1:36:38<8:20:40,  2.36s/it] 15%|█████████████████████████████                                                                                                                                                                     | 2251/15000 [1:36:40<8:20:12,  2.35s/it] 15%|█████████████████████████████▏                                                                                                                                                                    | 2252/15000 [1:36:42<8:20:02,  2.35s/it] 15%|█████████████████████████████▏                                                                                                                                                                    | 2253/15000 [1:36:45<8:19:47,  2.35s/it] 15%|█████████████████████████████▏                                                                                                                                                                    | 2254/15000 [1:36:47<8:20:13,  2.35s/it] 15%|█████████████████████████████▏                                                                                                                                                                    | 2255/15000 [1:36:50<8:20:13,  2.35s/it] 15%|█████████████████████████████▏                                                                                                                                                                    | 2256/15000 [1:36:52<8:20:08,  2.35s/it] 15%|█████████████████████████████▏                                                                                                                                                                    | 2257/15000 [1:36:54<8:19:55,  2.35s/it] 15%|█████████████████████████████▏                                                                                                                                                                    | 2258/15000 [1:36:57<8:20:06,  2.35s/it] 15%|█████████████████████████████▏                                                                                                                                                                    | 2259/15000 [1:36:59<8:20:13,  2.36s/it] 15%|██████���██████████████████████▏                                                                                                                                                                    | 2260/15000 [1:37:01<8:20:06,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 3.3421, 'grad_norm': 1.8125, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3483.0, 'total_tokens': 18463579, 'epoch': 0.15}
+ 15%|█████████████████████████████▏                                                                                                                                                                    | 2260/15000 [1:37:01<8:20:06,  2.36s/it] 15%|█████████████████████████████▏                                                                                                                                                                    | 2261/15000 [1:37:04<8:20:32,  2.36s/it] 15%|█████████████████████████████▎                                                                                                                                                                    | 2262/15000 [1:37:06<8:20:36,  2.36s/it] 15%|█████████████████████████████▎                                                                                                                                                                    | 2263/15000 [1:37:08<8:20:23,  2.36s/it] 15%|█████████████████████████████▎                                                                                                                                                                    | 2264/15000 [1:37:11<8:20:07,  2.36s/it] 15%|█████████████████████████████▎                                                                                                                                                                    | 2265/15000 [1:37:13<8:19:48,  2.35s/it] 15%|█████████████████████████████▎                                                                                                                                                                    | 2266/15000 [1:37:15<8:19:38,  2.35s/it] 15%|█████████████████████████████▎                                                                                                                                                                    | 2267/15000 [1:37:18<8:19:45,  2.35s/it] 15%|█████████████████████████████▎                                                                                                                                                                    | 2268/15000 [1:37:20<8:19:49,  2.36s/it] 15%|█████████████████████████████▎                                                                                                                                                                    | 2269/15000 [1:37:22<8:19:34,  2.35s/it] 15%|█████████████████████████████▎                                                                                                                                                                    | 2270/15000 [1:37:25<8:19:08,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 3.4172, 'grad_norm': 1.6953125, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3493.72, 'total_tokens': 18545369, 'epoch': 0.15}
+ 15%|█████████████████████████████▎                                                                                                                                                                    | 2270/15000 [1:37:25<8:19:08,  2.35s/it] 15%|█████████████████████████████▎                                                                                                                                                                    | 2271/15000 [1:37:27<8:19:10,  2.35s/it] 15%|█████████████████████████████▍                                                                                                                                                                    | 2272/15000 [1:37:30<8:19:27,  2.35s/it] 15%|█████████████████████████████▍                                                                                                                                                                    | 2273/15000 [1:37:32<8:19:00,  2.35s/it] 15%|█████████████████████████████▍                                                                                                                                                                    | 2274/15000 [1:37:34<8:18:47,  2.35s/it] 15%|█████████████████████████████▍                                                                                                                                                                    | 2275/15000 [1:37:37<8:19:06,  2.35s/it] 15%|█████████████████████████████▍                                                                                                                                                                    | 2276/15000 [1:37:39<8:19:25,  2.36s/it] 15%|█████████████████████████████▍                                                                                                                                                                    | 2277/15000 [1:37:41<8:19:32,  2.36s/it] 15%|█████████████████████████████▍                                                                                                                                                                    | 2278/15000 [1:37:44<8:19:27,  2.36s/it] 15%|█████████████████████████████▍                                                                                                                                                                    | 2279/15000 [1:37:46<8:19:39,  2.36s/it] 15%|█████████████████████████████▍                                                                                                                                                                    | 2280/15000 [1:37:48<8:19:28,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 3.3936, 'grad_norm': 1.9296875, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3486.78, 'total_tokens': 18627212, 'epoch': 0.15}
+ 15%|█████████████████████████████▍                                                                                                                                                                    | 2280/15000 [1:37:48<8:19:28,  2.36s/it] 15%|█████████████████████████████▌                                                                                                                                                                    | 2281/15000 [1:37:51<8:19:28,  2.36s/it] 15%|█████████████████████████████▌                                                                                                                                                                    | 2282/15000 [1:37:53<8:19:47,  2.36s/it] 15%|█████████████████████████████▌                                                                                                                                                                    | 2283/15000 [1:37:55<8:19:33,  2.36s/it] 15%|█████████████████████████████▌                                                                                                                                                                    | 2284/15000 [1:37:58<8:18:59,  2.35s/it] 15%|█████████████████████████████▌                                                                                                                                                                    | 2285/15000 [1:38:01<8:49:39,  2.50s/it] 15%|██████████████���██████████████▌                                                                                                                                                                    | 2286/15000 [1:38:03<8:40:39,  2.46s/it] 15%|█████████████████████████████▌                                                                                                                                                                    | 2287/15000 [1:38:05<8:34:20,  2.43s/it] 15%|█████████████████████████████▌                                                                                                                                                                    | 2288/15000 [1:38:08<8:29:29,  2.40s/it] 15%|█████████████████████████████▌                                                                                                                                                                    | 2289/15000 [1:38:10<8:26:30,  2.39s/it] 15%|█████████████████████████████▌                                                                                                                                                                    | 2290/15000 [1:38:12<8:23:57,  2.38s/it]                                                                                                                                                                                                                                                {'loss': 3.4428, 'grad_norm': 1.8828125, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3488.7, 'total_tokens': 18709013, 'epoch': 0.15}
+ 15%|█████████████████████████████▌                                                                                                                                                                    | 2290/15000 [1:38:12<8:23:57,  2.38s/it] 15%|█████████████████████████████▋                                                                                                                                                                    | 2291/15000 [1:38:15<8:21:52,  2.37s/it] 15%|█████████████████████████████▋                                                                                                                                                                    | 2292/15000 [1:38:17<8:20:36,  2.36s/it] 15%|█████████████████████████████▋                                                                                                                                                                    | 2293/15000 [1:38:19<8:19:40,  2.36s/it] 15%|█████████████████████████████▋                                                                                                                                                                    | 2294/15000 [1:38:22<8:19:43,  2.36s/it] 15%|█████████████████████████████▋                                                                                                                                                                    | 2295/15000 [1:38:24<8:19:11,  2.36s/it] 15%|█████████████████████████████▋                                                                                                                                                                    | 2296/15000 [1:38:27<8:19:30,  2.36s/it] 15%|█████████████████████████████▋                                                                                                                                                                    | 2297/15000 [1:38:29<8:19:02,  2.36s/it] 15%|█████████████████████████████▋                                                                                                                                                                    | 2298/15000 [1:38:31<8:18:21,  2.35s/it] 15%|█████████████████████████████▋                                                                                                                                                                    | 2299/15000 [1:38:34<8:18:00,  2.35s/it] 15%|█████████████████████████████▋                                                                                                                                                                    | 2300/15000 [1:38:36<8:18:06,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 3.3965, 'grad_norm': 1.96875, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3483.46, 'total_tokens': 18790804, 'epoch': 0.15}
+ 15%|█████████████████████████████▋                                                                                                                                                                    | 2300/15000 [1:38:36<8:18:06,  2.35s/it] 15%|█████████████████████████████▊                                                                                                                                                                    | 2301/15000 [1:38:38<8:18:53,  2.36s/it] 15%|█████████████████████████████▊                                                                                                                                                                    | 2302/15000 [1:38:41<8:18:38,  2.36s/it] 15%|█████████████████████████████▊                                                                                                                                                                    | 2303/15000 [1:38:43<8:18:55,  2.36s/it] 15%|█████████████████████████████▊                                                                                                                                                                    | 2304/15000 [1:38:45<8:18:51,  2.36s/it] 15%|█████████████████████████████▊                                                                                                                                                                    | 2305/15000 [1:38:48<8:18:46,  2.36s/it] 15%|█████████████████████████████▊                                                                                                                                                                    | 2306/15000 [1:38:50<8:18:25,  2.36s/it] 15%|█████████████████████████████▊                                                                                                                                                                    | 2307/15000 [1:38:52<8:18:05,  2.35s/it] 15%|█████████████████████████████▊                                                                                                                                                                    | 2308/15000 [1:38:55<8:17:20,  2.35s/it] 15%|█████████████████████████████▊                                                                                                                                                                    | 2309/15000 [1:38:57<8:17:18,  2.35s/it] 15%|█████████████████████████████▉                                                                                                                                                                    | 2310/15000 [1:38:59<8:17:57,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 3.3566, 'grad_norm': 1.765625, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3473.79, 'total_tokens': 18872621, 'epoch': 0.15}
+ 15%|█████████████████████████████▉                                                                                                                                                                    | 2310/15000 [1:39:00<8:17:57,  2.35s/it] 15%|█████████████████████████████▉                                                                                                                                                                    | 2311/15000 [1:39:02<8:17:57,  2.35s/it] 15%|██████████████████████���██████▉                                                                                                                                                                    | 2312/15000 [1:39:04<8:18:18,  2.36s/it] 15%|█████████████████████████████▉                                                                                                                                                                    | 2313/15000 [1:39:07<8:17:30,  2.35s/it] 15%|█████████████████████████████▉                                                                                                                                                                    | 2314/15000 [1:39:09<8:17:43,  2.35s/it] 15%|█████████████████████████████▉                                                                                                                                                                    | 2315/15000 [1:39:11<8:17:33,  2.35s/it] 15%|█████████████████████████████▉                                                                                                                                                                    | 2316/15000 [1:39:14<8:17:15,  2.35s/it] 15%|█████████████████████████████▉                                                                                                                                                                    | 2317/15000 [1:39:16<8:17:31,  2.35s/it] 15%|█████████████████████████████▉                                                                                                                                                                    | 2318/15000 [1:39:18<8:17:11,  2.35s/it] 15%|█████████████████████████████▉                                                                                                                                                                    | 2319/15000 [1:39:21<8:17:23,  2.35s/it] 15%|██████████████████████████████                                                                                                                                                                    | 2320/15000 [1:39:23<8:17:21,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 3.3044, 'grad_norm': 1.78125, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3483.75, 'total_tokens': 18954371, 'epoch': 0.15}
+ 15%|██████████████████████████████                                                                                                                                                                    | 2320/15000 [1:39:23<8:17:21,  2.35s/it] 15%|██████████████████████████████                                                                                                                                                                    | 2321/15000 [1:39:25<8:17:13,  2.35s/it] 15%|██████████████████████████████                                                                                                                                                                    | 2322/15000 [1:39:28<8:17:00,  2.35s/it] 15%|██████████████████████████████                                                                                                                                                                    | 2323/15000 [1:39:30<8:16:51,  2.35s/it] 15%|██████████████████████████████                                                                                                                                                                    | 2324/15000 [1:39:32<8:16:47,  2.35s/it] 16%|██████████████████████████████                                                                                                                                                                    | 2325/15000 [1:39:35<8:16:52,  2.35s/it] 16%|██████████████████████████████                                                                                                                                                                    | 2326/15000 [1:39:37<8:17:02,  2.35s/it] 16%|██████████████████████████████                                                                                                                                                                    | 2327/15000 [1:39:39<8:17:09,  2.35s/it] 16%|██████████████████████████████                                                                                                                                                                    | 2328/15000 [1:39:42<8:17:18,  2.35s/it] 16%|██████████████████████████████                                                                                                                                                                    | 2329/15000 [1:39:44<8:16:46,  2.35s/it] 16%|██████████████████████████████▏                                                                                                                                                                   | 2330/15000 [1:39:47<8:17:05,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 3.4213, 'grad_norm': 1.8046875, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3477.64, 'total_tokens': 19036127, 'epoch': 0.16}
+ 16%|██████████████████████████████▏                                                                                                                                                                   | 2330/15000 [1:39:47<8:17:05,  2.35s/it] 16%|██████████████████████████████▏                                                                                                                                                                   | 2331/15000 [1:39:49<8:16:47,  2.35s/it] 16%|██████████████████████████████▏                                                                                                                                                                   | 2332/15000 [1:39:51<8:16:38,  2.35s/it] 16%|██████████████████████████████▏                                                                                                                                                                   | 2333/15000 [1:39:54<8:16:45,  2.35s/it] 16%|██████████████████████████████▏                                                                                                                                                                   | 2334/15000 [1:39:56<8:17:13,  2.36s/it] 16%|██████████████████████████████▏                                                                                                                                                                   | 2335/15000 [1:39:58<8:17:25,  2.36s/it] 16%|██████████████████████████████▏                                                                                                                                                                   | 2336/15000 [1:40:01<8:17:35,  2.36s/it] 16%|██████████████████████████████▏                                                                                                                                                                   | 2337/15000 [1:40:03<8:17:37,  2.36s/it] 16%|██████████████████████████████▏                                                                                                                                                                   | 2338/15000 [1:40:05<8:17:31,  2.36s/it] 16%|██████████████████████████████▎                                                                                                                                                                   | 2339/15000 [1:40:08<8:17:08,  2.36s/it] 16%|██████████████████████████████▎                                                                                                                                                                   | 2340/15000 [1:40:10<8:17:20,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 3.4222, 'grad_norm': 1.765625, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3475.46, 'total_tokens': 19117887, 'epoch': 0.16}
+ 16%|██████████████████████████████▎                                                                                                                                                                   | 2340/15000 [1:40:10<8:17:20,  2.36s/it] 16%|██████████████████████████████▎                                                                                                                                                                   | 2341/15000 [1:40:12<8:17:18,  2.36s/it] 16%|██████████████████████████████▎                                                                                                                                                                   | 2342/15000 [1:40:15<8:17:33,  2.36s/it] 16%|██████████████████████████████▎                                                                                                                                                                   | 2343/15000 [1:40:17<8:16:40,  2.35s/it] 16%|██████████████████████████████▎                                                                                                                                                                   | 2344/15000 [1:40:20<8:16:38,  2.35s/it] 16%|██████████████████████████████▎                                                                                                                                                                   | 2345/15000 [1:40:22<8:16:07,  2.35s/it] 16%|██████████████████████████████▎                                                                                                                                                                   | 2346/15000 [1:40:24<8:15:36,  2.35s/it] 16%|██████████████████████████████▎                                                                                                                                                                   | 2347/15000 [1:40:27<8:15:27,  2.35s/it] 16%|██████████████████████████████▎                                                                                                                                                                   | 2348/15000 [1:40:29<8:14:43,  2.35s/it] 16%|██████████████████████████████▍                                                                                                                                                                   | 2349/15000 [1:40:31<8:15:32,  2.35s/it] 16%|██████████████████████████████▍                                                                                                                                                                   | 2350/15000 [1:40:34<8:15:27,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 3.3808, 'grad_norm': 1.7734375, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3492.63, 'total_tokens': 19199702, 'epoch': 0.16}
+ 16%|██████████████████████████████▍                                                                                                                                                                   | 2350/15000 [1:40:34<8:15:27,  2.35s/it] 16%|██████████████████████████████▍                                                                                                                                                                   | 2351/15000 [1:40:36<8:15:14,  2.35s/it] 16%|██████████████████████████████▍                                                                                                                                                                   | 2352/15000 [1:40:38<8:15:30,  2.35s/it] 16%|██████████████████████████████▍                                                                                                                                                                   | 2353/15000 [1:40:41<8:16:10,  2.35s/it] 16%|██████████████████████████████▍                                                                                                                                                                   | 2354/15000 [1:40:43<8:16:09,  2.35s/it] 16%|██████████████████████████████▍                                                                                                                                                                   | 2355/15000 [1:40:45<8:16:28,  2.36s/it] 16%|██████████████████████████████▍                                                                                                                                                                   | 2356/15000 [1:40:48<8:16:00,  2.35s/it] 16%|██████████████████████████████▍                                                                                                                                                                   | 2357/15000 [1:40:50<8:16:12,  2.35s/it] 16%|██████████████████████████████▍                                                                                                                                                                   | 2358/15000 [1:40:52<8:16:32,  2.36s/it] 16%|██████████████████████████████▌                                                                                                                                                                   | 2359/15000 [1:40:55<8:16:28,  2.36s/it] 16%|██████████████████████████████▌                                                                                                                                                                   | 2360/15000 [1:40:57<8:16:16,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 3.4437, 'grad_norm': 1.796875, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3483.77, 'total_tokens': 19281467, 'epoch': 0.16}
+ 16%|██████████████████████████████▌                                                                                                                                                                   | 2360/15000 [1:40:57<8:16:16,  2.36s/it] 16%|██████████████████████████████▌                                                                                                                                                                   | 2361/15000 [1:41:00<8:15:46,  2.35s/it] 16%|██████████████████████████████▌                                                                                                                                                                   | 2362/15000 [1:41:02<8:15:47,  2.35s/it] 16%|██████████████████████████████▌                                                                                                                                                                   | 2363/15000 [1:41:04<8:15:46,  2.35s/it] 16%|██████████████████████████████▌                                                                                                                                                                   | 2364/15000 [1:41:07<8:15:33,  2.35s/it] 16%|██████████████████████████████▌                                                                                                                                                                   | 2365/15000 [1:41:09<8:15:33,  2.35s/it] 16%|██████████████████████████████▌                                                                                                                                                                   | 2366/15000 [1:41:11<8:15:40,  2.35s/it] 16%|██████████████████████████████▌                                                                                                                                                                   | 2367/15000 [1:41:14<8:15:50,  2.35s/it] 16%|██████████████████████████████▋                                                                                                                                                                   | 2368/15000 [1:41:16<8:15:40,  2.35s/it] 16%|██████████████████████████████▋                                                                                                                                                                   | 2369/15000 [1:41:18<8:15:23,  2.35s/it] 16%|██████████████████████████████▋                                                                                                                                                                   | 2370/15000 [1:41:21<8:15:31,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 3.3627, 'grad_norm': 2.09375, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3481.99, 'total_tokens': 19363255, 'epoch': 0.16}
+ 16%|██████████████████████████████▋                                                                                                                                                                   | 2370/15000 [1:41:21<8:15:31,  2.35s/it] 16%|██████████████████████████████▋                                                                                                                                                                   | 2371/15000 [1:41:23<8:15:18,  2.35s/it] 16%|██████████████████████████████▋                                                                                                                                                                   | 2372/15000 [1:41:25<8:15:43,  2.36s/it] 16%|██████████████████████████████▋                                                                                                                                                                   | 2373/15000 [1:41:28<8:16:00,  2.36s/it] 16%|██████████████████████████████▋                                                                                                                                                                   | 2374/15000 [1:41:30<8:15:23,  2.35s/it] 16%|██████████████████████████████▋                                                                                                                                                                   | 2375/15000 [1:41:32<8:15:47,  2.36s/it] 16%|██████████████████████████████▋                                                                                                                                                                   | 2376/15000 [1:41:35<8:15:46,  2.36s/it] 16%|██████████████████████████████▋                                                                                                                                                                   | 2377/15000 [1:41:37<8:16:01,  2.36s/it] 16%|██████████████████████████████▊                                                                                                                                                                   | 2378/15000 [1:41:40<8:16:36,  2.36s/it] 16%|██████████████████████████████▊                                                                                                                                                                   | 2379/15000 [1:41:42<8:16:04,  2.36s/it] 16%|██████████████████████████████▊                                                                                                                                                                   | 2380/15000 [1:41:44<8:15:54,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 3.2824, 'grad_norm': 1.953125, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3478.62, 'total_tokens': 19444974, 'epoch': 0.16}
+ 16%|██████████████████████████████▊                                                                                                                                                                   | 2380/15000 [1:41:44<8:15:54,  2.36s/it] 16%|██████████████████████████████▊                                                                                                                                                                   | 2381/15000 [1:41:47<8:15:41,  2.36s/it] 16%|██████████████████████████████▊                                                                                                                                                                   | 2382/15000 [1:41:49<8:15:30,  2.36s/it] 16%|██████████████████████████████▊                                                                                                                                                                   | 2383/15000 [1:41:51<8:15:47,  2.36s/it] 16%|██████████████████████████████▊                                                                                                                                                                   | 2384/15000 [1:41:54<8:15:06,  2.35s/it] 16%|██████████████████████████████▊                                                                                                                                                                   | 2385/15000 [1:41:56<8:15:14,  2.36s/it] 16%|██████████████████████████████▊                                                                                                                                                                   | 2386/15000 [1:41:58<8:15:07,  2.36s/it] 16%|██████████████████████████████▊                                                                                                                                                                   | 2387/15000 [1:42:01<8:14:58,  2.35s/it] 16%|██████████████████████████████▉                                                                                                                                                                   | 2388/15000 [1:42:03<8:14:57,  2.35s/it] 16%|██████████████████████████████▉                                                                                                                                                                   | 2389/15000 [1:42:05<8:14:50,  2.35s/it] 16%|██████████████████████████████▉                                                                                                                                                                   | 2390/15000 [1:42:08<8:14:16,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 3.3224, 'grad_norm': 1.953125, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3493.71, 'total_tokens': 19526695, 'epoch': 0.16}
+ 16%|██████████████████████████████▉                                                                                                                                                                   | 2390/15000 [1:42:08<8:14:16,  2.35s/it] 16%|██████████████████████████████▉                                                                                                                                                                   | 2391/15000 [1:42:10<8:13:46,  2.35s/it] 16%|██████████████████████████████▉                                                                                                                                                                   | 2392/15000 [1:42:13<8:13:55,  2.35s/it] 16%|██████████████████████████████▉                                                                                                                                                                   | 2393/15000 [1:42:15<8:13:53,  2.35s/it] 16%|██████████████████████████████▉                                                                                                                                                                   | 2394/15000 [1:42:17<8:14:11,  2.35s/it] 16%|██████████████████████████████▉                                                                                                                                                                   | 2395/15000 [1:42:20<8:14:25,  2.35s/it] 16%|██████████████████████████████▉                                                                                                                                                                   | 2396/15000 [1:42:22<8:14:12,  2.35s/it] 16%|███████████████████████████████                                                                                                                                                                   | 2397/15000 [1:42:24<8:14:15,  2.35s/it] 16%|███████████████████████████████                                                                                                                                                                   | 2398/15000 [1:42:27<8:14:20,  2.35s/it] 16%|███████████████████████████████                                                                                                                                                                   | 2399/15000 [1:42:29<8:14:24,  2.35s/it] 16%|███████████████████████████████                                                                                                                                                                   | 2400/15000 [1:42:31<8:14:47,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 3.3424, 'grad_norm': 1.9453125, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3475.79, 'total_tokens': 19608499, 'epoch': 0.16}
+ 16%|███████████████████████████████                                                                                                                                                                   | 2400/15000 [1:42:31<8:14:47,  2.36s/it] 16%|███████████████████████████████                                                                                                                                                                   | 2401/15000 [1:42:34<8:14:39,  2.36s/it] 16%|███████████████████████████████                                                                                                                                                                   | 2402/15000 [1:42:36<8:14:26,  2.35s/it] 16%|███████████████████████████████                                                                                                                                                                   | 2403/15000 [1:42:38<8:14:08,  2.35s/it] 16%|███████████████████████████████                                                                                                                                                                   | 2404/15000 [1:42:41<8:14:19,  2.35s/it] 16%|███████████████████████████████                                                                                                                                                                   | 2405/15000 [1:42:43<8:14:00,  2.35s/it] 16%|███████████████████████████████                                                                                                                                                                   | 2406/15000 [1:42:45<8:14:14,  2.35s/it] 16%|███████████████████████████████▏                                                                                                                                                                  | 2407/15000 [1:42:48<8:13:44,  2.35s/it] 16%|███████████████████████████████▏                                                                                                                                                                  | 2408/15000 [1:42:50<8:14:09,  2.35s/it] 16%|███████████████████████████████▏                                                                                                                                                                  | 2409/15000 [1:42:53<8:13:54,  2.35s/it] 16%|███████████████████████████████▏                                                                                                                                                                  | 2410/15000 [1:42:55<8:14:30,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 3.413, 'grad_norm': 1.8515625, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3469.69, 'total_tokens': 19690272, 'epoch': 0.16}
+ 16%|███████████████████████████████▏                                                                                                                                                                  | 2410/15000 [1:42:55<8:14:30,  2.36s/it] 16%|███████████████████████████████▏                                                                                                                                                                  | 2411/15000 [1:42:57<8:13:59,  2.35s/it] 16%|███████████████████████████████▏                                                                                                                                                                  | 2412/15000 [1:43:00<8:13:39,  2.35s/it] 16%|███████████████████████████████▏                                                                                                                                                                  | 2413/15000 [1:43:02<8:13:23,  2.35s/it] 16%|███████████████████████████████▏                                                                                                                                                                  | 2414/15000 [1:43:04<8:13:25,  2.35s/it] 16%|███████████████████████████████▏                                                                                                                                                                  | 2415/15000 [1:43:07<8:13:46,  2.35s/it] 16%|███████████████████████████████▏                                                                                                                                                                  | 2416/15000 [1:43:09<8:13:47,  2.35s/it] 16%|███████████████████████████████▎                                                                                                                                                                  | 2417/15000 [1:43:11<8:14:27,  2.36s/it] 16%|███████████████████████████████▎                                                                                                                                                                  | 2418/15000 [1:43:14<8:14:14,  2.36s/it] 16%|███████████████████████████████▎                                                                                                                                                                  | 2419/15000 [1:43:16<8:13:31,  2.35s/it] 16%|███████████████████████████████▎                                                                                                                                                                  | 2420/15000 [1:43:18<8:12:44,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 3.3147, 'grad_norm': 1.75, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3500.45, 'total_tokens': 19771990, 'epoch': 0.16}
+ 16%|███████████████████████████████▎                                                                                                                                                                  | 2420/15000 [1:43:18<8:12:44,  2.35s/it] 16%|███████████████████████████████▎                                                                                                                                                                  | 2421/15000 [1:43:21<8:13:32,  2.35s/it] 16%|███████████████████████████████▎                                                                                                                                                                  | 2422/15000 [1:43:23<8:13:24,  2.35s/it] 16%|███████████████████████████████▎                                                                                                                                                                  | 2423/15000 [1:43:25<8:12:57,  2.35s/it] 16%|███████████████████████████████▎                                                                                                                                                                  | 2424/15000 [1:43:28<8:13:10,  2.35s/it] 16%|███████████████████████████████▎                                                                                                                                                                  | 2425/15000 [1:43:30<8:13:26,  2.35s/it] 16%|███████████████████████████████▍                                                                                                                                                                  | 2426/15000 [1:43:33<8:13:04,  2.35s/it] 16%|███████████████████████████████▍                                                                                                                                                                  | 2427/15000 [1:43:35<8:12:49,  2.35s/it] 16%|███████████████████████████████▍                                                                                                                                                                  | 2428/15000 [1:43:37<8:12:38,  2.35s/it] 16%|███████████████████████████████▍                                                                                                                                                                  | 2429/15000 [1:43:40<8:12:23,  2.35s/it] 16%|███████████████████████████████▍                                                                                                                                                                  | 2430/15000 [1:43:42<8:12:56,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 3.3226, 'grad_norm': 1.78125, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3474.25, 'total_tokens': 19853719, 'epoch': 0.16}
+ 16%|███████████████████████████████▍                                                                                                                                                                  | 2430/15000 [1:43:42<8:12:56,  2.35s/it] 16%|███████████████████████████████▍                                                                                                                                                                  | 2431/15000 [1:43:44<8:12:45,  2.35s/it] 16%|███████████████████████████████▍                                                                                                                                                                  | 2432/15000 [1:43:47<8:12:46,  2.35s/it] 16%|███████████████████████████████▍                                                                                                                                                                  | 2433/15000 [1:43:49<8:12:31,  2.35s/it] 16%|███████████████████████████████▍                                                                                                                                                                  | 2434/15000 [1:43:51<8:12:30,  2.35s/it] 16%|███████████████████████████████▍                                                                                                                                                                  | 2435/15000 [1:43:54<8:12:35,  2.35s/it] 16%|███████████████████████████████▌                                                                                                                                                                  | 2436/15000 [1:43:56<8:13:02,  2.35s/it] 16%|███████████████████████████████▌                                                                                                                                                                  | 2437/15000 [1:43:58<8:12:34,  2.35s/it] 16%|███████████████████████████████▌                                                                                                                                                                  | 2438/15000 [1:44:01<8:12:45,  2.35s/it] 16%|███████████████████████████████▌                                                                                                                                                                  | 2439/15000 [1:44:03<8:12:35,  2.35s/it] 16%|███████████████████████████████▌                                                                                                                                                                  | 2440/15000 [1:44:05<8:12:51,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 3.4124, 'grad_norm': 1.640625, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3479.08, 'total_tokens': 19935508, 'epoch': 0.16}
+ 16%|███████████████████████████████▌                                                                                                                                                                  | 2440/15000 [1:44:06<8:12:51,  2.35s/it] 16%|███████████████████████████████▌                                                                                                                                                                  | 2441/15000 [1:44:08<8:12:55,  2.35s/it] 16%|███████████████████████████████▌                                                                                                                                                                  | 2442/15000 [1:44:10<8:12:51,  2.35s/it] 16%|███████████████████████████████▌                                                                                                                                                                  | 2443/15000 [1:44:13<8:12:25,  2.35s/it] 16%|███████████████████████████████▌                                                                                                                                                                  | 2444/15000 [1:44:15<8:12:32,  2.35s/it] 16%|███████████████████████████████▌                                                                                                                                                                  | 2445/15000 [1:44:17<8:12:15,  2.35s/it] 16%|███████████████████████████████▋                                                                                                                                                                  | 2446/15000 [1:44:20<8:12:38,  2.35s/it] 16%|███████████████████████████████▋                                                                                                                                                                  | 2447/15000 [1:44:22<8:11:55,  2.35s/it] 16%|███████████████████████████████▋                                                                                                                                                                  | 2448/15000 [1:44:24<8:11:47,  2.35s/it] 16%|███████████████████████████████▋                                                                                                                                                                  | 2449/15000 [1:44:27<8:11:46,  2.35s/it] 16%|███████████████████████████████▋                                                                                                                                                                  | 2450/15000 [1:44:29<8:11:55,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 3.303, 'grad_norm': 1.859375, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3483.66, 'total_tokens': 20017262, 'epoch': 0.16}
+ 16%|███████████████████████████████▋                                                                                                                                                                  | 2450/15000 [1:44:29<8:11:55,  2.35s/it] 16%|███████████████████████████████▋                                                                                                                                                                  | 2451/15000 [1:44:31<8:12:31,  2.35s/it] 16%|███████████████████████████████▋                                                                                                                                                                  | 2452/15000 [1:44:34<8:12:08,  2.35s/it] 16%|███████████████████████████████▋                                                                                                                                                                  | 2453/15000 [1:44:36<8:12:19,  2.35s/it] 16%|███████████████████████████████▋                                                                                                                                                                  | 2454/15000 [1:44:38<8:11:45,  2.35s/it] 16%|███████████████████████████████▊                                                                                                                                                                  | 2455/15000 [1:44:41<8:12:14,  2.35s/it] 16%|███████████████████████████████▊                                                                                                                                                                  | 2456/15000 [1:44:43<8:12:16,  2.35s/it] 16%|███████████████████████████████▊                                                                                                                                                                  | 2457/15000 [1:44:46<8:12:31,  2.36s/it] 16%|███████████████████████████████▊                                                                                                                                                                  | 2458/15000 [1:44:48<8:12:23,  2.36s/it] 16%|███████████████████████████████▊                                                                                                                                                                  | 2459/15000 [1:44:50<8:12:24,  2.36s/it] 16%|███████████████████████████████▊                                                                                                                                                                  | 2460/15000 [1:44:53<8:11:54,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 3.3812, 'grad_norm': 2.140625, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3488.27, 'total_tokens': 20098932, 'epoch': 0.16}
+ 16%|███████████████████████████████▊                                                                                                                                                                  | 2460/15000 [1:44:53<8:11:54,  2.35s/it] 16%|███████████████████████████████▊                                                                                                                                                                  | 2461/15000 [1:44:55<8:12:31,  2.36s/it] 16%|███████████████████████████████▊                                                                                                                                                                  | 2462/15000 [1:44:57<8:12:11,  2.36s/it] 16%|███████████████████████████████▊                                                                                                                                                                  | 2463/15000 [1:45:00<8:11:48,  2.35s/it] 16%|███████████████████████████████▊                                                                                                                                                                  | 2464/15000 [1:45:02<8:11:25,  2.35s/it] 16%|███████████████████████████████▉                                                                                                                                                                  | 2465/15000 [1:45:04<8:11:25,  2.35s/it] 16%|███████████████████████████████▉                                                                                                                                                                  | 2466/15000 [1:45:07<8:11:20,  2.35s/it] 16%|███████████████████████████████▉                                                                                                                                                                  | 2467/15000 [1:45:09<8:11:01,  2.35s/it] 16%|███████████████████████████████▉                                                                                                                                                                  | 2468/15000 [1:45:11<8:10:46,  2.35s/it] 16%|███████████████████████████████▉                                                                                                                                                                  | 2469/15000 [1:45:14<8:10:51,  2.35s/it] 16%|███████████████████████████████▉                                                                                                                                                                  | 2470/15000 [1:45:16<8:10:51,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 3.3583, 'grad_norm': 1.75, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3484.37, 'total_tokens': 20180601, 'epoch': 0.16}
+ 16%|███████████████████████████████▉                                                                                                                                                                  | 2470/15000 [1:45:16<8:10:51,  2.35s/it] 16%|███████████████████████████████▉                                                                                                                                                                  | 2471/15000 [1:45:18<8:11:29,  2.35s/it] 16%|███████████████████████████████▉                                                                                                                                                                  | 2472/15000 [1:45:21<8:11:32,  2.35s/it] 16%|███████████████████████████████▉                                                                                                                                                                  | 2473/15000 [1:45:23<8:10:54,  2.35s/it] 16%|███████████████████████████████▉                                                                                                                                                                  | 2474/15000 [1:45:25<8:10:55,  2.35s/it] 16%|████████████████████████████████                                                                                                                                                                  | 2475/15000 [1:45:28<8:11:06,  2.35s/it] 17%|████████████████████████████████                                                                                                                                                                  | 2476/15000 [1:45:30<8:11:28,  2.35s/it] 17%|████████████████████████████████                                                                                                                                                                  | 2477/15000 [1:45:33<8:11:00,  2.35s/it] 17%|████████████████████████████████                                                                                                                                                                  | 2478/15000 [1:45:35<8:10:50,  2.35s/it] 17%|████████████████████████████████                                                                                                                                                                  | 2479/15000 [1:45:37<8:11:15,  2.35s/it][2025-11-16 23:28:30,458] [INFO] [axolotl.utils.data.wrappers.get_dataset_wrapper:87] [PID:8163] Loading dataset: Goader/kobza-2m-jsonl with base_type: pretrain and prompt_style: None
+
+Tokenizing Prompts (num_proc=64):   0%|                                                                                                                                                                        | 0/10000 [00:00<?, ? examples/s][A
+Tokenizing Prompts (num_proc=64):   2%|██▍                                                                                                                                                           | 157/10000 [00:06<06:25, 25.52 examples/s][A
+Tokenizing Prompts (num_proc=64):   3%|████▉                                                                                                                                                         | 314/10000 [00:06<03:00, 53.75 examples/s][A
+Tokenizing Prompts (num_proc=64):   5%|███████▍                                                                                                                                                      | 471/10000 [00:07<01:47, 89.03 examples/s][A
+Tokenizing Prompts (num_proc=64):   6%|█████████▊                                                                                                                                                   | 628/10000 [00:08<01:25, 110.08 examples/s][A
+Tokenizing Prompts (num_proc=64):   8%|████████████▎                                                                                                                                                | 785/10000 [00:08<01:08, 134.48 examples/s][A
+Tokenizing Prompts (num_proc=64):   9%|██████████████▊                                                                                                                                              | 942/10000 [00:09<00:56, 159.25 examples/s][A
+Tokenizing Prompts (num_proc=64):  11%|█████████████████▏                                                                                                                                          | 1099/10000 [00:10<00:49, 179.90 examples/s][A
+Tokenizing Prompts (num_proc=64):  13%|███████████████████▌                                                                                                                                        | 1256/10000 [00:10<00:38, 227.32 examples/s][A
+Tokenizing Prompts (num_proc=64):  14%|██████████████████████                                                                                                                                      | 1413/10000 [00:11<00:36, 233.72 examples/s][A
+Tokenizing Prompts (num_proc=64):  16%|████████████████████████▍                                                                                                                                   | 1570/10000 [00:11<00:36, 230.55 examples/s][A
+Tokenizing Prompts (num_proc=64):  17%|██████████████████████████▉                                                                                                                                 | 1727/10000 [00:13<00:55, 148.60 examples/s][A
+Tokenizing Prompts (num_proc=64):  19%|█████████████████████████████▍                                                                                                                              | 1884/10000 [00:13<00:41, 197.93 examples/s][A
+Tokenizing Prompts (num_proc=64):  22%|██████████████████████████████████▎                                                                                                                         | 2198/10000 [00:14<00:34, 225.21 examples/s][A
+Tokenizing Prompts (num_proc=64):  24%|████████████████████████████████████▋                                                                                                                       | 2355/10000 [00:15<00:28, 268.78 examples/s][A
+Tokenizing Prompts (num_proc=64):  25%|███████████████████████████████████████▏                                                                                                                    | 2512/10000 [00:16<00:34, 215.70 examples/s][A
+Tokenizing Prompts (num_proc=64):  27%|█████████████████████████████████████████▌                                                                                                                  | 2668/10000 [00:16<00:27, 268.39 examples/s][A
+Tokenizing Prompts (num_proc=64):  28%|████████████████████████████████████████████                                                                                                                | 2824/10000 [00:17<00:27, 256.48 examples/s][A
+Tokenizing Prompts (num_proc=64):  30%|██████████████████████████████████████████████▍                                                                                                             | 2980/10000 [00:17<00:27, 251.26 examples/s][A
+Tokenizing Prompts (num_proc=64):  31%|████████████████████████████████████████████████▉                                                                                                           | 3136/10000 [00:18<00:28, 243.10 examples/s][A
+Tokenizing Prompts (num_proc=64):  33%|███████████████████████████████████████████████████▎                                                                                                        | 3292/10000 [00:19<00:28, 233.40 examples/s][A
+Tokenizing Prompts (num_proc=64):  34%|█████████████████████████████████████████████████████▊                                                                                                      | 3448/10000 [00:19<00:27, 242.40 examples/s][A
+Tokenizing Prompts (num_proc=64):  36%|████████████████████████████████████████████████████████▏                                                                                                   | 3604/10000 [00:21<00:32, 196.45 examples/s][A
+Tokenizing Prompts (num_proc=64):  38%|██████████████████████████████████████████████████████████▋                                                                                                 | 3760/10000 [00:21<00:26, 232.10 examples/s][A
+Tokenizing Prompts (num_proc=64):  39%|█████████████████████████████████████████████████████████████                                                                                               | 3916/10000 [00:22<00:29, 206.87 examples/s][A
+Tokenizing Prompts (num_proc=64):  41%|█████████��█████████████████████████████████████████████████████▌                                                                                            | 4072/10000 [00:23<00:24, 242.24 examples/s][A
+Tokenizing Prompts (num_proc=64):  42%|█████████████████████████████████████████████████████████████████▉                                                                                          | 4228/10000 [00:23<00:27, 210.91 examples/s][A
+Tokenizing Prompts (num_proc=64):  44%|████████████████████████████████████████████████████████████████████▍                                                                                       | 4384/10000 [00:23<00:20, 269.30 examples/s][A
+Tokenizing Prompts (num_proc=64):  45%|██████████████████████████████████████████████████████████████████████▊                                                                                     | 4540/10000 [00:24<00:21, 255.92 examples/s][A
+Tokenizing Prompts (num_proc=64):  47%|█████████████████████████████████████████████████████████████████████████▎                                                                                  | 4696/10000 [00:25<00:21, 247.40 examples/s][A
+Tokenizing Prompts (num_proc=64):  49%|███████████████████████████████████████████████████████████████████████████▋                                                                                | 4852/10000 [00:26<00:25, 204.36 examples/s][A
+Tokenizing Prompts (num_proc=64):  50%|██████████████████████████████████████████████████████████████████████████████                                                                              | 5008/10000 [00:26<00:19, 257.22 examples/s][A
+Tokenizing Prompts (num_proc=64):  52%|████████████████████████████████████████████████████████████████████████████████▌                                                                           | 5164/10000 [00:27<00:19, 243.62 examples/s][A
+Tokenizing Prompts (num_proc=64):  53%|██████████████████████████████████████████████████████████████████████████████████▉                                                                         | 5320/10000 [00:27<00:18, 252.19 examples/s][A
+Tokenizing Prompts (num_proc=64):  55%|█████████████████████████████████████████████████████████████████████████████████████▍                                                                      | 5476/10000 [00:28<00:18, 243.33 examples/s][A
+Tokenizing Prompts (num_proc=64):  56%|███████████████████████████████████████████████████████████████████████████████████████▊                                                                    | 5632/10000 [00:29<00:18, 240.05 examples/s][A
+Tokenizing Prompts (num_proc=64):  58%|██████████████████████████████████████████████████████████████████████████████████████████▎                                                                 | 5788/10000 [00:29<00:17, 239.17 examples/s][A
+Tokenizing Prompts (num_proc=64):  59%|████████████████████████████████████████████████████████████████████████████████████████████▋                                                               | 5944/10000 [00:30<00:16, 241.21 examples/s][A
+Tokenizing Prompts (num_proc=64):  61%|███████████████████████████████████████████████████████████████████████████████████████████████▏                                                            | 6100/10000 [00:31<00:16, 240.61 examples/s][A
+Tokenizing Prompts (num_proc=64):  63%|█████████████████████████████████████████████████████████████████████████████████████████████████▌                                                          | 6256/10000 [00:32<00:18, 198.58 examples/s][A
+Tokenizing Prompts (num_proc=64):  64%|████████████████████████████████████████████████████████████████████████████████████████████████████                                                        | 6412/10000 [00:32<00:14, 245.59 examples/s][A
+Tokenizing Prompts (num_proc=64):  66%|██████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                     | 6568/10000 [00:33<00:16, 205.38 examples/s][A
+Tokenizing Prompts (num_proc=64):  67%|████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                   | 6724/10000 [00:34<00:15, 214.59 examples/s][A
+Tokenizing Prompts (num_proc=64):  69%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                | 6880/10000 [00:34<00:11, 261.00 examples/s][A
+Tokenizing Prompts (num_proc=64):  70%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                              | 7036/10000 [00:35<00:13, 211.92 examples/s][A
+Tokenizing Prompts (num_proc=64):  72%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                           | 7192/10000 [00:36<00:12, 217.70 examples/s][A
+Tokenizing Prompts (num_proc=64):  73%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                         | 7348/10000 [00:36<00:10, 264.58 examples/s][A
+Tokenizing Prompts (num_proc=64):  75%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                       | 7504/10000 [00:37<00:09, 262.03 examples/s][A
+Tokenizing Prompts (num_proc=64):  77%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                    | 7660/10000 [00:37<00:09, 254.50 examples/s][A
+Tokenizing Prompts (num_proc=64):  78%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                  | 7816/10000 [00:39<00:10, 199.78 examples/s][A
+Tokenizing Prompts (num_proc=64):  80%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                               | 7972/10000 [00:39<00:07, 256.84 examples/s][A
+Tokenizing Prompts (num_proc=64):  81%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                             | 8128/10000 [00:39<00:07, 249.87 examples/s][A
+Tokenizing Prompts (num_proc=64):  83%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                          | 8284/10000 [00:41<00:08, 200.28 examples/s][A
+Tokenizing Prompts (num_proc=64):  84%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                        | 8440/10000 [00:41<00:06, 253.94 examples/s][A
+Tokenizing Prompts (num_proc=64):  86%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                      | 8596/10000 [00:41<00:05, 247.60 examples/s][A
+Tokenizing Prompts (num_proc=64):  88%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                   | 8752/10000 [00:42<00:05, 242.94 examples/s][A
+Tokenizing Prompts (num_proc=64):  89%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                 | 8908/10000 [00:43<00:04, 235.00 examples/s][A
+Tokenizing Prompts (num_proc=64):  91%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍              | 9064/10000 [00:43<00:03, 242.70 examples/s][A
+Tokenizing Prompts (num_proc=64):  92%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊            | 9220/10000 [00:45<00:03, 200.21 examples/s][A
+Tokenizing Prompts (num_proc=64):  94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎         | 9376/10000 [00:45<00:02, 212.25 examples/s][A
+Tokenizing Prompts (num_proc=64):  95%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋       | 9532/10000 [00:46<00:01, 255.88 examples/s][A
+Tokenizing Prompts (num_proc=64):  97%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏    | 9688/10000 [00:46<00:01, 253.50 examples/s][A
+Tokenizing Prompts (num_proc=64):  98%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌  | 9844/10000 [00:47<00:00, 251.86 examples/s][A
+Tokenizing Prompts (num_proc=64): 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10000/10000 [00:47<00:00, 249.23 examples/s][ATokenizing Prompts (num_proc=64): 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10000/10000 [00:49<00:00, 200.63 examples/s]
+
+Dropping Long Sequences:   0%|                                                                                                                                                                                 | 0/10000 [00:00<?, ? examples/s][A
+Dropping Long Sequences:  10%|████████████████▌                                                                                                                                                    | 1000/10000 [00:01<00:14, 642.76 examples/s][A
+Dropping Long Sequences:  20%|████████████████████████████████▊                                                                                                                                   | 2000/10000 [00:01<00:06, 1284.27 examples/s][A
+Dropping Long Sequences:  30%|█████████████████████████████████████████████████▏                                                                                                                  | 3000/10000 [00:02<00:03, 1843.53 examples/s][A
+Dropping Long Sequences:  40%|█████████████████████████████████████████████████████████████████▌                                                                                                  | 4000/10000 [00:02<00:02, 2331.52 examples/s][A
+Dropping Long Sequences:  50%|█████████████████████████████████████████████████████████████████████████��████████                                                                                  | 5000/10000 [00:02<00:01, 2738.66 examples/s][A
+Dropping Long Sequences:  60%|██████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                 | 6000/10000 [00:02<00:01, 3156.46 examples/s][A
+Dropping Long Sequences:  70%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                 | 7000/10000 [00:03<00:00, 3254.30 examples/s][A
+Dropping Long Sequences:  80%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                | 8000/10000 [00:03<00:00, 3496.51 examples/s][A
+Dropping Long Sequences:  90%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                | 9000/10000 [00:03<00:00, 3624.82 examples/s][A
+Dropping Long Sequences: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10000/10000 [00:03<00:00, 3621.44 examples/s][ADropping Long Sequences: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10000/10000 [00:03<00:00, 2554.86 examples/s]
+
+Add position_id column (Pretraining Sample Packing):   0%|                                                                                                                                                      | 0/8741 [00:00<?, ? examples/s][A
+Add position_id column (Pretraining Sample Packing):  11%|███████████████▊                                                                                                                          | 1000/8741 [00:01<00:09, 799.23 examples/s][A
+Add position_id column (Pretraining Sample Packing):  23%|███████████████████████████████▎                                                                                                         | 2000/8741 [00:01<00:04, 1647.38 examples/s][A
+Add position_id column (Pretraining Sample Packing):  34%|███████████████████████████████████████████████                                                                                          | 3000/8741 [00:01<00:02, 2541.07 examples/s][A
+Add position_id column (Pretraining Sample Packing):  46%|██████████████████████████████████████████████████████████████▋                                                                          | 4000/8741 [00:01<00:01, 3317.06 examples/s][A
+Add position_id column (Pretraining Sample Packing):  57%|██████████████████████████████████████████████████████████████████████████████▎                                                          | 5000/8741 [00:01<00:00, 4105.52 examples/s][A
+Add position_id column (Pretraining Sample Packing):  69%|██████████████████████████████████████████████████████████████████████████████████████████████                                           | 6000/8741 [00:01<00:00, 4735.38 examples/s][A
+Add position_id column (Pretraining Sample Packing):  80%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                           | 7000/8741 [00:02<00:00, 5311.42 examples/s][A
+Add position_id column (Pretraining Sample Packing):  92%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍           | 8000/8741 [00:02<00:00, 5506.91 examples/s][A
+Add position_id column (Pretraining Sample Packing): 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 8741/8741 [00:02<00:00, 5854.79 examples/s][AAdd position_id column (Pretraining Sample Packing): 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 8741/8741 [00:02<00:00, 3552.06 examples/s]
+[2025-11-16 23:29:28,435] [DEBUG] [axolotl.utils.samplers.multipack.pack_parallel:177] [PID:8163] Using single process for pack_parallel, running sequentially.
+ 17%|███████████████████████████████▉                                                                                                                                                                 | 2480/15000 [1:46:43<74:04:24, 21.30s/it]                                                                                                                                                                                                                                                {'loss': 3.3991, 'grad_norm': 2.765625, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3592.38, 'total_tokens': 20259197, 'epoch': 0.17}
+ 17%|███████████████████████████████▉                                                                                                                                                                 | 2480/15000 [1:46:43<74:04:24, 21.30s/it] 17%|███████████████████████████████▉                                                                                                                                                                 | 2481/15000 [1:46:45<54:18:19, 15.62s/it] 17%|███████████████████████████████▉                                                                                                                                                                 | 2482/15000 [1:46:47<40:28:09, 11.64s/it] 17%|███████████████████████████████▉                                                                                                                                                                 | 2483/15000 [1:46:50<30:46:51,  8.85s/it] 17%|███████████████████████████████▉                                                                                                                                                                 | 2484/15000 [1:46:52<23:59:44,  6.90s/it] 17%|███████████████████████████████▉                                                                                                                                                                 | 2485/15000 [1:46:55<19:14:39,  5.54s/it] 17%|███████████████████████████████▉                                                                                                                                                                 | 2486/15000 [1:46:57<15:55:22,  4.58s/it] 17%|███████████████████████████████▉                                                                                                                                                                 | 2487/15000 [1:46:59<13:35:54,  3.91s/it] 17%|████████████████████████████████                                                                                                                                                                 | 2488/15000 [1:47:02<11:58:12,  3.44s/it] 17%|████████████████████████████████                                                                                                                                                                 | 2489/15000 [1:47:04<10:49:49,  3.12s/it] 17%|████████████████████████████████                                                                                                                                                                 | 2490/15000 [1:47:06<10:01:52,  2.89s/it]                                                                                                                                                                                                                                                {'loss': 3.3207, 'grad_norm': 2.078125, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3493.52, 'total_tokens': 20341066, 'epoch': 0.17}
+ 17%|████████████████████████████████                                                                                                                                                                 | 2490/15000 [1:47:06<10:01:52,  2.89s/it] 17%|████████████████████████████████▏                                                                                                                                                                 | 2491/15000 [1:47:09<9:28:46,  2.73s/it] 17%|████████████████████████████████▏                                                                                                                                                                 | 2492/15000 [1:47:11<9:05:07,  2.61s/it] 17%|████████████████████████████████▏                                                                                                                                                                 | 2493/15000 [1:47:13<8:48:44,  2.54s/it] 17%|████████████████████████████████▎                                                                                                                                                                 | 2494/15000 [1:47:16<8:36:46,  2.48s/it] 17%|████████████████████████████████▎                                                                                                                                                                 | 2495/15000 [1:47:18<8:28:34,  2.44s/it] 17%|████████████████████████████████▎                                                                                                                                                                 | 2496/15000 [1:47:20<8:23:28,  2.42s/it] 17%|████████████████████████████████▎                                                                                                                                                                 | 2497/15000 [1:47:23<8:19:39,  2.40s/it] 17%|████████████████████████████████▎                                                                                                                                                                 | 2498/15000 [1:47:25<8:16:39,  2.38s/it] 17%|████████████████████████████████▎                                                                                                                                                                 | 2499/15000 [1:47:27<8:14:51,  2.38s/it] 17%|████████████████████████████████▎                                                                                                                                                                 | 2500/15000 [1:47:30<8:13:34,  2.37s/it]                                                                                                                                                                                                                                                {'loss': 3.2929, 'grad_norm': 1.8984375, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3485.59, 'total_tokens': 20422918, 'epoch': 0.17}
+ 17%|████████████████████████████████▎                                                                                                                                                                 | 2500/15000 [1:47:30<8:13:34,  2.37s/it] 17%|████████████████████████████████▎                                                                                                                                                                 | 2501/15000 [1:47:32<8:12:23,  2.36s/it] 17%|████████████████████████████████▎                                                                                                                                                                 | 2502/15000 [1:47:35<8:11:39,  2.36s/it] 17%|████████████████████████████████▎                                                                                                                                                                 | 2503/15000 [1:47:37<8:11:23,  2.36s/it] 17%|████████████████████████████████▍                                                                                                                                                                 | 2504/15000 [1:47:39<8:11:11,  2.36s/it] 17%|████████████████████████████████▍                                                                                                                                                                 | 2505/15000 [1:47:42<8:11:09,  2.36s/it] 17%|████████████████████████████████▍                                                                                                                                                                 | 2506/15000 [1:47:44<8:11:03,  2.36s/it] 17%|████████████████████████████████▍                                                                                                                                                                 | 2507/15000 [1:47:46<8:10:55,  2.36s/it] 17%|████████████████████████████████▍                                                                                                                                                                 | 2508/15000 [1:47:49<8:10:32,  2.36s/it] 17%|████████████████████████████████▍                                                                                                                                                                 | 2509/15000 [1:47:51<8:10:15,  2.35s/it] 17%|████████████████████████████████▍                                                                                                                                                                 | 2510/15000 [1:47:53<8:10:34,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 3.3827, 'grad_norm': 1.8203125, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3475.53, 'total_tokens': 20504722, 'epoch': 0.17}
+ 17%|████████████████████████████████▍                                                                                                                                                                 | 2510/15000 [1:47:53<8:10:34,  2.36s/it] 17%|████████████████████████████████▍                                                                                                                                                                 | 2511/15000 [1:47:56<8:10:27,  2.36s/it] 17%|████████████████████████████████▍                                                                                                                                                                 | 2512/15000 [1:47:58<8:10:09,  2.36s/it] 17%|████████████████████████████████▌                                                                                                                                                                 | 2513/15000 [1:48:00<8:09:57,  2.35s/it] 17%|████████████████████████████████▌                                                                                                                                                                 | 2514/15000 [1:48:03<8:09:34,  2.35s/it] 17%|████████████████████████████████▌                                                                                                                                                                 | 2515/15000 [1:48:05<8:09:27,  2.35s/it] 17%|████████████████████████████████▌                                                                                                                                                                 | 2516/15000 [1:48:08<8:10:04,  2.36s/it] 17%|████████████████████████████████▌                                                                                                                                                                 | 2517/15000 [1:48:10<8:10:04,  2.36s/it] 17%|████████████████████████████████▌                                                                                                                                                                 | 2518/15000 [1:48:12<8:09:47,  2.35s/it] 17%|████████████████████████████████▌                                                                                                                                                                 | 2519/15000 [1:48:15<8:09:52,  2.35s/it] 17%|████████████████████████████████▌                                                                                                                                                                 | 2520/15000 [1:48:17<8:09:35,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 3.3338, 'grad_norm': 1.8046875, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3491.03, 'total_tokens': 20586557, 'epoch': 0.17}
+ 17%|████████████████████████████████▌                                                                                                                                                                 | 2520/15000 [1:48:17<8:09:35,  2.35s/it] 17%|████████████████████████████████▌                                                                                                                                                                 | 2521/15000 [1:48:19<8:09:31,  2.35s/it] 17%|████████████████████████████████▌                                                                                                                                                                 | 2522/15000 [1:48:22<8:09:22,  2.35s/it] 17%|████████████████████████████████▋                                                                                                                                                                 | 2523/15000 [1:48:24<8:09:14,  2.35s/it] 17%|████████████████████████████████▋                                                                                                                                                                 | 2524/15000 [1:48:26<8:09:11,  2.35s/it] 17%|████████████████████████████████▋                                                                                                                                                                 | 2525/15000 [1:48:29<8:09:36,  2.35s/it] 17%|████████████████████████████████▋                                                                                                                                                                 | 2526/15000 [1:48:31<8:09:21,  2.35s/it] 17%|████████████████████████████████▋                                                                                                                                                                 | 2527/15000 [1:48:33<8:09:42,  2.36s/it] 17%|████████████████████████████████▋                                                                                                                                                                 | 2528/15000 [1:48:36<8:09:37,  2.36s/it] 17%|████████████████████████████████▋                                                                                                                                                                 | 2529/15000 [1:48:38<8:09:37,  2.36s/it] 17%|████████████████████████████████▋                                                                                                                                                                 | 2530/15000 [1:48:40<8:09:25,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 3.3045, 'grad_norm': 1.7734375, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3487.72, 'total_tokens': 20668375, 'epoch': 0.17}
+ 17%|████████████████████████████████▋                                                                                                                                                                 | 2530/15000 [1:48:40<8:09:25,  2.35s/it] 17%|████████████████████████████████▋                                                                                                                                                                 | 2531/15000 [1:48:43<8:09:35,  2.36s/it] 17%|████████████████████████████████▋                                                                                                                                                                 | 2532/15000 [1:48:45<8:09:12,  2.35s/it] 17%|████████████████████████████████▊                                                                                                                                                                 | 2533/15000 [1:48:48<8:09:38,  2.36s/it] 17%|████████████████████████████████▊                                                                                                                                                                 | 2534/15000 [1:48:50<8:09:37,  2.36s/it] 17%|████████████████████████████████▊                                                                                                                                                                 | 2535/15000 [1:48:52<8:09:29,  2.36s/it] 17%|████████████████████████████████▊                                                                                                                                                                 | 2536/15000 [1:48:55<8:09:13,  2.36s/it] 17%|████████████████████████████████▊                                                                                                                                                                 | 2537/15000 [1:48:57<8:38:40,  2.50s/it] 17%|████████████████████████████████▊                                                                                                                                                                 | 2538/15000 [1:49:00<8:30:07,  2.46s/it] 17%|████████████████████████████████▊                                                                                                                                                                 | 2539/15000 [1:49:02<8:24:22,  2.43s/it] 17%|████████████████████████████████▊                                                                                                                                                                 | 2540/15000 [1:49:05<8:19:30,  2.41s/it]                                                                                                                                                                                                                                                {'loss': 3.2622, 'grad_norm': 1.7890625, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3490.63, 'total_tokens': 20750204, 'epoch': 0.17}
+ 17%|████████████████████████████████▊                                                                                                                                                                 | 2540/15000 [1:49:05<8:19:30,  2.41s/it] 17%|████████████████████████████████▊                                                                                                                                                                 | 2541/15000 [1:49:07<8:16:08,  2.39s/it] 17%|████████████████████████████████▉                                                                                                                                                                 | 2542/15000 [1:49:09<8:13:47,  2.38s/it] 17%|████████████████████████████████▉                                                                                                                                                                 | 2543/15000 [1:49:12<8:12:49,  2.37s/it] 17%|████████████████████████████████▉                                                                                                                                                                 | 2544/15000 [1:49:14<8:11:10,  2.37s/it] 17%|████████████████████████████████▉                                                                                                                                                                 | 2545/15000 [1:49:16<8:11:00,  2.37s/it] 17%|████████████████████████████████▉                                                                                                                                                                 | 2546/15000 [1:49:19<8:10:10,  2.36s/it] 17%|████████████████████████████████▉                                                                                                                                                                 | 2547/15000 [1:49:21<8:09:57,  2.36s/it] 17%|████████████████████████████████▉                                                                                                                                                                 | 2548/15000 [1:49:23<8:09:24,  2.36s/it] 17%|████████████████████████████████▉                                                                                                                                                                 | 2549/15000 [1:49:26<8:08:54,  2.36s/it] 17%|████████████████████████████████▉                                                                                                                                                                 | 2550/15000 [1:49:28<8:08:53,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 3.3197, 'grad_norm': 1.796875, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3482.94, 'total_tokens': 20832015, 'epoch': 0.17}
+ 17%|████████████████████████████████▉                                                                                                                                                                 | 2550/15000 [1:49:28<8:08:53,  2.36s/it] 17%|████████████████████████████████▉                                                                                                                                                                 | 2551/15000 [1:49:30<8:09:02,  2.36s/it] 17%|█████████████████████████████████                                                                                                                                                                 | 2552/15000 [1:49:33<8:08:50,  2.36s/it] 17%|█████████████████████████████████                                                                                                                                                                 | 2553/15000 [1:49:35<8:08:31,  2.35s/it] 17%|█████████████████████████████████                                                                                                                                                                 | 2554/15000 [1:49:37<8:08:15,  2.35s/it] 17%|█████████████████████████████████                                                                                                                                                                 | 2555/15000 [1:49:40<8:08:13,  2.35s/it] 17%|█████████████████████████████████                                                                                                                                                                 | 2556/15000 [1:49:42<8:08:04,  2.35s/it] 17%|█████████████████████████████████                                                                                                                                                                 | 2557/15000 [1:49:45<8:08:17,  2.35s/it] 17%|█████████████████████████████████                                                                                                                                                                 | 2558/15000 [1:49:47<8:08:33,  2.36s/it] 17%|█████████████████████████████████                                                                                                                                                                 | 2559/15000 [1:49:49<8:08:42,  2.36s/it] 17%|█████████████████████████████████                                                                                                                                                                 | 2560/15000 [1:49:52<8:08:30,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 3.3338, 'grad_norm': 1.796875, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3484.88, 'total_tokens': 20913821, 'epoch': 0.17}
+ 17%|█████████████████████████████████                                                                                                                                                                 | 2560/15000 [1:49:52<8:08:30,  2.36s/it] 17%|█████████████████████████████████                                                                                                                                                                 | 2561/15000 [1:49:54<8:08:26,  2.36s/it] 17%|█████████████████████████████████▏                                                                                                                                                                | 2562/15000 [1:49:56<8:07:43,  2.35s/it] 17%|█████████████████████████████████▏                                                                                                                                                                | 2563/15000 [1:49:59<8:08:29,  2.36s/it] 17%|█████████████████████████████████▏                                                                                                                                                                | 2564/15000 [1:50:01<8:07:45,  2.35s/it] 17%|█████████████████████████████████▏                                                                                                                                                                | 2565/15000 [1:50:03<8:07:56,  2.35s/it] 17%|█████████████████████████████████▏                                                                                                                                                                | 2566/15000 [1:50:06<8:07:08,  2.35s/it] 17%|█████████████████████████████████▏                                                                                                                                                                | 2567/15000 [1:50:08<8:07:10,  2.35s/it] 17%|█████████████████████████████████▏                                                                                                                                                                | 2568/15000 [1:50:10<8:07:32,  2.35s/it] 17%|█████████████████████████████████▏                                                                                                                                                                | 2569/15000 [1:50:13<8:07:55,  2.36s/it] 17%|█████████████████████████████████▏                                                                                                                                                                | 2570/15000 [1:50:15<8:08:09,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 3.3716, 'grad_norm': 1.8828125, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3478.04, 'total_tokens': 20995636, 'epoch': 0.17}
+ 17%|█████████████████████████████████▏                                                                                                                                                                | 2570/15000 [1:50:15<8:08:09,  2.36s/it] 17%|█████████████████████████████████▎                                                                                                                                                                | 2571/15000 [1:50:18<8:08:00,  2.36s/it] 17%|█████████████████████████████████▎                                                                                                                                                                | 2572/15000 [1:50:20<8:08:02,  2.36s/it] 17%|█████████████████████████████████▎                                                                                                                                                                | 2573/15000 [1:50:22<8:08:08,  2.36s/it] 17%|█████████████████████████████████▎                                                                                                                                                                | 2574/15000 [1:50:25<8:08:06,  2.36s/it] 17%|█████████████████████████████████▎                                                                                                                                                                | 2575/15000 [1:50:27<8:07:32,  2.35s/it] 17%|█████████████████████████████████▎                                                                                                                                                                | 2576/15000 [1:50:29<8:07:59,  2.36s/it] 17%|█████████████████████████████████▎                                                                                                                                                                | 2577/15000 [1:50:32<8:07:31,  2.35s/it] 17%|█████████████████████████████████▎                                                                                                                                                                | 2578/15000 [1:50:34<8:07:23,  2.35s/it] 17%|█████████████████████████████████▎                                                                                                                                                                | 2579/15000 [1:50:36<8:07:31,  2.36s/it] 17%|█████████████████████████████████▎                                                                                                                                                                | 2580/15000 [1:50:39<8:07:02,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 3.3354, 'grad_norm': 1.796875, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3493.8, 'total_tokens': 21077417, 'epoch': 0.17}
+ 17%|█████████████████████████████████▎                                                                                                                                                                | 2580/15000 [1:50:39<8:07:02,  2.35s/it] 17%|█████████████████████████████████▍                                                                                                                                                                | 2581/15000 [1:50:41<8:07:11,  2.35s/it] 17%|█████████████████████████████████▍                                                                                                                                                                | 2582/15000 [1:50:43<8:06:49,  2.35s/it] 17%|█████████████████████████████████▍                                                                                                                                                                | 2583/15000 [1:50:46<8:07:08,  2.35s/it] 17%|█████████████████████████████████▍                                                                                                                                                                | 2584/15000 [1:50:48<8:07:10,  2.35s/it] 17%|█████████████████████████████████▍                                                                                                                                                                | 2585/15000 [1:50:50<8:06:48,  2.35s/it] 17%|█████████████████████████████████▍                                                                                                                                                                | 2586/15000 [1:50:53<8:06:54,  2.35s/it] 17%|█████████████████████████████████▍                                                                                                                                                                | 2587/15000 [1:50:55<8:06:50,  2.35s/it] 17%|█████████████████████████████████▍                                                                                                                                                                | 2588/15000 [1:50:58<8:07:03,  2.35s/it] 17%|█████████████████████████████████▍                                                                                                                                                                | 2589/15000 [1:51:00<8:07:03,  2.35s/it] 17%|█████████████████████████████████▍                                                                                                                                                                | 2590/15000 [1:51:02<8:06:59,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 3.3119, 'grad_norm': 1.8828125, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3485.39, 'total_tokens': 21159226, 'epoch': 0.17}
+ 17%|█████████████████████████████████▍                                                                                                                                                                | 2590/15000 [1:51:02<8:06:59,  2.35s/it] 17%|█████████████████████████████████▌                                                                                                                                                                | 2591/15000 [1:51:05<8:07:03,  2.36s/it] 17%|█████████████████████████████████▌                                                                                                                                                                | 2592/15000 [1:51:07<8:07:13,  2.36s/it] 17%|█████████████████████████████████▌                                                                                                                                                                | 2593/15000 [1:51:09<8:07:06,  2.36s/it] 17%|█████████████████████████████████▌                                                                                                                                                                | 2594/15000 [1:51:12<8:07:08,  2.36s/it] 17%|█████████████████████████████████▌                                                                                                                                                                | 2595/15000 [1:51:14<8:07:11,  2.36s/it] 17%|█████████████████████████████████▌                                                                                                                                                                | 2596/15000 [1:51:16<8:07:01,  2.36s/it] 17%|█████████████████████████████████▌                                                                                                                                                                | 2597/15000 [1:51:19<8:06:52,  2.36s/it] 17%|█████████████████████████████████▌                                                                                                                                                                | 2598/15000 [1:51:21<8:06:48,  2.36s/it] 17%|█████████████████████████████████▌                                                                                                                                                                | 2599/15000 [1:51:23<8:06:47,  2.36s/it] 17%|█████████████████████████████████▋                                                                                                                                                                | 2600/15000 [1:51:26<8:06:44,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 3.3606, 'grad_norm': 2.078125, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3484.93, 'total_tokens': 21241043, 'epoch': 0.17}
+ 17%|█████████████████████████████████▋                                                                                                                                                                | 2600/15000 [1:51:26<8:06:44,  2.36s/it] 17%|█████████████████████████████████▋                                                                                                                                                                | 2601/15000 [1:51:28<8:06:55,  2.36s/it] 17%|█████████████████████████████████▋                                                                                                                                                                | 2602/15000 [1:51:31<8:06:33,  2.35s/it] 17%|█████████████████████████████████▋                                                                                                                                                                | 2603/15000 [1:51:33<8:06:07,  2.35s/it] 17%|█████████████████████████████████▋                                                                                                                                                                | 2604/15000 [1:51:35<8:05:52,  2.35s/it] 17%|█████████████████████████████████▋                                                                                                                                                                | 2605/15000 [1:51:38<8:05:40,  2.35s/it] 17%|█████████████████████████████████▋                                                                                                                                                                | 2606/15000 [1:51:40<8:05:47,  2.35s/it] 17%|█████████████████████████████████▋                                                                                                                                                                | 2607/15000 [1:51:42<8:05:34,  2.35s/it] 17%|█████████████████████████████████▋                                                                                                                                                                | 2608/15000 [1:51:45<8:05:54,  2.35s/it] 17%|█████████████████████████████████▋                                                                                                                                                                | 2609/15000 [1:51:47<8:06:34,  2.36s/it] 17%|█████████████████████████████████▊                                                                                                                                                                | 2610/15000 [1:51:49<8:05:35,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 3.3298, 'grad_norm': 2.078125, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3505.32, 'total_tokens': 21322850, 'epoch': 0.17}
+ 17%|█████████████████████████████████▊                                                                                                                                                                | 2610/15000 [1:51:49<8:05:35,  2.35s/it] 17%|█████████████████████████████████▊                                                                                                                                                                | 2611/15000 [1:51:52<8:05:58,  2.35s/it] 17%|█████████████████████████████████▊                                                                                                                                                                | 2612/15000 [1:51:54<8:06:13,  2.35s/it] 17%|█████████████████████████████████▊                                                                                                                                                                | 2613/15000 [1:51:56<8:06:12,  2.36s/it] 17%|█████████████████████████████████▊                                                                                                                                                                | 2614/15000 [1:51:59<8:06:22,  2.36s/it] 17%|█████████████████████████████████▊                                                                                                                                                                | 2615/15000 [1:52:01<8:06:05,  2.35s/it] 17%|█████████████████████████████████▊                                                                                                                                                                | 2616/15000 [1:52:03<8:05:20,  2.35s/it] 17%|█████████████████████████████████▊                                                                                                                                                                | 2617/15000 [1:52:06<8:05:25,  2.35s/it] 17%|█████████████████████████████████▊                                                                                                                                                                | 2618/15000 [1:52:08<8:05:17,  2.35s/it] 17%|█████████████████████████████████▊                                                                                                                                                                | 2619/15000 [1:52:10<8:05:22,  2.35s/it] 17%|█████████████████████████████████▉                                                                                                                                                                | 2620/15000 [1:52:13<8:05:50,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 3.3021, 'grad_norm': 1.7265625, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3475.42, 'total_tokens': 21404638, 'epoch': 0.17}
+ 17%|█████████████████████████████████▉                                                                                                                                                                | 2620/15000 [1:52:13<8:05:50,  2.35s/it] 17%|█████████████████████████████████▉                                                                                                                                                                | 2621/15000 [1:52:15<8:05:54,  2.36s/it] 17%|█████████████████████████████████▉                                                                                                                                                                | 2622/15000 [1:52:18<8:06:03,  2.36s/it] 17%|█████████████████████████████████▉                                                                                                                                                                | 2623/15000 [1:52:20<8:05:12,  2.35s/it] 17%|█████████████████████████████████▉                                                                                                                                                                | 2624/15000 [1:52:22<8:04:47,  2.35s/it] 18%|█████████████████████████████████▉                                                                                                                                                                | 2625/15000 [1:52:25<8:04:14,  2.35s/it] 18%|█████████████████████████████████▉                                                                                                                                                                | 2626/15000 [1:52:27<8:04:19,  2.35s/it] 18%|█████████████████████████████████▉                                                                                                                                                                | 2627/15000 [1:52:29<8:05:00,  2.35s/it] 18%|█████████████████████████████████▉                                                                                                                                                                | 2628/15000 [1:52:32<8:05:17,  2.35s/it] 18%|██████████████████████████████████                                                                                                                                                                | 2629/15000 [1:52:34<8:04:54,  2.35s/it] 18%|██████████████████████████████████                                                                                                                                                                | 2630/15000 [1:52:36<8:04:51,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 3.2702, 'grad_norm': 1.7265625, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3489.51, 'total_tokens': 21486449, 'epoch': 0.18}
+ 18%|██████████████████████████████████                                                                                                                                                                | 2630/15000 [1:52:36<8:04:51,  2.35s/it] 18%|██████████████████████████████████                                                                                                                                                                | 2631/15000 [1:52:39<8:04:57,  2.35s/it] 18%|██████████████████████████████████                                                                                                                                                                | 2632/15000 [1:52:41<8:04:35,  2.35s/it] 18%|██████████████████████████████████                                                                                                                                                                | 2633/15000 [1:52:43<8:04:15,  2.35s/it] 18%|██████████████████████████████████                                                                                                                                                                | 2634/15000 [1:52:46<8:04:34,  2.35s/it] 18%|██████████████████████████████████                                                                                                                                                                | 2635/15000 [1:52:48<8:04:37,  2.35s/it] 18%|██████████████████████████████████                                                                                                                                                                | 2636/15000 [1:52:50<8:04:56,  2.35s/it] 18%|██████████████████████████████████                                                                                                                                                                | 2637/15000 [1:52:53<8:05:07,  2.35s/it] 18%|██████████████████████████████████                                                                                                                                                                | 2638/15000 [1:52:55<8:04:27,  2.35s/it] 18%|██████████████████████████████████▏                                                                                                                                                               | 2639/15000 [1:52:58<8:04:22,  2.35s/it] 18%|██████████████████████████████████▏                                                                                                                                                               | 2640/15000 [1:53:00<8:04:58,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 3.289, 'grad_norm': 1.8125, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3472.08, 'total_tokens': 21568199, 'epoch': 0.18}
+ 18%|██████████████████████████████████▏                                                                                                                                                               | 2640/15000 [1:53:00<8:04:58,  2.35s/it] 18%|██████████████████████████████████▏                                                                                                                                                               | 2641/15000 [1:53:02<8:05:08,  2.36s/it] 18%|██████████████████████████████████▏                                                                                                                                                               | 2642/15000 [1:53:05<8:04:42,  2.35s/it] 18%|██████████████████████████████████▏                                                                                                                                                               | 2643/15000 [1:53:07<8:04:49,  2.35s/it] 18%|██████████████████████████████████▏                                                                                                                                                               | 2644/15000 [1:53:09<8:04:35,  2.35s/it] 18%|██████████████████████████████████▏                                                                                                                                                               | 2645/15000 [1:53:12<8:04:39,  2.35s/it] 18%|██████████████████████████████████▏                                                                                                                                                               | 2646/15000 [1:53:14<8:04:30,  2.35s/it] 18%|██████████████████████████████████▏                                                                                                                                                               | 2647/15000 [1:53:16<8:05:01,  2.36s/it] 18%|██████████████████████████████████▏                                                                                                                                                               | 2648/15000 [1:53:19<8:05:14,  2.36s/it] 18%|██████████████████████████████████▎                                                                                                                                                               | 2649/15000 [1:53:21<8:05:01,  2.36s/it] 18%|██████████████████████████████████▎                                                                                                                                                               | 2650/15000 [1:53:23<8:04:55,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 3.3183, 'grad_norm': 1.84375, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3481.82, 'total_tokens': 21649951, 'epoch': 0.18}
+ 18%|██████████████████████████████████▎                                                                                                                                                               | 2650/15000 [1:53:23<8:04:55,  2.36s/it] 18%|██████████████████████████████████▎                                                                                                                                                               | 2651/15000 [1:53:26<8:05:08,  2.36s/it] 18%|██████████████████████████████████▎                                                                                                                                                               | 2652/15000 [1:53:28<8:04:34,  2.35s/it] 18%|██████████████████████████████████▎                                                                                                                                                               | 2653/15000 [1:53:31<8:04:15,  2.35s/it] 18%|██████████████████████████████████▎                                                                                                                                                               | 2654/15000 [1:53:33<8:04:34,  2.36s/it] 18%|██████████████████████████████████▎                                                                                                                                                               | 2655/15000 [1:53:35<8:04:38,  2.36s/it] 18%|██████████████████████████████████▎                                                                                                                                                               | 2656/15000 [1:53:38<8:04:52,  2.36s/it] 18%|██████████████████████████████████▎                                                                                                                                                               | 2657/15000 [1:53:40<8:04:16,  2.35s/it] 18%|██████████████████████████████████▍                                                                                                                                                               | 2658/15000 [1:53:42<8:04:16,  2.35s/it] 18%|██████████████████████████████████▍                                                                                                                                                               | 2659/15000 [1:53:45<8:03:44,  2.35s/it] 18%|██████████████████████████████████▍                                                                                                                                                               | 2660/15000 [1:53:47<8:03:45,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 3.3317, 'grad_norm': 1.78125, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3486.04, 'total_tokens': 21731721, 'epoch': 0.18}
+ 18%|██████████████████████████████████▍                                                                                                                                                               | 2660/15000 [1:53:47<8:03:45,  2.35s/it] 18%|██████████████████████████████████▍                                                                                                                                                               | 2661/15000 [1:53:49<8:04:02,  2.35s/it] 18%|██████████████████████████████████▍                                                                                                                                                               | 2662/15000 [1:53:52<8:03:39,  2.35s/it] 18%|██████████████████████████████████▍                                                                                                                                                               | 2663/15000 [1:53:54<8:03:52,  2.35s/it] 18%|██████████████████████████████████▍                                                                                                                                                               | 2664/15000 [1:53:56<8:04:10,  2.35s/it] 18%|██████████████████████████████████▍                                                                                                                                                               | 2665/15000 [1:53:59<8:04:19,  2.36s/it] 18%|██████████████████████████████████▍                                                                                                                                                               | 2666/15000 [1:54:01<8:03:53,  2.35s/it] 18%|██████████████████████████████████▍                                                                                                                                                               | 2667/15000 [1:54:03<8:03:35,  2.35s/it] 18%|██████████████████████████████████▌                                                                                                                                                               | 2668/15000 [1:54:06<8:03:54,  2.35s/it] 18%|██████████████████████████████████▌                                                                                                                                                               | 2669/15000 [1:54:08<8:03:54,  2.35s/it] 18%|██████████████████████████████████▌                                                                                                                                                               | 2670/15000 [1:54:11<8:04:06,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 3.2299, 'grad_norm': 1.8125, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3476.81, 'total_tokens': 21813471, 'epoch': 0.18}
+ 18%|██████████████████████████████████▌                                                                                                                                                               | 2670/15000 [1:54:11<8:04:06,  2.36s/it] 18%|██████████████████████████████████▌                                                                                                                                                               | 2671/15000 [1:54:13<8:03:53,  2.35s/it] 18%|██████████████████████████████████▌                                                                                                                                                               | 2672/15000 [1:54:15<8:04:06,  2.36s/it] 18%|██████████████████████████████████▌                                                                                                                                                               | 2673/15000 [1:54:18<8:04:05,  2.36s/it] 18%|██████████████████████████████████▌                                                                                                                                                               | 2674/15000 [1:54:20<8:03:50,  2.36s/it] 18%|██████████████████████████████████▌                                                                                                                                                               | 2675/15000 [1:54:22<8:03:00,  2.35s/it] 18%|██████████████████████████████████▌                                                                                                                                                               | 2676/15000 [1:54:25<8:03:07,  2.35s/it] 18%|██████████████████████████████████▌                                                                                                                                                               | 2677/15000 [1:54:27<8:03:05,  2.35s/it] 18%|██████████████████████████████████▋                                                                                                                                                               | 2678/15000 [1:54:29<8:02:59,  2.35s/it] 18%|██████████████████████████████████▋                                                                                                                                                               | 2679/15000 [1:54:32<8:02:40,  2.35s/it] 18%|██████████████████████████████████▋                                                                                                                                                               | 2680/15000 [1:54:34<8:02:46,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 3.3227, 'grad_norm': 1.8125, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3484.8, 'total_tokens': 21895212, 'epoch': 0.18}
+ 18%|██████████████████████████████████▋                                                                                                                                                               | 2680/15000 [1:54:34<8:02:46,  2.35s/it] 18%|██████████████████████████████████▋                                                                                                                                                               | 2681/15000 [1:54:36<8:02:04,  2.35s/it] 18%|███���██████████████████████████████▋                                                                                                                                                               | 2682/15000 [1:54:39<8:02:15,  2.35s/it] 18%|██████████████████████████████████▋                                                                                                                                                               | 2683/15000 [1:54:41<8:02:19,  2.35s/it] 18%|██████████████████████████████████▋                                                                                                                                                               | 2684/15000 [1:54:43<8:02:45,  2.35s/it] 18%|██████████████████████████████████▋                                                                                                                                                               | 2685/15000 [1:54:46<8:02:39,  2.35s/it] 18%|██████████████████████████████████▋                                                                                                                                                               | 2686/15000 [1:54:48<8:02:37,  2.35s/it] 18%|██████████████████████████████████▊                                                                                                                                                               | 2687/15000 [1:54:51<8:02:50,  2.35s/it] 18%|██████████████████████████████████▊                                                                                                                                                               | 2688/15000 [1:54:53<8:02:54,  2.35s/it] 18%|██████████████████████████████████▊                                                                                                                                                               | 2689/15000 [1:54:55<8:02:34,  2.35s/it] 18%|██████████████████████████████████▊                                                                                                                                                               | 2690/15000 [1:54:58<8:02:53,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 3.3147, 'grad_norm': 1.7421875, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3478.17, 'total_tokens': 21976972, 'epoch': 0.18}
+ 18%|██████████████████████████████████▊                                                                                                                                                               | 2690/15000 [1:54:58<8:02:53,  2.35s/it] 18%|██████████████████████████████████▊                                                                                                                                                               | 2691/15000 [1:55:00<8:02:57,  2.35s/it] 18%|██████████████████████████████████▊                                                                                                                                                               | 2692/15000 [1:55:02<8:02:58,  2.35s/it] 18%|██████████████████████████████████▊                                                                                                                                                               | 2693/15000 [1:55:05<8:03:14,  2.36s/it] 18%|██████████████████████████████████▊                                                                                                                                                               | 2694/15000 [1:55:07<8:03:02,  2.36s/it] 18%|██████████████████████████████████▊                                                                                                                                                               | 2695/15000 [1:55:09<8:02:25,  2.35s/it] 18%|██████████████████████████████████▊                                                                                                                                                               | 2696/15000 [1:55:12<8:02:31,  2.35s/it] 18%|██████████████████████████████████▉                                                                                                                                                               | 2697/15000 [1:55:14<8:02:44,  2.35s/it] 18%|██████████████████████████████████▉                                                                                                                                                               | 2698/15000 [1:55:16<8:02:54,  2.36s/it] 18%|██████████████████████████████████▉                                                                                                                                                               | 2699/15000 [1:55:19<8:03:18,  2.36s/it] 18%|██████████████████████████████████▉                                                                                                                                                               | 2700/15000 [1:55:21<8:03:15,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 3.2217, 'grad_norm': 1.84375, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3477.67, 'total_tokens': 22058700, 'epoch': 0.18}
+ 18%|██████████████████████████████████▉                                                                                                                                                               | 2700/15000 [1:55:21<8:03:15,  2.36s/it] 18%|██████████████████████████████████▉                                                                                                                                                               | 2701/15000 [1:55:23<8:03:16,  2.36s/it] 18%|██████████████████████████████████▉                                                                                                                                                               | 2702/15000 [1:55:26<8:02:21,  2.35s/it] 18%|██████████████████████████████████▉                                                                                                                                                               | 2703/15000 [1:55:28<8:02:16,  2.35s/it] 18%|██████████████████████████████████▉                                                                                                                                                               | 2704/15000 [1:55:31<8:02:52,  2.36s/it] 18%|██████████████████████████████████▉                                                                                                                                                               | 2705/15000 [1:55:33<8:02:09,  2.35s/it] 18%|██████████████████████████████████▉                                                                                                                                                               | 2706/15000 [1:55:35<8:02:26,  2.35s/it] 18%|███████████████████████████████████                                                                                                                                                               | 2707/15000 [1:55:38<8:02:22,  2.35s/it] 18%|███████████████████████████████████                                                                                                                                                               | 2708/15000 [1:55:40<8:02:10,  2.35s/it] 18%|███████████████████████████████████                                                                                                                                                               | 2709/15000 [1:55:42<8:01:50,  2.35s/it] 18%|███████████████████████████████████                                                                                                                                                               | 2710/15000 [1:55:45<8:01:42,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 3.288, 'grad_norm': 1.8359375, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3490.1, 'total_tokens': 22140495, 'epoch': 0.18}
+ 18%|███████████████████████████████████                                                                                                                                                               | 2710/15000 [1:55:45<8:01:42,  2.35s/it] 18%|███████████████████████████████████                                                                                                                                                               | 2711/15000 [1:55:47<8:01:36,  2.35s/it] 18%|███████████████████████████████████                                                                                                                                                               | 2712/15000 [1:55:49<8:01:51,  2.35s/it] 18%|███████████████████████████████████                                                                                                                                                               | 2713/15000 [1:55:52<8:02:11,  2.35s/it] 18%|███████████████████████████████████                                                                                                                                                               | 2714/15000 [1:55:54<8:02:11,  2.35s/it] 18%|███████████████████████████████████                                                                                                                                                               | 2715/15000 [1:55:56<8:02:34,  2.36s/it] 18%|███████████████████████████████████▏                                                                                                                                                              | 2716/15000 [1:55:59<8:02:32,  2.36s/it] 18%|███████████████████████████████████▏                                                                                                                                                              | 2717/15000 [1:56:01<8:02:22,  2.36s/it] 18%|███████████████████████████████████▏                                                                                                                                                              | 2718/15000 [1:56:04<8:02:11,  2.36s/it] 18%|███████████████████████████████████▏                                                                                                                                                              | 2719/15000 [1:56:06<8:01:56,  2.35s/it] 18%|███████████████████████████████████▏                                                                                                                                                              | 2720/15000 [1:56:08<8:01:43,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 3.2039, 'grad_norm': 1.7890625, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3484.96, 'total_tokens': 22222214, 'epoch': 0.18}
+ 18%|███████████████████████████████████▏                                                                                                                                                              | 2720/15000 [1:56:08<8:01:43,  2.35s/it] 18%|���██████████████████████████████████▏                                                                                                                                                              | 2721/15000 [1:56:11<8:01:36,  2.35s/it] 18%|███████████████████████████████████▏                                                                                                                                                              | 2722/15000 [1:56:13<8:01:26,  2.35s/it] 18%|███████████████████████████████████▏                                                                                                                                                              | 2723/15000 [1:56:15<8:01:31,  2.35s/it] 18%|███████████████████████████████████▏                                                                                                                                                              | 2724/15000 [1:56:18<8:01:35,  2.35s/it] 18%|███████████████████████████████████▏                                                                                                                                                              | 2725/15000 [1:56:20<8:01:08,  2.35s/it] 18%|███████████████████████████████████▎                                                                                                                                                              | 2726/15000 [1:56:22<8:01:21,  2.35s/it] 18%|███████████████████████████████████▎                                                                                                                                                              | 2727/15000 [1:56:25<8:01:29,  2.35s/it] 18%|███████████████████████████████████▎                                                                                                                                                              | 2728/15000 [1:56:27<8:01:19,  2.35s/it] 18%|███████████████████████████████████▎                                                                                                                                                              | 2729/15000 [1:56:29<8:01:41,  2.36s/it] 18%|███████████████████████████████████▎                                                                                                                                                              | 2730/15000 [1:56:32<8:01:21,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 3.1822, 'grad_norm': 1.8359375, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3483.97, 'total_tokens': 22303858, 'epoch': 0.18}
+ 18%|███████████████████████████████████▎                                                                                                                                                              | 2730/15000 [1:56:32<8:01:21,  2.35s/it] 18%|███████████████████████████████████▎                                                                                                                                                              | 2731/15000 [1:56:34<8:01:31,  2.35s/it] 18%|███████████████████████████████████▎                                                                                                                                                              | 2732/15000 [1:56:36<8:01:28,  2.35s/it] 18%|███████████████████████████████████▎                                                                                                                                                              | 2733/15000 [1:56:39<8:01:04,  2.35s/it] 18%|███████████████████████████████████▎                                                                                                                                                              | 2734/15000 [1:56:41<8:01:19,  2.35s/it] 18%|███████████████████████████████████▎                                                                                                                                                              | 2735/15000 [1:56:44<8:01:18,  2.35s/it] 18%|███████████████████████████████████▍                                                                                                                                                              | 2736/15000 [1:56:46<8:01:01,  2.35s/it] 18%|███████████████████████████████████▍                                                                                                                                                              | 2737/15000 [1:56:48<8:00:51,  2.35s/it] 18%|███████████████████████████████████▍                                                                                                                                                              | 2738/15000 [1:56:51<8:00:48,  2.35s/it] 18%|███████████████████████████████████▍                                                                                                                                                              | 2739/15000 [1:56:53<8:00:59,  2.35s/it] 18%|███████████████████████████████████▍                                                                                                                                                              | 2740/15000 [1:56:55<8:01:08,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 3.2396, 'grad_norm': 1.8046875, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3478.98, 'total_tokens': 22385606, 'epoch': 0.18}
+ 18%|███████████████████████████████████▍                                                                                                                                                              | 2740/15000 [1:56:55<8:01:08,  2.35s/it] 18%|███████████████████████████████████▍                                                                                                                                                              | 2741/15000 [1:56:58<8:01:15,  2.36s/it] 18%|███████████████████████████████████▍                                                                                                                                                              | 2742/15000 [1:57:00<8:01:10,  2.36s/it] 18%|███████████████████████████████████▍                                                                                                                                                              | 2743/15000 [1:57:02<8:01:09,  2.36s/it] 18%|███████████████████████████████████▍                                                                                                                                                              | 2744/15000 [1:57:05<8:00:26,  2.35s/it] 18%|███████████████████████████████████▌                                                                                                                                                              | 2745/15000 [1:57:07<8:00:57,  2.35s/it] 18%|███████████████████████████████████▌                                                                                                                                                              | 2746/15000 [1:57:09<8:01:03,  2.36s/it] 18%|███████████████████████████████████▌                                                                                                                                                              | 2747/15000 [1:57:12<8:00:52,  2.35s/it] 18%|███████████████████████████████████▌                                                                                                                                                              | 2748/15000 [1:57:14<8:00:45,  2.35s/it] 18%|███████████████████████████████████▌                                                                                                                                                              | 2749/15000 [1:57:16<8:01:22,  2.36s/it] 18%|███████████████████████████████████▌                                                                                                                                                              | 2750/15000 [1:57:19<8:01:01,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 3.2739, 'grad_norm': 1.921875, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3485.7, 'total_tokens': 22467343, 'epoch': 0.18}
+ 18%|███████████████████████████████████▌                                                                                                                                                              | 2750/15000 [1:57:19<8:01:01,  2.36s/it] 18%|███████████████████████████████████▌                                                                                                                                                              | 2751/15000 [1:57:21<8:00:50,  2.36s/it] 18%|███████████████████████████████████▌                                                                                                                                                              | 2752/15000 [1:57:24<8:00:53,  2.36s/it] 18%|███████████████████████████████████▌                                                                                                                                                              | 2753/15000 [1:57:26<8:00:44,  2.36s/it] 18%|███████████████████████████████████▌                                                                                                                                                              | 2754/15000 [1:57:28<8:00:44,  2.36s/it] 18%|███████████████████████████████████▋                                                                                                                                                              | 2755/15000 [1:57:31<8:00:08,  2.35s/it] 18%|███████████████████████████████████▋                                                                                                                                                              | 2756/15000 [1:57:33<8:00:06,  2.35s/it] 18%|███████████████████████████████████▋                                                                                                                                                              | 2757/15000 [1:57:35<7:59:52,  2.35s/it] 18%|███████████████████████████████████▋                                                                                                                                                              | 2758/15000 [1:57:38<8:00:17,  2.35s/it] 18%|███████████████████████████████████▋                                                                                                                                                              | 2759/15000 [1:57:40<8:00:16,  2.35s/it] 18%|███████████████████████████████████▋                                                                                                                                                              | 2760/15000 [1:57:42<7:59:52,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 3.2645, 'grad_norm': 1.7890625, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3486.22, 'total_tokens': 22548965, 'epoch': 0.18}
+ 18%|███████████████████████████████████▋                                                                                                                                                              | 2760/15000 [1:57:42<7:59:52,  2.35s/it] 18%|███████████████████████████████████▋                                                                                                                                                              | 2761/15000 [1:57:45<7:59:37,  2.35s/it] 18%|███████████████████████████████████▋                                                                                                                                                              | 2762/15000 [1:57:47<7:59:17,  2.35s/it] 18%|███████████████████████████████████▋                                                                                                                                                              | 2763/15000 [1:57:49<7:59:30,  2.35s/it] 18%|███████████████████████████████████▋                                                                                                                                                              | 2764/15000 [1:57:52<7:59:58,  2.35s/it] 18%|███████████████████████████████████▊                                                                                                                                                              | 2765/15000 [1:57:54<7:59:40,  2.35s/it] 18%|███████████████████████████████████▊                                                                                                                                                              | 2766/15000 [1:57:56<7:59:21,  2.35s/it] 18%|███████████████████████████████████▊                                                                                                                                                              | 2767/15000 [1:57:59<7:59:00,  2.35s/it] 18%|███████████████████████████████████▊                                                                                                                                                              | 2768/15000 [1:58:01<7:59:14,  2.35s/it] 18%|███████████████████████████████████▊                                                                                                                                                              | 2769/15000 [1:58:04<7:59:48,  2.35s/it] 18%|███████████████████████████████████▊                                                                                                                                                              | 2770/15000 [1:58:06<8:00:09,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 3.332, 'grad_norm': 1.828125, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3471.06, 'total_tokens': 22630644, 'epoch': 0.18}
+ 18%|███████████████████████████████████▊                                                                                                                                                              | 2770/15000 [1:58:06<8:00:09,  2.36s/it] 18%|███████████████████████████████████▊                                                                                                                                                              | 2771/15000 [1:58:08<8:00:02,  2.36s/it] 18%|███████████████████████████████████▊                                                                                                                                                              | 2772/15000 [1:58:11<7:59:35,  2.35s/it] 18%|███████████████████████████████████▊                                                                                                                                                              | 2773/15000 [1:58:13<7:59:26,  2.35s/it] 18%|███████████████████████████████████▉                                                                                                                                                              | 2774/15000 [1:58:15<7:59:23,  2.35s/it] 18%|███████████████████████████████████▉                                                                                                                                                              | 2775/15000 [1:58:18<7:59:11,  2.35s/it] 19%|███████████████████████████████████▉                                                                                                                                                              | 2776/15000 [1:58:20<7:59:16,  2.35s/it] 19%|███████████████████████████████████▉                                                                                                                                                              | 2777/15000 [1:58:22<7:58:55,  2.35s/it] 19%|███████████████████████████████████▉                                                                                                                                                              | 2778/15000 [1:58:25<7:58:34,  2.35s/it] 19%|███████████████████████████████████▉                                                                                                                                                              | 2779/15000 [1:58:27<7:58:30,  2.35s/it] 19%|███████████████████████████████████▉                                                                                                                                                              | 2780/15000 [1:58:29<7:58:45,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 3.2362, 'grad_norm': 1.8515625, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3481.91, 'total_tokens': 22712370, 'epoch': 0.19}
+ 19%|███████████████████████████████████▉                                                                                                                                                              | 2780/15000 [1:58:29<7:58:45,  2.35s/it] 19%|███████████████████████████████████▉                                                                                                                                                              | 2781/15000 [1:58:32<7:58:28,  2.35s/it] 19%|███████████████████████████████████▉                                                                                                                                                              | 2782/15000 [1:58:34<7:58:39,  2.35s/it] 19%|███████████████████████████████████▉                                                                                                                                                              | 2783/15000 [1:58:36<7:59:07,  2.35s/it] 19%|████████████████████████████████████                                                                                                                                                              | 2784/15000 [1:58:39<7:58:44,  2.35s/it] 19%|████████████████████████████████████                                                                                                                                                              | 2785/15000 [1:58:41<7:59:03,  2.35s/it] 19%|████████████████████████████████████                                                                                                                                                              | 2786/15000 [1:58:44<7:58:58,  2.35s/it] 19%|████████████████████████████████████                                                                                                                                                              | 2787/15000 [1:58:46<7:59:00,  2.35s/it] 19%|████████████████████████████████████                                                                                                                                                              | 2788/15000 [1:58:48<7:59:26,  2.36s/it] 19%|████████████████████████████████████                                                                                                                                                              | 2789/15000 [1:58:51<7:59:12,  2.35s/it] 19%|████████████████████████████████████                                                                                                                                                              | 2790/15000 [1:58:53<7:58:47,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 3.1876, 'grad_norm': 3.546875, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3485.36, 'total_tokens': 22793977, 'epoch': 0.19}
+ 19%|████████████████████████████████████                                                                                                                                                              | 2790/15000 [1:58:53<7:58:47,  2.35s/it] 19%|████████████████████████████████████                                                                                                                                                              | 2791/15000 [1:58:55<7:59:07,  2.35s/it] 19%|████████████████████████████████████                                                                                                                                                              | 2792/15000 [1:58:58<7:59:09,  2.35s/it] 19%|████████████████████████████████████                                                                                                                                                              | 2793/15000 [1:59:00<7:58:30,  2.35s/it] 19%|████████████████████████████████████▏                                                                                                                                                             | 2794/15000 [1:59:02<7:58:57,  2.35s/it] 19%|████████████████████████████████████▏                                                                                                                                                             | 2795/15000 [1:59:05<7:58:43,  2.35s/it] 19%|████████████████████████████████████▏                                                                                                                                                             | 2796/15000 [1:59:07<7:58:50,  2.35s/it] 19%|████████████████████████████████████▏                                                                                                                                                             | 2797/15000 [1:59:09<7:58:40,  2.35s/it] 19%|████████████████████████████████████▏                                                                                                                                                             | 2798/15000 [1:59:12<8:27:17,  2.49s/it] 19%|████████████████████████████████████▏                                                                                                                                                             | 2799/15000 [1:59:15<8:18:20,  2.45s/it] 19%|████████████████████████████████████▏                                                                                                                                                             | 2800/15000 [1:59:17<8:12:15,  2.42s/it]                                                                                                                                                                                                                                                {'loss': 3.2211, 'grad_norm': 1.9140625, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3481.18, 'total_tokens': 22875602, 'epoch': 0.19}
+ 19%|████████████████████████████████████▏                                                                                                                                                             | 2800/15000 [1:59:17<8:12:15,  2.42s/it] 19%|████████████████████████████████████▏                                                                                                                                                             | 2801/15000 [1:59:19<8:08:05,  2.40s/it] 19%|████████████████████████████████████▏                                                                                                                                                             | 2802/15000 [1:59:22<8:05:02,  2.39s/it] 19%|████████████████████████████████████▎                                                                                                                                                             | 2803/15000 [1:59:24<8:02:41,  2.37s/it] 19%|████████████████████████████████████▎                                                                                                                                                             | 2804/15000 [1:59:26<8:01:16,  2.37s/it] 19%|████████████████████████████████████▎                                                                                                                                                             | 2805/15000 [1:59:29<8:00:17,  2.36s/it] 19%|████████████████████████████████████▎                                                                                                                                                             | 2806/15000 [1:59:31<8:00:18,  2.36s/it] 19%|████████████████████████████████████▎                                                                                                                                                             | 2807/15000 [1:59:33<7:59:37,  2.36s/it] 19%|████████████████████████████████████▎                                                                                                                                                             | 2808/15000 [1:59:36<7:58:55,  2.36s/it] 19%|████████████████████████████████████▎                                                                                                                                                             | 2809/15000 [1:59:38<7:58:16,  2.35s/it] 19%|████████████████████████████████████▎                                                                                                                                                             | 2810/15000 [1:59:40<7:58:41,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 3.1581, 'grad_norm': 2.390625, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3463.6, 'total_tokens': 22957135, 'epoch': 0.19}
+ 19%|████████████████████████████████████▎                                                                                                                                                             | 2810/15000 [1:59:40<7:58:41,  2.36s/it] 19%|████████████████████████████████████▎                                                                                                                                                             | 2811/15000 [1:59:43<7:58:31,  2.36s/it] 19%|███████████��████████████████████████▎                                                                                                                                                             | 2812/15000 [1:59:45<7:58:40,  2.36s/it] 19%|████████████████████████████████████▍                                                                                                                                                             | 2813/15000 [1:59:48<7:58:50,  2.36s/it] 19%|████████████████████████████████████▍                                                                                                                                                             | 2814/15000 [1:59:50<7:58:39,  2.36s/it] 19%|████████████████████████████████████▍                                                                                                                                                             | 2815/15000 [1:59:52<7:58:36,  2.36s/it] 19%|████████████████████████████████████▍                                                                                                                                                             | 2816/15000 [1:59:55<7:58:15,  2.36s/it] 19%|████████████████████████████████████▍                                                                                                                                                             | 2817/15000 [1:59:57<7:57:53,  2.35s/it] 19%|████████████████████████████████████▍                                                                                                                                                             | 2818/15000 [1:59:59<7:58:21,  2.36s/it] 19%|████████████████████████████████████▍                                                                                                                                                             | 2819/15000 [2:00:02<7:57:49,  2.35s/it] 19%|████████████████████████████████████▍                                                                                                                                                             | 2820/15000 [2:00:04<7:58:00,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 3.1577, 'grad_norm': 1.796875, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3472.59, 'total_tokens': 23038742, 'epoch': 0.19}
+ 19%|████████████████████████████████████▍                                                                                                                                                             | 2820/15000 [2:00:04<7:58:00,  2.35s/it] 19%|████████████████████████████████████▍                                                                                                                                                             | 2821/15000 [2:00:06<7:57:41,  2.35s/it] 19%|████████████████████████████████████▍                                                                                                                                                             | 2822/15000 [2:00:09<7:57:45,  2.35s/it] 19%|████████████████████████████████████▌                                                                                                                                                             | 2823/15000 [2:00:11<7:57:45,  2.35s/it] 19%|████████████████████████████████████▌                                                                                                                                                             | 2824/15000 [2:00:13<7:57:32,  2.35s/it] 19%|████████████████████████████████████▌                                                                                                                                                             | 2825/15000 [2:00:16<7:57:11,  2.35s/it] 19%|████████████████████████████████████▌                                                                                                                                                             | 2826/15000 [2:00:18<7:57:20,  2.35s/it] 19%|████████████████████████████████████▌                                                                                                                                                             | 2827/15000 [2:00:20<7:57:48,  2.36s/it] 19%|████████████████████████████████████▌                                                                                                                                                             | 2828/15000 [2:00:23<7:57:42,  2.35s/it] 19%|████████████████████████████████████▌                                                                                                                                                             | 2829/15000 [2:00:25<7:57:18,  2.35s/it] 19%|████████████████████████████████████▌                                                                                                                                                             | 2830/15000 [2:00:28<7:57:32,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 3.2294, 'grad_norm': 1.9296875, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3465.52, 'total_tokens': 23120198, 'epoch': 0.19}
+ 19%|████████████████████████████████████▌                                                                                                                                                             | 2830/15000 [2:00:28<7:57:32,  2.35s/it] 19%|████████████████████████████████████▌                                                                                                                                                             | 2831/15000 [2:00:30<7:57:48,  2.36s/it] 19%|████████████████████████████████████▋                                                                                                                                                             | 2832/15000 [2:00:32<7:57:44,  2.36s/it][2025-11-16 23:43:26,007] [INFO] [axolotl.utils.data.wrappers.get_dataset_wrapper:87] [PID:8163] Loading dataset: Goader/kobza-2m-jsonl with base_type: pretrain and prompt_style: None
+
+Tokenizing Prompts (num_proc=64):   0%|                                                                                                                                                                        | 0/10000 [00:00<?, ? examples/s][A
+Tokenizing Prompts (num_proc=64):   2%|██▍                                                                                                                                                           | 157/10000 [00:05<06:01, 27.23 examples/s][A
+Tokenizing Prompts (num_proc=64):   3%|████▉                                                                                                                                                         | 314/10000 [00:06<02:54, 55.44 examples/s][A
+Tokenizing Prompts (num_proc=64):   5%|███████▍                                                                                                                                                      | 471/10000 [00:07<02:00, 79.19 examples/s][A
+Tokenizing Prompts (num_proc=64):   6%|█████████▊                                                                                                                                                   | 628/10000 [00:08<01:27, 107.60 examples/s][A
+Tokenizing Prompts (num_proc=64):   8%|████████████▎                                                                                                                                                | 785/10000 [00:08<01:03, 145.65 examples/s][A
+Tokenizing Prompts (num_proc=64):   9%|██████████████▊                                                                                                                                              | 942/10000 [00:09<00:51, 175.36 examples/s][A
+Tokenizing Prompts (num_proc=64):  11%|█████████████████▏                                                                                                                                          | 1099/10000 [00:09<00:45, 194.27 examples/s][A
+Tokenizing Prompts (num_proc=64):  13%|███████████████████▌                                                                                                                                        | 1256/10000 [00:10<00:42, 205.47 examples/s][A
+Tokenizing Prompts (num_proc=64):  14%|██████████████████████                                                                                                                                      | 1413/10000 [00:11<00:42, 202.71 examples/s][A
+Tokenizing Prompts (num_proc=64):  16%|████████████████████████▍                                                                                                                                   | 1570/10000 [00:11<00:37, 223.52 examples/s][A
+Tokenizing Prompts (num_proc=64):  17%|██████████████████████████▉                                                                                                                                 | 1727/10000 [00:12<00:43, 191.43 examples/s][A
+Tokenizing Prompts (num_proc=64):  19%|█████████████████████████████▍                                                                                                                              | 1884/10000 [00:13<00:33, 242.32 examples/s][A
+Tokenizing Prompts (num_proc=64):  20%|███████████████████████████████▊                                                                                                                            | 2041/10000 [00:13<00:33, 240.56 examples/s][A
+Tokenizing Prompts (num_proc=64):  22%|██████████████████████████████████▎                                                                                                                         | 2198/10000 [00:14<00:32, 239.76 examples/s][A
+Tokenizing Prompts (num_proc=64):  24%|████████████████████████████████████▋                                                                                                                       | 2355/10000 [00:15<00:32, 235.92 examples/s][A
+Tokenizing Prompts (num_proc=64):  25%|███████████████████████████████████████▏                                                                                                                    | 2512/10000 [00:15<00:31, 240.70 examples/s][A
+Tokenizing Prompts (num_proc=64):  27%|█████████████████████████████████████████▌                                                                                                                  | 2668/10000 [00:16<00:31, 230.72 examples/s][A
+Tokenizing Prompts (num_proc=64):  28%|████████████████████████████████████████████                                                                                                                | 2824/10000 [00:17<00:29, 243.13 examples/s][A
+Tokenizing Prompts (num_proc=64):  30%|██████████████████████████████████████████████▍                                                                                                             | 2980/10000 [00:18<00:35, 197.43 examples/s][A
+Tokenizing Prompts (num_proc=64):  31%|████████████████████████████████████████████████▉                                                                                                           | 3136/10000 [00:18<00:28, 241.47 examples/s][A
+Tokenizing Prompts (num_proc=64):  33%|███████████████████████████████████████████████████▎                                                                                                        | 3292/10000 [00:19<00:28, 232.30 examples/s][A
+Tokenizing Prompts (num_proc=64):  34%|█████████████████████████████████████████████████████▊                                                                                                      | 3448/10000 [00:20<00:31, 209.05 examples/s][A
+Tokenizing Prompts (num_proc=64):  36%|███████���████████████████████████████████████████████████▏                                                                                                   | 3604/10000 [00:20<00:25, 249.27 examples/s][A
+Tokenizing Prompts (num_proc=64):  38%|██████████████████████████████████████████████████████████▋                                                                                                 | 3760/10000 [00:21<00:29, 211.90 examples/s][A
+Tokenizing Prompts (num_proc=64):  39%|█████████████████████████████████████████████████████████████                                                                                               | 3916/10000 [00:21<00:24, 252.73 examples/s][A
+Tokenizing Prompts (num_proc=64):  41%|███████████████████████████████████████████████████████████████▌                                                                                            | 4072/10000 [00:22<00:23, 257.74 examples/s][A
+Tokenizing Prompts (num_proc=64):  42%|█████████████████████████████████████████████████████████████████▉                                                                                          | 4228/10000 [00:23<00:27, 211.39 examples/s][A
+Tokenizing Prompts (num_proc=64):  44%|████████████████████████████████████████████████████████████████████▍                                                                                       | 4384/10000 [00:24<00:25, 219.07 examples/s][A
+Tokenizing Prompts (num_proc=64):  45%|██████████████████████████████████████████████████████████████████████▊                                                                                     | 4540/10000 [00:24<00:19, 273.89 examples/s][A
+Tokenizing Prompts (num_proc=64):  47%|█████████████████████████████████████████████████████████████████████████▎                                                                                  | 4696/10000 [00:25<00:20, 257.03 examples/s][A
+Tokenizing Prompts (num_proc=64):  49%|███████████████████████████████████████████████████████████████████████████▋                                                                                | 4852/10000 [00:25<00:20, 251.37 examples/s][A
+Tokenizing Prompts (num_proc=64):  50%|██████████████████████████████████████████████████████████████████████████████                                                                              | 5008/10000 [00:26<00:19, 249.77 examples/s][A
+Tokenizing Prompts (num_proc=64):  52%|████████████████████████████████████████████████████████████████████████████████▌                                                                           | 5164/10000 [00:27<00:21, 230.17 examples/s][A
+Tokenizing Prompts (num_proc=64):  53%|██████████████████████████████████████████████████████████████████████████████████▉                                                                         | 5320/10000 [00:27<00:20, 233.74 examples/s][A
+Tokenizing Prompts (num_proc=64):  55%|█████████████████████████████████████████████████████████████████████████████████████▍                                                                      | 5476/10000 [00:28<00:22, 204.07 examples/s][A
+Tokenizing Prompts (num_proc=64):  56%|███████████████████████████████���███████████████████████████████████████████████████████▊                                                                    | 5632/10000 [00:29<00:17, 250.40 examples/s][A
+Tokenizing Prompts (num_proc=64):  58%|██████████████████████████████████████████████████████████████████████████████████████████▎                                                                 | 5788/10000 [00:30<00:17, 238.02 examples/s][A
+Tokenizing Prompts (num_proc=64):  59%|████████████████████████████████████████████████████████████████████████████████████████████▋                                                               | 5944/10000 [00:30<00:15, 254.94 examples/s][A
+Tokenizing Prompts (num_proc=64):  61%|███████████████████████████████████████████████████████████████████████████████████████████████▏                                                            | 6100/10000 [00:31<00:18, 207.95 examples/s][A
+Tokenizing Prompts (num_proc=64):  63%|█████████████████████████████████████████████████████████████████████████████████████████████████▌                                                          | 6256/10000 [00:31<00:14, 258.75 examples/s][A
+Tokenizing Prompts (num_proc=64):  64%|████████████████████████████████████████████████████████████████████████████████████████████████████                                                        | 6412/10000 [00:32<00:15, 234.35 examples/s][A
+Tokenizing Prompts (num_proc=64):  66%|██████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                     | 6568/10000 [00:33<00:16, 208.74 examples/s][A
+Tokenizing Prompts (num_proc=64):  67%|████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                   | 6724/10000 [00:33<00:12, 267.83 examples/s][A
+Tokenizing Prompts (num_proc=64):  69%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                | 6880/10000 [00:34<00:12, 245.99 examples/s][A
+Tokenizing Prompts (num_proc=64):  70%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                              | 7036/10000 [00:35<00:12, 241.78 examples/s][A
+Tokenizing Prompts (num_proc=64):  72%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                           | 7192/10000 [00:35<00:11, 246.92 examples/s][A
+Tokenizing Prompts (num_proc=64):  73%|███████████████████████████████████████████████████████████████████████████████████████████████████���██████████████▋                                         | 7348/10000 [00:36<00:10, 243.99 examples/s][A
+Tokenizing Prompts (num_proc=64):  75%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                       | 7504/10000 [00:37<00:10, 230.15 examples/s][A
+Tokenizing Prompts (num_proc=64):  77%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                    | 7660/10000 [00:37<00:11, 202.81 examples/s][A
+Tokenizing Prompts (num_proc=64):  78%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                  | 7816/10000 [00:38<00:08, 254.63 examples/s][A
+Tokenizing Prompts (num_proc=64):  80%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                               | 7972/10000 [00:38<00:08, 241.78 examples/s][A
+Tokenizing Prompts (num_proc=64):  81%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                             | 8128/10000 [00:40<00:10, 173.72 examples/s][A
+Tokenizing Prompts (num_proc=64):  83%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                          | 8284/10000 [00:40<00:07, 233.30 examples/s][A
+Tokenizing Prompts (num_proc=64):  84%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                        | 8440/10000 [00:41<00:06, 249.42 examples/s][A
+Tokenizing Prompts (num_proc=64):  86%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                      | 8596/10000 [00:42<00:06, 220.76 examples/s][A
+Tokenizing Prompts (num_proc=64):  88%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                   | 8752/10000 [00:43<00:06, 194.00 examples/s][A
+Tokenizing Prompts (num_proc=64):  89%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                 | 8908/10000 [00:43<00:04, 249.45 examples/s][A
+Tokenizing Prompts (num_proc=64):  91%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍              | 9064/10000 [00:43<00:03, 239.96 examples/s][A
+Tokenizing Prompts (num_proc=64):  92%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊            | 9220/10000 [00:45<00:04, 181.71 examples/s][A
+Tokenizing Prompts (num_proc=64):  94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎         | 9376/10000 [00:45<00:02, 239.73 examples/s][A
+Tokenizing Prompts (num_proc=64):  95%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋       | 9532/10000 [00:46<00:02, 229.63 examples/s][A
+Tokenizing Prompts (num_proc=64):  97%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏    | 9688/10000 [00:46<00:01, 236.69 examples/s][A
+Tokenizing Prompts (num_proc=64):  98%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌  | 9844/10000 [00:47<00:00, 213.66 examples/s][A
+Tokenizing Prompts (num_proc=64): 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10000/10000 [00:48<00:00, 232.31 examples/s][ATokenizing Prompts (num_proc=64): 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10000/10000 [00:50<00:00, 199.25 examples/s]
+
+Dropping Long Sequences:   0%|                                                                                                                                                                                 | 0/10000 [00:00<?, ? examples/s][A
+Dropping Long Sequences:  10%|████████████████▌                                                                                                                                                    | 1000/10000 [00:01<00:14, 627.55 examples/s][A
+Dropping Long Sequences:  20%|████████████████████████████████▊                                                                                                                                   | 2000/10000 [00:01<00:06, 1236.28 examples/s][A
+Dropping Long Sequences:  30%|█████████████████████████████████████████████████▏                                                                                                                  | 3000/10000 [00:02<00:03, 1851.74 examples/s][A
+Dropping Long Sequences:  40%|█████████████████████████████████████████████████████████████████▌                                                                                                  | 4000/10000 [00:02<00:02, 2261.37 examples/s][A
+Dropping Long Sequences:  50%|██████████████████████████████████████████████████████████████████████████████████                                                                                  | 5000/10000 [00:02<00:01, 2637.90 examples/s][A
+Dropping Long Sequences:  60%|██████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                 | 6000/10000 [00:02<00:01, 2923.87 examples/s][A
+Dropping Long Sequences:  70%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                 | 7000/10000 [00:03<00:00, 3229.21 examples/s][A
+Dropping Long Sequences:  80%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                | 8000/10000 [00:03<00:00, 3400.35 examples/s][A
+Dropping Long Sequences:  90%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                | 9000/10000 [00:03<00:00, 3560.65 examples/s][A
+Dropping Long Sequences: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10000/10000 [00:03<00:00, 3657.82 examples/s][ADropping Long Sequences: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10000/10000 [00:03<00:00, 2504.99 examples/s]
+
+Add position_id column (Pretraining Sample Packing):   0%|                                                                                                                                                      | 0/8683 [00:00<?, ? examples/s][A
+Add position_id column (Pretraining Sample Packing):  12%|███████████████▉                                                                                                                          | 1000/8683 [00:01<00:10, 748.54 examples/s][A
+Add position_id column (Pretraining Sample Packing):  23%|███████████████████████████████▌                                                                                                         | 2000/8683 [00:01<00:04, 1560.66 examples/s][A
+Add position_id column (Pretraining Sample Packing):  35%|███████████████████████████████████████████████▎                                                                                         | 3000/8683 [00:01<00:02, 2412.43 examples/s][A
+Add position_id column (Pretraining Sample Packing):  46%|███████████████████████████████████████████████████████████████                                                                          | 4000/8683 [00:01<00:01, 3201.94 examples/s][A
+Add position_id column (Pretraining Sample Packing):  58%|██████████████████████████████████████████████████████████████████████████████▉                                                          | 5000/8683 [00:01<00:00, 3943.26 examples/s][A
+Add position_id column (Pretraining Sample Packing):  69%|██████████████████████████████████████████████████████████████████████████████████████████████▋                                          | 6000/8683 [00:02<00:00, 4575.41 examples/s][A
+Add position_id column (Pretraining Sample Packing):  81%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                          | 7000/8683 [00:02<00:00, 5137.25 examples/s][A
+Add position_id column (Pretraining Sample Packing):  92%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏          | 8000/8683 [00:02<00:00, 5426.07 examples/s][A
+Add position_id column (Pretraining Sample Packing): 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 8683/8683 [00:02<00:00, 5678.61 examples/s][AAdd position_id column (Pretraining Sample Packing): 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 8683/8683 [00:02<00:00, 3383.16 examples/s]
+[2025-11-16 23:44:24,528] [DEBUG] [axolotl.utils.samplers.multipack.pack_parallel:177] [PID:8163] Using single process for pack_parallel, running sequentially.
+ 19%|████████████████████████████████████▍                                                                                                                                                            | 2833/15000 [2:01:39<73:19:36, 21.70s/it] 19%|████████████████████████████████████▍                                                                                                                                                            | 2834/15000 [2:01:41<53:42:43, 15.89s/it] 19%|████████████████████████████████████▍                                                                                                                                                            | 2835/15000 [2:01:44<39:58:52, 11.83s/it] 19%|████████████████████████████████████▍                                                                                                                                                            | 2836/15000 [2:01:46<30:22:12,  8.99s/it] 19%|█████████████████���██████████████████▌                                                                                                                                                            | 2837/15000 [2:01:49<23:38:38,  7.00s/it] 19%|████████████████████████████████████▌                                                                                                                                                            | 2838/15000 [2:01:51<18:55:58,  5.60s/it] 19%|████████████████████████████████████▌                                                                                                                                                            | 2839/15000 [2:01:53<15:38:17,  4.63s/it] 19%|████████████████████████████████████▌                                                                                                                                                            | 2840/15000 [2:01:56<13:19:18,  3.94s/it]                                                                                                                                                                                                                                                {'loss': 3.1627, 'grad_norm': 1.9296875, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3470.15, 'total_tokens': 23201315, 'epoch': 0.19}
+ 19%|████████████████████████████████████▌                                                                                                                                                            | 2840/15000 [2:01:56<13:19:18,  3.94s/it] 19%|████████████████████████████████████▌                                                                                                                                                            | 2841/15000 [2:01:58<11:42:52,  3.47s/it] 19%|████████████████████████████████████▌                                                                                                                                                            | 2842/15000 [2:02:00<10:34:49,  3.13s/it] 19%|████████████████████████████████████▊                                                                                                                                                             | 2843/15000 [2:02:03<9:47:21,  2.90s/it] 19%|████████████████████████████████████▊                                                                                                                                                             | 2844/15000 [2:02:05<9:14:10,  2.74s/it] 19%|████████████████████████████████████▊                                                                                                                                                             | 2845/15000 [2:02:07<8:50:46,  2.62s/it] 19%|████████████████████████████████████▊                                                                                                                                                             | 2846/15000 [2:02:10<8:34:31,  2.54s/it] 19%|████████████████████████████████████▊                                                                                                                                                             | 2847/15000 [2:02:12<8:23:01,  2.48s/it] 19%|████████████████████████████████████▊                                                                                                                                                             | 2848/15000 [2:02:14<8:15:17,  2.45s/it] 19%|████████████████████████████████████▊                                                                                                                                                             | 2849/15000 [2:02:17<8:09:01,  2.41s/it] 19%|████████████████████████████████████▊                                                                                                                                                             | 2850/15000 [2:02:19<8:05:10,  2.40s/it]                                                                                                                                                                                                                                                {'loss': 3.1786, 'grad_norm': 1.828125, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3488.68, 'total_tokens': 23283132, 'epoch': 0.19}
+ 19%|████████████████████████████████████▊                                                                                                                                                             | 2850/15000 [2:02:19<8:05:10,  2.40s/it] 19%|████████████████████████████████████▊                                                                                                                                                             | 2851/15000 [2:02:21<8:02:58,  2.39s/it] 19%|████████████████████████████████████▉                                                                                                                                                             | 2852/15000 [2:02:24<8:00:40,  2.37s/it] 19%|████████████████████████████████████▉                                                                                                                                                             | 2853/15000 [2:02:26<7:59:14,  2.37s/it] 19%|████████████████████████████████████▉                                                                                                                                                             | 2854/15000 [2:02:28<7:57:54,  2.36s/it] 19%|████████████████████████████████████▉                                                                                                                                                             | 2855/15000 [2:02:31<7:57:55,  2.36s/it] 19%|████████████████████████████████████▉                                                                                                                                                             | 2856/15000 [2:02:33<7:57:34,  2.36s/it] 19%|████████████████████████████████████▉                                                                                                                                                             | 2857/15000 [2:02:36<7:57:33,  2.36s/it] 19%|████████████████████████████████████▉                                                                                                                                                             | 2858/15000 [2:02:38<7:57:50,  2.36s/it] 19%|████████████████████████████████████▉                                                                                                                                                             | 2859/15000 [2:02:40<7:57:27,  2.36s/it] 19%|████████████████████████████████████▉                                                                                                                                                             | 2860/15000 [2:02:43<7:57:14,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 3.1091, 'grad_norm': 1.8203125, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3482.32, 'total_tokens': 23364960, 'epoch': 0.19}
+ 19%|████████████████████████████████████▉                                                                                                                                                             | 2860/15000 [2:02:43<7:57:14,  2.36s/it] 19%|█████████████████████████████████████                                                                                                                                                             | 2861/15000 [2:02:45<7:56:50,  2.36s/it] 19%|█████████████████████████████████████                                                                                                                                                             | 2862/15000 [2:02:47<7:56:29,  2.36s/it] 19%|█████████████████████████████████████                                                                                                                                                             | 2863/15000 [2:02:50<7:56:12,  2.35s/it] 19%|█████████████████████████████████████                                                                                                                                                             | 2864/15000 [2:02:52<7:55:52,  2.35s/it] 19%|█████████████████████████████████████                                                                                                                                                             | 2865/15000 [2:02:54<7:55:44,  2.35s/it] 19%|█████████████████████████████████████                                                                                                                                                             | 2866/15000 [2:02:57<7:55:52,  2.35s/it] 19%|█████████████████████████████████████                                                                                                                                                             | 2867/15000 [2:02:59<7:55:27,  2.35s/it] 19%|█████████████████████████████████████                                                                                                                                                             | 2868/15000 [2:03:01<7:55:27,  2.35s/it] 19%|█████████████████████████████████████                                                                                                                                                             | 2869/15000 [2:03:04<7:55:13,  2.35s/it] 19%|█████████████████████████████████████                                                                                                                                                             | 2870/15000 [2:03:06<7:55:20,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 3.1483, 'grad_norm': 1.890625, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3487.24, 'total_tokens': 23446770, 'epoch': 0.19}
+ 19%|█████████████████████████████████████                                                                                                                                                             | 2870/15000 [2:03:06<7:55:20,  2.35s/it] 19%|█████████████████████████████████████▏                                                                                                                                                            | 2871/15000 [2:03:09<7:55:43,  2.35s/it] 19%|█████████████████████████████████████▏                                                                                                                                                            | 2872/15000 [2:03:11<7:55:26,  2.35s/it] 19%|█████████████████████████████████████▏                                                                                                                                                            | 2873/15000 [2:03:13<7:55:15,  2.35s/it] 19%|█████████████████████████████████████▏                                                                                                                                                            | 2874/15000 [2:03:16<7:55:33,  2.35s/it] 19%|█████████████████████████████████████▏                                                                                                                                                            | 2875/15000 [2:03:18<7:55:14,  2.35s/it] 19%|█████████████████████████████████████▏                                                                                                                                                            | 2876/15000 [2:03:20<7:55:03,  2.35s/it] 19%|█████████████████████████████████████▏                                                                                                                                                            | 2877/15000 [2:03:23<7:54:43,  2.35s/it] 19%|█████████████████████████████████████▏                                                                                                                                                            | 2878/15000 [2:03:25<7:55:09,  2.35s/it] 19%|█████████████████████████████████████▏                                                                                                                                                            | 2879/15000 [2:03:27<7:55:03,  2.35s/it] 19%|█████████████████████████████████████▏                                                                                                                                                            | 2880/15000 [2:03:30<7:55:14,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 3.272, 'grad_norm': 1.7265625, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3484.73, 'total_tokens': 23528596, 'epoch': 0.19}
+ 19%|█████████████████████████████████████▏                                                                                                                                                            | 2880/15000 [2:03:30<7:55:14,  2.35s/it] 19%|█████████████████████████████████████▎                                                                                                                                                            | 2881/15000 [2:03:32<7:55:15,  2.35s/it] 19%|█████████████████████████████████████▎                                                                                                                                                            | 2882/15000 [2:03:34<7:54:26,  2.35s/it] 19%|█████████████████████████████████████▎                                                                                                                                                            | 2883/15000 [2:03:37<7:54:29,  2.35s/it] 19%|█████████████████████████████████████▎                                                                                                                                                            | 2884/15000 [2:03:39<7:54:37,  2.35s/it] 19%|█████████████████████████████████████▎                                                                                                                                                            | 2885/15000 [2:03:41<7:54:50,  2.35s/it] 19%|█████████████████████████████████████▎                                                                                                                                                            | 2886/15000 [2:03:44<7:55:03,  2.35s/it] 19%|█████████████████████████████████████▎                                                                                                                                                            | 2887/15000 [2:03:46<7:54:41,  2.35s/it] 19%|█████████████████████████████████████▎                                                                                                                                                            | 2888/15000 [2:03:48<7:54:23,  2.35s/it] 19%|█████████████████████████████████████▎                                                                                                                                                            | 2889/15000 [2:03:51<7:54:43,  2.35s/it] 19%|█████████████████████████████████████▍                                                                                                                                                            | 2890/15000 [2:03:53<7:54:55,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 3.1873, 'grad_norm': 1.984375, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3485.57, 'total_tokens': 23610459, 'epoch': 0.19}
+ 19%|█████████████████████████████████████▍                                                                                                                                                            | 2890/15000 [2:03:53<7:54:55,  2.35s/it] 19%|█████████████████████████████████████▍                                                                                                                                                            | 2891/15000 [2:03:56<7:55:28,  2.36s/it] 19%|█████████████████████████████████████▍                                                                                                                                                            | 2892/15000 [2:03:58<7:55:30,  2.36s/it] 19%|█████████████████████████████████████▍                                                                                                                                                            | 2893/15000 [2:04:00<7:54:52,  2.35s/it] 19%|█████████████████████████████████████▍                                                                                                                                                            | 2894/15000 [2:04:03<7:54:45,  2.35s/it] 19%|█████████████████████████████████████▍                                                                                                                                                            | 2895/15000 [2:04:05<7:54:54,  2.35s/it] 19%|█████████████████████████████████████▍                                                                                                                                                            | 2896/15000 [2:04:07<7:54:32,  2.35s/it] 19%|█████████████████████████████████████▍                                                                                                                                                            | 2897/15000 [2:04:10<7:54:04,  2.35s/it] 19%|█████████████████████████████████████▍                                                                                                                                                            | 2898/15000 [2:04:12<7:53:56,  2.35s/it] 19%|█████████████████████████████████████▍                                                                                                                                                            | 2899/15000 [2:04:14<7:54:21,  2.35s/it] 19%|█████████████████████████████████████▌                                                                                                                                                            | 2900/15000 [2:04:17<7:54:26,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 3.1969, 'grad_norm': 1.828125, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3483.6, 'total_tokens': 23692229, 'epoch': 0.19}
+ 19%|█████████████████████��███████████████▌                                                                                                                                                            | 2900/15000 [2:04:17<7:54:26,  2.35s/it] 19%|█████████████████████████████████████▌                                                                                                                                                            | 2901/15000 [2:04:19<7:55:00,  2.36s/it] 19%|█████████████████████████████████████▌                                                                                                                                                            | 2902/15000 [2:04:21<7:54:43,  2.35s/it] 19%|█████████████████████████████████████▌                                                                                                                                                            | 2903/15000 [2:04:24<7:54:37,  2.35s/it] 19%|█████████████████████████████████████▌                                                                                                                                                            | 2904/15000 [2:04:26<7:54:58,  2.36s/it] 19%|█████████████████████████████████████▌                                                                                                                                                            | 2905/15000 [2:04:29<7:54:35,  2.35s/it] 19%|█████████████████████████████████████▌                                                                                                                                                            | 2906/15000 [2:04:31<7:54:10,  2.35s/it] 19%|█████████████████████████████████████▌                                                                                                                                                            | 2907/15000 [2:04:33<7:53:41,  2.35s/it] 19%|█████████████████████████████████████▌                                                                                                                                                            | 2908/15000 [2:04:36<7:54:03,  2.35s/it] 19%|█████████████████████████████████████▌                                                                                                                                                            | 2909/15000 [2:04:38<7:53:47,  2.35s/it] 19%|█████████████████████████████████████▋                                                                                                                                                            | 2910/15000 [2:04:40<7:54:08,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 3.1697, 'grad_norm': 1.703125, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3481.29, 'total_tokens': 23774045, 'epoch': 0.19}
+ 19%|█████████████████████████████████████▋                                                                                                                                                            | 2910/15000 [2:04:40<7:54:08,  2.35s/it] 19%|█████████████████████████████████████▋                                                                                                                                                            | 2911/15000 [2:04:43<7:53:54,  2.35s/it] 19%|█████████████████████████████████████▋                                                                                                                                                            | 2912/15000 [2:04:45<7:53:52,  2.35s/it] 19%|█████████████████████████████████████▋                                                                                                                                                            | 2913/15000 [2:04:47<7:53:58,  2.35s/it] 19%|█████████████████████████████████████▋                                                                                                                                                            | 2914/15000 [2:04:50<7:54:15,  2.35s/it] 19%|█████████████████████████████████████▋                                                                                                                                                            | 2915/15000 [2:04:52<7:53:54,  2.35s/it] 19%|█████████████████████████████████████▋                                                                                                                                                            | 2916/15000 [2:04:54<7:53:43,  2.35s/it] 19%|█████████████████████████████████████▋                                                                                                                                                            | 2917/15000 [2:04:57<7:54:01,  2.35s/it] 19%|█████████████████████████████████████▋                                                                                                                                                            | 2918/15000 [2:04:59<7:53:33,  2.35s/it] 19%|█████████████████████████████████████▊                                                                                                                                                            | 2919/15000 [2:05:01<7:53:29,  2.35s/it] 19%|█████████████████████████████████████▊                                                                                                                                                            | 2920/15000 [2:05:04<7:53:41,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 3.1028, 'grad_norm': 1.8046875, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3483.73, 'total_tokens': 23855854, 'epoch': 0.19}
+ 19%|█████████████████████████████████████▊                                                                                                                                                            | 2920/15000 [2:05:04<7:53:41,  2.35s/it] 19%|█████████████████████████████████████▊                                                                                                                                                            | 2921/15000 [2:05:06<7:53:59,  2.35s/it] 19%|█████████████████████████████████████▊                                                                                                                                                            | 2922/15000 [2:05:08<7:53:37,  2.35s/it] 19%|█████████████████████████████████████▊                                                                                                                                                            | 2923/15000 [2:05:11<7:53:23,  2.35s/it] 19%|█████████████████████████████████████▊                                                                                                                                                            | 2924/15000 [2:05:13<7:53:04,  2.35s/it] 20%|█████████████████████████████████████▊                                                                                                                                                            | 2925/15000 [2:05:16<7:53:31,  2.35s/it] 20%|█████████████████████████████████████▊                                                                                                                                                            | 2926/15000 [2:05:18<7:53:18,  2.35s/it] 20%|█████████████████████████████████████▊                                                                                                                                                            | 2927/15000 [2:05:20<7:53:28,  2.35s/it] 20%|█████████████████████████████████████▊                                                                                                                                                            | 2928/15000 [2:05:23<7:53:04,  2.35s/it] 20%|█████████████████████████████████████▉                                                                                                                                                            | 2929/15000 [2:05:25<7:53:27,  2.35s/it] 20%|█████████████████████████████████████▉                                                                                                                                                            | 2930/15000 [2:05:27<7:52:46,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 3.1276, 'grad_norm': 1.8046875, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3502.53, 'total_tokens': 23937663, 'epoch': 0.2}
+ 20%|█████████████████████████████████████▉                                                                                                                                                            | 2930/15000 [2:05:27<7:52:46,  2.35s/it] 20%|█████████████████████████████████████▉                                                                                                                                                            | 2931/15000 [2:05:30<7:52:52,  2.35s/it] 20%|█████████████████████████████████████▉                                                                                                                                                            | 2932/15000 [2:05:32<7:53:05,  2.35s/it] 20%|█████████████████████████████████████▉                                                                                                                                                            | 2933/15000 [2:05:34<7:53:16,  2.35s/it] 20%|█████████████████████████████████████▉                                                                                                                                                            | 2934/15000 [2:05:37<7:53:24,  2.35s/it] 20%|█████████████████████████████████████▉                                                                                                                                                            | 2935/15000 [2:05:39<7:53:38,  2.36s/it] 20%|█████████████████████████████████████▉                                                                                                                                                            | 2936/15000 [2:05:41<7:53:09,  2.35s/it] 20%|█████████████████████████████████████▉                                                                                                                                                            | 2937/15000 [2:05:44<7:53:07,  2.35s/it] 20%|█████████████████████████████████████▉                                                                                                                                                            | 2938/15000 [2:05:46<7:53:11,  2.35s/it] 20%|██████████████████████████████████████                                                                                                                                                            | 2939/15000 [2:05:48<7:53:39,  2.36s/it] 20%|██████████████████████████████████████                                                                                                                                                            | 2940/15000 [2:05:51<7:53:13,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 3.2139, 'grad_norm': 1.90625, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3491.93, 'total_tokens': 24019471, 'epoch': 0.2}
+ 20%|██████████████████████████████████████                                                                                                                                                            | 2940/15000 [2:05:51<7:53:13,  2.35s/it] 20%|██████████████████████████████████████                                                                                                                                                            | 2941/15000 [2:05:53<7:53:06,  2.35s/it] 20%|██████████████████████████████████████                                                                                                                                                            | 2942/15000 [2:05:56<7:52:56,  2.35s/it] 20%|██████████████████████████████████████                                                                                                                                                            | 2943/15000 [2:05:58<7:52:50,  2.35s/it] 20%|██████████████████████████████████████                                                                                                                                                            | 2944/15000 [2:06:00<7:52:57,  2.35s/it] 20%|██████████████████████████████████████                                                                                                                                                            | 2945/15000 [2:06:03<7:52:22,  2.35s/it] 20%|██████████████████████████████████████                                                                                                                                                            | 2946/15000 [2:06:05<7:51:51,  2.35s/it] 20%|██████████████████████████████████████                                                                                                                                                            | 2947/15000 [2:06:07<7:52:11,  2.35s/it] 20%|██████████████████████████████████████▏                                                                                                                                                           | 2948/15000 [2:06:10<7:52:08,  2.35s/it] 20%|██████████████████████████████████████▏                                                                                                                                                           | 2949/15000 [2:06:12<7:52:12,  2.35s/it] 20%|██████████████████████████████████████▏                                                                                                                                                           | 2950/15000 [2:06:14<7:52:30,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 3.1957, 'grad_norm': 1.7734375, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3483.1, 'total_tokens': 24101309, 'epoch': 0.2}
+ 20%|██████████████████████████████████████▏                                                                                                                                                           | 2950/15000 [2:06:14<7:52:30,  2.35s/it] 20%|██████████████████████████████████████▏                                                                                                                                                           | 2951/15000 [2:06:17<7:52:08,  2.35s/it] 20%|██████████████████████████████████████▏                                                                                                                                                           | 2952/15000 [2:06:19<7:52:06,  2.35s/it] 20%|██████████████████████████████████████▏                                                                                                                                                           | 2953/15000 [2:06:21<7:51:38,  2.35s/it] 20%|██████████████████████████████████████▏                                                                                                                                                           | 2954/15000 [2:06:24<7:51:37,  2.35s/it] 20%|██████████████████████████████████████▏                                                                                                                                                           | 2955/15000 [2:06:26<7:51:21,  2.35s/it] 20%|██████████████████████████████████████▏                                                                                                                                                           | 2956/15000 [2:06:28<7:51:19,  2.35s/it] 20%|██████████████████████████████████████▏                                                                                                                                                           | 2957/15000 [2:06:31<7:51:27,  2.35s/it] 20%|██████████████████████████████████████▎                                                                                                                                                           | 2958/15000 [2:06:33<7:51:18,  2.35s/it] 20%|██████████████████████████████████████▎                                                                                                                                                           | 2959/15000 [2:06:35<7:51:31,  2.35s/it] 20%|██████████████████████████████████████▎                                                                                                                                                           | 2960/15000 [2:06:38<7:52:05,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 3.1578, 'grad_norm': 1.796875, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3478.06, 'total_tokens': 24183135, 'epoch': 0.2}
+ 20%|██████████████████████████████████████▎                                                                                                                                                           | 2960/15000 [2:06:38<7:52:05,  2.35s/it] 20%|██████████████████████████████████████▎                                                                                                                                                           | 2961/15000 [2:06:40<7:52:19,  2.35s/it] 20%|██████████████████████████████████████▎                                                                                                                                                           | 2962/15000 [2:06:43<7:52:10,  2.35s/it] 20%|██████████████████████████████████████▎                                                                                                                                                           | 2963/15000 [2:06:45<7:51:36,  2.35s/it] 20%|██████████████████████████████████████▎                                                                                                                                                           | 2964/15000 [2:06:47<7:51:49,  2.35s/it] 20%|██████████████████████████████████████▎                                                                                                                                                           | 2965/15000 [2:06:50<7:52:02,  2.35s/it] 20%|██████████████████████████████████████▎                                                                                                                                                           | 2966/15000 [2:06:52<7:52:05,  2.35s/it] 20%|██████████████████████████████████████▎                                                                                                                                                           | 2967/15000 [2:06:54<7:51:29,  2.35s/it] 20%|██████████████████████████████████████▍                                                                                                                                                           | 2968/15000 [2:06:57<7:51:20,  2.35s/it] 20%|██████████████████████████████████████▍                                                                                                                                                           | 2969/15000 [2:06:59<7:51:57,  2.35s/it] 20%|██████████████████████████████████████▍                                                                                                                                                           | 2970/15000 [2:07:01<7:51:51,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 3.2274, 'grad_norm': 2.71875, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3486.79, 'total_tokens': 24264924, 'epoch': 0.2}
+ 20%|██████████████████████████████████████▍                                                                                                                                                           | 2970/15000 [2:07:01<7:51:51,  2.35s/it] 20%|██████████████████████████████████████▍                                                                                                                                                           | 2971/15000 [2:07:04<7:52:17,  2.36s/it] 20%|██████████████████████████████████████▍                                                                                                                                                           | 2972/15000 [2:07:06<7:51:47,  2.35s/it] 20%|██████████████████████████████████████▍                                                                                                                                                           | 2973/15000 [2:07:08<7:51:36,  2.35s/it] 20%|██████████████████████████████████████▍                                                                                                                                                           | 2974/15000 [2:07:11<7:51:38,  2.35s/it] 20%|██████████████████████████████████████▍                                                                                                                                                           | 2975/15000 [2:07:13<7:51:49,  2.35s/it] 20%|██████████████████████████████████████▍                                                                                                                                                           | 2976/15000 [2:07:16<7:51:29,  2.35s/it] 20%|██████████████████████████████████████▌                                                                                                                                                           | 2977/15000 [2:07:18<7:51:24,  2.35s/it] 20%|██████████████████████████████████████▌                                                                                                                                                           | 2978/15000 [2:07:20<7:51:20,  2.35s/it] 20%|██████████████████████████████████████▌                                                                                                                                                           | 2979/15000 [2:07:23<7:51:03,  2.35s/it] 20%|██████████████████████████████████████▌                                                                                                                                                           | 2980/15000 [2:07:25<7:50:52,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 3.1332, 'grad_norm': 1.734375, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3492.31, 'total_tokens': 24346706, 'epoch': 0.2}
+ 20%|██████████████████████████████████████▌                                                                                                                                                           | 2980/15000 [2:07:25<7:50:52,  2.35s/it] 20%|██████████████████████████████████████▌                                                                                                                                                           | 2981/15000 [2:07:27<7:50:58,  2.35s/it] 20%|██████████████████████████████████████▌                                                                                                                                                           | 2982/15000 [2:07:30<7:51:03,  2.35s/it] 20%|██████████████████████████████████████▌                                                                                                                                                           | 2983/15000 [2:07:32<7:50:52,  2.35s/it] 20%|██████████████████████████████████████▌                                                                                                                                                           | 2984/15000 [2:07:34<7:50:28,  2.35s/it] 20%|██████████████████████████████████████▌                                                                                                                                                           | 2985/15000 [2:07:37<7:50:42,  2.35s/it] 20%|██████████████████████████████████████▌                                                                                                                                                           | 2986/15000 [2:07:39<7:50:43,  2.35s/it] 20%|██████████████████████████████████████▋                                                                                                                                                           | 2987/15000 [2:07:41<7:50:37,  2.35s/it] 20%|██████████████████████████████████████▋                                                                                                                                                           | 2988/15000 [2:07:44<7:50:36,  2.35s/it] 20%|██████████████████████████████████████▋                                                                                                                                                           | 2989/15000 [2:07:46<7:50:33,  2.35s/it] 20%|██████████████████████████████████████▋                                                                                                                                                           | 2990/15000 [2:07:48<7:50:41,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 3.1623, 'grad_norm': 1.859375, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3485.45, 'total_tokens': 24428486, 'epoch': 0.2}
+ 20%|██████████████████████████████████████▋                                                                                                                                                           | 2990/15000 [2:07:48<7:50:41,  2.35s/it] 20%|██████████████████████████████████████▋                                                                                                                                                           | 2991/15000 [2:07:51<7:50:25,  2.35s/it] 20%|██████████████████████████████████████▋                                                                                                                                                           | 2992/15000 [2:07:53<7:50:45,  2.35s/it] 20%|██████████████████████████████████████▋                                                                                                                                                           | 2993/15000 [2:07:55<7:50:37,  2.35s/it] 20%|██████████████████████████████████████▋                                                                                                                                                           | 2994/15000 [2:07:58<7:50:11,  2.35s/it] 20%|██████████████████████████████████████▋                                                                                                                                                           | 2995/15000 [2:08:00<7:50:29,  2.35s/it] 20%|██████████████████████████████████████▋                                                                                                                                                           | 2996/15000 [2:08:03<7:50:26,  2.35s/it] 20%|██████████████████████████████████████▊                                                                                                                                                           | 2997/15000 [2:08:05<7:50:05,  2.35s/it] 20%|██████████████████████████████████████▊                                                                                                                                                           | 2998/15000 [2:08:07<7:50:18,  2.35s/it] 20%|██████████████████████████████████████▊                                                                                                                                                           | 2999/15000 [2:08:10<7:50:50,  2.35s/it] 20%|██████████████████████████████████████▊                                                                                                                                                           | 3000/15000 [2:08:12<7:50:45,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 3.197, 'grad_norm': 1.671875, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3488.09, 'total_tokens': 24510311, 'epoch': 0.2}
+ 20%|██████████████████████████████████████▊                                                                                                                                                           | 3000/15000 [2:08:12<7:50:45,  2.35s/it] 20%|██████████████████████████████████████▊                                                                                                                                                           | 3001/15000 [2:08:14<7:50:49,  2.35s/it] 20%|██████████████████████████████████████▊                                                                                                                                                           | 3002/15000 [2:08:17<7:51:00,  2.36s/it] 20%|██████████████████████████████████████▊                                                                                                                                                           | 3003/15000 [2:08:19<7:51:20,  2.36s/it] 20%|██████████████████████████████████████▊                                                                                                                                                           | 3004/15000 [2:08:21<7:51:00,  2.36s/it] 20%|██████████████████████████████████████▊                                                                                                                                                           | 3005/15000 [2:08:24<7:50:36,  2.35s/it] 20%|██████████████████████████████████████▉                                                                                                                                                           | 3006/15000 [2:08:26<7:50:08,  2.35s/it] 20%|██████████████████████████████████████▉                                                                                                                                                           | 3007/15000 [2:08:28<7:50:45,  2.36s/it] 20%|██████████████████████████████████████▉                                                                                                                                                           | 3008/15000 [2:08:31<7:50:40,  2.35s/it] 20%|██████████████████████████████████████▉                                                                                                                                                           | 3009/15000 [2:08:33<7:50:32,  2.35s/it] 20%|██████████████████████████████████████▉                                                                                                                                                           | 3010/15000 [2:08:35<7:50:44,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 3.1572, 'grad_norm': 1.765625, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3478.92, 'total_tokens': 24592122, 'epoch': 0.2}
+ 20%|██████████████████████████████████████▉                                                                                                                                                           | 3010/15000 [2:08:35<7:50:44,  2.36s/it] 20%|██████████████████████████████████████▉                                                                                                                                                           | 3011/15000 [2:08:38<7:50:24,  2.35s/it] 20%|██████████████████████████████████████▉                                                                                                                                                           | 3012/15000 [2:08:40<7:50:30,  2.35s/it] 20%|██████████████████████████████████████▉                                                                                                                                                           | 3013/15000 [2:08:43<7:50:10,  2.35s/it] 20%|██████████████████████████████████████▉                                                                                                                                                           | 3014/15000 [2:08:45<7:50:12,  2.35s/it] 20%|██████████████████████████████████████▉                                                                                                                                                           | 3015/15000 [2:08:47<7:50:14,  2.35s/it] 20%|███████████████████████████████████████                                                                                                                                                           | 3016/15000 [2:08:50<7:49:55,  2.35s/it] 20%|███████████████████████████████████████                                                                                                                                                           | 3017/15000 [2:08:52<7:50:03,  2.35s/it] 20%|███████████████████████████████████████                                                                                                                                                           | 3018/15000 [2:08:54<7:49:52,  2.35s/it] 20%|███████████████████████████████████████                                                                                                                                                           | 3019/15000 [2:08:57<7:49:55,  2.35s/it] 20%|███████████████████████████████████████                                                                                                                                                           | 3020/15000 [2:08:59<7:50:00,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 3.1837, 'grad_norm': 1.7890625, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3483.69, 'total_tokens': 24673931, 'epoch': 0.2}
+ 20%|███████████████████████████████████████                                                                                                                                                           | 3020/15000 [2:08:59<7:50:00,  2.35s/it] 20%|███████████████████████████████████████                                                                                                                                                           | 3021/15000 [2:09:01<7:50:04,  2.35s/it] 20%|███████████████████████████████████████                                                                                                                                                           | 3022/15000 [2:09:04<7:49:57,  2.35s/it] 20%|███████████████████████████████████████                                                                                                                                                           | 3023/15000 [2:09:06<7:49:46,  2.35s/it] 20%|███████████████████████████████████████                                                                                                                                                           | 3024/15000 [2:09:08<7:49:32,  2.35s/it] 20%|███████████████████████████████████████                                                                                                                                                           | 3025/15000 [2:09:11<7:49:37,  2.35s/it] 20%|███████████████████████████████████████▏                                                                                                                                                          | 3026/15000 [2:09:13<7:49:52,  2.35s/it] 20%|███████████████████████████████████████▏                                                                                                                                                          | 3027/15000 [2:09:15<7:49:27,  2.35s/it] 20%|███████████████████████████████████████▏                                                                                                                                                          | 3028/15000 [2:09:18<7:49:23,  2.35s/it] 20%|███████████████████████████████████████▏                                                                                                                                                          | 3029/15000 [2:09:20<7:49:26,  2.35s/it] 20%|███████████████████████████████████████▏                                                                                                                                                          | 3030/15000 [2:09:23<7:49:54,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 3.176, 'grad_norm': 1.78125, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3473.62, 'total_tokens': 24755705, 'epoch': 0.2}
+ 20%|███████████████████████████████████████▏                                                                                                                                                          | 3030/15000 [2:09:23<7:49:54,  2.36s/it] 20%|███████████████████████████████████████▏                                                                                                                                                          | 3031/15000 [2:09:25<7:49:26,  2.35s/it] 20%|███████████████████████████████████████▏                                                                                                                                                          | 3032/15000 [2:09:27<7:49:08,  2.35s/it] 20%|███████████████████████████████████████▏                                                                                                                                                          | 3033/15000 [2:09:30<7:49:09,  2.35s/it] 20%|███████████████████████████████████████▏                                                                                                                                                          | 3034/15000 [2:09:32<7:49:15,  2.35s/it] 20%|███████████████████████████████████████▎                                                                                                                                                          | 3035/15000 [2:09:34<7:49:08,  2.35s/it] 20%|███████████████████████████████████████▎                                                                                                                                                          | 3036/15000 [2:09:37<7:49:25,  2.35s/it] 20%|███████████████████████████████████████▎                                                                                                                                                          | 3037/15000 [2:09:39<7:49:16,  2.35s/it] 20%|███████████████████████████████████████▎                                                                                                                                                          | 3038/15000 [2:09:41<7:49:16,  2.35s/it] 20%|███████████████████████████████████████▎                                                                                                                                                          | 3039/15000 [2:09:44<7:49:36,  2.36s/it] 20%|███████████████████████████████████████▎                                                                                                                                                          | 3040/15000 [2:09:46<7:49:27,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 3.1871, 'grad_norm': 1.84375, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3486.31, 'total_tokens': 24837520, 'epoch': 0.2}
+ 20%|███████████████████████████████████████▎                                                                                                                                                          | 3040/15000 [2:09:46<7:49:27,  2.36s/it] 20%|███████████████████████████████████████▎                                                                                                                                                          | 3041/15000 [2:09:48<7:49:09,  2.35s/it] 20%|███████████████████████████████████████▎                                                                                                                                                          | 3042/15000 [2:09:51<7:48:55,  2.35s/it] 20%|███████████████████████████████████████▎                                                                                                                                                          | 3043/15000 [2:09:53<7:48:45,  2.35s/it] 20%|███████████████████████████████████████▎                                                                                                                                                          | 3044/15000 [2:09:55<7:48:33,  2.35s/it] 20%|███████████████████████████████████████▍                                                                                                                                                          | 3045/15000 [2:09:58<7:48:54,  2.35s/it] 20%|███████████████████████████████████████▍                                                                                                                                                          | 3046/15000 [2:10:01<8:17:43,  2.50s/it] 20%|███████████████████████████████████████▍                                                                                                                                                          | 3047/15000 [2:10:03<8:08:52,  2.45s/it] 20%|███████████████████████████████████████▍                                                                                                                                                          | 3048/15000 [2:10:05<8:03:01,  2.42s/it] 20%|███████████████████████████████████████▍                                                                                                                                                          | 3049/15000 [2:10:08<7:59:07,  2.41s/it] 20%|███████████████████████████████████████▍                                                                                                                                                          | 3050/15000 [2:10:10<7:55:33,  2.39s/it]                                                                                                                                                                                                                                                {'loss': 3.1241, 'grad_norm': 1.71875, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3493.81, 'total_tokens': 24919262, 'epoch': 0.2}
+ 20%|███████████████████████████████████████▍                                                                                                                                                          | 3050/15000 [2:10:10<7:55:33,  2.39s/it] 20%|███████████████████████████████████████▍                                                                                                                                                          | 3051/15000 [2:10:12<7:53:52,  2.38s/it] 20%|███████████████████████████████████████▍                                                                                                                                                          | 3052/15000 [2:10:15<7:51:44,  2.37s/it] 20%|███████████████████████████████████████▍                                                                                                                                                          | 3053/15000 [2:10:17<7:50:56,  2.37s/it] 20%|███████████████████████████████████████▍                                                                                                                                                          | 3054/15000 [2:10:20<7:50:08,  2.36s/it] 20%|███████████████████████████████████████▌                                                                                                                                                          | 3055/15000 [2:10:22<7:49:37,  2.36s/it] 20%|███████████████████████████████████████▌                                                                                                                                                          | 3056/15000 [2:10:24<7:49:09,  2.36s/it] 20%|███████████████████████████████████████▌                                                                                                                                                          | 3057/15000 [2:10:27<7:49:12,  2.36s/it] 20%|███████████████████████████████████████▌                                                                                                                                                          | 3058/15000 [2:10:29<7:48:37,  2.35s/it] 20%|███████████████████████████████████████▌                                                                                                                                                          | 3059/15000 [2:10:31<7:48:41,  2.36s/it] 20%|███████████████████████████████████████▌                                                                                                                                                          | 3060/15000 [2:10:34<7:48:35,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 3.2017, 'grad_norm': 1.7734375, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3481.78, 'total_tokens': 25000974, 'epoch': 0.2}
+ 20%|███████████████████████████████████████▌                                                                                                                                                          | 3060/15000 [2:10:34<7:48:35,  2.35s/it] 20%|███████████████████████████████████████▌                                                                                                                                                          | 3061/15000 [2:10:36<7:48:21,  2.35s/it] 20%|███████████████████████████████████████▌                                                                                                                                                          | 3062/15000 [2:10:38<7:48:05,  2.35s/it] 20%|███████████████████████████████████████▌                                                                                                                                                          | 3063/15000 [2:10:41<7:47:43,  2.35s/it] 20%|███████████████████████████████████████▋                                                                                                                                                          | 3064/15000 [2:10:43<7:47:43,  2.35s/it] 20%|███████████████████████████████████████▋                                                                                                                                                          | 3065/15000 [2:10:45<7:47:35,  2.35s/it] 20%|███████████████████████████████████████▋                                                                                                                                                          | 3066/15000 [2:10:48<7:47:35,  2.35s/it] 20%|███████████████████████████████████████▋                                                                                                                                                          | 3067/15000 [2:10:50<7:47:30,  2.35s/it] 20%|███████���███████████████████████████████▋                                                                                                                                                          | 3068/15000 [2:10:52<7:47:25,  2.35s/it] 20%|███████████████████████████████████████▋                                                                                                                                                          | 3069/15000 [2:10:55<7:47:23,  2.35s/it] 20%|███████████████████████████████████████▋                                                                                                                                                          | 3070/15000 [2:10:57<7:47:44,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 3.14, 'grad_norm': 1.8125, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3477.46, 'total_tokens': 25082675, 'epoch': 0.2}
+ 20%|███████████████████████████████████████▋                                                                                                                                                          | 3070/15000 [2:10:57<7:47:44,  2.35s/it] 20%|███████████████████████████████████████▋                                                                                                                                                          | 3071/15000 [2:11:00<7:47:44,  2.35s/it] 20%|███████████████████████████████████████▋                                                                                                                                                          | 3072/15000 [2:11:02<7:47:47,  2.35s/it] 20%|███████████████████████████████████████▋                                                                                                                                                          | 3073/15000 [2:11:04<7:47:58,  2.35s/it] 20%|███████████████████████████████████████▊                                                                                                                                                          | 3074/15000 [2:11:07<7:48:03,  2.35s/it] 20%|███████████████████████████████████████▊                                                                                                                                                          | 3075/15000 [2:11:09<7:48:04,  2.36s/it] 21%|███████████████████████████████████████▊                                                                                                                                                          | 3076/15000 [2:11:11<7:47:39,  2.35s/it] 21%|███████████████████████████████████████▊                                                                                                                                                          | 3077/15000 [2:11:14<7:47:10,  2.35s/it] 21%|███████████████████████████████████████▊                                                                                                                                                          | 3078/15000 [2:11:16<7:46:56,  2.35s/it] 21%|███████████████████████████████████████▊                                                                                                                                                          | 3079/15000 [2:11:18<7:46:48,  2.35s/it] 21%|███████████████████████████████████████▊                                                                                                                                                          | 3080/15000 [2:11:21<7:47:12,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 3.1655, 'grad_norm': 1.890625, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3478.59, 'total_tokens': 25164425, 'epoch': 0.21}
+ 21%|███████████████████████████████████████▊                                                                                                                                                          | 3080/15000 [2:11:21<7:47:12,  2.35s/it] 21%|███████████████████████████████████████▊                                                                                                                                                          | 3081/15000 [2:11:23<7:47:17,  2.35s/it] 21%|███████████████████████████████████████▊                                                                                                                                                          | 3082/15000 [2:11:25<7:47:54,  2.36s/it] 21%|███████████████████████████████████████▊                                                                                                                                                          | 3083/15000 [2:11:28<7:47:23,  2.35s/it] 21%|███████████████████████████████████████▉                                                                                                                                                          | 3084/15000 [2:11:30<7:47:30,  2.35s/it] 21%|███████████████████████████████████████▉                                                                                                                                                          | 3085/15000 [2:11:32<7:47:01,  2.35s/it] 21%|███████████████████████████████████████▉                                                                                                                                                          | 3086/15000 [2:11:35<7:46:59,  2.35s/it] 21%|███████████████████████████████████████▉                                                                                                                                                          | 3087/15000 [2:11:37<7:47:05,  2.35s/it] 21%|███████████████████████████████████████▉                                                                                                                                                          | 3088/15000 [2:11:39<7:47:01,  2.35s/it] 21%|███████████████████████████████████████▉                                                                                                                                                          | 3089/15000 [2:11:42<7:46:52,  2.35s/it] 21%|███████████████████████████████████████▉                                                                                                                                                          | 3090/15000 [2:11:44<7:46:53,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 3.1944, 'grad_norm': 1.7734375, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3484.27, 'total_tokens': 25246154, 'epoch': 0.21}
+ 21%|███████████████████████████████████████▉                                                                                                                                                          | 3090/15000 [2:11:44<7:46:53,  2.35s/it] 21%|███████████████████████████████████████▉                                                                                                                                                          | 3091/15000 [2:11:47<7:47:21,  2.35s/it] 21%|███████████████████████████████████████▉                                                                                                                                                          | 3092/15000 [2:11:49<7:47:01,  2.35s/it] 21%|████████████████████████████████████████                                                                                                                                                          | 3093/15000 [2:11:51<7:46:49,  2.35s/it] 21%|████████████████████████████████████████                                                                                                                                                          | 3094/15000 [2:11:54<7:46:51,  2.35s/it] 21%|████████████████████████████████████████                                                                                                                                                          | 3095/15000 [2:11:56<7:46:58,  2.35s/it] 21%|████████████████████████████████████████                                                                                                                                                          | 3096/15000 [2:11:58<7:46:52,  2.35s/it] 21%|████████████████████████████████████████                                                                                                                                                          | 3097/15000 [2:12:01<7:47:22,  2.36s/it] 21%|████████████████████████████████████████                                                                                                                                                          | 3098/15000 [2:12:03<7:47:13,  2.36s/it] 21%|████████████████████████████████████████                                                                                                                                                          | 3099/15000 [2:12:05<7:47:20,  2.36s/it] 21%|████████████████████████████████████████                                                                                                                                                          | 3100/15000 [2:12:08<7:47:19,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 3.1727, 'grad_norm': 1.7890625, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3480.1, 'total_tokens': 25327907, 'epoch': 0.21}
+ 21%|████████████████████████████████████████                                                                                                                                                          | 3100/15000 [2:12:08<7:47:19,  2.36s/it] 21%|████████████████████████████████████████                                                                                                                                                          | 3101/15000 [2:12:10<7:47:10,  2.36s/it] 21%|████████████████████████████████████████                                                                                                                                                          | 3102/15000 [2:12:12<7:46:38,  2.35s/it] 21%|████████████████████████████████████████▏                                                                                                                                                         | 3103/15000 [2:12:15<7:46:14,  2.35s/it] 21%|████████████████████████████████████████▏                                                                                                                                                         | 3104/15000 [2:12:17<7:46:32,  2.35s/it] 21%|████████████████████████████████████████▏                                                                                                                                                         | 3105/15000 [2:12:20<7:46:58,  2.36s/it] 21%|████████████████████████████████████████▏                                                                                                                                                         | 3106/15000 [2:12:22<7:46:48,  2.35s/it] 21%|████████████████████████████████████████▏                                                                                                                                                         | 3107/15000 [2:12:24<7:46:37,  2.35s/it] 21%|████████████████████████████████████████▏                                                                                                                                                         | 3108/15000 [2:12:27<7:47:05,  2.36s/it] 21%|████████████████████████████████████████▏                                                                                                                                                         | 3109/15000 [2:12:29<7:46:44,  2.36s/it] 21%|████████████████████████████████████████▏                                                                                                                                                         | 3110/15000 [2:12:31<7:46:23,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 3.1868, 'grad_norm': 1.75, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3486.09, 'total_tokens': 25409575, 'epoch': 0.21}
+ 21%|████████████████████████████████████████▏                                                                                                                                                         | 3110/15000 [2:12:31<7:46:23,  2.35s/it] 21%|████████████████████████████████████████▏                                                                                                                                                         | 3111/15000 [2:12:34<7:46:49,  2.36s/it] 21%|████████████████████████████████████████▏                                                                                                                                                         | 3112/15000 [2:12:36<7:47:06,  2.36s/it] 21%|████████████████████████████████████████▎                                                                                                                                                         | 3113/15000 [2:12:38<7:46:35,  2.36s/it] 21%|████████████████████████████████████████▎                                                                                                                                                         | 3114/15000 [2:12:41<7:46:25,  2.35s/it] 21%|████████████████████████████████████████▎                                                                                                                                                         | 3115/15000 [2:12:43<7:46:21,  2.35s/it] 21%|████████████████████████████████████████▎                                                                                                                                                         | 3116/15000 [2:12:45<7:45:57,  2.35s/it] 21%|████████████████████████████████████████▎                                                                                                                                                         | 3117/15000 [2:12:48<7:45:46,  2.35s/it] 21%|████████████████████████████████████████▎                                                                                                                                                         | 3118/15000 [2:12:50<7:46:09,  2.35s/it] 21%|██████��█████████████████████████████████▎                                                                                                                                                         | 3119/15000 [2:12:52<7:46:01,  2.35s/it] 21%|████████████████████████████████████████▎                                                                                                                                                         | 3120/15000 [2:12:55<7:45:20,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 3.0707, 'grad_norm': 1.90625, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3494.2, 'total_tokens': 25491186, 'epoch': 0.21}
+ 21%|████████████████████████████████████████▎                                                                                                                                                         | 3120/15000 [2:12:55<7:45:20,  2.35s/it] 21%|████████████████████████████████████████▎                                                                                                                                                         | 3121/15000 [2:12:57<7:45:52,  2.35s/it] 21%|████████████████████████████████████████▍                                                                                                                                                         | 3122/15000 [2:13:00<7:45:46,  2.35s/it] 21%|████████████████████████████████████████▍                                                                                                                                                         | 3123/15000 [2:13:02<7:45:34,  2.35s/it] 21%|████████████████████████████████████████▍                                                                                                                                                         | 3124/15000 [2:13:04<7:45:23,  2.35s/it] 21%|████████████████████████████████████████▍                                                                                                                                                         | 3125/15000 [2:13:07<7:45:53,  2.35s/it] 21%|████████████████████████████████████████▍                                                                                                                                                         | 3126/15000 [2:13:09<7:45:41,  2.35s/it] 21%|████████████████████████████████████████▍                                                                                                                                                         | 3127/15000 [2:13:11<7:45:32,  2.35s/it] 21%|████████████████████████████████████████▍                                                                                                                                                         | 3128/15000 [2:13:14<7:45:12,  2.35s/it] 21%|████████████████████████████████████████▍                                                                                                                                                         | 3129/15000 [2:13:16<7:45:02,  2.35s/it] 21%|████████████████████████████████████████▍                                                                                                                                                         | 3130/15000 [2:13:18<7:45:39,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 3.0541, 'grad_norm': 1.859375, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3468.55, 'total_tokens': 25572853, 'epoch': 0.21}
+ 21%|████████████████████████████████████████▍                                                                                                                                                         | 3130/15000 [2:13:18<7:45:39,  2.35s/it] 21%|████████████████████████████████████████▍                                                                                                                                                         | 3131/15000 [2:13:21<7:45:42,  2.35s/it] 21%|████████████████████████████████████████▌                                                                                                                                                         | 3132/15000 [2:13:23<7:46:00,  2.36s/it] 21%|████████████████████████████████████████▌                                                                                                                                                         | 3133/15000 [2:13:25<7:45:41,  2.35s/it] 21%|████████████████████████████████████████▌                                                                                                                                                         | 3134/15000 [2:13:28<7:45:32,  2.35s/it] 21%|████████████████████████████████████████▌                                                                                                                                                         | 3135/15000 [2:13:30<7:45:30,  2.35s/it] 21%|████████████████████████████████████████▌                                                                                                                                                         | 3136/15000 [2:13:32<7:45:35,  2.35s/it] 21%|████████████████████████████████████████▌                                                                                                                                                         | 3137/15000 [2:13:35<7:45:08,  2.35s/it] 21%|████████████████████████████████████████▌                                                                                                                                                         | 3138/15000 [2:13:37<7:45:28,  2.35s/it] 21%|████████████████████████████████████████▌                                                                                                                                                         | 3139/15000 [2:13:40<7:45:18,  2.35s/it] 21%|████████████████████████████████████████▌                                                                                                                                                         | 3140/15000 [2:13:42<7:45:24,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 3.0487, 'grad_norm': 1.8203125, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3478.55, 'total_tokens': 25654566, 'epoch': 0.21}
+ 21%|████████████████████████████████████████▌                                                                                                                                                         | 3140/15000 [2:13:42<7:45:24,  2.35s/it] 21%|████████████████████████████████████████▌                                                                                                                                                         | 3141/15000 [2:13:44<7:45:09,  2.35s/it] 21%|████████████████████████████████████████▋                                                                                                                                                         | 3142/15000 [2:13:47<7:45:29,  2.36s/it] 21%|█████████████████���██████████████████████▋                                                                                                                                                         | 3143/15000 [2:13:49<7:45:27,  2.36s/it] 21%|████████████████████████████████████████▋                                                                                                                                                         | 3144/15000 [2:13:51<7:45:33,  2.36s/it] 21%|████████████████████████████████████████▋                                                                                                                                                         | 3145/15000 [2:13:54<7:45:20,  2.36s/it] 21%|████████████████████████████████████████▋                                                                                                                                                         | 3146/15000 [2:13:56<7:45:14,  2.35s/it] 21%|████████████████████████████████████████▋                                                                                                                                                         | 3147/15000 [2:13:58<7:45:45,  2.36s/it] 21%|████████████████████████████████████████▋                                                                                                                                                         | 3148/15000 [2:14:01<7:45:40,  2.36s/it] 21%|████████████████████████████████████████▋                                                                                                                                                         | 3149/15000 [2:14:03<7:45:31,  2.36s/it] 21%|████████████████████████████████████████▋                                                                                                                                                         | 3150/15000 [2:14:05<7:45:09,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 3.1751, 'grad_norm': 1.7265625, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3481.11, 'total_tokens': 25736169, 'epoch': 0.21}
+ 21%|████████████████████████████████████████▋                                                                                                                                                         | 3150/15000 [2:14:05<7:45:09,  2.36s/it] 21%|████████████████████████████████████████▊                                                                                                                                                         | 3151/15000 [2:14:08<7:45:29,  2.36s/it] 21%|████████████████████████████████████████▊                                                                                                                                                         | 3152/15000 [2:14:10<7:45:12,  2.36s/it] 21%|████████████████████████████████████████▊                                                                                                                                                         | 3153/15000 [2:14:13<7:45:03,  2.36s/it] 21%|████████████████████████████████████████▊                                                                                                                                                         | 3154/15000 [2:14:15<7:45:36,  2.36s/it] 21%|████████████████████████████████████████▊                                                                                                                                                         | 3155/15000 [2:14:17<7:45:07,  2.36s/it] 21%|████████████████████████████████████████▊                                                                                                                                                         | 3156/15000 [2:14:20<7:44:51,  2.35s/it] 21%|████████████████████████████████████████▊                                                                                                                                                         | 3157/15000 [2:14:22<7:44:34,  2.35s/it] 21%|████████████████████████████████████████▊                                                                                                                                                         | 3158/15000 [2:14:24<7:44:25,  2.35s/it] 21%|████████████████████████████████████████▊                                                                                                                                                         | 3159/15000 [2:14:27<7:44:31,  2.35s/it] 21%|████████████████████████████████████████▊                                                                                                                                                         | 3160/15000 [2:14:29<7:44:45,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 3.1791, 'grad_norm': 2.015625, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3474.68, 'total_tokens': 25817860, 'epoch': 0.21}
+ 21%|████████████████████████████████████████▊                                                                                                                                                         | 3160/15000 [2:14:29<7:44:45,  2.36s/it] 21%|████████████████████████████████████████▉                                                                                                                                                         | 3161/15000 [2:14:31<7:44:56,  2.36s/it] 21%|████████████████████████████████████████▉                                                                                                                                                         | 3162/15000 [2:14:34<7:44:35,  2.35s/it] 21%|████████████████████████████████████████▉                                                                                                                                                         | 3163/15000 [2:14:36<7:45:13,  2.36s/it] 21%|████████████████████████████████████████▉                                                                                                                                                         | 3164/15000 [2:14:38<7:44:54,  2.36s/it] 21%|████████████████████████████████████████▉                                                                                                                                                         | 3165/15000 [2:14:41<7:44:58,  2.36s/it] 21%|████████████████████████████████████████▉                                                                                                                                                         | 3166/15000 [2:14:43<7:44:34,  2.36s/it] 21%|████████████████████████████████████████▉                                                                                                                                                         | 3167/15000 [2:14:46<7:44:24,  2.35s/it] 21%|████████████████████████████████████████▉                                                                                                                                                         | 3168/15000 [2:14:48<7:44:11,  2.35s/it] 21%|████████████████████████████████████████▉                                                                                                                                                         | 3169/15000 [2:14:50<7:43:58,  2.35s/it] 21%|████████████████████████████████████████▉                                                                                                                                                         | 3170/15000 [2:14:53<7:43:37,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 3.1161, 'grad_norm': 1.8046875, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3484.87, 'total_tokens': 25899432, 'epoch': 0.21}
+ 21%|████████████████████████████████████████▉                                                                                                                                                         | 3170/15000 [2:14:53<7:43:37,  2.35s/it] 21%|█████████████████████████████████████████                                                                                                                                                         | 3171/15000 [2:14:55<7:43:52,  2.35s/it] 21%|█████████████████████████████████████████                                                                                                                                                         | 3172/15000 [2:14:57<7:43:47,  2.35s/it] 21%|█████████████████████████████████████████                                                                                                                                                         | 3173/15000 [2:15:00<7:43:46,  2.35s/it] 21%|█████████████████████████████████████████                                                                                                                                                         | 3174/15000 [2:15:02<7:43:51,  2.35s/it] 21%|█████████████████████████████████████████                                                                                                                                                         | 3175/15000 [2:15:04<7:44:01,  2.35s/it] 21%|█████████████████████████████████████████                                                                                                                                                         | 3176/15000 [2:15:07<7:43:48,  2.35s/it] 21%|█████████████████████████████████████████                                                                                                                                                         | 3177/15000 [2:15:09<7:43:40,  2.35s/it] 21%|█████████████████████████████████████████                                                                                                                                                         | 3178/15000 [2:15:11<7:43:14,  2.35s/it] 21%|█████████████████████████████████████████                                                                                                                                                         | 3179/15000 [2:15:14<7:43:26,  2.35s/it] 21%|█████████████████████████████████████████▏                                                                                                                                                        | 3180/15000 [2:15:16<7:43:06,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 3.171, 'grad_norm': 1.8046875, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3477.54, 'total_tokens': 25980828, 'epoch': 0.21}
+ 21%|█████████████████████████████████████████▏                                                                                                                                                        | 3180/15000 [2:15:16<7:43:06,  2.35s/it] 21%|█████████████████████████████████████████▏                                                                                                                                                        | 3181/15000 [2:15:18<7:43:23,  2.35s/it] 21%|█████████████████████████████████████████▏                                                                                                                                                        | 3182/15000 [2:15:21<7:43:49,  2.35s/it] 21%|█████████████████████████████████████████▏                                                                                                                                                        | 3183/15000 [2:15:23<7:43:19,  2.35s/it] 21%|█████████████████████████████████████████▏                                                                                                                                                        | 3184/15000 [2:15:25<7:42:57,  2.35s/it] 21%|█████████████████████████████████████████▏                                                                                                                                                        | 3185/15000 [2:15:28<7:42:41,  2.35s/it] 21%|█████████████████████████████████████████▏                                                                                                                                                        | 3186/15000 [2:15:30<7:43:01,  2.35s/it] 21%|█████████████████████████████████████████▏                                                                                                                                                        | 3187/15000 [2:15:33<7:42:44,  2.35s/it][2025-11-16 23:58:27,252] [INFO] [axolotl.utils.data.wrappers.get_dataset_wrapper:87] [PID:8163] Loading dataset: Goader/kobza-2m-jsonl with base_type: pretrain and prompt_style: None
+
+Tokenizing Prompts (num_proc=64):   0%|                                                                                                                                                                        | 0/10000 [00:00<?, ? examples/s][A
+Tokenizing Prompts (num_proc=64):   2%|██▍                                                                                                                                                           | 157/10000 [00:06<06:28, 25.36 examples/s][A
+Tokenizing Prompts (num_proc=64):   3%|████▉                                                                                                                                                         | 314/10000 [00:06<03:02, 53.05 examples/s][A
+Tokenizing Prompts (num_proc=64):   5%|███████▍                                                                                                                                                      | 471/10000 [00:07<01:47, 88.26 examples/s][A
+Tokenizing Prompts (num_proc=64):   6%|█████████▊                                                                                                                                                   | 628/10000 [00:07<01:18, 119.47 examples/s][A
+Tokenizing Prompts (num_proc=64):   8%|████████████▎                                                                                                                                                | 785/10000 [00:08<01:06, 139.47 examples/s][A
+Tokenizing Prompts (num_proc=64):   9%|██████████████▊                                                                                                                                              | 942/10000 [00:09<00:54, 164.95 examples/s][A
+Tokenizing Prompts (num_proc=64):  11%|█████████████████▏                                                                                                                                          | 1099/10000 [00:09<00:49, 179.71 examples/s][A
+Tokenizing Prompts (num_proc=64):  13%|███████████████████▌                                                                                                                                        | 1256/10000 [00:10<00:45, 192.18 examples/s][A
+Tokenizing Prompts (num_proc=64):  14%|██████████████████████                                                                                                                                      | 1413/10000 [00:11<00:45, 190.01 examples/s][A
+Tokenizing Prompts (num_proc=64):  16%|████████████████████████▍                                                                                                                                   | 1570/10000 [00:12<00:39, 212.69 examples/s][A
+Tokenizing Prompts (num_proc=64):  17%|██████████████████████████▉                                                                                                                                 | 1727/10000 [00:12<00:38, 217.56 examples/s][A
+Tokenizing Prompts (num_proc=64):  19%|█████████████████████████████▍                                                                                                                              | 1884/10000 [00:13<00:36, 221.73 examples/s][A
+Tokenizing Prompts (num_proc=64):  20%|███████████████████████████████▊                                                                                                                            | 2041/10000 [00:14<00:35, 223.43 examples/s][A
+Tokenizing Prompts (num_proc=64):  22%|██████████████████████████████████▎                                                                                                                         | 2198/10000 [00:14<00:35, 219.91 examples/s][A
+Tokenizing Prompts (num_proc=64):  24%|████████████████████████████████████▋                                                                                                                       | 2355/10000 [00:15<00:33, 226.37 examples/s][A
+Tokenizing Prompts (num_proc=64):  25%|███████████████████████████████████████▏                                                                                                                    | 2512/10000 [00:16<00:33, 226.23 examples/s][A
+Tokenizing Prompts (num_proc=64):  27%|█████████████████████████████████████████▌                                                                                                                  | 2668/10000 [00:16<00:33, 221.33 examples/s][A
+Tokenizing Prompts (num_proc=64):  28%|████████████████████████████████████████████                                                                                                                | 2824/10000 [00:17<00:31, 224.56 examples/s][A
+Tokenizing Prompts (num_proc=64):  30%|██████████████████████████████████████████████▍                                                                                                             | 2980/10000 [00:18<00:31, 223.87 examples/s][A
+Tokenizing Prompts (num_proc=64):  31%|████████████████████████████████████████████████▉                                                                                                           | 3136/10000 [00:19<00:31, 220.73 examples/s][A
+Tokenizing Prompts (num_proc=64):  33%|███████████████████████████████████████████████████▎                                                                                                        | 3292/10000 [00:19<00:29, 226.21 examples/s][A
+Tokenizing Prompts (num_proc=64):  34%|█████████████████████████████████████████████████████▊                                                                                                      | 3448/10000 [00:20<00:29, 225.04 examples/s][A
+Tokenizing Prompts (num_proc=64):  36%|████████████████████████████████████████████████████████▏                                                                                                   | 3604/10000 [00:21<00:29, 218.74 examples/s][A
+Tokenizing Prompts (num_proc=64):  38%|██████████████████████████████████████████████████████████▋                                                                                                 | 3760/10000 [00:21<00:28, 221.85 examples/s][A
+Tokenizing Prompts (num_proc=64):  39%|█████████████████████████████████████████████████████████████                                                                                               | 3916/10000 [00:22<00:27, 220.98 examples/s][A
+Tokenizing Prompts (num_proc=64):  41%|███████████████████████████████████████████████████████████████▌                                                                                            | 4072/10000 [00:23<00:26, 224.10 examples/s][A
+Tokenizing Prompts (num_proc=64):  42%|█████████████████████████████████████████████████████████████████▉                                                                                          | 4228/10000 [00:23<00:25, 222.00 examples/s][A
+Tokenizing Prompts (num_proc=64):  44%|████████████████████████████████████████████████████████████████████▍                                                                                       | 4384/10000 [00:24<00:25, 224.49 examples/s][A
+Tokenizing Prompts (num_proc=64):  45%|██████████████████████████████████████████████████████████████████████▊                                                                                     | 4540/10000 [00:25<00:24, 223.24 examples/s][A
+Tokenizing Prompts (num_proc=64):  47%|█████████████████████████████████████████████████████████████████████████▎                                                                                  | 4696/10000 [00:26<00:23, 222.64 examples/s][A
+Tokenizing Prompts (num_proc=64):  49%|███████████████████████████████████████████████████████████████████████████▋                                                                                | 4852/10000 [00:26<00:23, 223.65 examples/s][A
+Tokenizing Prompts (num_proc=64):  50%|██████████████████████████████████████████████████████████████████████████████                                                                              | 5008/10000 [00:27<00:23, 215.55 examples/s][A
+Tokenizing Prompts (num_proc=64):  52%|████████████████████████████████████████████████████████████████████████████████▌                                                                           | 5164/10000 [00:28<00:21, 222.75 examples/s][A
+Tokenizing Prompts (num_proc=64):  53%|██████████████████████████████████████████████████████████████████████████████████▉                                                                         | 5320/10000 [00:30<00:28, 162.52 examples/s][A
+Tokenizing Prompts (num_proc=64):  55%|█████████████████████████████████████████████████████████████████████████████████████▍                                                                      | 5476/10000 [00:30<00:22, 200.92 examples/s][A
+Tokenizing Prompts (num_proc=64):  56%|███████████████████████████████████████████████████████████████████████████████████████▊                                                                    | 5632/10000 [00:30<00:16, 262.63 examples/s][A
+Tokenizing Prompts (num_proc=64):  58%|██████████████████████████████████████████████████████████████████████████████████████████▎                                                                 | 5788/10000 [00:30<00:16, 249.68 examples/s][A
+Tokenizing Prompts (num_proc=64):  59%|████████████████████████████████████████████████████████████████████████████████████████████▋                                                               | 5944/10000 [00:31<00:17, 230.76 examples/s][A
+Tokenizing Prompts (num_proc=64):  61%|███████████████████████████████████████████████████████████████████████████████████████████████▏                                                            | 6100/10000 [00:32<00:20, 194.19 examples/s][A
+Tokenizing Prompts (num_proc=64):  63%|█████████████████████████████████████████████████████████████████████████████████████████████████▌                                                          | 6256/10000 [00:33<00:16, 228.86 examples/s][A
+Tokenizing Prompts (num_proc=64):  64%|████████████████████████████████████████████████████████████████████████████████████████████████████                                                        | 6412/10000 [00:33<00:14, 245.55 examples/s][A
+Tokenizing Prompts (num_proc=64):  66%|██████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                     | 6568/10000 [00:35<00:18, 188.20 examples/s][A
+Tokenizing Prompts (num_proc=64):  69%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                | 6880/10000 [00:36<00:14, 212.01 examples/s][A
+Tokenizing Prompts (num_proc=64):  70%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                              | 7036/10000 [00:36<00:11, 254.88 examples/s][A
+Tokenizing Prompts (num_proc=64):  72%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                           | 7192/10000 [00:37<00:13, 205.95 examples/s][A
+Tokenizing Prompts (num_proc=64):  73%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                         | 7348/10000 [00:37<00:10, 257.39 examples/s][A
+Tokenizing Prompts (num_proc=64):  75%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                       | 7504/10000 [00:38<00:10, 246.55 examples/s][A
+Tokenizing Prompts (num_proc=64):  77%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                    | 7660/10000 [00:39<00:11, 201.04 examples/s][A
+Tokenizing Prompts (num_proc=64):  78%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                  | 7816/10000 [00:39<00:08, 253.41 examples/s][A
+Tokenizing Prompts (num_proc=64):  80%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                               | 7972/10000 [00:40<00:08, 248.82 examples/s][A
+Tokenizing Prompts (num_proc=64):  81%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                             | 8128/10000 [00:41<00:09, 200.02 examples/s][A
+Tokenizing Prompts (num_proc=64):  83%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                          | 8284/10000 [00:42<00:08, 203.41 examples/s][A
+Tokenizing Prompts (num_proc=64):  84%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                        | 8440/10000 [00:43<00:07, 209.97 examples/s][A
+Tokenizing Prompts (num_proc=64):  86%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                      | 8596/10000 [00:43<00:05, 269.59 examples/s][A
+Tokenizing Prompts (num_proc=64):  88%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                   | 8752/10000 [00:44<00:06, 202.05 examples/s][A
+Tokenizing Prompts (num_proc=64):  89%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                 | 8908/10000 [00:44<00:04, 256.25 examples/s][A
+Tokenizing Prompts (num_proc=64):  91%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍              | 9064/10000 [00:45<00:04, 200.58 examples/s][A
+Tokenizing Prompts (num_proc=64):  92%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊            | 9220/10000 [00:46<00:03, 207.11 examples/s][A
+Tokenizing Prompts (num_proc=64):  94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎         | 9376/10000 [00:47<00:02, 210.86 examples/s][A
+Tokenizing Prompts (num_proc=64):  95%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋       | 9532/10000 [00:48<00:02, 212.71 examples/s][A
+Tokenizing Prompts (num_proc=64):  97%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏    | 9688/10000 [00:48<00:01, 240.75 examples/s][A
+Tokenizing Prompts (num_proc=64):  98%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌  | 9844/10000 [00:49<00:00, 236.76 examples/s][A
+Tokenizing Prompts (num_proc=64): 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10000/10000 [00:49<00:00, 228.23 examples/s][ATokenizing Prompts (num_proc=64): 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10000/10000 [00:51<00:00, 192.96 examples/s]
+
+Dropping Long Sequences:   0%|                                                                                                                                                                                 | 0/10000 [00:00<?, ? examples/s][A
+Dropping Long Sequences:  10%|████████████████▌                                                                                                                                                    | 1000/10000 [00:01<00:15, 570.25 examples/s][A
+Dropping Long Sequences:  20%|████████████████████████████████▊                                                                                                                                   | 2000/10000 [00:02<00:07, 1121.40 examples/s][A
+Dropping Long Sequences:  30%|█████████████████████████████████████████████████▏                                                                                                                  | 3000/10000 [00:02<00:04, 1654.20 examples/s][A
+Dropping Long Sequences:  40%|█████████████████████████████████████████████████████████████████▌                                                                                                  | 4000/10000 [00:02<00:02, 2132.44 examples/s][A
+Dropping Long Sequences:  50%|████████████████████████████████████████████████████████████████████████████████��█                                                                                  | 5000/10000 [00:02<00:01, 2523.43 examples/s][A
+Dropping Long Sequences:  60%|██████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                 | 6000/10000 [00:03<00:01, 2787.07 examples/s][A
+Dropping Long Sequences:  70%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                 | 7000/10000 [00:03<00:01, 2927.54 examples/s][A
+Dropping Long Sequences:  80%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                | 8000/10000 [00:03<00:00, 3153.89 examples/s][A
+Dropping Long Sequences:  90%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                | 9000/10000 [00:03<00:00, 3312.90 examples/s][A
+Dropping Long Sequences: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10000/10000 [00:04<00:00, 3391.74 examples/s][ADropping Long Sequences: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10000/10000 [00:04<00:00, 2321.13 examples/s]
+
+Add position_id column (Pretraining Sample Packing):   0%|                                                                                                                                                      | 0/8639 [00:00<?, ? examples/s][A
+Add position_id column (Pretraining Sample Packing):  12%|███████████████▉                                                                                                                          | 1000/8639 [00:01<00:10, 758.34 examples/s][A
+Add position_id column (Pretraining Sample Packing):  23%|███████████████████████████████▋                                                                                                         | 2000/8639 [00:01<00:04, 1576.91 examples/s][A
+Add position_id column (Pretraining Sample Packing):  35%|███████████████████████████████████████████████▌                                                                                         | 3000/8639 [00:01<00:02, 2454.49 examples/s][A
+Add position_id column (Pretraining Sample Packing):  46%|███████████████████████████████████████████████████████████████▍                                                                         | 4000/8639 [00:01<00:01, 3226.67 examples/s][A
+Add position_id column (Pretraining Sample Packing):  58%|███████████████████████████████████████████████████████████████████████████████▎                                                         | 5000/8639 [00:01<00:00, 3955.30 examples/s][A
+Add position_id column (Pretraining Sample Packing):  69%|███████████████████████████████████████████████████████████████████████████████████████████████▏                                         | 6000/8639 [00:02<00:00, 4564.63 examples/s][A
+Add position_id column (Pretraining Sample Packing):  81%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████                          | 7000/8639 [00:02<00:00, 5186.87 examples/s][A
+Add position_id column (Pretraining Sample Packing):  93%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊          | 8000/8639 [00:02<00:00, 5364.39 examples/s][AAdd position_id column (Pretraining Sample Packing): 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 8639/8639 [00:02<00:00, 3400.00 examples/s]
+[2025-11-16 23:59:27,691] [DEBUG] [axolotl.utils.samplers.multipack.pack_parallel:177] [PID:8163] Using single process for pack_parallel, running sequentially.
+ 21%|█████████████████████████████████████████                                                                                                                                                        | 3188/15000 [2:16:42<73:58:16, 22.54s/it] 21%|█████████████████████████████████████████                                                                                                                                                        | 3189/15000 [2:16:45<54:05:39, 16.49s/it] 21%|█████████████████████████████████████████                                                                                                                                                        | 3190/15000 [2:16:47<40:10:40, 12.25s/it]                                                                                                                                                                                                                                                {'loss': 3.1546, 'grad_norm': 1.8203125, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3467.33, 'total_tokens': 26062146, 'epoch': 0.21}
+ 21%|█████████████████████████████████████████                                                                                                                                                        | 3190/15000 [2:16:47<40:10:40, 12.25s/it] 21%|█████████████████████████████████████████                                                                                                                                                        | 3191/15000 [2:16:49<30:26:21,  9.28s/it] 21%|█████████████████████████████████████████                                                                                                                                                        | 3192/15000 [2:16:52<23:37:15,  7.20s/it] 21%|█████████████████████████████████████████                                                                                                                                                        | 3193/15000 [2:16:54<18:51:23,  5.75s/it] 21%|█████████████████████████████████████████                                                                                                                                                        | 3194/15000 [2:16:56<15:30:33,  4.73s/it] 21%|█████████████████████████████████████████                                                                                                                                                        | 3195/15000 [2:16:59<13:10:37,  4.02s/it] 21%|█████████████████████████████████████████                                                                                                                                                        | 3196/15000 [2:17:01<11:32:11,  3.52s/it] 21%|█████████████████████████████████████████▏                                                                                                                                                       | 3197/15000 [2:17:03<10:23:27,  3.17s/it] 21%|█████████████████████████████████████████▎                                                                                                                                                        | 3198/15000 [2:17:06<9:34:59,  2.92s/it] 21%|█████████████████████████████████████████▎                                                                                                                                                        | 3199/15000 [2:17:08<9:01:19,  2.75s/it] 21%|█████████████████████████████████████████▍                                                                                                                                                        | 3200/15000 [2:17:10<8:37:40,  2.63s/it]                                                                                                                                                                                                                                                {'loss': 3.0756, 'grad_norm': 1.7890625, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3490.75, 'total_tokens': 26144005, 'epoch': 0.21}
+ 21%|█████████████████████████████████████████▍                                                                                                                                                        | 3200/15000 [2:17:10<8:37:40,  2.63s/it] 21%|█████████████████████████████████████████▍                                                                                                                                                        | 3201/15000 [2:17:13<8:21:15,  2.55s/it] 21%|█████████████████████████████████████████▍                                                                                                                                                        | 3202/15000 [2:17:15<8:09:31,  2.49s/it] 21%|█████████████████████████████████████████▍                                                                                                                                                        | 3203/15000 [2:17:18<8:01:22,  2.45s/it] 21%|█████████████████████████████████████████▍                                                                                                                                                        | 3204/15000 [2:17:20<7:55:40,  2.42s/it] 21%|█████████████████████████████████████████▍                                                                                                                                                        | 3205/15000 [2:17:22<7:51:58,  2.40s/it] 21%|█████████████████████████████████████████▍                                                                                                                                                        | 3206/15000 [2:17:25<7:49:23,  2.39s/it] 21%|█████████████████████████████████████████▍                                                                                                                                                        | 3207/15000 [2:17:27<7:47:05,  2.38s/it] 21%|█████████████████████████████████████████▍                                                                                                                                                        | 3208/15000 [2:17:29<7:45:59,  2.37s/it] 21%|█████████████████████████████████████████▌                                                                                                                                                        | 3209/15000 [2:17:32<7:44:28,  2.36s/it] 21%|█████████████████████████████████████████▌                                                                                                                                                        | 3210/15000 [2:17:34<7:44:05,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 3.1383, 'grad_norm': 1.84375, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3481.6, 'total_tokens': 26225847, 'epoch': 0.21}
+ 21%|█████████████████████████████████████████▌                                                                                                                                                        | 3210/15000 [2:17:34<7:44:05,  2.36s/it] 21%|█████████████████████████████████████████▌                                                                                                                                                        | 3211/15000 [2:17:36<7:43:34,  2.36s/it] 21%|█████████████████████████████████████████▌                                                                                                                                                        | 3212/15000 [2:17:39<7:43:27,  2.36s/it] 21%|█████████████████████████████████████████▌                                                                                                                                                        | 3213/15000 [2:17:41<7:42:58,  2.36s/it] 21%|█████████████████████████████████████████▌                                                                                                                                                        | 3214/15000 [2:17:43<7:42:58,  2.36s/it] 21%|█████████████████████████████████████████▌                                                                                                                                                        | 3215/15000 [2:17:46<7:43:11,  2.36s/it] 21%|█████████████████████████████████████████▌                                                                                                                                                        | 3216/15000 [2:17:48<7:43:00,  2.36s/it] 21%|█████████████████████████████████████████▌                                                                                                                                                        | 3217/15000 [2:17:50<7:42:24,  2.35s/it] 21%|█████████████████████████████████████████▌                                                                                                                                                        | 3218/15000 [2:17:53<7:42:14,  2.35s/it] 21%|█████████████████████████████████████████▋                                                                                                                                                        | 3219/15000 [2:17:55<7:42:13,  2.35s/it] 21%|█████████████████████████████████████████▋                                                                                                                                                        | 3220/15000 [2:17:58<7:42:12,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 3.0726, 'grad_norm': 1.765625, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3485.93, 'total_tokens': 26307675, 'epoch': 0.21}
+ 21%|█████████████████████████████████████████▋                                                                                                                                                        | 3220/15000 [2:17:58<7:42:12,  2.35s/it] 21%|█████████████████████████████████████████▋                                                                                                                                                        | 3221/15000 [2:18:00<7:42:32,  2.36s/it] 21%|█████████████████████████████████████████▋                                                                                                                                                        | 3222/15000 [2:18:02<7:42:29,  2.36s/it] 21%|█████████████████████████████████████████▋                                                                                                                                                        | 3223/15000 [2:18:05<7:42:20,  2.36s/it] 21%|█████████████████████████████████████████▋                                                                                                                                                        | 3224/15000 [2:18:07<7:41:49,  2.35s/it] 22%|█████████████████████████████████████████▋                                                                                                                                                        | 3225/15000 [2:18:09<7:41:55,  2.35s/it] 22%|█████████████████████████████████████████▋                                                                                                                                                        | 3226/15000 [2:18:12<7:42:06,  2.35s/it] 22%|█████████████████████████████████████████▋                                                                                                                                                        | 3227/15000 [2:18:14<7:41:54,  2.35s/it] 22%|█████████████████████████████████████████▋                                                                                                                                                        | 3228/15000 [2:18:16<7:42:03,  2.36s/it] 22%|█████████████████████████████████████████▊                                                                                                                                                        | 3229/15000 [2:18:19<7:42:04,  2.36s/it] 22%|█████████████████████████████████████████▊                                                                                                                                                        | 3230/15000 [2:18:21<7:41:41,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 3.0939, 'grad_norm': 1.765625, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3492.87, 'total_tokens': 26389500, 'epoch': 0.22}
+ 22%|█████████████████████████████████████████▊                                                                                                                                                        | 3230/15000 [2:18:21<7:41:41,  2.35s/it] 22%|█████████████████████████████████████████▊                                                                                                                                                        | 3231/15000 [2:18:23<7:41:37,  2.35s/it] 22%|█████████████████████████████████████████▊                                                                                                                                                        | 3232/15000 [2:18:26<7:41:21,  2.35s/it] 22%|█████████████████████████████████████████▊                                                                                                                                                        | 3233/15000 [2:18:28<7:41:34,  2.35s/it] 22%|█████████████████████████████████████████▊                                                                                                                                                        | 3234/15000 [2:18:30<7:41:37,  2.35s/it] 22%|█████████████████████████████████████████▊                                                                                                                                                        | 3235/15000 [2:18:33<7:41:20,  2.35s/it] 22%|█████████████████████████████████████████▊                                                                                                                                                        | 3236/15000 [2:18:35<7:40:45,  2.35s/it] 22%|█████████████████████████████████████████▊                                                                                                                                                        | 3237/15000 [2:18:38<7:41:15,  2.35s/it] 22%|█████████████████████████████████████████▉                                                                                                                                                        | 3238/15000 [2:18:40<7:41:21,  2.35s/it] 22%|█████████████████████████████████████████▉                                                                                                                                                        | 3239/15000 [2:18:42<7:41:12,  2.35s/it] 22%|█████████████████████████████████████████▉                                                                                                                                                        | 3240/15000 [2:18:45<7:40:48,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 3.107, 'grad_norm': 1.796875, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3496.42, 'total_tokens': 26471302, 'epoch': 0.22}
+ 22%|█████████████████████████████████████████▉                                                                                                                                                        | 3240/15000 [2:18:45<7:40:48,  2.35s/it] 22%|█████████████████████████████████████████▉                                                                                                                                                        | 3241/15000 [2:18:47<7:41:05,  2.35s/it] 22%|█████████████████████████████████████████▉                                                                                                                                                        | 3242/15000 [2:18:49<7:41:04,  2.35s/it] 22%|█████████████████████████████████████████▉                                                                                                                                                        | 3243/15000 [2:18:52<7:40:46,  2.35s/it] 22%|█████████████████████████████████████████▉                                                                                                                                                        | 3244/15000 [2:18:54<7:41:13,  2.35s/it] 22%|█████████████████████████████████████████▉                                                                                                                                                        | 3245/15000 [2:18:56<7:40:53,  2.35s/it] 22%|█████████████████████████████████████████▉                                                                                                                                                        | 3246/15000 [2:18:59<7:41:02,  2.35s/it] 22%|█████████████████████████████████████████▉                                                                                                                                                        | 3247/15000 [2:19:01<7:41:07,  2.35s/it] 22%|██████████████████████████████████████████                                                                                                                                                        | 3248/15000 [2:19:03<7:40:48,  2.35s/it] 22%|██████████████████████████████████████████                                                                                                                                                        | 3249/15000 [2:19:06<7:40:54,  2.35s/it] 22%|██████████████████████████████████████████                                                                                                                                                        | 3250/15000 [2:19:08<7:40:51,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 3.1094, 'grad_norm': 1.8515625, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3487.34, 'total_tokens': 26553117, 'epoch': 0.22}
+ 22%|██████████████████████████████████████████                                                                                                                                                        | 3250/15000 [2:19:08<7:40:51,  2.35s/it] 22%|██████████████████████████████████████████                                                                                                                                                        | 3251/15000 [2:19:10<7:40:56,  2.35s/it] 22%|██████████████████████████████████████████                                                                                                                                                        | 3252/15000 [2:19:13<7:40:48,  2.35s/it] 22%|██████████████████████████████████████████                                                                                                                                                        | 3253/15000 [2:19:15<7:40:43,  2.35s/it] 22%|██████████████████████████████████████████                                                                                                                                                        | 3254/15000 [2:19:18<7:40:21,  2.35s/it] 22%|██████████████████████████████████████████                                                                                                                                                        | 3255/15000 [2:19:20<7:40:34,  2.35s/it] 22%|██████████████████████████████████████████                                                                                                                                                        | 3256/15000 [2:19:22<7:40:51,  2.35s/it] 22%|██████████████████████████████████████████                                                                                                                                                        | 3257/15000 [2:19:25<7:40:21,  2.35s/it] 22%|██████████████████████████████████████████▏                                                                                                                                                       | 3258/15000 [2:19:27<7:40:12,  2.35s/it] 22%|██████████████████████████████████████████▏                                                                                                                                                       | 3259/15000 [2:19:29<7:40:09,  2.35s/it] 22%|██████████████████████████████████████████▏                                                                                                                                                       | 3260/15000 [2:19:32<7:40:23,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 3.0757, 'grad_norm': 1.796875, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3481.78, 'total_tokens': 26634909, 'epoch': 0.22}
+ 22%|██████████████████████████████████████████▏                                                                                                                                                       | 3260/15000 [2:19:32<7:40:23,  2.35s/it] 22%|██████████████████████████████████████████▏                                                                                                                                                       | 3261/15000 [2:19:34<7:40:33,  2.35s/it] 22%|██████████████████████████████████████████▏                                                                                                                                                       | 3262/15000 [2:19:36<7:40:19,  2.35s/it] 22%|██████████████████████████████████████████▏                                                                                                                                                       | 3263/15000 [2:19:39<7:41:00,  2.36s/it] 22%|██████████████████████████████████████████▏                                                                                                                                                       | 3264/15000 [2:19:41<7:41:07,  2.36s/it] 22%|██████████████████████████████████████████▏                                                                                                                                                       | 3265/15000 [2:19:43<7:40:54,  2.36s/it] 22%|██████████████████████████████████████████▏                                                                                                                                                       | 3266/15000 [2:19:46<7:40:42,  2.36s/it] 22%|██████████████████████████████████████████▎                                                                                                                                                       | 3267/15000 [2:19:48<7:40:36,  2.36s/it] 22%|██████████████████████████████████████████▎                                                                                                                                                       | 3268/15000 [2:19:51<7:40:54,  2.36s/it] 22%|██████████████████████████████████████████▎                                                                                                                                                       | 3269/15000 [2:19:53<7:40:46,  2.36s/it] 22%|██████████████████████████████████████████▎                                                                                                                                                       | 3270/15000 [2:19:55<7:40:27,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 3.0906, 'grad_norm': 1.84375, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3489.24, 'total_tokens': 26716730, 'epoch': 0.22}
+ 22%|██████████████████████████████████████████▎                                                                                                                                                       | 3270/15000 [2:19:55<7:40:27,  2.36s/it] 22%|██████████████████████████████████████████▎                                                                                                                                                       | 3271/15000 [2:19:58<7:40:14,  2.35s/it] 22%|██████████████████████████████████████████▎                                                                                                                                                       | 3272/15000 [2:20:00<7:40:15,  2.35s/it] 22%|██████████████████████████████████████████▎                                                                                                                                                       | 3273/15000 [2:20:02<7:40:17,  2.36s/it] 22%|██████████████████████████████████████████▎                                                                                                                                                       | 3274/15000 [2:20:05<7:39:51,  2.35s/it] 22%|██████████████████████████████████████████▎                                                                                                                                                       | 3275/15000 [2:20:07<7:40:05,  2.35s/it] 22%|██████████████████████████████████████████▎                                                                                                                                                       | 3276/15000 [2:20:09<7:39:31,  2.35s/it] 22%|██████████████████████████████████████████▍                                                                                                                                                       | 3277/15000 [2:20:12<7:39:51,  2.35s/it] 22%|██████████████████████████████████████████▍                                                                                                                                                       | 3278/15000 [2:20:14<7:39:44,  2.35s/it] 22%|██████████████████████████████████████████▍                                                                                                                                                       | 3279/15000 [2:20:16<7:39:47,  2.35s/it] 22%|██████████████████████████████████████████▍                                                                                                                                                       | 3280/15000 [2:20:19<7:39:54,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 3.1725, 'grad_norm': 1.8359375, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3482.94, 'total_tokens': 26798548, 'epoch': 0.22}
+ 22%|██████████████████████████████████████████▍                                                                                                                                                       | 3280/15000 [2:20:19<7:39:54,  2.35s/it] 22%|██████████████████████████████████████████▍                                                                                                                                                       | 3281/15000 [2:20:21<7:39:56,  2.35s/it] 22%|██████████████████████████████████████████▍                                                                                                                                                       | 3282/15000 [2:20:23<7:39:49,  2.35s/it] 22%|██████████████████████████████████████████▍                                                                                                                                                       | 3283/15000 [2:20:26<7:39:34,  2.35s/it] 22%|██████████████████████████████████████████▍                                                                                                                                                       | 3284/15000 [2:20:28<7:39:18,  2.35s/it] 22%|██████████████████████████████████████████▍                                                                                                                                                       | 3285/15000 [2:20:31<7:39:15,  2.35s/it] 22%|██████████████████████████████████████████▍                                                                                                                                                       | 3286/15000 [2:20:33<7:39:54,  2.36s/it] 22%|██████████████████████████████████████████▌                                                                                                                                                       | 3287/15000 [2:20:35<7:39:32,  2.35s/it] 22%|██████████████████████████████████████████▌                                                                                                                                                       | 3288/15000 [2:20:38<7:39:15,  2.35s/it] 22%|██████████████████████████████████████████▌                                                                                                                                                       | 3289/15000 [2:20:40<7:39:02,  2.35s/it] 22%|██████████████████████████████████████████▌                                                                                                                                                       | 3290/15000 [2:20:42<7:39:26,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 3.1458, 'grad_norm': 1.7734375, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3478.46, 'total_tokens': 26880371, 'epoch': 0.22}
+ 22%|██████████████████████████████████████████▌                                                                                                                                                       | 3290/15000 [2:20:42<7:39:26,  2.35s/it] 22%|██████████████████████████████████████████▌                                                                                                                                                       | 3291/15000 [2:20:45<7:39:39,  2.36s/it] 22%|██████████████████████████████████████████▌                                                                                                                                                       | 3292/15000 [2:20:47<7:39:49,  2.36s/it] 22%|██████████████████████████████████████████▌                                                                                                                                                       | 3293/15000 [2:20:49<7:39:20,  2.35s/it] 22%|██████████████████████████████████████████▌                                                                                                                                                       | 3294/15000 [2:20:52<7:39:04,  2.35s/it] 22%|████████████���█████████████████████████████▌                                                                                                                                                       | 3295/15000 [2:20:54<7:39:32,  2.36s/it] 22%|██████████████████████████████████████████▋                                                                                                                                                       | 3296/15000 [2:20:56<7:39:34,  2.36s/it] 22%|██████████████████████████████████████████▋                                                                                                                                                       | 3297/15000 [2:20:59<7:39:57,  2.36s/it] 22%|██████████████████████████████████████████▋                                                                                                                                                       | 3298/15000 [2:21:01<7:39:18,  2.36s/it] 22%|██████████████████████████████████████████▋                                                                                                                                                       | 3299/15000 [2:21:04<7:39:23,  2.36s/it] 22%|██████████████████████████████████████████▋                                                                                                                                                       | 3300/15000 [2:21:06<7:39:38,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 3.0845, 'grad_norm': 2.625, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3475.07, 'total_tokens': 26962165, 'epoch': 0.22}
+ 22%|██████████████████████████████████████████▋                                                                                                                                                       | 3300/15000 [2:21:06<7:39:38,  2.36s/it] 22%|██████████████████████████████████████████▋                                                                                                                                                       | 3301/15000 [2:21:08<7:39:29,  2.36s/it] 22%|██████████████████████████████████████████▋                                                                                                                                                       | 3302/15000 [2:21:11<7:39:33,  2.36s/it] 22%|██████████████████████████████████████████▋                                                                                                                                                       | 3303/15000 [2:21:13<7:39:16,  2.36s/it] 22%|██████████████████████████████████████████▋                                                                                                                                                       | 3304/15000 [2:21:15<7:38:52,  2.35s/it] 22%|██████████████████████████████████████████▋                                                                                                                                                       | 3305/15000 [2:21:18<7:39:14,  2.36s/it] 22%|██████████████████████████████████████████▊                                                                                                                                                       | 3306/15000 [2:21:20<7:38:33,  2.35s/it] 22%|██████████████████████████████████████████▊                                                                                                                                                       | 3307/15000 [2:21:22<7:38:32,  2.35s/it] 22%|████████████████████████████��█████████████▊                                                                                                                                                       | 3308/15000 [2:21:25<7:38:07,  2.35s/it] 22%|██████████████████████████████████████████▊                                                                                                                                                       | 3309/15000 [2:21:27<7:38:14,  2.35s/it] 22%|██████████████████████████████████████████▊                                                                                                                                                       | 3310/15000 [2:21:29<7:38:14,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 3.1391, 'grad_norm': 1.765625, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3485.98, 'total_tokens': 27043922, 'epoch': 0.22}
+ 22%|██████████████████████████████████████████▊                                                                                                                                                       | 3310/15000 [2:21:29<7:38:14,  2.35s/it] 22%|██████████████████████████████████████████▊                                                                                                                                                       | 3311/15000 [2:21:32<7:37:55,  2.35s/it] 22%|██████████████████████████████████████████▊                                                                                                                                                       | 3312/15000 [2:21:34<7:37:56,  2.35s/it] 22%|██████████████████████████████████████████▊                                                                                                                                                       | 3313/15000 [2:21:36<7:38:05,  2.35s/it] 22%|██████████████████████████████████████████▊                                                                                                                                                       | 3314/15000 [2:21:39<8:06:06,  2.50s/it] 22%|██████████████████████████████████████████▊                                                                                                                                                       | 3315/15000 [2:21:42<7:57:28,  2.45s/it] 22%|██████████████████████████████████████████▉                                                                                                                                                       | 3316/15000 [2:21:44<7:51:35,  2.42s/it] 22%|██████████████████████████████████████████▉                                                                                                                                                       | 3317/15000 [2:21:46<7:47:44,  2.40s/it] 22%|██████████████████████████████████████████▉                                                                                                                                                       | 3318/15000 [2:21:49<7:45:06,  2.39s/it] 22%|██████████████████████████████████████████▉                                                                                                                                                       | 3319/15000 [2:21:51<7:42:36,  2.38s/it] 22%|██████████████████████████████████████████▉                                                                                                                                                       | 3320/15000 [2:21:53<7:41:17,  2.37s/it]                                                                                                                                                                                                                                                {'loss': 3.1287, 'grad_norm': 1.984375, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3484.84, 'total_tokens': 27125727, 'epoch': 0.22}
+ 22%|██████████████████████████████████████████▉                                                                                                                                                       | 3320/15000 [2:21:53<7:41:17,  2.37s/it] 22%|██████████████████████████████████████████▉                                                                                                                                                       | 3321/15000 [2:21:56<7:40:19,  2.36s/it] 22%|██████████████████████████████████████████▉                                                                                                                                                       | 3322/15000 [2:21:58<7:39:38,  2.36s/it] 22%|██████████████████████████████████████████▉                                                                                                                                                       | 3323/15000 [2:22:00<7:39:14,  2.36s/it] 22%|██████████████████████████████████████████▉                                                                                                                                                       | 3324/15000 [2:22:03<7:38:50,  2.36s/it] 22%|███████████████████████████████████████████                                                                                                                                                       | 3325/15000 [2:22:05<7:38:12,  2.35s/it] 22%|███████████████████████████████████████████                                                                                                                                                       | 3326/15000 [2:22:08<7:37:53,  2.35s/it] 22%|███████████████████████████████████████████                                                                                                                                                       | 3327/15000 [2:22:10<7:37:54,  2.35s/it] 22%|███████████████████████████████████████████                                                                                                                                                       | 3328/15000 [2:22:12<7:37:53,  2.35s/it] 22%|███████████████████████████████████████████                                                                                                                                                       | 3329/15000 [2:22:15<7:37:30,  2.35s/it] 22%|███████████████████████████████████████████                                                                                                                                                       | 3330/15000 [2:22:17<7:38:04,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 3.0664, 'grad_norm': 1.8671875, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3473.22, 'total_tokens': 27207535, 'epoch': 0.22}
+ 22%|███████████████████████████████████████████                                                                                                                                                       | 3330/15000 [2:22:17<7:38:04,  2.36s/it] 22%|███████████████████████████████████████████                                                                                                                                                       | 3331/15000 [2:22:19<7:38:19,  2.36s/it] 22%|██��████████████████████████████████████████                                                                                                                                                       | 3332/15000 [2:22:22<7:37:54,  2.35s/it] 22%|███████████████████████████████████████████                                                                                                                                                       | 3333/15000 [2:22:24<7:37:56,  2.36s/it] 22%|███████████████████████████████████████████                                                                                                                                                       | 3334/15000 [2:22:26<7:38:06,  2.36s/it] 22%|███████████████████████████████████████████▏                                                                                                                                                      | 3335/15000 [2:22:29<7:37:37,  2.35s/it] 22%|███████████████████████████████████████████▏                                                                                                                                                      | 3336/15000 [2:22:31<7:38:02,  2.36s/it] 22%|███████████████████████████████████████████▏                                                                                                                                                      | 3337/15000 [2:22:33<7:37:45,  2.35s/it] 22%|███████████████████████████████████████████▏                                                                                                                                                      | 3338/15000 [2:22:36<7:37:18,  2.35s/it] 22%|███████████████████████████████████████████▏                                                                                                                                                      | 3339/15000 [2:22:38<7:37:05,  2.35s/it] 22%|███████████████████████████████████████████▏                                                                                                                                                      | 3340/15000 [2:22:40<7:37:23,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 3.0527, 'grad_norm': 1.6796875, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3480.19, 'total_tokens': 27289341, 'epoch': 0.22}
+ 22%|███████████████████████████████████████████▏                                                                                                                                                      | 3340/15000 [2:22:40<7:37:23,  2.35s/it] 22%|███████████████████████████████████████████▏                                                                                                                                                      | 3341/15000 [2:22:43<7:37:46,  2.36s/it] 22%|███████████████████████████████████████████▏                                                                                                                                                      | 3342/15000 [2:22:45<7:37:26,  2.35s/it] 22%|███████████████████████████████████████████▏                                                                                                                                                      | 3343/15000 [2:22:48<7:37:04,  2.35s/it] 22%|███████████████████████████████████████████▏                                                                                                                                                      | 3344/15000 [2:22:50<7:37:14,  2.35s/it] 22%|██████████���████████████████████████████████▎                                                                                                                                                      | 3345/15000 [2:22:52<7:37:32,  2.36s/it] 22%|███████████████████████████████████████████▎                                                                                                                                                      | 3346/15000 [2:22:55<7:37:56,  2.36s/it] 22%|███████████████████████████████████████████▎                                                                                                                                                      | 3347/15000 [2:22:57<7:37:51,  2.36s/it] 22%|███████████████████████████████████████████▎                                                                                                                                                      | 3348/15000 [2:22:59<7:37:16,  2.35s/it] 22%|███████████████████████████████████████████▎                                                                                                                                                      | 3349/15000 [2:23:02<7:37:20,  2.36s/it] 22%|███████████████████████████████████████████▎                                                                                                                                                      | 3350/15000 [2:23:04<7:36:51,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 3.0477, 'grad_norm': 1.78125, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3494.36, 'total_tokens': 27371125, 'epoch': 0.22}
+ 22%|███████████████████████████████████████████▎                                                                                                                                                      | 3350/15000 [2:23:04<7:36:51,  2.35s/it] 22%|███████████████████████████████████████████▎                                                                                                                                                      | 3351/15000 [2:23:06<7:37:15,  2.36s/it] 22%|███████████████████████████████████████████▎                                                                                                                                                      | 3352/15000 [2:23:09<7:36:41,  2.35s/it] 22%|███████████████████████████████████████████▎                                                                                                                                                      | 3353/15000 [2:23:11<7:37:04,  2.35s/it] 22%|███████████████████████████████████████████▍                                                                                                                                                      | 3354/15000 [2:23:13<7:36:31,  2.35s/it] 22%|███████████████████████████████████████████▍                                                                                                                                                      | 3355/15000 [2:23:16<7:36:25,  2.35s/it] 22%|███████████████████████████████████████████▍                                                                                                                                                      | 3356/15000 [2:23:18<7:36:44,  2.35s/it] 22%|███████████████████████████████████████████▍                                                                                                                                                      | 3357/15000 [2:23:20<7:36:16,  2.35s/it] 22%|████████████████��██████████████████████████▍                                                                                                                                                      | 3358/15000 [2:23:23<7:36:34,  2.35s/it] 22%|███████████████████████████████████████████▍                                                                                                                                                      | 3359/15000 [2:23:25<7:36:58,  2.36s/it] 22%|███████████████████████████████████████████▍                                                                                                                                                      | 3360/15000 [2:23:28<7:36:23,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 3.1115, 'grad_norm': 1.890625, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3496.98, 'total_tokens': 27452913, 'epoch': 0.22}
+ 22%|███████████████████████████████████████████▍                                                                                                                                                      | 3360/15000 [2:23:28<7:36:23,  2.35s/it] 22%|███████████████████████████████████████████▍                                                                                                                                                      | 3361/15000 [2:23:30<7:36:40,  2.35s/it] 22%|███████████████████████████████████████████▍                                                                                                                                                      | 3362/15000 [2:23:32<7:36:37,  2.35s/it] 22%|███████████████████████████████████████████▍                                                                                                                                                      | 3363/15000 [2:23:35<7:36:29,  2.35s/it] 22%|███████████████████████████████████████████▌                                                                                                                                                      | 3364/15000 [2:23:37<7:36:28,  2.35s/it] 22%|███████████████████████████████████████████▌                                                                                                                                                      | 3365/15000 [2:23:39<7:36:30,  2.35s/it] 22%|███████████████████████████████████████████▌                                                                                                                                                      | 3366/15000 [2:23:42<7:36:31,  2.35s/it] 22%|███████████████████████████████████████████▌                                                                                                                                                      | 3367/15000 [2:23:44<7:36:27,  2.35s/it] 22%|███████████████████████████████████████████▌                                                                                                                                                      | 3368/15000 [2:23:46<7:36:15,  2.35s/it] 22%|███████████████████████████████████████████▌                                                                                                                                                      | 3369/15000 [2:23:49<7:36:06,  2.35s/it] 22%|███████████████████████████████████████████▌                                                                                                                                                      | 3370/15000 [2:23:51<7:36:07,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 3.0931, 'grad_norm': 1.6796875, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3485.45, 'total_tokens': 27534713, 'epoch': 0.22}
+ 22%|███████████████████████████████████████████▌                                                                                                                                                      | 3370/15000 [2:23:51<7:36:07,  2.35s/it] 22%|███████████████████████████████████████████▌                                                                                                                                                      | 3371/15000 [2:23:53<7:36:10,  2.35s/it] 22%|███████████████████████████████████████████▌                                                                                                                                                      | 3372/15000 [2:23:56<7:36:18,  2.35s/it] 22%|███████████████████████████████████████████▌                                                                                                                                                      | 3373/15000 [2:23:58<7:36:31,  2.36s/it] 22%|███████████████████████████████████████████▋                                                                                                                                                      | 3374/15000 [2:24:00<7:35:31,  2.35s/it] 22%|███████████████████████████████████████████▋                                                                                                                                                      | 3375/15000 [2:24:03<7:35:26,  2.35s/it] 23%|███████████████████████████████████████████▋                                                                                                                                                      | 3376/15000 [2:24:05<7:35:37,  2.35s/it] 23%|███████████████████████████████████████████▋                                                                                                                                                      | 3377/15000 [2:24:08<7:36:00,  2.35s/it] 23%|███████████████████████████████████████████▋                                                                                                                                                      | 3378/15000 [2:24:10<7:36:11,  2.36s/it] 23%|███████████████████████████████████████████▋                                                                                                                                                      | 3379/15000 [2:24:12<7:36:16,  2.36s/it] 23%|███████████████████████████████████████████▋                                                                                                                                                      | 3380/15000 [2:24:15<7:35:53,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 3.0584, 'grad_norm': 1.734375, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3486.64, 'total_tokens': 27616396, 'epoch': 0.23}
+ 23%|███████████████████████████████████████████▋                                                                                                                                                      | 3380/15000 [2:24:15<7:35:53,  2.35s/it] 23%|███████████████████████████████████████████▋                                                                                                                                                      | 3381/15000 [2:24:17<7:35:41,  2.35s/it] 23%|███████████████████████████████████████████▋                                                                                                                                                      | 3382/15000 [2:24:19<7:35:54,  2.35s/it] 23%|███████████████████████████████████████████▊                                                                                                                                                      | 3383/15000 [2:24:22<7:35:52,  2.35s/it] 23%|███████████████████████████████████████████▊                                                                                                                                                      | 3384/15000 [2:24:24<7:36:23,  2.36s/it] 23%|███████████████████████████████████████████▊                                                                                                                                                      | 3385/15000 [2:24:26<7:36:05,  2.36s/it] 23%|███████████████████████████████████████████▊                                                                                                                                                      | 3386/15000 [2:24:29<7:36:05,  2.36s/it] 23%|███████████████████████████████████████████▊                                                                                                                                                      | 3387/15000 [2:24:31<7:35:57,  2.36s/it] 23%|███████████████████████████████████████████▊                                                                                                                                                      | 3388/15000 [2:24:33<7:35:54,  2.36s/it] 23%|███████████████████████████████████████████▊                                                                                                                                                      | 3389/15000 [2:24:36<7:35:49,  2.36s/it] 23%|███████████████████████████████████████████▊                                                                                                                                                      | 3390/15000 [2:24:38<7:35:28,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 3.1256, 'grad_norm': 1.765625, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3489.64, 'total_tokens': 27698158, 'epoch': 0.23}
+ 23%|███████████████████████████████████████████▊                                                                                                                                                      | 3390/15000 [2:24:38<7:35:28,  2.35s/it] 23%|███████████████████████████████████████████▊                                                                                                                                                      | 3391/15000 [2:24:41<7:35:20,  2.35s/it] 23%|███████████████████████████████████████████▊                                                                                                                                                      | 3392/15000 [2:24:43<7:35:09,  2.35s/it] 23%|███████████████████████████████████████████▉                                                                                                                                                      | 3393/15000 [2:24:45<7:35:07,  2.35s/it] 23%|███████████████████████████████████████████▉                                                                                                                                                      | 3394/15000 [2:24:48<7:35:31,  2.35s/it] 23%|███████████████████████████████████████████▉                                                                                                                                                      | 3395/15000 [2:24:50<7:35:21,  2.35s/it] 23%|███████████████████████████████████████████▉                                                                                                                                                      | 3396/15000 [2:24:52<7:35:34,  2.36s/it] 23%|███████████████████████████████████████████▉                                                                                                                                                      | 3397/15000 [2:24:55<7:35:22,  2.35s/it] 23%|███████████████████████████████████████████▉                                                                                                                                                      | 3398/15000 [2:24:57<7:35:28,  2.36s/it] 23%|███████████████████████████████████████████▉                                                                                                                                                      | 3399/15000 [2:24:59<7:35:59,  2.36s/it] 23%|███████████████████████████████████████████▉                                                                                                                                                      | 3400/15000 [2:25:02<7:35:33,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 3.0801, 'grad_norm': 1.8046875, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3484.08, 'total_tokens': 27779850, 'epoch': 0.23}
+ 23%|███████████████████████████████████████████▉                                                                                                                                                      | 3400/15000 [2:25:02<7:35:33,  2.36s/it] 23%|███████████████████████████████████████████▉                                                                                                                                                      | 3401/15000 [2:25:04<7:35:33,  2.36s/it] 23%|███████████████████████████████████████████▉                                                                                                                                                      | 3402/15000 [2:25:06<7:35:03,  2.35s/it] 23%|████████████████████████████████████████████                                                                                                                                                      | 3403/15000 [2:25:09<7:35:02,  2.35s/it] 23%|████████████████████████████████████████████                                                                                                                                                      | 3404/15000 [2:25:11<7:35:02,  2.35s/it] 23%|████████████████████████████████████████████                                                                                                                                                      | 3405/15000 [2:25:14<7:35:14,  2.36s/it] 23%|████████████████████████████████████████████                                                                                                                                                      | 3406/15000 [2:25:16<7:34:57,  2.35s/it] 23%|████████████████████████████████████████████                                                                                                                                                      | 3407/15000 [2:25:18<7:34:33,  2.35s/it] 23%|████████████████████████████████████████████                                                                                                                                                      | 3408/15000 [2:25:21<7:34:35,  2.35s/it] 23%|████████████████████████████████████████████                                                                                                                                                      | 3409/15000 [2:25:23<7:34:41,  2.35s/it] 23%|████████████████████████████████████████████                                                                                                                                                      | 3410/15000 [2:25:25<7:34:21,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 3.0618, 'grad_norm': 1.8046875, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3490.06, 'total_tokens': 27861575, 'epoch': 0.23}
+ 23%|████████████████████████████████████████████                                                                                                                                                      | 3410/15000 [2:25:25<7:34:21,  2.35s/it] 23%|████████████████████████████████████████████                                                                                                                                                      | 3411/15000 [2:25:28<7:34:23,  2.35s/it] 23%|████████████████████████████████████████████▏                                                                                                                                                     | 3412/15000 [2:25:30<7:34:46,  2.35s/it] 23%|████████████████████████████████████████████▏                                                                                                                                                     | 3413/15000 [2:25:32<7:34:46,  2.35s/it] 23%|████████████████████████████████████████████▏                                                                                                                                                     | 3414/15000 [2:25:35<7:34:16,  2.35s/it] 23%|████████████████████████████████████████████▏                                                                                                                                                     | 3415/15000 [2:25:37<7:34:35,  2.35s/it] 23%|████████████████████████████████████████████▏                                                                                                                                                     | 3416/15000 [2:25:39<7:34:48,  2.36s/it] 23%|████████████████████████████████████████████▏                                                                                                                                                     | 3417/15000 [2:25:42<7:34:26,  2.35s/it] 23%|████████████████████████████████████████████▏                                                                                                                                                     | 3418/15000 [2:25:44<7:34:59,  2.36s/it] 23%|████████████████████████████████████████████▏                                                                                                                                                     | 3419/15000 [2:25:46<7:35:06,  2.36s/it] 23%|████████████████████████████████████████████▏                                                                                                                                                     | 3420/15000 [2:25:49<7:34:59,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 3.0418, 'grad_norm': 1.84375, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3476.99, 'total_tokens': 27943270, 'epoch': 0.23}
+ 23%|████████████████████████████████████████████▏                                                                                                                                                     | 3420/15000 [2:25:49<7:34:59,  2.36s/it] 23%|████████████████████████████████████████████▏                                                                                                                                                     | 3421/15000 [2:25:51<7:34:58,  2.36s/it] 23%|████████████████████████████████████████████▎                                                                                                                                                     | 3422/15000 [2:25:54<7:35:02,  2.36s/it] 23%|████████████████████████████████████████████▎                                                                                                                                                     | 3423/15000 [2:25:56<7:35:01,  2.36s/it] 23%|████████████████████████████████████████████▎                                                                                                                                                     | 3424/15000 [2:25:58<7:34:32,  2.36s/it] 23%|████████████████████████████████████████████▎                                                                                                                                                     | 3425/15000 [2:26:01<7:34:52,  2.36s/it] 23%|████████████████████████████████████████████▎                                                                                                                                                     | 3426/15000 [2:26:03<7:34:36,  2.36s/it] 23%|████████████████████████████████████████████▎                                                                                                                                                     | 3427/15000 [2:26:05<7:34:17,  2.36s/it] 23%|████████████████████████████████████████████▎                                                                                                                                                     | 3428/15000 [2:26:08<7:34:12,  2.36s/it] 23%|████████████████████████████████████████████▎                                                                                                                                                     | 3429/15000 [2:26:10<7:34:25,  2.36s/it] 23%|████████████████████████████████████████████▎                                                                                                                                                     | 3430/15000 [2:26:12<7:33:45,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 3.069, 'grad_norm': 2.46875, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3492.83, 'total_tokens': 28024955, 'epoch': 0.23}
+ 23%|████████████████████████████████████████████▎                                                                                                                                                     | 3430/15000 [2:26:12<7:33:45,  2.35s/it] 23%|████████████████████████████████████████████▎                                                                                                                                                     | 3431/15000 [2:26:15<7:34:17,  2.36s/it] 23%|████████████████████████████████████████████▍                                                                                                                                                     | 3432/15000 [2:26:17<7:34:15,  2.36s/it] 23%|████████████████████████████████████████████▍                                                                                                                                                     | 3433/15000 [2:26:19<7:34:17,  2.36s/it] 23%|████████████████████████████████████████████▍                                                                                                                                                     | 3434/15000 [2:26:22<7:34:22,  2.36s/it] 23%|████████████████████████████████████████████▍                                                                                                                                                     | 3435/15000 [2:26:24<7:34:18,  2.36s/it] 23%|████████████████████████████████████████████▍                                                                                                                                                     | 3436/15000 [2:26:27<7:34:09,  2.36s/it] 23%|████████████████████████████████████████████▍                                                                                                                                                     | 3437/15000 [2:26:29<7:33:51,  2.36s/it] 23%|████████████████████████████████████████████▍                                                                                                                                                     | 3438/15000 [2:26:31<7:33:57,  2.36s/it] 23%|████████████████████████████████████████████▍                                                                                                                                                     | 3439/15000 [2:26:34<7:34:10,  2.36s/it] 23%|████████████████████████████████████████████▍                                                                                                                                                     | 3440/15000 [2:26:36<7:33:21,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 3.0655, 'grad_norm': 1.7578125, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3497.7, 'total_tokens': 28106673, 'epoch': 0.23}
+ 23%|████████████████████████████████████████████▍                                                                                                                                                     | 3440/15000 [2:26:36<7:33:21,  2.35s/it] 23%|████████████████████████████████████████████▌                                                                                                                                                     | 3441/15000 [2:26:38<7:33:03,  2.35s/it] 23%|████████████████████████████████████████████▌                                                                                                                                                     | 3442/15000 [2:26:41<7:33:05,  2.35s/it] 23%|████████████████████████████████████████████▌                                                                                                                                                     | 3443/15000 [2:26:43<7:32:48,  2.35s/it] 23%|█████████████████████████████████��██████████▌                                                                                                                                                     | 3444/15000 [2:26:45<7:32:52,  2.35s/it] 23%|████████████████████████████████████████████▌                                                                                                                                                     | 3445/15000 [2:26:48<7:32:42,  2.35s/it] 23%|████████████████████████████████████████████▌                                                                                                                                                     | 3446/15000 [2:26:50<7:32:28,  2.35s/it] 23%|████████████████████████████████████████████▌                                                                                                                                                     | 3447/15000 [2:26:52<7:32:36,  2.35s/it] 23%|████████████████████████████████████████████▌                                                                                                                                                     | 3448/15000 [2:26:55<7:32:52,  2.35s/it] 23%|████████████████████████████████████████████▌                                                                                                                                                     | 3449/15000 [2:26:57<7:32:53,  2.35s/it] 23%|████████████████████████████████████████████▌                                                                                                                                                     | 3450/15000 [2:26:59<7:33:13,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 3.0429, 'grad_norm': 1.828125, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3475.34, 'total_tokens': 28188414, 'epoch': 0.23}
+ 23%|████████████████████████████████████████████▌                                                                                                                                                     | 3450/15000 [2:26:59<7:33:13,  2.35s/it] 23%|████████████████████████████████████████████▋                                                                                                                                                     | 3451/15000 [2:27:02<7:33:15,  2.35s/it] 23%|████████████████████████████████████████████▋                                                                                                                                                     | 3452/15000 [2:27:04<7:32:53,  2.35s/it] 23%|████████████████████████████████████████████▋                                                                                                                                                     | 3453/15000 [2:27:07<7:32:53,  2.35s/it] 23%|████████████████████████████████████████████▋                                                                                                                                                     | 3454/15000 [2:27:09<7:32:14,  2.35s/it] 23%|████████████████████████████████████████████▋                                                                                                                                                     | 3455/15000 [2:27:11<7:32:27,  2.35s/it] 23%|████████████████████████████████████████████▋                                                                                                                                                     | 3456/15000 [2:27:14<7:32:38,  2.35s/it] 23%|██████████████████████████████���█████████████▋                                                                                                                                                     | 3457/15000 [2:27:16<7:32:42,  2.35s/it] 23%|████████████████████████████████████████████▋                                                                                                                                                     | 3458/15000 [2:27:18<7:33:27,  2.36s/it] 23%|████████████████████████████████████████████▋                                                                                                                                                     | 3459/15000 [2:27:21<7:32:54,  2.35s/it] 23%|████████████████████████████████████████████▋                                                                                                                                                     | 3460/15000 [2:27:23<7:33:03,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.9957, 'grad_norm': 1.7890625, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3476.49, 'total_tokens': 28270149, 'epoch': 0.23}
+ 23%|████████████████████████████████████████████▋                                                                                                                                                     | 3460/15000 [2:27:23<7:33:03,  2.36s/it] 23%|████████████████████████████████████████████▊                                                                                                                                                     | 3461/15000 [2:27:25<7:33:09,  2.36s/it] 23%|████████████████████████████████████████████▊                                                                                                                                                     | 3462/15000 [2:27:28<7:33:07,  2.36s/it] 23%|████████████████████████████████████████████▊                                                                                                                                                     | 3463/15000 [2:27:30<7:33:13,  2.36s/it] 23%|████████████████████████████████████████████▊                                                                                                                                                     | 3464/15000 [2:27:32<7:32:42,  2.35s/it] 23%|████████████████████████████████████████████▊                                                                                                                                                     | 3465/15000 [2:27:35<7:33:09,  2.36s/it] 23%|████████████████████████████████████████████▊                                                                                                                                                     | 3466/15000 [2:27:37<7:32:53,  2.36s/it] 23%|████████████████████████████████████████████▊                                                                                                                                                     | 3467/15000 [2:27:39<7:32:50,  2.36s/it] 23%|████████████████████████████████████████████▊                                                                                                                                                     | 3468/15000 [2:27:42<7:32:36,  2.35s/it] 23%|████████████████████████████████████████████▊                                                                                                                                                     | 3469/15000 [2:27:44<7:32:37,  2.36s/it] 23%|██████████████████████████��█████████████████▉                                                                                                                                                     | 3470/15000 [2:27:47<7:31:57,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 3.0213, 'grad_norm': 2.109375, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3494.04, 'total_tokens': 28351808, 'epoch': 0.23}
+ 23%|████████████████████████████████████████████▉                                                                                                                                                     | 3470/15000 [2:27:47<7:31:57,  2.35s/it] 23%|████████████████████████████████████████████▉                                                                                                                                                     | 3471/15000 [2:27:49<7:32:10,  2.35s/it] 23%|████████████████████████████████████████████▉                                                                                                                                                     | 3472/15000 [2:27:51<7:32:03,  2.35s/it] 23%|████████████████████████████████████████████▉                                                                                                                                                     | 3473/15000 [2:27:54<7:32:09,  2.35s/it] 23%|████████████████████████████████████████████▉                                                                                                                                                     | 3474/15000 [2:27:56<7:31:59,  2.35s/it] 23%|████████████████████████████████████████████▉                                                                                                                                                     | 3475/15000 [2:27:58<7:32:08,  2.35s/it] 23%|████████████████████████████████████████████▉                                                                                                                                                     | 3476/15000 [2:28:01<7:32:02,  2.35s/it] 23%|████████████████████████████████████████████▉                                                                                                                                                     | 3477/15000 [2:28:03<7:32:04,  2.35s/it] 23%|████████████████████████████████████████████▉                                                                                                                                                     | 3478/15000 [2:28:05<7:32:04,  2.35s/it] 23%|████████████████████████████████████████████▉                                                                                                                                                     | 3479/15000 [2:28:08<7:31:48,  2.35s/it] 23%|█████████████████████████████████████████████                                                                                                                                                     | 3480/15000 [2:28:10<7:31:48,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 3.1396, 'grad_norm': 1.8046875, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3482.39, 'total_tokens': 28433525, 'epoch': 0.23}
+ 23%|█████████████████████████████████████████████                                                                                                                                                     | 3480/15000 [2:28:10<7:31:48,  2.35s/it] 23%|█████████████████████████████████████████████                                                                                                                                                     | 3481/15000 [2:28:12<7:32:05,  2.35s/it] 23%|█████████████████████████████████████████████                                                                                                                                                     | 3482/15000 [2:28:15<7:32:05,  2.36s/it] 23%|█████████████████████████████████████████████                                                                                                                                                     | 3483/15000 [2:28:17<7:31:56,  2.35s/it] 23%|█████████████████████████████████████████████                                                                                                                                                     | 3484/15000 [2:28:20<7:31:50,  2.35s/it] 23%|█████████████████████████████████████████████                                                                                                                                                     | 3485/15000 [2:28:22<7:31:59,  2.36s/it] 23%|█████████████████████████████████████████████                                                                                                                                                     | 3486/15000 [2:28:24<7:31:32,  2.35s/it] 23%|█████████████████████████████████████████████                                                                                                                                                     | 3487/15000 [2:28:27<7:31:08,  2.35s/it] 23%|█████████████████████████████████████████████                                                                                                                                                     | 3488/15000 [2:28:29<7:31:24,  2.35s/it] 23%|█████████████████████████████████████████████                                                                                                                                                     | 3489/15000 [2:28:31<7:31:23,  2.35s/it] 23%|█████████████████████████████████████████████▏                                                                                                                                                    | 3490/15000 [2:28:34<7:31:24,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 3.0894, 'grad_norm': 1.796875, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3482.52, 'total_tokens': 28515250, 'epoch': 0.23}
+ 23%|█████████████████████████████████████████████▏                                                                                                                                                    | 3490/15000 [2:28:34<7:31:24,  2.35s/it] 23%|█████████████████████████████████████████████▏                                                                                                                                                    | 3491/15000 [2:28:36<7:31:43,  2.35s/it] 23%|█████████████████████████████████████████████▏                                                                                                                                                    | 3492/15000 [2:28:38<7:31:23,  2.35s/it] 23%|█████████████████████████████████████████████▏                                                                                                                                                    | 3493/15000 [2:28:41<7:31:41,  2.36s/it] 23%|█████████████████████████████████████████████▏                                                                                                                                                    | 3494/15000 [2:28:43<7:31:29,  2.35s/it] 23%|█████████████████████████████████████████████▏                                                                                                                                                    | 3495/15000 [2:28:45<7:31:09,  2.35s/it] 23%|█████████████████████████████████████████████▏                                                                                                                                                    | 3496/15000 [2:28:48<7:30:38,  2.35s/it] 23%|█████████████████████████████████████████████▏                                                                                                                                                    | 3497/15000 [2:28:50<7:30:54,  2.35s/it] 23%|█████████████████████████████████████████████▏                                                                                                                                                    | 3498/15000 [2:28:52<7:31:04,  2.35s/it] 23%|█████████████████████████████████████████████▎                                                                                                                                                    | 3499/15000 [2:28:55<7:31:27,  2.36s/it] 23%|█████████████████████████████████████████████▎                                                                                                                                                    | 3500/15000 [2:28:57<7:30:57,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 3.0532, 'grad_norm': 1.6953125, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3487.51, 'total_tokens': 28596865, 'epoch': 0.23}
+ 23%|█████████████████████████████████████████████▎                                                                                                                                                    | 3500/15000 [2:28:57<7:30:57,  2.35s/it] 23%|█████████████████████████████████████████████▎                                                                                                                                                    | 3501/15000 [2:29:00<7:31:29,  2.36s/it] 23%|█████████████████████████████████████████████▎                                                                                                                                                    | 3502/15000 [2:29:02<7:31:02,  2.35s/it] 23%|█████████████████████████████████████████████▎                                                                                                                                                    | 3503/15000 [2:29:04<7:30:59,  2.35s/it] 23%|█████████████████████████████████████████████▎                                                                                                                                                    | 3504/15000 [2:29:07<7:30:50,  2.35s/it] 23%|█████████████████████████████████████████████▎                                                                                                                                                    | 3505/15000 [2:29:09<7:30:58,  2.35s/it] 23%|█████████████████████████████████████████████▎                                                                                                                                                    | 3506/15000 [2:29:11<7:31:03,  2.35s/it] 23%|█████████████████████████████████████████████▎                                                                                                                                                    | 3507/15000 [2:29:14<7:31:07,  2.36s/it] 23%|█████████████████████████████████████████████▎                                                                                                                                                    | 3508/15000 [2:29:16<7:31:23,  2.36s/it] 23%|█████████████████████████████████████████████▍                                                                                                                                                    | 3509/15000 [2:29:18<7:31:18,  2.36s/it] 23%|█████████████████████████████████████████████▍                                                                                                                                                    | 3510/15000 [2:29:21<7:31:13,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 3.106, 'grad_norm': 1.765625, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3474.44, 'total_tokens': 28678475, 'epoch': 0.23}
+ 23%|█████████████████████████████████████████████▍                                                                                                                                                    | 3510/15000 [2:29:21<7:31:13,  2.36s/it] 23%|█████████████████████████████████████████████▍                                                                                                                                                    | 3511/15000 [2:29:23<7:31:41,  2.36s/it] 23%|█████████████████████████████████████████████▍                                                                                                                                                    | 3512/15000 [2:29:25<7:31:37,  2.36s/it] 23%|█████████████████████████████████████████████▍                                                                                                                                                    | 3513/15000 [2:29:28<7:31:20,  2.36s/it] 23%|█████████████████████████████████████████████▍                                                                                                                                                    | 3514/15000 [2:29:30<7:30:58,  2.36s/it] 23%|█████████████████████████████████████████████▍                                                                                                                                                    | 3515/15000 [2:29:32<7:30:40,  2.35s/it] 23%|█████████████████████████████████████████████▍                                                                                                                                                    | 3516/15000 [2:29:35<7:30:20,  2.35s/it] 23%|█████████████████████████████████████████████▍                                                                                                                                                    | 3517/15000 [2:29:37<7:30:17,  2.35s/it] 23%|█████████████████████████████████████████████▍                                                                                                                                                    | 3518/15000 [2:29:40<7:30:08,  2.35s/it] 23%|█████████████████████████████████████████████▌                                                                                                                                                    | 3519/15000 [2:29:42<7:29:25,  2.35s/it] 23%|█████████████████████████████████████████████▌                                                                                                                                                    | 3520/15000 [2:29:44<7:29:51,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 3.0575, 'grad_norm': 1.71875, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3463.76, 'total_tokens': 28759862, 'epoch': 0.23}
+ 23%|█████████████████████████████████████████████▌                                                                                                                                                    | 3520/15000 [2:29:44<7:29:51,  2.35s/it] 23%|█████████████████████████████████████████████▌                                                                                                                                                    | 3521/15000 [2:29:47<7:29:33,  2.35s/it] 23%|█████████████████████████████████████████████▌                                                                                                                                                    | 3522/15000 [2:29:49<7:29:29,  2.35s/it] 23%|█████████████████████████████████████████████▌                                                                                                                                                    | 3523/15000 [2:29:51<7:29:19,  2.35s/it] 23%|█████████████████████████████████████████████▌                                                                                                                                                    | 3524/15000 [2:29:54<7:28:57,  2.35s/it] 24%|█████████████████████████████████████████████▌                                                                                                                                                    | 3525/15000 [2:29:56<7:29:05,  2.35s/it] 24%|█████████████████████████████████████████████▌                                                                                                                                                    | 3526/15000 [2:29:58<7:29:28,  2.35s/it] 24%|█████████████████████████████████████████████▌                                                                                                                                                    | 3527/15000 [2:30:01<7:29:11,  2.35s/it] 24%|█████████████████████████████████████████████▋                                                                                                                                                    | 3528/15000 [2:30:03<7:29:40,  2.35s/it] 24%|█████████████████████████████████████████████▋                                                                                                                                                    | 3529/15000 [2:30:05<7:29:57,  2.35s/it] 24%|█████████████████████████████████████████████▋                                                                                                                                                    | 3530/15000 [2:30:08<7:30:08,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.9828, 'grad_norm': 1.796875, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3470.46, 'total_tokens': 28841431, 'epoch': 0.24}
+ 24%|█████████████████████████████████████████████▋                                                                                                                                                    | 3530/15000 [2:30:08<7:30:08,  2.35s/it] 24%|█████████████████████████████████████████████▋                                                                                                                                                    | 3531/15000 [2:30:10<7:30:31,  2.36s/it] 24%|█████████████████████████████████████████████▋                                                                                                                                                    | 3532/15000 [2:30:12<7:30:26,  2.36s/it] 24%|█████████████████████████████████████████████▋                                                                                                                                                    | 3533/15000 [2:30:15<7:30:14,  2.36s/it] 24%|█████████████████████████████████████████████▋                                                                                                                                                    | 3534/15000 [2:30:17<7:30:24,  2.36s/it] 24%|█████████████████████████████████████████████▋                                                                                                                                                    | 3535/15000 [2:30:20<7:30:10,  2.36s/it] 24%|█████████████████████████████████████████████▋                                                                                                                                                    | 3536/15000 [2:30:22<7:29:43,  2.35s/it] 24%|█████████████████████████████████████████████▋                                                                                                                                                    | 3537/15000 [2:30:24<7:29:26,  2.35s/it] 24%|█████████████████████████████████████████████▊                                                                                                                                                    | 3538/15000 [2:30:27<7:29:30,  2.35s/it] 24%|█████████████████████████████████████████████▊                                                                                                                                                    | 3539/15000 [2:30:29<7:29:06,  2.35s/it] 24%|█████████████████████████████████████████████▊                                                                                                                                                    | 3540/15000 [2:30:31<7:28:53,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 3.103, 'grad_norm': 1.859375, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3458.53, 'total_tokens': 28922392, 'epoch': 0.24}
+ 24%|█████████████████████████████████████████████▊                                                                                                                                                    | 3540/15000 [2:30:31<7:28:53,  2.35s/it][2025-11-17 00:13:25,101] [INFO] [axolotl.utils.data.wrappers.get_dataset_wrapper:87] [PID:8163] Loading dataset: Goader/kobza-2m-jsonl with base_type: pretrain and prompt_style: None
+
+Tokenizing Prompts (num_proc=64):   0%|                                                                                                                                                                        | 0/10000 [00:00<?, ? examples/s][A
+Tokenizing Prompts (num_proc=64):   2%|██▍                                                                                                                                                           | 157/10000 [00:06<06:08, 26.75 examples/s][A
+Tokenizing Prompts (num_proc=64):   3%|████▉                                                                                                                                                         | 314/10000 [00:06<03:08, 51.49 examples/s][A
+Tokenizing Prompts (num_proc=64):   5%|███████▍                                                                                                                                                      | 471/10000 [00:07<01:59, 79.68 examples/s][A
+Tokenizing Prompts (num_proc=64):   6%|█████████▊                                                                                                                                                   | 628/10000 [00:07<01:16, 123.17 examples/s][A
+Tokenizing Prompts (num_proc=64):   8%|████████████▎                                                                                                                                                | 785/10000 [00:09<01:11, 128.17 examples/s][A
+Tokenizing Prompts (num_proc=64):   9%|██████████████▊                                                                                                                                              | 942/10000 [00:09<00:52, 174.16 examples/s][A
+Tokenizing Prompts (num_proc=64):  11%|█████████████████▏                                                                                                                                          | 1099/10000 [00:10<00:48, 184.43 examples/s][A
+Tokenizing Prompts (num_proc=64):  13%|███████████████████▌                                                                                                                                        | 1256/10000 [00:11<00:44, 196.86 examples/s][A
+Tokenizing Prompts (num_proc=64):  14%|██████████████████████                                                                                                                                      | 1413/10000 [00:11<00:40, 210.54 examples/s][A
+Tokenizing Prompts (num_proc=64):  16%|████████████████████████▍                                                                                                                                   | 1570/10000 [00:12<00:39, 212.91 examples/s][A
+Tokenizing Prompts (num_proc=64):  17%|██████████████████████████▉                                                                                                                                 | 1727/10000 [00:12<00:37, 222.25 examples/s][A
+Tokenizing Prompts (num_proc=64):  19%|█████████████████████████████▍                                                                                                                              | 1884/10000 [00:13<00:36, 222.92 examples/s][A
+Tokenizing Prompts (num_proc=64):  20%|███████████████████████████████▊                                                                                                                            | 2041/10000 [00:14<00:36, 219.94 examples/s][A
+Tokenizing Prompts (num_proc=64):  22%|██████████████████████████████████▎                                                                                                                         | 2198/10000 [00:14<00:34, 224.70 examples/s][A
+Tokenizing Prompts (num_proc=64):  24%|████████████████████████████████████▋                                                                                                                       | 2355/10000 [00:15<00:34, 221.93 examples/s][A
+Tokenizing Prompts (num_proc=64):  25%|███████████████████████████████████████▏                                                                                                                    | 2512/10000 [00:16<00:40, 184.27 examples/s][A
+Tokenizing Prompts (num_proc=64):  27%|█████████████████████████████████████████▌                                                                                                                  | 2668/10000 [00:16<00:30, 241.40 examples/s][A
+Tokenizing Prompts (num_proc=64):  28%|████████████████████████████████████████████                                                                                                                | 2824/10000 [00:17<00:30, 231.51 examples/s][A
+Tokenizing Prompts (num_proc=64):  30%|██████████████████████████████████████████████▍                                                                                                             | 2980/10000 [00:18<00:30, 226.86 examples/s][A
+Tokenizing Prompts (num_proc=64):  31%|████████████████████████████████████████████████▉                                                                                                           | 3136/10000 [00:19<00:36, 187.37 examples/s][A
+Tokenizing Prompts (num_proc=64):  33%|███████████████████████████████████████████████████▎                                                                                                        | 3292/10000 [00:19<00:28, 238.86 examples/s][A
+Tokenizing Prompts (num_proc=64):  34%|█████████████████████████████████████████████████████▊                                                                                                      | 3448/10000 [00:21<00:36, 178.41 examples/s][A
+Tokenizing Prompts (num_proc=64):  36%|████████████████████████████████████████████████████████▏                                                                                                   | 3604/10000 [00:21<00:31, 203.57 examples/s][A
+Tokenizing Prompts (num_proc=64):  38%|██████████████████████████████████████████████████████████▋                                                                                                 | 3760/10000 [00:22<00:29, 211.18 examples/s][A
+Tokenizing Prompts (num_proc=64):  39%|█████████████████████████████████████████████████████████████                                                                                               | 3916/10000 [00:22<00:23, 263.90 examples/s][A
+Tokenizing Prompts (num_proc=64):  41%|███████████████████████████████████████████████████████████████▌                                                                                            | 4072/10000 [00:23<00:30, 191.53 examples/s][A
+Tokenizing Prompts (num_proc=64):  42%|█████████████████████████████████████████████████████████████████▉                                                                                          | 4228/10000 [00:24<00:26, 215.00 examples/s][A
+Tokenizing Prompts (num_proc=64):  44%|████████████████████████████████████████████████████████████████████▍                                                                                       | 4384/10000 [00:24<00:20, 269.47 examples/s][A
+Tokenizing Prompts (num_proc=64):  45%|██████████████████████████████████████████████████████████████████████▊                                                                                     | 4540/10000 [00:25<00:20, 261.44 examples/s][A
+Tokenizing Prompts (num_proc=64):  47%|█████████████████████████████████████████████████████████████████████████▎                                                                                  | 4696/10000 [00:26<00:23, 230.21 examples/s][A
+Tokenizing Prompts (num_proc=64):  49%|███████████████████████████████████████████████████████████████████████████▋                                                                                | 4852/10000 [00:26<00:20, 246.10 examples/s][A
+Tokenizing Prompts (num_proc=64):  50%|██████████████████████████████████████████████████████████████████████████████                                                                              | 5008/10000 [00:27<00:20, 238.32 examples/s][A
+Tokenizing Prompts (num_proc=64):  52%|████████████████████████████████████████████████████████████████████████████████▌                                                                           | 5164/10000 [00:28<00:25, 190.68 examples/s][A
+Tokenizing Prompts (num_proc=64):  53%|██████████████████████████████████████████████████████████████████████████████████▉                                                                         | 5320/10000 [00:28<00:19, 242.70 examples/s][A
+Tokenizing Prompts (num_proc=64):  55%|█████████████████████████████████████████████████████████████████████████████████████▍                                                                      | 5476/10000 [00:29<00:18, 238.83 examples/s][A
+Tokenizing Prompts (num_proc=64):  56%|███████████████████████████████████████████████████████████████████████████████████████▊                                                                    | 5632/10000 [00:30<00:20, 216.58 examples/s][A
+Tokenizing Prompts (num_proc=64):  58%|██████████████████████████████████████████████████████████████████████████████████████████▎                                                                 | 5788/10000 [00:30<00:17, 235.01 examples/s][A
+Tokenizing Prompts (num_proc=64):  59%|████████████████████████████████████████████████████████████████████████████████████████████▋                                                               | 5944/10000 [00:32<00:21, 188.50 examples/s][A
+Tokenizing Prompts (num_proc=64):  61%|███████████████████████████████████████████████████████████████████████████████████████████████▏                                                            | 6100/10000 [00:32<00:19, 198.22 examples/s][A
+Tokenizing Prompts (num_proc=64):  63%|█████████████████████████████████████████████████████████████████████████████████████████████████▌                                                          | 6256/10000 [00:33<00:18, 205.11 examples/s][A
+Tokenizing Prompts (num_proc=64):  64%|████████████████████████████████████████████████████████████████████████████████████████████████████                                                        | 6412/10000 [00:33<00:13, 267.49 examples/s][A
+Tokenizing Prompts (num_proc=64):  66%|██████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                     | 6568/10000 [00:34<00:13, 247.27 examples/s][A
+Tokenizing Prompts (num_proc=64):  67%|████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                   | 6724/10000 [00:35<00:13, 242.99 examples/s][A
+Tokenizing Prompts (num_proc=64):  69%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                | 6880/10000 [00:35<00:13, 234.83 examples/s][A
+Tokenizing Prompts (num_proc=64):  70%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                              | 7036/10000 [00:36<00:12, 232.49 examples/s][A
+Tokenizing Prompts (num_proc=64):  72%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                           | 7192/10000 [00:37<00:11, 237.85 examples/s][A
+Tokenizing Prompts (num_proc=64):  73%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                         | 7348/10000 [00:38<00:13, 190.99 examples/s][A
+Tokenizing Prompts (num_proc=64):  75%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                       | 7504/10000 [00:38<00:12, 200.61 examples/s][A
+Tokenizing Prompts (num_proc=64):  77%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                    | 7660/10000 [00:39<00:09, 253.38 examples/s][A
+Tokenizing Prompts (num_proc=64):  78%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                  | 7816/10000 [00:39<00:08, 249.12 examples/s][A
+Tokenizing Prompts (num_proc=64):  80%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                               | 7972/10000 [00:41<00:10, 198.96 examples/s][A
+Tokenizing Prompts (num_proc=64):  81%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                             | 8128/10000 [00:41<00:07, 255.81 examples/s][A
+Tokenizing Prompts (num_proc=64):  83%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                          | 8284/10000 [00:42<00:08, 198.75 examples/s][A
+Tokenizing Prompts (num_proc=64):  84%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                        | 8440/10000 [00:43<00:07, 207.29 examples/s][A
+Tokenizing Prompts (num_proc=64):  86%|██���███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                      | 8596/10000 [00:43<00:05, 259.30 examples/s][A
+Tokenizing Prompts (num_proc=64):  88%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                   | 8752/10000 [00:44<00:05, 247.53 examples/s][A
+Tokenizing Prompts (num_proc=64):  89%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                 | 8908/10000 [00:44<00:04, 240.68 examples/s][A
+Tokenizing Prompts (num_proc=64):  91%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍              | 9064/10000 [00:45<00:03, 238.23 examples/s][A
+Tokenizing Prompts (num_proc=64):  92%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊            | 9220/10000 [00:46<00:03, 195.41 examples/s][A
+Tokenizing Prompts (num_proc=64):  94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎         | 9376/10000 [00:46<00:02, 252.21 examples/s][A
+Tokenizing Prompts (num_proc=64):  95%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋       | 9532/10000 [00:47<00:02, 200.60 examples/s][A
+Tokenizing Prompts (num_proc=64):  97%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏    | 9688/10000 [00:48<00:01, 255.65 examples/s][A
+Tokenizing Prompts (num_proc=64):  98%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌  | 9844/10000 [00:48<00:00, 245.42 examples/s][A
+Tokenizing Prompts (num_proc=64): 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████��█████████████████████████████████████████████████| 10000/10000 [00:49<00:00, 243.16 examples/s][ATokenizing Prompts (num_proc=64): 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10000/10000 [00:51<00:00, 195.04 examples/s]
+
+Dropping Long Sequences:   0%|                                                                                                                                                                                 | 0/10002 [00:00<?, ? examples/s][A
+Dropping Long Sequences:  10%|████████████████▍                                                                                                                                                    | 1000/10002 [00:01<00:13, 668.47 examples/s][A
+Dropping Long Sequences:  20%|████████████████████████████████▊                                                                                                                                   | 2000/10002 [00:01<00:06, 1302.46 examples/s][A
+Dropping Long Sequences:  30%|█████████████████████████████████████████████████▏                                                                                                                  | 3000/10002 [00:02<00:03, 1859.54 examples/s][A
+Dropping Long Sequences:  40%|█████████████████████████████████████████████████████████████████▌                                                                                                  | 4000/10002 [00:02<00:02, 2283.97 examples/s][A
+Dropping Long Sequences:  50%|█████████████████████████████████████████████████████████████████████████████████▉                                                                                  | 5000/10002 [00:02<00:01, 2646.46 examples/s][A
+Dropping Long Sequences:  60%|██████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                 | 6000/10002 [00:02<00:01, 2882.50 examples/s][A
+Dropping Long Sequences:  70%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                 | 7000/10002 [00:03<00:00, 3096.96 examples/s][A
+Dropping Long Sequences:  80%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                | 8000/10002 [00:03<00:00, 3270.52 examples/s][A
+Dropping Long Sequences:  90%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                | 9000/10002 [00:03<00:00, 3283.78 examples/s][A
+Dropping Long Sequences: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉| 10000/10002 [00:03<00:00, 3471.46 examples/s][ADropping Long Sequences: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10002/10002 [00:04<00:00, 2491.53 examples/s]
+
+Add position_id column (Pretraining Sample Packing):   0%|                                                                                                                                                      | 0/8707 [00:00<?, ? examples/s][A
+Add position_id column (Pretraining Sample Packing):  11%|███████████████▊                                                                                                                          | 1000/8707 [00:01<00:09, 775.86 examples/s][A
+Add position_id column (Pretraining Sample Packing):  23%|███████████████████████████████▍                                                                                                         | 2000/8707 [00:01<00:04, 1598.30 examples/s][A
+Add position_id column (Pretraining Sample Packing):  34%|███████████████████████████████████████████████▏                                                                                         | 3000/8707 [00:01<00:02, 2477.46 examples/s][A
+Add position_id column (Pretraining Sample Packing):  46%|██████████████████████████████████████████████████████████████▉                                                                          | 4000/8707 [00:01<00:01, 3272.38 examples/s][A
+Add position_id column (Pretraining Sample Packing):  57%|██████████████████████████████████████████████████████████████████████████████▋                                                          | 5000/8707 [00:01<00:00, 4063.95 examples/s][A
+Add position_id column (Pretraining Sample Packing):  69%|██████████████████████████████████████████████████████████████████████████████████████████████▍                                          | 6000/8707 [00:02<00:00, 4682.21 examples/s][A
+Add position_id column (Pretraining Sample Packing):  80%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                          | 7000/8707 [00:02<00:00, 5221.93 examples/s][A
+Add position_id column (Pretraining Sample Packing):  92%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉           | 8000/8707 [00:02<00:00, 5459.42 examples/s][A
+Add position_id column (Pretraining Sample Packing): 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 8707/8707 [00:02<00:00, 5771.18 examples/s][AAdd position_id column (Pretraining Sample Packing): 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 8707/8707 [00:02<00:00, 3482.48 examples/s]
+[2025-11-17 00:14:24,514] [DEBUG] [axolotl.utils.samplers.multipack.pack_parallel:177] [PID:8163] Using single process for pack_parallel, running sequentially.
+ 24%|█████████████████████████████████████████████▌                                                                                                                                                   | 3541/15000 [2:31:39<69:39:03, 21.88s/it] 24%|█████████████████████████████████████████████▌                                                                                                                                                   | 3542/15000 [2:31:41<50:59:59, 16.02s/it] 24%|█████████████████████████████████████████████▌                                                                                                                                                   | 3543/15000 [2:31:43<37:56:35, 11.92s/it] 24%|█████████████████████████████████████████████▌                                                                                                                                                   | 3544/15000 [2:31:46<28:48:04,  9.05s/it] 24%|█████████████████████████████████████████████▌                                                                                                                                                   | 3545/15000 [2:31:48<22:24:12,  7.04s/it] 24%|█████████████████████████████████████████████▋                                                                                                                                                   | 3546/15000 [2:31:51<17:55:24,  5.63s/it] 24%|█████████████████████████████████████████████▋                                                                                                                                                   | 3547/15000 [2:31:53<14:47:22,  4.65s/it] 24%|█████████████████████████████████████████████▋                                                                                                                                                   | 3548/15000 [2:31:55<12:35:43,  3.96s/it] 24%|█████████████████████████████████████████████▋                                                                                                                                                   | 3549/15000 [2:31:58<11:03:23,  3.48s/it] 24%|█████████████████████████████████████████████▉                                                                                                                                                    | 3550/15000 [2:32:00<9:59:18,  3.14s/it]                                                                                                                                                                                                                                                {'loss': 3.0588, 'grad_norm': 1.8984375, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3335.04, 'total_tokens': 29000786, 'epoch': 0.24}
+ 24%|█████████████████████████████████████████████▉                                                                                                                                                    | 3550/15000 [2:32:00<9:59:18,  3.14s/it] 24%|█████████████████████████████████████████████▉                                                                                                                                                    | 3551/15000 [2:32:02<9:14:29,  2.91s/it] 24%|█████████████████████████████████████████████▉                                                                                                                                                    | 3552/15000 [2:32:05<8:42:57,  2.74s/it] 24%|█████████████████████████████████████████████▉                                                                                                                                                    | 3553/15000 [2:32:07<8:20:48,  2.63s/it] 24%|█████████████████████████████████████████████▉                                                                                                                                                    | 3554/15000 [2:32:09<8:05:08,  2.54s/it] 24%|█████████████████████████████████████████████▉                                                                                                                                                    | 3555/15000 [2:32:12<7:54:12,  2.49s/it] 24%|█████████████████████████████████████████████▉                                                                                                                                                    | 3556/15000 [2:32:14<7:46:34,  2.45s/it] 24%|██████████████████████████████████████████████                                                                                                                                                    | 3557/15000 [2:32:16<7:41:15,  2.42s/it] 24%|██████████████████████████████████████████████                                                                                                                                                    | 3558/15000 [2:32:19<7:37:08,  2.40s/it] 24%|██████████████████████████████████████████████                                                                                                                                                    | 3559/15000 [2:32:21<7:34:44,  2.38s/it] 24%|██████████████████████████████████████████████                                                                                                                                                    | 3560/15000 [2:32:23<7:32:53,  2.38s/it]                                                                                                                                                                                                                                                {'loss': 3.0751, 'grad_norm': 1.71875, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3489.4, 'total_tokens': 29082653, 'epoch': 0.24}
+ 24%|██████████████████████████████████████████████                                                                                                                                                    | 3560/15000 [2:32:23<7:32:53,  2.38s/it] 24%|██████████████████████████████████████████████                                                                                                                                                    | 3561/15000 [2:32:26<7:31:23,  2.37s/it] 24%|██████████████████████████████████████████████                                                                                                                                                    | 3562/15000 [2:32:28<7:30:26,  2.36s/it] 24%|██████████████████████████████████████████████                                                                                                                                                    | 3563/15000 [2:32:31<7:30:02,  2.36s/it] 24%|██████████████████████████████████████████████                                                                                                                                                    | 3564/15000 [2:32:33<7:30:03,  2.36s/it] 24%|██████████████████████████████████████████████                                                                                                                                                    | 3565/15000 [2:32:35<7:29:21,  2.36s/it] 24%|██████████████████████████████████████████████                                                                                                                                                    | 3566/15000 [2:32:38<7:28:48,  2.36s/it] 24%|██████████████████████████████████████████████▏                                                                                                                                                   | 3567/15000 [2:32:40<7:29:04,  2.36s/it] 24%|██████████████████████████████████████████████▏                                                                                                                                                   | 3568/15000 [2:32:42<7:29:13,  2.36s/it] 24%|██████████████████████████████████████████████▏                                                                                                                                                   | 3569/15000 [2:32:45<7:28:56,  2.36s/it] 24%|██████████████████████████████████████████████▏                                                                                                                                                   | 3570/15000 [2:32:47<7:29:10,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 3.0775, 'grad_norm': 1.7734375, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3475.48, 'total_tokens': 29164473, 'epoch': 0.24}
+ 24%|██████████████████████████████████████████████▏                                                                                                                                                   | 3570/15000 [2:32:47<7:29:10,  2.36s/it] 24%|██████████████████████████████████████████████▏                                                                                                                                                   | 3571/15000 [2:32:49<7:28:54,  2.36s/it] 24%|██████████████████████████████████████████████▏                                                                                                                                                   | 3572/15000 [2:32:52<7:28:48,  2.36s/it] 24%|██████████████████████████████████████████████▏                                                                                                                                                   | 3573/15000 [2:32:54<7:28:30,  2.36s/it] 24%|██████████████████████████████████████████████▏                                                                                                                                                   | 3574/15000 [2:32:56<7:28:38,  2.36s/it] 24%|██████████████████████████████████████████████▏                                                                                                                                                   | 3575/15000 [2:32:59<7:28:24,  2.35s/it] 24%|██████████████████████████████████████████████▏                                                                                                                                                   | 3576/15000 [2:33:01<7:28:13,  2.35s/it] 24%|██████████████████████████████████████████████▎                                                                                                                                                   | 3577/15000 [2:33:03<7:28:53,  2.36s/it] 24%|██████████████████████████████████████████████▎                                                                                                                                                   | 3578/15000 [2:33:06<7:28:23,  2.36s/it] 24%|█████████████���████████████████████████████████▎                                                                                                                                                   | 3579/15000 [2:33:08<7:28:36,  2.36s/it] 24%|██████████████████████████████████████████████▎                                                                                                                                                   | 3580/15000 [2:33:11<7:55:03,  2.50s/it]                                                                                                                                                                                                                                                {'loss': 3.0562, 'grad_norm': 1.84375, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 2908.55, 'total_tokens': 29246310, 'epoch': 0.24}
+ 24%|██████████████████████████████████████████████▎                                                                                                                                                   | 3580/15000 [2:33:11<7:55:03,  2.50s/it] 24%|██████████████████████████████████████████████▎                                                                                                                                                   | 3581/15000 [2:33:13<7:47:05,  2.45s/it] 24%|██████████████████████████████████████████████▎                                                                                                                                                   | 3582/15000 [2:33:16<7:41:24,  2.42s/it] 24%|██████████████████████████████████████████████▎                                                                                                                                                   | 3583/15000 [2:33:18<7:37:42,  2.41s/it] 24%|██████████████████████████████████████████████▎                                                                                                                                                   | 3584/15000 [2:33:20<7:34:36,  2.39s/it] 24%|██████████████████████████████████████████████▎                                                                                                                                                   | 3585/15000 [2:33:23<7:32:51,  2.38s/it] 24%|██████████████████████████████████████████████▍                                                                                                                                                   | 3586/15000 [2:33:25<7:31:14,  2.37s/it] 24%|██████████████████████████████████████████████▍                                                                                                                                                   | 3587/15000 [2:33:28<7:30:29,  2.37s/it] 24%|██████████████████████████████████████████████▍                                                                                                                                                   | 3588/15000 [2:33:30<7:29:53,  2.37s/it] 24%|██████████████████████████████████████████████▍                                                                                                                                                   | 3589/15000 [2:33:32<7:29:17,  2.36s/it] 24%|██████████████████████████████████████████████▍                                                                                                                                                   | 3590/15000 [2:33:35<7:29:15,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.9596, 'grad_norm': 1.796875, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3473.66, 'total_tokens': 29328131, 'epoch': 0.24}
+ 24%|██████████████████████████████████████████████▍                                                                                                                                                   | 3590/15000 [2:33:35<7:29:15,  2.36s/it] 24%|██████████████████████████████████████████████▍                                                                                                                                                   | 3591/15000 [2:33:37<7:28:49,  2.36s/it] 24%|██████████████████████████████████████████████▍                                                                                                                                                   | 3592/15000 [2:33:39<7:28:20,  2.36s/it] 24%|██████████████████████████████████████████████▍                                                                                                                                                   | 3593/15000 [2:33:42<7:28:06,  2.36s/it] 24%|██████████████████████████████████████████████▍                                                                                                                                                   | 3594/15000 [2:33:44<7:27:50,  2.36s/it] 24%|██████████████████████████████████████████████▍                                                                                                                                                   | 3595/15000 [2:33:46<7:27:46,  2.36s/it] 24%|██████████████████████████████████████████████▌                                                                                                                                                   | 3596/15000 [2:33:49<7:27:48,  2.36s/it] 24%|██████████████████████████████████████████████▌                                                                                                                                                   | 3597/15000 [2:33:51<7:27:27,  2.35s/it] 24%|██████████████████████████████████████████████▌                                                                                                                                                   | 3598/15000 [2:33:53<7:27:11,  2.35s/it] 24%|██████████████████████████████████████████████▌                                                                                                                                                   | 3599/15000 [2:33:56<7:26:52,  2.35s/it] 24%|██████████████████████████████████████████████▌                                                                                                                                                   | 3600/15000 [2:33:58<7:26:45,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 3.0357, 'grad_norm': 1.7265625, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3492.38, 'total_tokens': 29409979, 'epoch': 0.24}
+ 24%|██████████████████████████████████████████████▌                                                                                                                                                   | 3600/15000 [2:33:58<7:26:45,  2.35s/it] 24%|██████████████████████████████████████████████▌                                                                                                                                                   | 3601/15000 [2:34:00<7:26:59,  2.35s/it] 24%|███████████████████████████���██████████████████▌                                                                                                                                                   | 3602/15000 [2:34:03<7:26:47,  2.35s/it] 24%|██████████████████████████████████████████████▌                                                                                                                                                   | 3603/15000 [2:34:05<7:27:00,  2.35s/it] 24%|██████████████████████████████████████████████▌                                                                                                                                                   | 3604/15000 [2:34:08<7:26:42,  2.35s/it] 24%|██████████████████████████████████████████████▌                                                                                                                                                   | 3605/15000 [2:34:10<7:27:09,  2.35s/it] 24%|██████████████████████████████████████████████▋                                                                                                                                                   | 3606/15000 [2:34:12<7:27:05,  2.35s/it] 24%|██████████████████████████████████████████████▋                                                                                                                                                   | 3607/15000 [2:34:15<7:26:59,  2.35s/it] 24%|██████████████████████████████████████████████▋                                                                                                                                                   | 3608/15000 [2:34:17<7:26:58,  2.35s/it] 24%|██████████████████████████████████████████████▋                                                                                                                                                   | 3609/15000 [2:34:19<7:26:51,  2.35s/it] 24%|██████████████████████████████████████████████▋                                                                                                                                                   | 3610/15000 [2:34:22<7:26:44,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 3.0748, 'grad_norm': 1.9140625, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3487.76, 'total_tokens': 29491782, 'epoch': 0.24}
+ 24%|██████████████████████████████████████████████▋                                                                                                                                                   | 3610/15000 [2:34:22<7:26:44,  2.35s/it] 24%|██████████████████████████████████████████████▋                                                                                                                                                   | 3611/15000 [2:34:24<7:26:56,  2.35s/it] 24%|██████████████████████████████████████████████▋                                                                                                                                                   | 3612/15000 [2:34:26<7:27:05,  2.36s/it] 24%|██████████████████████████████████████████████▋                                                                                                                                                   | 3613/15000 [2:34:29<7:27:31,  2.36s/it] 24%|██████████████████████████████████████████████▋                                                                                                                                                   | 3614/15000 [2:34:31<7:26:49,  2.35s/it] 24%|██████████████████████████████████████████████▊                                                                                                                                                   | 3615/15000 [2:34:33<7:26:31,  2.35s/it] 24%|██████████████████████████████████████████████▊                                                                                                                                                   | 3616/15000 [2:34:36<7:26:30,  2.35s/it] 24%|██████████████████████████████████████████████▊                                                                                                                                                   | 3617/15000 [2:34:38<7:26:21,  2.35s/it] 24%|██████████████████████████████████████████████▊                                                                                                                                                   | 3618/15000 [2:34:40<7:25:47,  2.35s/it] 24%|██████████████████████████████████████████████▊                                                                                                                                                   | 3619/15000 [2:34:43<7:25:44,  2.35s/it] 24%|██████████████████████████████████████████████▊                                                                                                                                                   | 3620/15000 [2:34:45<7:25:34,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 3.0818, 'grad_norm': 1.7578125, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3496.22, 'total_tokens': 29573615, 'epoch': 0.24}
+ 24%|██████████████████████████████████████████████▊                                                                                                                                                   | 3620/15000 [2:34:45<7:25:34,  2.35s/it] 24%|██████████████████████████████████████████████▊                                                                                                                                                   | 3621/15000 [2:34:48<7:25:56,  2.35s/it] 24%|██████████████████████████████████████████████▊                                                                                                                                                   | 3622/15000 [2:34:50<7:25:48,  2.35s/it] 24%|██████████████████████████████████████████████▊                                                                                                                                                   | 3623/15000 [2:34:52<7:25:57,  2.35s/it] 24%|██████████████████████████████████████████████▊                                                                                                                                                   | 3624/15000 [2:34:55<7:25:47,  2.35s/it] 24%|██████████████████████████████████████████████▉                                                                                                                                                   | 3625/15000 [2:34:57<7:26:24,  2.35s/it] 24%|██████████████████████████████████████████████▉                                                                                                                                                   | 3626/15000 [2:34:59<7:26:07,  2.35s/it] 24%|██████████████████████████████████████████████▉                                                                                                                                                   | 3627/15000 [2:35:02<7:25:48,  2.35s/it] 24%|██████████████████████████████████████████████▉                                                                                                                                                   | 3628/15000 [2:35:04<7:25:42,  2.35s/it] 24%|██████████████████████████████████████████████▉                                                                                                                                                   | 3629/15000 [2:35:06<7:25:18,  2.35s/it] 24%|██████████████████████████████████████████████▉                                                                                                                                                   | 3630/15000 [2:35:09<7:25:46,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 3.0879, 'grad_norm': 1.8671875, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3476.85, 'total_tokens': 29655377, 'epoch': 0.24}
+ 24%|██████████████████████████████████████████████▉                                                                                                                                                   | 3630/15000 [2:35:09<7:25:46,  2.35s/it] 24%|██████████████████████████████████████████████▉                                                                                                                                                   | 3631/15000 [2:35:11<7:26:07,  2.35s/it] 24%|██████████████████████████████████████████████▉                                                                                                                                                   | 3632/15000 [2:35:13<7:25:58,  2.35s/it] 24%|██████████████████████████████████████████████▉                                                                                                                                                   | 3633/15000 [2:35:16<7:26:00,  2.35s/it] 24%|██████████████████████████████████████████████▉                                                                                                                                                   | 3634/15000 [2:35:18<7:26:12,  2.36s/it] 24%|███████████████████████████████████████████████                                                                                                                                                   | 3635/15000 [2:35:20<7:25:45,  2.35s/it] 24%|███████████████████████████████████████████████                                                                                                                                                   | 3636/15000 [2:35:23<7:25:37,  2.35s/it] 24%|███████████████████████████████████████████████                                                                                                                                                   | 3637/15000 [2:35:25<7:26:11,  2.36s/it] 24%|███████████████████████████████████████████████                                                                                                                                                   | 3638/15000 [2:35:28<7:25:30,  2.35s/it] 24%|███████████████████████████████████████████████                                                                                                                                                   | 3639/15000 [2:35:30<7:25:19,  2.35s/it] 24%|███████████████████████████████████████████████                                                                                                                                                   | 3640/15000 [2:35:32<7:25:24,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.9763, 'grad_norm': 1.78125, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3484.67, 'total_tokens': 29737157, 'epoch': 0.24}
+ 24%|███████████████████████████████████████████████                                                                                                                                                   | 3640/15000 [2:35:32<7:25:24,  2.35s/it] 24%|███████████████████████████████████████████████                                                                                                                                                   | 3641/15000 [2:35:35<7:25:47,  2.35s/it] 24%|███████████████████████████████████████████████                                                                                                                                                   | 3642/15000 [2:35:37<7:25:40,  2.35s/it] 24%|███████████████████████████████████████████████                                                                                                                                                   | 3643/15000 [2:35:39<7:25:35,  2.35s/it] 24%|███████████████████████████████████████████████▏                                                                                                                                                  | 3644/15000 [2:35:42<7:25:44,  2.36s/it] 24%|███████████████████████████████████████████████▏                                                                                                                                                  | 3645/15000 [2:35:44<7:25:15,  2.35s/it] 24%|███████████████████████████████████████████████▏                                                                                                                                                  | 3646/15000 [2:35:46<7:25:44,  2.36s/it] 24%|███████████████████████████████████████████████▏                                                                                                                                                  | 3647/15000 [2:35:49<7:25:33,  2.35s/it] 24%|███████████████████████████████████████████████▏                                                                                                                                                  | 3648/15000 [2:35:51<7:25:22,  2.35s/it] 24%|███████████████████████████████████████████████▏                                                                                                                                                  | 3649/15000 [2:35:53<7:25:20,  2.35s/it] 24%|███████████████████████████████████████████████▏                                                                                                                                                  | 3650/15000 [2:35:56<7:25:21,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 3.0396, 'grad_norm': 1.8515625, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3485.12, 'total_tokens': 29818981, 'epoch': 0.24}
+ 24%|███████████████████████████████████████████████▏                                                                                                                                                  | 3650/15000 [2:35:56<7:25:21,  2.35s/it] 24%|███████████████████████████████████████████████▏                                                                                                                                                  | 3651/15000 [2:35:58<7:25:05,  2.35s/it] 24%|███████████████████████████████████████████████▏                                                                                                                                                  | 3652/15000 [2:36:01<7:25:17,  2.35s/it] 24%|███████████████████████████████████████████████▏                                                                                                                                                  | 3653/15000 [2:36:03<7:25:03,  2.35s/it] 24%|███████████████████████████████████████████████▎                                                                                                                                                  | 3654/15000 [2:36:05<7:24:52,  2.35s/it] 24%|███████████████████████████████████████████████▎                                                                                                                                                  | 3655/15000 [2:36:08<7:25:02,  2.35s/it] 24%|███████████████████████████████████████████████▎                                                                                                                                                  | 3656/15000 [2:36:10<7:25:13,  2.35s/it] 24%|███████████████████████████████████████████████▎                                                                                                                                                  | 3657/15000 [2:36:12<7:24:56,  2.35s/it] 24%|███████████████████████████████████████████████▎                                                                                                                                                  | 3658/15000 [2:36:15<7:24:13,  2.35s/it] 24%|███████████████████████████████████████████████▎                                                                                                                                                  | 3659/15000 [2:36:17<7:24:22,  2.35s/it] 24%|███████████████████████████████████████████████▎                                                                                                                                                  | 3660/15000 [2:36:19<7:24:34,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 3.0243, 'grad_norm': 1.7890625, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3484.54, 'total_tokens': 29900803, 'epoch': 0.24}
+ 24%|███████████████████████████████████████████████▎                                                                                                                                                  | 3660/15000 [2:36:19<7:24:34,  2.35s/it] 24%|███████████████████████████████████████████████▎                                                                                                                                                  | 3661/15000 [2:36:22<7:24:48,  2.35s/it] 24%|███████████████████████████████████████████████▎                                                                                                                                                  | 3662/15000 [2:36:24<7:24:36,  2.35s/it] 24%|███████████████████████████████████████████████▎                                                                                                                                                  | 3663/15000 [2:36:26<7:24:33,  2.35s/it] 24%|███████████████████████████████████████████████▍                                                                                                                                                  | 3664/15000 [2:36:29<7:24:40,  2.35s/it] 24%|███████████████████████████████████████████████▍                                                                                                                                                  | 3665/15000 [2:36:31<7:24:34,  2.35s/it] 24%|███████████████████████████████████████████████▍                                                                                                                                                  | 3666/15000 [2:36:33<7:24:25,  2.35s/it] 24%|███████████████████████████████████████████████▍                                                                                                                                                  | 3667/15000 [2:36:36<7:24:07,  2.35s/it] 24%|███████████████████████████████████████████████▍                                                                                                                                                  | 3668/15000 [2:36:38<7:24:09,  2.35s/it] 24%|███████████████████████████████████████████████▍                                                                                                                                                  | 3669/15000 [2:36:40<7:24:24,  2.35s/it] 24%|███████████████████████████████████████████████▍                                                                                                                                                  | 3670/15000 [2:36:43<7:24:26,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 3.0053, 'grad_norm': 1.875, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3484.13, 'total_tokens': 29982590, 'epoch': 0.24}
+ 24%|███████████████████████████████████████████████▍                                                                                                                                                  | 3670/15000 [2:36:43<7:24:26,  2.35s/it] 24%|███████████████████████████████████████████████▍                                                                                                                                                  | 3671/15000 [2:36:45<7:24:11,  2.35s/it] 24%|███████████████████████████████████████████████▍                                                                                                                                                  | 3672/15000 [2:36:48<7:24:08,  2.35s/it] 24%|███████████████████████████████████████████████▌                                                                                                                                                  | 3673/15000 [2:36:50<7:23:57,  2.35s/it] 24%|███████████████████████████████████████████████▌                                                                                                                                                  | 3674/15000 [2:36:52<7:24:14,  2.35s/it] 24%|███████████████████████████████████████████████▌                                                                                                                                                  | 3675/15000 [2:36:55<7:24:28,  2.35s/it] 25%|█████████████████████████████████████████���█████▌                                                                                                                                                  | 3676/15000 [2:36:57<7:24:26,  2.35s/it] 25%|███████████████████████████████████████████████▌                                                                                                                                                  | 3677/15000 [2:36:59<7:24:12,  2.35s/it] 25%|███████████████████████████████████████████████▌                                                                                                                                                  | 3678/15000 [2:37:02<7:24:15,  2.35s/it] 25%|███████████████████████████████████████████████▌                                                                                                                                                  | 3679/15000 [2:37:04<7:24:45,  2.36s/it] 25%|███████████████████████████████████████████████▌                                                                                                                                                  | 3680/15000 [2:37:06<7:24:53,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 3.0312, 'grad_norm': 1.84375, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3474.96, 'total_tokens': 30064359, 'epoch': 0.25}
+ 25%|███████████████████████████████████████████████▌                                                                                                                                                  | 3680/15000 [2:37:06<7:24:53,  2.36s/it] 25%|███████████████████████████████████████████████▌                                                                                                                                                  | 3681/15000 [2:37:09<7:24:44,  2.36s/it] 25%|███████████████████████████████████████████████▌                                                                                                                                                  | 3682/15000 [2:37:11<7:24:39,  2.36s/it] 25%|███████████████████████████████████████████████▋                                                                                                                                                  | 3683/15000 [2:37:13<7:24:58,  2.36s/it] 25%|███████████████████████████████████████████████▋                                                                                                                                                  | 3684/15000 [2:37:16<7:24:49,  2.36s/it] 25%|███████████████████████████████████████████████▋                                                                                                                                                  | 3685/15000 [2:37:18<7:24:10,  2.36s/it] 25%|███████████████████████████████████████████████▋                                                                                                                                                  | 3686/15000 [2:37:21<7:23:39,  2.35s/it] 25%|███████████████████████████████████████████████▋                                                                                                                                                  | 3687/15000 [2:37:23<7:23:52,  2.35s/it] 25%|███████████████████████████████████████████████▋                                                                                                                                                  | 3688/15000 [2:37:25<7:23:53,  2.35s/it] 25%|██████████���████████████████████████████████████▋                                                                                                                                                  | 3689/15000 [2:37:28<7:24:10,  2.36s/it] 25%|███████████████████████████████████████████████▋                                                                                                                                                  | 3690/15000 [2:37:30<7:23:32,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 3.0287, 'grad_norm': 1.7578125, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3493.83, 'total_tokens': 30146070, 'epoch': 0.25}
+ 25%|███████████████████████████████████████████████▋                                                                                                                                                  | 3690/15000 [2:37:30<7:23:32,  2.35s/it] 25%|███████████████████████████████████████████████▋                                                                                                                                                  | 3691/15000 [2:37:32<7:23:45,  2.35s/it] 25%|███████████████████████████████████████████████▋                                                                                                                                                  | 3692/15000 [2:37:35<7:23:52,  2.36s/it] 25%|███████████████████████████████████████████████▊                                                                                                                                                  | 3693/15000 [2:37:37<7:23:44,  2.35s/it] 25%|███████████████████████████████████████████████▊                                                                                                                                                  | 3694/15000 [2:37:39<7:23:27,  2.35s/it] 25%|███████████████████████████████████████████████▊                                                                                                                                                  | 3695/15000 [2:37:42<7:23:28,  2.35s/it] 25%|███████████████████████████████████████████████▊                                                                                                                                                  | 3696/15000 [2:37:44<7:23:20,  2.35s/it] 25%|███████████████████████████████████████████████▊                                                                                                                                                  | 3697/15000 [2:37:46<7:23:38,  2.35s/it] 25%|███████████████████████████████████████████████▊                                                                                                                                                  | 3698/15000 [2:37:49<7:23:39,  2.36s/it] 25%|███████████████████████████████████████████████▊                                                                                                                                                  | 3699/15000 [2:37:51<7:23:27,  2.35s/it] 25%|███████████████████████████████████████████████▊                                                                                                                                                  | 3700/15000 [2:37:53<7:23:02,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 3.0315, 'grad_norm': 1.7890625, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3491.86, 'total_tokens': 30227803, 'epoch': 0.25}
+ 25%|███████████████████████████████████████████████▊                                                                                                                                                  | 3700/15000 [2:37:53<7:23:02,  2.35s/it] 25%|███████████████████████████████████████████████▊                                                                                                                                                  | 3701/15000 [2:37:56<7:22:46,  2.35s/it] 25%|███████████████████████████████████████████████▉                                                                                                                                                  | 3702/15000 [2:37:58<7:22:44,  2.35s/it] 25%|███████████████████████████████████████████████▉                                                                                                                                                  | 3703/15000 [2:38:01<7:22:25,  2.35s/it] 25%|███████████████████████████████████████████████▉                                                                                                                                                  | 3704/15000 [2:38:03<7:22:49,  2.35s/it] 25%|███████████████████████████████████████████████▉                                                                                                                                                  | 3705/15000 [2:38:05<7:22:55,  2.35s/it] 25%|███████████████████████████████████████████████▉                                                                                                                                                  | 3706/15000 [2:38:08<7:22:55,  2.35s/it] 25%|███████████████████████████████████████████████▉                                                                                                                                                  | 3707/15000 [2:38:10<7:22:46,  2.35s/it] 25%|███████████████████████████████████████████████▉                                                                                                                                                  | 3708/15000 [2:38:12<7:22:43,  2.35s/it] 25%|███████████████████████████████████████████████▉                                                                                                                                                  | 3709/15000 [2:38:15<7:23:10,  2.36s/it] 25%|███████████████████████████████████████████████▉                                                                                                                                                  | 3710/15000 [2:38:17<7:23:01,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 3.0705, 'grad_norm': 1.796875, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3484.75, 'total_tokens': 30309557, 'epoch': 0.25}
+ 25%|███████████████████████████████████████████████▉                                                                                                                                                  | 3710/15000 [2:38:17<7:23:01,  2.35s/it] 25%|███████████████████████████████████████████████▉                                                                                                                                                  | 3711/15000 [2:38:19<7:23:07,  2.36s/it] 25%|██████���█████████████████████████████████████████                                                                                                                                                  | 3712/15000 [2:38:22<7:23:20,  2.36s/it] 25%|████████████████████████████████████████████████                                                                                                                                                  | 3713/15000 [2:38:24<7:23:05,  2.36s/it] 25%|████████████████████████████████████████████████                                                                                                                                                  | 3714/15000 [2:38:26<7:22:54,  2.35s/it] 25%|████████████████████████████████████████████████                                                                                                                                                  | 3715/15000 [2:38:29<7:22:40,  2.35s/it] 25%|████████████████████████████████████████████████                                                                                                                                                  | 3716/15000 [2:38:31<7:22:26,  2.35s/it] 25%|████████████████████████████████████████████████                                                                                                                                                  | 3717/15000 [2:38:34<7:22:42,  2.35s/it] 25%|████████████████████████████████████████████████                                                                                                                                                  | 3718/15000 [2:38:36<7:22:52,  2.36s/it] 25%|████████████████████████████████████████████████                                                                                                                                                  | 3719/15000 [2:38:38<7:22:40,  2.35s/it] 25%|████████████████████████████████████████████████                                                                                                                                                  | 3720/15000 [2:38:41<7:22:18,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.9231, 'grad_norm': 1.7734375, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3493.81, 'total_tokens': 30391372, 'epoch': 0.25}
+ 25%|████████████████████████████████████████████████                                                                                                                                                  | 3720/15000 [2:38:41<7:22:18,  2.35s/it] 25%|████████████████████████████████████████████████                                                                                                                                                  | 3721/15000 [2:38:43<7:22:20,  2.35s/it] 25%|████████████████████████████████████████████████▏                                                                                                                                                 | 3722/15000 [2:38:45<7:21:57,  2.35s/it] 25%|████████████████████████████████████████████████▏                                                                                                                                                 | 3723/15000 [2:38:48<7:22:02,  2.35s/it] 25%|████████████████████████████████████████████████▏                                                                                                                                                 | 3724/15000 [2:38:50<7:22:14,  2.35s/it] 25%|████████████████████████████████████████████████▏                                                                                                                                                 | 3725/15000 [2:38:52<7:22:06,  2.35s/it] 25%|████████████████████████████████████████████████▏                                                                                                                                                 | 3726/15000 [2:38:55<7:22:23,  2.35s/it] 25%|████████████████████████████████████████████████▏                                                                                                                                                 | 3727/15000 [2:38:57<7:22:33,  2.36s/it] 25%|████████████████████████████████████████████████▏                                                                                                                                                 | 3728/15000 [2:38:59<7:22:45,  2.36s/it] 25%|████████████████████████████████████████████████▏                                                                                                                                                 | 3729/15000 [2:39:02<7:22:21,  2.35s/it] 25%|████████████████████████████████████████████████▏                                                                                                                                                 | 3730/15000 [2:39:04<7:22:02,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.9803, 'grad_norm': 1.7265625, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3490.61, 'total_tokens': 30473154, 'epoch': 0.25}
+ 25%|████████████████████████████████████████████████▏                                                                                                                                                 | 3730/15000 [2:39:04<7:22:02,  2.35s/it] 25%|████████████████████████████████████████████████▎                                                                                                                                                 | 3731/15000 [2:39:06<7:21:59,  2.35s/it] 25%|████████████████████████████████████████████████▎                                                                                                                                                 | 3732/15000 [2:39:09<7:22:13,  2.35s/it] 25%|████████████████████████████████████████████████▎                                                                                                                                                 | 3733/15000 [2:39:11<7:22:04,  2.35s/it] 25%|████████████████████████████████████████████████▎                                                                                                                                                 | 3734/15000 [2:39:14<7:22:19,  2.36s/it] 25%|████████████████████████████████████████████████▎                                                                                                                                                 | 3735/15000 [2:39:16<7:21:22,  2.35s/it] 25%|████████████████████████████████████████████████▎                                                                                                                                                 | 3736/15000 [2:39:18<7:21:33,  2.35s/it] 25%|████████████████████████████████████████████��███▎                                                                                                                                                 | 3737/15000 [2:39:21<7:21:26,  2.35s/it] 25%|████████████████████████████████████████████████▎                                                                                                                                                 | 3738/15000 [2:39:23<7:21:36,  2.35s/it] 25%|████████████████████████████████████████████████▎                                                                                                                                                 | 3739/15000 [2:39:25<7:21:38,  2.35s/it] 25%|████████████████████████████████████████████████▎                                                                                                                                                 | 3740/15000 [2:39:28<7:21:28,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 3.0294, 'grad_norm': 1.828125, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3489.06, 'total_tokens': 30554931, 'epoch': 0.25}
+ 25%|████████████████████████████████████████████████▎                                                                                                                                                 | 3740/15000 [2:39:28<7:21:28,  2.35s/it] 25%|████████████████████████████████████████████████▍                                                                                                                                                 | 3741/15000 [2:39:30<7:21:21,  2.35s/it] 25%|████████████████████████████████████████████████▍                                                                                                                                                 | 3742/15000 [2:39:32<7:21:35,  2.35s/it] 25%|████████████████████████████████████████████████▍                                                                                                                                                 | 3743/15000 [2:39:35<7:21:46,  2.35s/it] 25%|████████████████████████████████████████████████▍                                                                                                                                                 | 3744/15000 [2:39:37<7:21:52,  2.36s/it] 25%|████████████████████████████████████████████████▍                                                                                                                                                 | 3745/15000 [2:39:39<7:21:48,  2.36s/it] 25%|████████████████████████████████████████████████▍                                                                                                                                                 | 3746/15000 [2:39:42<7:21:45,  2.36s/it] 25%|████████████████████████████████████████████████▍                                                                                                                                                 | 3747/15000 [2:39:44<7:21:16,  2.35s/it] 25%|████████████████████████████████████████████████▍                                                                                                                                                 | 3748/15000 [2:39:46<7:21:37,  2.35s/it] 25%|████████████████████████████████████████████████▍                                                                                                                                                 | 3749/15000 [2:39:49<7:21:20,  2.35s/it] 25%|████████████████████████████████████████████████▌                                                                                                                                                 | 3750/15000 [2:39:51<7:21:24,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.9533, 'grad_norm': 1.875, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3481.8, 'total_tokens': 30636712, 'epoch': 0.25}
+ 25%|████████████████████████████████████████████████▌                                                                                                                                                 | 3750/15000 [2:39:51<7:21:24,  2.35s/it] 25%|████████████████████████████████████████████████▌                                                                                                                                                 | 3751/15000 [2:39:54<7:21:14,  2.35s/it] 25%|████████████████████████████████████████████████▌                                                                                                                                                 | 3752/15000 [2:39:56<7:21:24,  2.35s/it] 25%|████████████████████████████████████████████████▌                                                                                                                                                 | 3753/15000 [2:39:58<7:20:59,  2.35s/it] 25%|████████████████████████████████████████████████▌                                                                                                                                                 | 3754/15000 [2:40:01<7:21:09,  2.35s/it] 25%|████████████████████████████████████████████████▌                                                                                                                                                 | 3755/15000 [2:40:03<7:21:10,  2.35s/it] 25%|████████████████████████████████████████████████▌                                                                                                                                                 | 3756/15000 [2:40:05<7:20:54,  2.35s/it] 25%|████████████████████████████████████████████████▌                                                                                                                                                 | 3757/15000 [2:40:08<7:20:39,  2.35s/it] 25%|████████████████████████████████████████████████▌                                                                                                                                                 | 3758/15000 [2:40:10<7:20:30,  2.35s/it] 25%|████████████████████████████████████████████████▌                                                                                                                                                 | 3759/15000 [2:40:12<7:20:32,  2.35s/it] 25%|████████████████████████████████████████████████▋                                                                                                                                                 | 3760/15000 [2:40:15<7:20:28,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.9076, 'grad_norm': 4.15625, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3490.38, 'total_tokens': 30718526, 'epoch': 0.25}
+ 25%|█████████████████████████��██████████████████████▋                                                                                                                                                 | 3760/15000 [2:40:15<7:20:28,  2.35s/it] 25%|████████████████████████████████████████████████▋                                                                                                                                                 | 3761/15000 [2:40:17<7:20:18,  2.35s/it] 25%|████████████████████████████████████████████████▋                                                                                                                                                 | 3762/15000 [2:40:19<7:20:28,  2.35s/it] 25%|████████████████████████████████████████████████▋                                                                                                                                                 | 3763/15000 [2:40:22<7:20:24,  2.35s/it] 25%|████████████████████████████████████████████████▋                                                                                                                                                 | 3764/15000 [2:40:24<7:20:22,  2.35s/it] 25%|████████████████████████████████████████████████▋                                                                                                                                                 | 3765/15000 [2:40:26<7:20:47,  2.35s/it] 25%|████████████████████████████████████████████████▋                                                                                                                                                 | 3766/15000 [2:40:29<7:20:34,  2.35s/it] 25%|████████████████████████████████████████████████▋                                                                                                                                                 | 3767/15000 [2:40:31<7:20:49,  2.35s/it] 25%|████████████████████████████████████████████████▋                                                                                                                                                 | 3768/15000 [2:40:34<7:20:36,  2.35s/it] 25%|████████████████████████████████████████████████▋                                                                                                                                                 | 3769/15000 [2:40:36<7:20:44,  2.35s/it] 25%|████████████████████████████████████████████████▊                                                                                                                                                 | 3770/15000 [2:40:38<7:21:02,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 3.1174, 'grad_norm': 4.25, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3472.31, 'total_tokens': 30800256, 'epoch': 0.25}
+ 25%|████████████████████████████████████████████████▊                                                                                                                                                 | 3770/15000 [2:40:38<7:21:02,  2.36s/it] 25%|████████████████████████████████████████████████▊                                                                                                                                                 | 3771/15000 [2:40:41<7:20:29,  2.35s/it] 25%|████████████████████████████████████████████████▊                                                                                                                                                 | 3772/15000 [2:40:43<7:20:47,  2.36s/it] 25%|████████████████████████████████████████████████▊                                                                                                                                                 | 3773/15000 [2:40:45<7:20:52,  2.36s/it] 25%|████████████████████████████████████████████████▊                                                                                                                                                 | 3774/15000 [2:40:48<7:20:41,  2.36s/it] 25%|████████████████████████████████████████████████▊                                                                                                                                                 | 3775/15000 [2:40:50<7:20:40,  2.36s/it] 25%|████████████████████████████████████████████████▊                                                                                                                                                 | 3776/15000 [2:40:52<7:20:35,  2.36s/it] 25%|████████████████████████████████████████████████▊                                                                                                                                                 | 3777/15000 [2:40:55<7:20:51,  2.36s/it] 25%|████████████████████████████████████████████████▊                                                                                                                                                 | 3778/15000 [2:40:57<7:21:05,  2.36s/it] 25%|████████████████████████████████████████████████▉                                                                                                                                                 | 3779/15000 [2:40:59<7:20:37,  2.36s/it] 25%|████████████████████████████████████████████████▉                                                                                                                                                 | 3780/15000 [2:41:02<7:20:12,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 3.0077, 'grad_norm': 1.8046875, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3488.7, 'total_tokens': 30881967, 'epoch': 0.25}
+ 25%|████████████████████████████████████████████████▉                                                                                                                                                 | 3780/15000 [2:41:02<7:20:12,  2.35s/it] 25%|████████████████████████████████████████████████▉                                                                                                                                                 | 3781/15000 [2:41:04<7:19:55,  2.35s/it] 25%|████████████████████████████████████████████████▉                                                                                                                                                 | 3782/15000 [2:41:06<7:19:53,  2.35s/it] 25%|████████████████████████████████████████████████▉                                                                                                                                                 | 3783/15000 [2:41:09<7:19:18,  2.35s/it] 25%|████████████████████████████████████████████████▉                                                                                                                                                 | 3784/15000 [2:41:11<7:19:11,  2.35s/it] 25%|████████████████████████████████████████████████▉                                                                                                                                                 | 3785/15000 [2:41:14<7:19:25,  2.35s/it] 25%|████████████████████████████████████████████████▉                                                                                                                                                 | 3786/15000 [2:41:16<7:19:37,  2.35s/it] 25%|████████████████████████████████████████████████▉                                                                                                                                                 | 3787/15000 [2:41:18<7:19:38,  2.35s/it] 25%|████████████████████████████████████████████████▉                                                                                                                                                 | 3788/15000 [2:41:21<7:19:25,  2.35s/it] 25%|█████████████████████████████████████████████████                                                                                                                                                 | 3789/15000 [2:41:23<7:19:23,  2.35s/it] 25%|█████████████████████████████████████████████████                                                                                                                                                 | 3790/15000 [2:41:25<7:19:15,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.9563, 'grad_norm': 2.125, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3488.97, 'total_tokens': 30963706, 'epoch': 0.25}
+ 25%|█████████████████████████████████████████████████                                                                                                                                                 | 3790/15000 [2:41:25<7:19:15,  2.35s/it] 25%|█████████████████████████████████████████████████                                                                                                                                                 | 3791/15000 [2:41:28<7:19:30,  2.35s/it] 25%|█████████████████████████████████████████████████                                                                                                                                                 | 3792/15000 [2:41:30<7:19:51,  2.35s/it] 25%|█████████████████████████████████████████████████                                                                                                                                                 | 3793/15000 [2:41:32<7:19:40,  2.35s/it] 25%|█████████████████████████████████████████████████                                                                                                                                                 | 3794/15000 [2:41:35<7:19:34,  2.35s/it] 25%|█████████████████████████████████████████████████                                                                                                                                                 | 3795/15000 [2:41:37<7:19:18,  2.35s/it] 25%|█████████████████████████████████████████████████                                                                                                                                                 | 3796/15000 [2:41:39<7:19:19,  2.35s/it] 25%|█████████████████████████████████████████████████                                                                                                                                                 | 3797/15000 [2:41:42<7:19:02,  2.35s/it] 25%|█████████████████████████████████████████████████                                                                                                                                                 | 3798/15000 [2:41:44<7:19:19,  2.35s/it] 25%|█████████████████████████████████████████████████▏                                                                                                                                                | 3799/15000 [2:41:46<7:19:27,  2.35s/it] 25%|█████████████████████████████████████████████████▏                                                                                                                                                | 3800/15000 [2:41:49<7:19:00,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.9676, 'grad_norm': 1.7265625, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3494.46, 'total_tokens': 31045464, 'epoch': 0.25}
+ 25%|█████████████████████████████████████████████████▏                                                                                                                                                | 3800/15000 [2:41:49<7:19:00,  2.35s/it] 25%|█████████████████████████████████████████████████▏                                                                                                                                                | 3801/15000 [2:41:51<7:19:12,  2.35s/it] 25%|█████████████████████████████████████████████████▏                                                                                                                                                | 3802/15000 [2:41:54<7:19:07,  2.35s/it] 25%|█████████████████████████████████████████████████▏                                                                                                                                                | 3803/15000 [2:41:56<7:19:19,  2.35s/it] 25%|█████████████████████████████████████████████████▏                                                                                                                                                | 3804/15000 [2:41:58<7:19:16,  2.35s/it] 25%|█████████████████████████████████████████████████▏                                                                                                                                                | 3805/15000 [2:42:01<7:19:23,  2.35s/it] 25%|█████████████████████████████████████████████████▏                                                                                                                                                | 3806/15000 [2:42:03<7:19:14,  2.35s/it] 25%|█████████████████████████████████████████████████▏                                                                                                                                                | 3807/15000 [2:42:05<7:19:29,  2.36s/it] 25%|█████████████████████████████████████████████████▎                                                                                                                                                | 3808/15000 [2:42:08<7:19:24,  2.36s/it] 25%|█████████████████████████████████████████████████▎                                                                                                                                                | 3809/15000 [2:42:10<7:19:20,  2.36s/it] 25%|█████████████████████████████████████████████████▎                                                                                                                                                | 3810/15000 [2:42:12<7:18:27,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.9501, 'grad_norm': 1.7421875, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3503.94, 'total_tokens': 31127217, 'epoch': 0.25}
+ 25%|█████████████████████████████████████████████████▎                                                                                                                                                | 3810/15000 [2:42:12<7:18:27,  2.35s/it] 25%|█████████████████████████████████████████████████▎                                                                                                                                                | 3811/15000 [2:42:15<7:18:32,  2.35s/it] 25%|█████████████████████████████████████████████████▎                                                                                                                                                | 3812/15000 [2:42:17<7:19:10,  2.36s/it] 25%|█████████████████████████████████████████████████▎                                                                                                                                                | 3813/15000 [2:42:19<7:18:56,  2.35s/it] 25%|█████████████████████████████████████████████████▎                                                                                                                                                | 3814/15000 [2:42:22<7:18:57,  2.35s/it] 25%|█████████████████████████████████████████████████▎                                                                                                                                                | 3815/15000 [2:42:24<7:18:31,  2.35s/it] 25%|█████████████████████████████████████████████████▎                                                                                                                                                | 3816/15000 [2:42:26<7:18:47,  2.35s/it] 25%|█████████████████████████████████████████████████▎                                                                                                                                                | 3817/15000 [2:42:29<7:18:20,  2.35s/it] 25%|█████████████████████████████████████████████████▍                                                                                                                                                | 3818/15000 [2:42:31<7:18:53,  2.35s/it] 25%|█████████████████████████████████████████████████▍                                                                                                                                                | 3819/15000 [2:42:34<7:18:27,  2.35s/it] 25%|█████████████████████████████████████████████████▍                                                                                                                                                | 3820/15000 [2:42:36<7:17:27,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.932, 'grad_norm': 1.9453125, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3512.44, 'total_tokens': 31209005, 'epoch': 0.25}
+ 25%|█████████████████████████████████████████████████▍                                                                                                                                                | 3820/15000 [2:42:36<7:17:27,  2.35s/it] 25%|█████████████████████████████████████████████████▍                                                                                                                                                | 3821/15000 [2:42:38<7:17:39,  2.35s/it] 25%|█████████████████████████████████████████████████▍                                                                                                                                                | 3822/15000 [2:42:41<7:17:44,  2.35s/it] 25%|█████████████████████████████████████████████████▍                                                                                                                                                | 3823/15000 [2:42:43<7:17:36,  2.35s/it] 25%|█████████████████████████████████████████████████▍                                                                                                                                                | 3824/15000 [2:42:45<7:18:08,  2.35s/it] 26%|█████████████████████████████████████████████████▍                                                                                                                                                | 3825/15000 [2:42:48<7:18:02,  2.35s/it] 26%|█████████████████████████████████████████████████▍                                                                                                                                                | 3826/15000 [2:42:50<7:18:19,  2.35s/it] 26%|█████████████████████████████████████████████████▍                                                                                                                                                | 3827/15000 [2:42:52<7:17:39,  2.35s/it] 26%|█████████████████████████████████████████████████▌                                                                                                                                                | 3828/15000 [2:42:55<7:17:49,  2.35s/it] 26%|█████████████████████████████████████████████████▌                                                                                                                                                | 3829/15000 [2:42:57<7:17:54,  2.35s/it] 26%|█████████████████████████████████████████████████▌                                                                                                                                                | 3830/15000 [2:42:59<7:17:56,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 3.0358, 'grad_norm': 1.8046875, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3477.61, 'total_tokens': 31290601, 'epoch': 0.26}
+ 26%|█████████████████████████████████████████████████▌                                                                                                                                                | 3830/15000 [2:42:59<7:17:56,  2.35s/it] 26%|█████████████████████████████████████████████████▌                                                                                                                                                | 3831/15000 [2:43:02<7:17:57,  2.35s/it] 26%|█████████████████████████████████████████████████▌                                                                                                                                                | 3832/15000 [2:43:04<7:18:14,  2.35s/it] 26%|████████████████████████████████████████████���████▌                                                                                                                                                | 3833/15000 [2:43:06<7:17:52,  2.35s/it] 26%|█████████████████████████████████████████████████▌                                                                                                                                                | 3834/15000 [2:43:09<7:17:26,  2.35s/it] 26%|█████████████████████████████████████████████████▌                                                                                                                                                | 3835/15000 [2:43:11<7:17:37,  2.35s/it] 26%|█████████████████████████████████████████████████▌                                                                                                                                                | 3836/15000 [2:43:14<7:17:40,  2.35s/it] 26%|█████████████████████████████████████████████████▋                                                                                                                                                | 3837/15000 [2:43:16<7:44:47,  2.50s/it] 26%|█████████████████████████████████████████████████▋                                                                                                                                                | 3838/15000 [2:43:19<7:36:40,  2.45s/it] 26%|█████████████████████████████████████████████████▋                                                                                                                                                | 3839/15000 [2:43:21<7:31:00,  2.42s/it] 26%|█████████████████████████████████████████████████▋                                                                                                                                                | 3840/15000 [2:43:23<7:27:00,  2.40s/it]                                                                                                                                                                                                                                                {'loss': 2.9502, 'grad_norm': 1.8359375, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3481.53, 'total_tokens': 31372292, 'epoch': 0.26}
+ 26%|█████████████████████████████████████████████████▋                                                                                                                                                | 3840/15000 [2:43:23<7:27:00,  2.40s/it] 26%|█████████████████████████████████████████████████▋                                                                                                                                                | 3841/15000 [2:43:26<7:24:07,  2.39s/it] 26%|█████████████████████████████████████████████████▋                                                                                                                                                | 3842/15000 [2:43:28<7:22:34,  2.38s/it] 26%|█████████████████████████████████████████████████▋                                                                                                                                                | 3843/15000 [2:43:30<7:20:56,  2.37s/it] 26%|█████████████████████████████████████████████████▋                                                                                                                                                | 3844/15000 [2:43:33<7:20:04,  2.37s/it] 26%|█████████████████████████████████████████████████▋                                                                                                                                                | 3845/15000 [2:43:35<7:19:18,  2.36s/it] 26%|█████████████████████████████████████████████████▋                                                                                                                                                | 3846/15000 [2:43:38<7:18:31,  2.36s/it] 26%|█████████████████████████████████████████████████▊                                                                                                                                                | 3847/15000 [2:43:40<7:18:43,  2.36s/it] 26%|█████████████████████████████████████████████████▊                                                                                                                                                | 3848/15000 [2:43:42<7:18:35,  2.36s/it] 26%|█████████████████████████████████████████████████▊                                                                                                                                                | 3849/15000 [2:43:45<7:17:54,  2.36s/it] 26%|█████████████████████████████████████████████████▊                                                                                                                                                | 3850/15000 [2:43:47<7:17:20,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.8942, 'grad_norm': 1.7109375, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3487.32, 'total_tokens': 31453889, 'epoch': 0.26}
+ 26%|█████████████████████████████████████████████████▊                                                                                                                                                | 3850/15000 [2:43:47<7:17:20,  2.35s/it] 26%|█████████████████████████████████████████████████▊                                                                                                                                                | 3851/15000 [2:43:49<7:17:39,  2.36s/it] 26%|█████████████████████████████████████████████████▊                                                                                                                                                | 3852/15000 [2:43:52<7:17:43,  2.36s/it] 26%|█████████████████████████████████████████████████▊                                                                                                                                                | 3853/15000 [2:43:54<7:17:27,  2.35s/it] 26%|█████████████████████████████████████████████████▊                                                                                                                                                | 3854/15000 [2:43:56<7:17:16,  2.35s/it] 26%|█████████████████████████████████████████████████▊                                                                                                                                                | 3855/15000 [2:43:59<7:17:17,  2.35s/it] 26%|█████████████████████████████████████████████████▊                                                                                                                                                | 3856/15000 [2:44:01<7:17:21,  2.35s/it] 26%|█████████████████████████████████████████████████▉                                                                                                                                                | 3857/15000 [2:44:03<7:16:56,  2.35s/it] 26%|█████████████████████████████████████████████████▉                                                                                                                                                | 3858/15000 [2:44:06<7:17:01,  2.35s/it] 26%|█████████████████████████████████████████████████▉                                                                                                                                                | 3859/15000 [2:44:08<7:17:06,  2.35s/it] 26%|█████████████████████████████████████████████████▉                                                                                                                                                | 3860/15000 [2:44:11<7:16:48,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.9824, 'grad_norm': 1.703125, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3483.96, 'total_tokens': 31535501, 'epoch': 0.26}
+ 26%|█████████████████████████████████████████████████▉                                                                                                                                                | 3860/15000 [2:44:11<7:16:48,  2.35s/it] 26%|█████████████████████████████████████████████████▉                                                                                                                                                | 3861/15000 [2:44:13<7:16:36,  2.35s/it] 26%|█████████████████████████████████████████████████▉                                                                                                                                                | 3862/15000 [2:44:15<7:16:29,  2.35s/it] 26%|█████████████████████████████████████████████████▉                                                                                                                                                | 3863/15000 [2:44:18<7:16:51,  2.35s/it] 26%|█████████████████████████████████████████████████▉                                                                                                                                                | 3864/15000 [2:44:20<7:17:06,  2.36s/it] 26%|█████████████████████████████████████████████████▉                                                                                                                                                | 3865/15000 [2:44:22<7:16:55,  2.35s/it] 26%|██████████████████████████████████████████████████                                                                                                                                                | 3866/15000 [2:44:25<7:16:54,  2.35s/it] 26%|██████████████████████████████████████████████████                                                                                                                                                | 3867/15000 [2:44:27<7:17:10,  2.36s/it] 26%|██████████████████████████████████████████████████                                                                                                                                                | 3868/15000 [2:44:29<7:16:52,  2.35s/it] 26%|██████████████████████████████████████████████████                                                                                                                                                | 3869/15000 [2:44:32<7:16:48,  2.35s/it] 26%|██████████████████████████████████████████████████                                                                                                                                                | 3870/15000 [2:44:34<7:16:50,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 3.057, 'grad_norm': 1.703125, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3475.27, 'total_tokens': 31617131, 'epoch': 0.26}
+ 26%|██████████████████████████████████████████████████                                                                                                                                                | 3870/15000 [2:44:34<7:16:50,  2.35s/it] 26%|██████████████████████████████████████████████████                                                                                                                                                | 3871/15000 [2:44:36<7:16:38,  2.35s/it] 26%|██████████████████████████████████████████████████                                                                                                                                                | 3872/15000 [2:44:39<7:16:55,  2.36s/it] 26%|██████████████████████████████████████████████████                                                                                                                                                | 3873/15000 [2:44:41<7:16:45,  2.36s/it] 26%|██████████████████████████████████████████████████                                                                                                                                                | 3874/15000 [2:44:43<7:16:58,  2.36s/it] 26%|██████████████████████████████████████████████████                                                                                                                                                | 3875/15000 [2:44:46<7:16:38,  2.35s/it] 26%|██████████████████████████████████████████████████▏                                                                                                                                               | 3876/15000 [2:44:48<7:16:00,  2.35s/it] 26%|██████████████████████████████████████████████████▏                                                                                                                                               | 3877/15000 [2:44:51<7:15:51,  2.35s/it] 26%|██████████████████████████████████████████████████▏                                                                                                                                               | 3878/15000 [2:44:53<7:16:27,  2.35s/it] 26%|██████████████████████████████████████████████████▏                                                                                                                                               | 3879/15000 [2:44:55<7:16:34,  2.36s/it] 26%|██████████████████████████████████████████████████▏                                                                                                                                               | 3880/15000 [2:44:58<7:16:25,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.9449, 'grad_norm': 1.796875, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3477.91, 'total_tokens': 31698728, 'epoch': 0.26}
+ 26%|██████████████████████████████████████████████████▏                                                                                                                                               | 3880/15000 [2:44:58<7:16:25,  2.35s/it] 26%|███████████████��██████████████████████████████████▏                                                                                                                                               | 3881/15000 [2:45:00<7:16:34,  2.36s/it] 26%|██████████████████████████████████████████████████▏                                                                                                                                               | 3882/15000 [2:45:02<7:16:37,  2.36s/it] 26%|██████████████████████████████████████████████████▏                                                                                                                                               | 3883/15000 [2:45:05<7:16:38,  2.36s/it] 26%|██████████████████████████████████████████████████▏                                                                                                                                               | 3884/15000 [2:45:07<7:16:40,  2.36s/it] 26%|██████████████████████████████████████████████████▏                                                                                                                                               | 3885/15000 [2:45:09<7:16:45,  2.36s/it] 26%|██████████████████████████████████████████████████▎                                                                                                                                               | 3886/15000 [2:45:12<7:16:22,  2.36s/it] 26%|██████████████████████████████████████████████████▎                                                                                                                                               | 3887/15000 [2:45:14<7:15:56,  2.35s/it] 26%|██████████████████████████████████████████████████▎                                                                                                                                               | 3888/15000 [2:45:16<7:15:47,  2.35s/it] 26%|██████████████████████████████████████████████████▎                                                                                                                                               | 3889/15000 [2:45:19<7:15:42,  2.35s/it] 26%|██████████████████████████████████████████████████▎                                                                                                                                               | 3890/15000 [2:45:21<7:15:38,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.9605, 'grad_norm': 1.703125, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3476.07, 'total_tokens': 31780247, 'epoch': 0.26}
+ 26%|██████████████████████████████████████████████████▎                                                                                                                                               | 3890/15000 [2:45:21<7:15:38,  2.35s/it] 26%|██████████████████████████████████████████████████▎                                                                                                                                               | 3891/15000 [2:45:23<7:15:38,  2.35s/it] 26%|██████████████████████████████████████████████████▎                                                                                                                                               | 3892/15000 [2:45:26<7:15:43,  2.35s/it] 26%|██████████████████████████████████████████████████▎                                                                                                                                               | 3893/15000 [2:45:28<7:15:57,  2.36s/it] 26%|██████████████████████████████████████████████████▎                                                                                                                                               | 3894/15000 [2:45:31<7:15:39,  2.35s/it] 26%|██████████████████████████████████████████████████▍                                                                                                                                               | 3895/15000 [2:45:33<7:15:38,  2.35s/it][2025-11-17 00:28:26,984] [INFO] [axolotl.utils.data.wrappers.get_dataset_wrapper:87] [PID:8163] Loading dataset: Goader/kobza-2m-jsonl with base_type: pretrain and prompt_style: None
+
+Tokenizing Prompts (num_proc=64):   0%|                                                                                                                                                                        | 0/10000 [00:00<?, ? examples/s][A
+Tokenizing Prompts (num_proc=64):   2%|██▍                                                                                                                                                           | 157/10000 [00:06<06:06, 26.87 examples/s][A
+Tokenizing Prompts (num_proc=64):   3%|████▉                                                                                                                                                         | 314/10000 [00:06<03:04, 52.63 examples/s][A
+Tokenizing Prompts (num_proc=64):   5%|███████▍                                                                                                                                                      | 471/10000 [00:07<01:57, 81.36 examples/s][A
+Tokenizing Prompts (num_proc=64):   6%|█████████▊                                                                                                                                                   | 628/10000 [00:07<01:16, 122.71 examples/s][A
+Tokenizing Prompts (num_proc=64):   8%|████████████▎                                                                                                                                                | 785/10000 [00:08<01:03, 145.88 examples/s][A
+Tokenizing Prompts (num_proc=64):   9%|██████████████▊                                                                                                                                              | 942/10000 [00:09<00:54, 166.88 examples/s][A
+Tokenizing Prompts (num_proc=64):  11%|█████████████████▏                                                                                                                                          | 1099/10000 [00:10<00:53, 166.96 examples/s][A
+Tokenizing Prompts (num_proc=64):  13%|███████████████████▌                                                                                                                                        | 1256/10000 [00:10<00:47, 185.16 examples/s][A
+Tokenizing Prompts (num_proc=64):  14%|██████████████████████                                                                                                                                      | 1413/10000 [00:11<00:42, 202.30 examples/s][A
+Tokenizing Prompts (num_proc=64):  16%|████████████████████████▍                                                                                                                                   | 1570/10000 [00:11<00:33, 253.23 examples/s][A
+Tokenizing Prompts (num_proc=64):  17%|██████████████████████████▉                                                                                                                                 | 1727/10000 [00:12<00:34, 237.56 examples/s][A
+Tokenizing Prompts (num_proc=64):  19%|█████████████████████████████▍                                                                                                                              | 1884/10000 [00:13<00:32, 247.99 examples/s][A
+Tokenizing Prompts (num_proc=64):  20%|███████████████████████████████▊                                                                                                                            | 2041/10000 [00:13<00:37, 210.77 examples/s][A
+Tokenizing Prompts (num_proc=64):  22%|██████████████████████████████████▎                                                                                                                         | 2198/10000 [00:14<00:31, 248.50 examples/s][A
+Tokenizing Prompts (num_proc=64):  24%|████████████████████████████████████▋                                                                                                                       | 2355/10000 [00:15<00:30, 251.47 examples/s][A
+Tokenizing Prompts (num_proc=64):  25%|███████████████████████████████████████▏                                                                                                                    | 2512/10000 [00:15<00:28, 260.45 examples/s][A
+Tokenizing Prompts (num_proc=64):  27%|█████████████████████████████████████████▌                                                                                                                  | 2668/10000 [00:16<00:34, 211.57 examples/s][A
+Tokenizing Prompts (num_proc=64):  28%|████████████████████████████████████████████                                                                                                                | 2824/10000 [00:17<00:32, 222.29 examples/s][A
+Tokenizing Prompts (num_proc=64):  30%|██████████████████████████████████████████████▍                                                                                                             | 2980/10000 [00:17<00:26, 267.42 examples/s][A
+Tokenizing Prompts (num_proc=64):  31%|████████████████████████████████████████████████▉                                                                                                           | 3136/10000 [00:18<00:26, 256.71 examples/s][A
+Tokenizing Prompts (num_proc=64):  33%|███████████████████████████████████████████████████▎                                                                                                        | 3292/10000 [00:19<00:27, 248.13 examples/s][A
+Tokenizing Prompts (num_proc=64):  34%|█████████████████████████████████████████████████████▊                                                                                                      | 3448/10000 [00:19<00:26, 249.68 examples/s][A
+Tokenizing Prompts (num_proc=64):  36%|████████████████████████████████████████████████████████▏                                                                                                   | 3604/10000 [00:20<00:25, 246.80 examples/s][A
+Tokenizing Prompts (num_proc=64):  38%|██████████████████████████████████████████████████████████▋                                                                                                 | 3760/10000 [00:21<00:25, 241.00 examples/s][A
+Tokenizing Prompts (num_proc=64):  39%|█████████████████████████████████████████████████████████████                                                                                               | 3916/10000 [00:21<00:28, 211.74 examples/s][A
+Tokenizing Prompts (num_proc=64):  41%|███████████████████████████████████████████████████████████████▌                                                                                            | 4072/10000 [00:22<00:26, 221.48 examples/s][A
+Tokenizing Prompts (num_proc=64):  42%|█████████████████████████████████████████████████████████████████▉                                                                                          | 4228/10000 [00:23<00:25, 224.33 examples/s][A
+Tokenizing Prompts (num_proc=64):  44%|████████████████████████████████████████████████████████████████████▍                                                                                       | 4384/10000 [00:23<00:20, 269.52 examples/s][A
+Tokenizing Prompts (num_proc=64):  45%|██████████████████████████████████████████████████████████████████████▊                                                                                     | 4540/10000 [00:24<00:24, 225.95 examples/s][A
+Tokenizing Prompts (num_proc=64):  47%|█████████████████████████████████████████████████████████████████████████▎                                                                                  | 4696/10000 [00:24<00:23, 230.58 examples/s][A
+Tokenizing Prompts (num_proc=64):  49%|███████████████████████████████████████████████████████████████████████████▋                                                                                | 4852/10000 [00:25<00:21, 236.57 examples/s][A
+Tokenizing Prompts (num_proc=64):  50%|██████████████████████████████████████████████████████████████████████████████                                                                              | 5008/10000 [00:26<00:17, 278.85 examples/s][A
+Tokenizing Prompts (num_proc=64):  52%|████████████████████████████████████████████████████████████████████████████████▌                                                                           | 5164/10000 [00:26<00:17, 268.97 examples/s][A
+Tokenizing Prompts (num_proc=64):  53%|██████████████████████████████████████████████████████████████████████████████████▉                                                                         | 5320/10000 [00:27<00:17, 268.20 examples/s][A
+Tokenizing Prompts (num_proc=64):  55%|█████████████████████████████████████████████████████████████████████████████████████▍                                                                      | 5476/10000 [00:28<00:21, 213.22 examples/s][A
+Tokenizing Prompts (num_proc=64):  56%|███████████████████████████████████████████████████████████████████████████████████████▊                                                                    | 5632/10000 [00:28<00:16, 261.13 examples/s][A
+Tokenizing Prompts (num_proc=64):  58%|██████████████████████████████████████████████████████████████████████████████████████████▎                                                                 | 5788/10000 [00:29<00:16, 260.28 examples/s][A
+Tokenizing Prompts (num_proc=64):  59%|████████████████████████████████████████████████████████████████████████████████████████████▋                                                               | 5944/10000 [00:29<00:15, 254.02 examples/s][A
+Tokenizing Prompts (num_proc=64):  61%|███████████████████████████████████████████████████████████████████████████████████████████████▏                                                            | 6100/10000 [00:30<00:15, 246.27 examples/s][A
+Tokenizing Prompts (num_proc=64):  63%|█████████████████████████████████████████████████████████████████████████████████████████████████▌                                                          | 6256/10000 [00:31<00:17, 209.75 examples/s][A
+Tokenizing Prompts (num_proc=64):  64%|████████████████████████████████████████████████████████████████████████████████████████████████████                                                        | 6412/10000 [00:32<00:16, 217.51 examples/s][A
+Tokenizing Prompts (num_proc=64):  66%|██████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                     | 6568/10000 [00:32<00:13, 262.46 examples/s][A
+Tokenizing Prompts (num_proc=64):  67%|████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                   | 6724/10000 [00:33<00:14, 219.08 examples/s][A
+Tokenizing Prompts (num_proc=64):  69%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                | 6880/10000 [00:34<00:14, 222.71 examples/s][A
+Tokenizing Prompts (num_proc=64):  70%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                              | 7036/10000 [00:34<00:11, 260.83 examples/s][A
+Tokenizing Prompts (num_proc=64):  72%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                           | 7192/10000 [00:35<00:12, 225.45 examples/s][A
+Tokenizing Prompts (num_proc=64):  73%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                         | 7348/10000 [00:35<00:09, 283.25 examples/s][A
+Tokenizing Prompts (num_proc=64):  75%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                       | 7504/10000 [00:36<00:09, 266.38 examples/s][A
+Tokenizing Prompts (num_proc=64):  77%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                    | 7660/10000 [00:37<00:11, 211.06 examples/s][A
+Tokenizing Prompts (num_proc=64):  78%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                  | 7816/10000 [00:37<00:08, 261.27 examples/s][A
+Tokenizing Prompts (num_proc=64):  80%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                               | 7972/10000 [00:38<00:09, 207.63 examples/s][A
+Tokenizing Prompts (num_proc=64):  81%|█████████████████████████████████████████████���████████████████████████████████████████████████████████████████████████████████▊                             | 8128/10000 [00:39<00:07, 256.19 examples/s][A
+Tokenizing Prompts (num_proc=64):  83%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                          | 8284/10000 [00:39<00:06, 255.94 examples/s][A
+Tokenizing Prompts (num_proc=64):  84%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                        | 8440/10000 [00:40<00:06, 251.36 examples/s][A
+Tokenizing Prompts (num_proc=64):  86%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                      | 8596/10000 [00:41<00:05, 236.70 examples/s][A
+Tokenizing Prompts (num_proc=64):  88%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                   | 8752/10000 [00:41<00:05, 238.49 examples/s][A
+Tokenizing Prompts (num_proc=64):  89%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                 | 8908/10000 [00:42<00:04, 238.09 examples/s][A
+Tokenizing Prompts (num_proc=64):  91%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍              | 9064/10000 [00:43<00:04, 206.12 examples/s][A
+Tokenizing Prompts (num_proc=64):  92%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊            | 9220/10000 [00:43<00:03, 241.07 examples/s][A
+Tokenizing Prompts (num_proc=64):  94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎         | 9376/10000 [00:44<00:02, 247.23 examples/s][A
+Tokenizing Prompts (num_proc=64):  95%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋       | 9532/10000 [00:45<00:02, 213.38 examples/s][A
+Tokenizing Prompts (num_proc=64):  97%|███████████���███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏    | 9688/10000 [00:45<00:01, 265.44 examples/s][A
+Tokenizing Prompts (num_proc=64):  98%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌  | 9844/10000 [00:46<00:00, 259.06 examples/s][A
+Tokenizing Prompts (num_proc=64): 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10000/10000 [00:46<00:00, 254.39 examples/s][ATokenizing Prompts (num_proc=64): 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10000/10000 [00:48<00:00, 204.90 examples/s]
+
+Dropping Long Sequences:   0%|                                                                                                                                                                                 | 0/10001 [00:00<?, ? examples/s][A
+Dropping Long Sequences:  10%|████████████████▍                                                                                                                                                    | 1000/10001 [00:01<00:12, 694.46 examples/s][A
+Dropping Long Sequences:  20%|████████████████████████████████▊                                                                                                                                   | 2000/10001 [00:01<00:05, 1363.00 examples/s][A
+Dropping Long Sequences:  30%|█████████████████████████████████████████████████▏                                                                                                                  | 3000/10001 [00:01<00:03, 1968.80 examples/s][A
+Dropping Long Sequences:  40%|█████████████████████████████████████████████████████████████████▌                                                                                                  | 4000/10001 [00:02<00:02, 2404.35 examples/s][A
+Dropping Long Sequences:  50%|█████████████████████████████████████████████████████████████████████████████████▉                                                                                  | 5000/10001 [00:02<00:01, 2803.36 examples/s][A
+Dropping Long Sequences:  60%|██████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                 | 6000/10001 [00:02<00:01, 3248.16 examples/s][A
+Dropping Long Sequences:  70%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                 | 7000/10001 [00:02<00:00, 3465.55 examples/s][A
+Dropping Long Sequences:  80%|███████████████████���███████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                | 8000/10001 [00:03<00:00, 3604.26 examples/s][A
+Dropping Long Sequences:  90%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                | 9000/10001 [00:03<00:00, 3749.87 examples/s][A
+Dropping Long Sequences: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉| 10000/10001 [00:03<00:00, 3622.40 examples/s][ADropping Long Sequences: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10001/10001 [00:03<00:00, 2656.42 examples/s]
+
+Add position_id column (Pretraining Sample Packing):   0%|                                                                                                                                                      | 0/8796 [00:00<?, ? examples/s][A
+Add position_id column (Pretraining Sample Packing):  11%|███████████████▋                                                                                                                          | 1000/8796 [00:01<00:10, 770.10 examples/s][A
+Add position_id column (Pretraining Sample Packing):  23%|███████████████████████████████▏                                                                                                         | 2000/8796 [00:01<00:04, 1599.23 examples/s][A
+Add position_id column (Pretraining Sample Packing):  34%|██████████████████████████████████████████████▋                                                                                          | 3000/8796 [00:01<00:02, 2480.54 examples/s][A
+Add position_id column (Pretraining Sample Packing):  45%|██████████████████████████████████████████████████████████████▎                                                                          | 4000/8796 [00:01<00:01, 3280.13 examples/s][A
+Add position_id column (Pretraining Sample Packing):  57%|█████████████████████████████████████████████████████████████████████████████▉                                                           | 5000/8796 [00:01<00:00, 4071.75 examples/s][A
+Add position_id column (Pretraining Sample Packing):  68%|█████████████████████████████████████████████████████████████████████████████████████████████▍                                           | 6000/8796 [00:02<00:00, 4770.45 examples/s][A
+Add position_id column (Pretraining Sample Packing):  80%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████                            | 7000/8796 [00:02<00:00, 5326.43 examples/s][A
+Add position_id column (Pretraining Sample Packing):  91%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌            | 8000/8796 [00:02<00:00, 5567.64 examples/s][A
+Add position_id column (Pretraining Sample Packing): 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 8796/8796 [00:02<00:00, 5832.17 examples/s][AAdd position_id column (Pretraining Sample Packing): 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 8796/8796 [00:02<00:00, 3518.44 examples/s]
+[2025-11-17 00:29:23,644] [DEBUG] [axolotl.utils.samplers.multipack.pack_parallel:177] [PID:8163] Using single process for pack_parallel, running sequentially.
+ 26%|██████████████████████████████████████████████████▏                                                                                                                                              | 3896/15000 [2:46:38<65:08:22, 21.12s/it] 26%|██████████████████████████████████████████████████▏                                                                                                                                              | 3897/15000 [2:46:40<47:46:32, 15.49s/it] 26%|██████████████████████████████████████████████████▏                                                                                                                                              | 3898/15000 [2:46:43<35:36:55, 11.55s/it] 26%|██████████████████████████████████████████████████▏                                                                                                                                              | 3899/15000 [2:46:45<27:06:36,  8.79s/it] 26%|██████████████████████████████████████████████████▏                                                                                                                                              | 3900/15000 [2:46:47<21:09:00,  6.86s/it]                                                                                                                                                                                                                                                {'loss': 2.9364, 'grad_norm': 1.6640625, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3425.68, 'total_tokens': 31860547, 'epoch': 0.26}
+ 26%|██████████████████████████████████████████████████▏                                                                                                                                              | 3900/15000 [2:46:47<21:09:00,  6.86s/it] 26%|██████████████████████████████████████████████████▏                                                                                                                                              | 3901/15000 [2:46:50<16:58:55,  5.51s/it] 26%|██████████████████████████████████████████████████▏                                                                                                                                              | 3902/15000 [2:46:52<14:03:48,  4.56s/it] 26%|██████████████████████████████████████████████████▏                                                                                                                                              | 3903/15000 [2:46:54<12:00:33,  3.90s/it] 26%|██��███████████████████████████████████████████████▏                                                                                                                                              | 3904/15000 [2:46:57<10:35:16,  3.44s/it] 26%|██████████████████████████████████████████████████▌                                                                                                                                               | 3905/15000 [2:46:59<9:34:55,  3.11s/it] 26%|██████████████████████████████████████████████████▌                                                                                                                                               | 3906/15000 [2:47:01<8:52:55,  2.88s/it] 26%|██████████████████████████████████████████████████▌                                                                                                                                               | 3907/15000 [2:47:04<8:23:40,  2.72s/it] 26%|██████████████████████████████████████████████████▌                                                                                                                                               | 3908/15000 [2:47:06<8:02:35,  2.61s/it] 26%|██████████████████████████████████████████████████▌                                                                                                                                               | 3909/15000 [2:47:08<7:48:40,  2.54s/it] 26%|██████████████████████████████████████████████████▌                                                                                                                                               | 3910/15000 [2:47:11<7:38:39,  2.48s/it]                                                                                                                                                                                                                                                {'loss': 2.9213, 'grad_norm': 1.8359375, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3486.38, 'total_tokens': 31942421, 'epoch': 0.26}
+ 26%|██████████████████████████████████████████████████▌                                                                                                                                               | 3910/15000 [2:47:11<7:38:39,  2.48s/it] 26%|██████████████████████████████████████████████████▌                                                                                                                                               | 3911/15000 [2:47:13<7:31:34,  2.44s/it] 26%|██████████████████████████████████████████████████▌                                                                                                                                               | 3912/15000 [2:47:15<7:26:29,  2.42s/it] 26%|██████████████████████████████████████████████████▌                                                                                                                                               | 3913/15000 [2:47:18<7:22:40,  2.40s/it] 26%|██████████████████████████████████████████████████▌                                                                                                                                               | 3914/15000 [2:47:20<7:20:42,  2.39s/it] 26%|██████████████████████████████████████████████████▋                                                                                                                                               | 3915/15000 [2:47:23<7:18:38,  2.37s/it] 26%|██████████████████████████████████████████████████▋                                                                                                                                               | 3916/15000 [2:47:25<7:17:40,  2.37s/it] 26%|██████████████████████████████████████████████████▋                                                                                                                                               | 3917/15000 [2:47:27<7:16:45,  2.36s/it] 26%|██████████████████████████████████████████████████▋                                                                                                                                               | 3918/15000 [2:47:30<7:15:47,  2.36s/it] 26%|██████████████████████████████████████████████████▋                                                                                                                                               | 3919/15000 [2:47:32<7:15:50,  2.36s/it] 26%|██████████████████████████████████████████████████▋                                                                                                                                               | 3920/15000 [2:47:34<7:15:08,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 3.016, 'grad_norm': 1.90625, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3495.87, 'total_tokens': 32024241, 'epoch': 0.26}
+ 26%|██████████████████████████████████████████████████▋                                                                                                                                               | 3920/15000 [2:47:34<7:15:08,  2.36s/it] 26%|██████████████████████████████████████████████████▋                                                                                                                                               | 3921/15000 [2:47:37<7:15:09,  2.36s/it] 26%|██████████████████████████████████████████████████▋                                                                                                                                               | 3922/15000 [2:47:39<7:15:03,  2.36s/it] 26%|██████████████████████████████████████████████████▋                                                                                                                                               | 3923/15000 [2:47:41<7:14:43,  2.35s/it] 26%|██████████████████████████████████████████████████▊                                                                                                                                               | 3924/15000 [2:47:44<7:14:56,  2.36s/it] 26%|██████████████████████████████████████████████████▊                                                                                                                                               | 3925/15000 [2:47:46<7:15:05,  2.36s/it] 26%|██████████████████████████████████████████████████▊                                                                                                                                               | 3926/15000 [2:47:48<7:14:56,  2.36s/it] 26%|██████████████████████████████████████████████████▊                                                                                                                                               | 3927/15000 [2:47:51<7:14:58,  2.36s/it] 26%|██████████████████████████████████████████████████▊                                                                                                                                               | 3928/15000 [2:47:53<7:14:55,  2.36s/it] 26%|██████████████████████████████████████████████████▊                                                                                                                                               | 3929/15000 [2:47:56<7:14:29,  2.35s/it] 26%|██████████████████████████████████████████████████▊                                                                                                                                               | 3930/15000 [2:47:58<7:14:12,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 3.0104, 'grad_norm': 1.8359375, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3492.67, 'total_tokens': 32106088, 'epoch': 0.26}
+ 26%|██████████████████████████████████████████████████▊                                                                                                                                               | 3930/15000 [2:47:58<7:14:12,  2.35s/it] 26%|██████████████████████████████████████████████████▊                                                                                                                                               | 3931/15000 [2:48:00<7:14:45,  2.36s/it] 26%|██████████████████████████████████████████████████▊                                                                                                                                               | 3932/15000 [2:48:03<7:14:18,  2.35s/it] 26%|██████████████████████████████████████████████████▊                                                                                                                                               | 3933/15000 [2:48:05<7:14:24,  2.36s/it] 26%|██████████████████████████████████████████████████▉                                                                                                                                               | 3934/15000 [2:48:07<7:14:41,  2.36s/it] 26%|██████████████████████████████████████████████████▉                                                                                                                                               | 3935/15000 [2:48:10<7:14:33,  2.36s/it] 26%|██████████████████████████████████████████████████▉                                                                                                                                               | 3936/15000 [2:48:12<7:13:47,  2.35s/it] 26%|██████████████████████████████████████████████████▉                                                                                                                                               | 3937/15000 [2:48:14<7:14:02,  2.35s/it] 26%|██████████████████████████████████████████████████▉                                                                                                                                               | 3938/15000 [2:48:17<7:13:53,  2.35s/it] 26%|██████████████████████████████████████████████████▉                                                                                                                                               | 3939/15000 [2:48:19<7:13:41,  2.35s/it] 26%|██████████████████████████████████████████████████▉                                                                                                                                               | 3940/15000 [2:48:21<7:13:39,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 3.0176, 'grad_norm': 1.7578125, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3488.97, 'total_tokens': 32187934, 'epoch': 0.26}
+ 26%|██████████████████████████████████████████████████▉                                                                                                                                               | 3940/15000 [2:48:21<7:13:39,  2.35s/it] 26%|██████████████████████████████████████████████████▉                                                                                                                                               | 3941/15000 [2:48:24<7:13:50,  2.35s/it] 26%|██████████████████████████████████████████████████▉                                                                                                                                               | 3942/15000 [2:48:26<7:13:50,  2.35s/it] 26%|██████████████████████████████████████████████████▉                                                                                                                                               | 3943/15000 [2:48:28<7:13:30,  2.35s/it] 26%|███████████████████████████████████████████████████                                                                                                                                               | 3944/15000 [2:48:31<7:13:25,  2.35s/it] 26%|███████████████████████████████████████████████████                                                                                                                                               | 3945/15000 [2:48:33<7:12:56,  2.35s/it] 26%|███████████████████████████████████████████████████                                                                                                                                               | 3946/15000 [2:48:36<7:12:56,  2.35s/it] 26%|███████████████████████████████████████████████████                                                                                                                                               | 3947/15000 [2:48:38<7:13:05,  2.35s/it] 26%|███████████████████████████████████████████████████                                                                                                                                               | 3948/15000 [2:48:40<7:13:06,  2.35s/it] 26%|███████████████████████████████████████████████████                                                                                                                                               | 3949/15000 [2:48:43<7:13:13,  2.35s/it] 26%|███████████████████████████████████████████████████                                                                                                                                               | 3950/15000 [2:48:45<7:13:03,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 3.0389, 'grad_norm': 1.6796875, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3492.19, 'total_tokens': 32269755, 'epoch': 0.26}
+ 26%|███████████████████████████████████████████████████                                                                                                                                               | 3950/15000 [2:48:45<7:13:03,  2.35s/it] 26%|███████████████████████████████████████████████████                                                                                                                                               | 3951/15000 [2:48:47<7:13:22,  2.35s/it] 26%|███████████████████████████████████████████████████                                                                                                                                               | 3952/15000 [2:48:50<7:13:22,  2.35s/it] 26%|███████████████████████████████████████████████████▏                                                                                                                                              | 3953/15000 [2:48:52<7:13:17,  2.35s/it] 26%|███████████████████████████████████████████████████▏                                                                                                                                              | 3954/15000 [2:48:54<7:13:22,  2.35s/it] 26%|███████████████████████████████████████████████████▏                                                                                                                                              | 3955/15000 [2:48:57<7:13:44,  2.36s/it] 26%|███████████████████████████████████████████████████▏                                                                                                                                              | 3956/15000 [2:48:59<7:13:44,  2.36s/it] 26%|███████████████████████████████████████████████████▏                                                                                                                                              | 3957/15000 [2:49:01<7:13:10,  2.35s/it] 26%|███████████████████████████████████████████████████▏                                                                                                                                              | 3958/15000 [2:49:04<7:12:56,  2.35s/it] 26%|███████████████████████████████████████████████████▏                                                                                                                                              | 3959/15000 [2:49:06<7:12:54,  2.35s/it] 26%|███████████████████████████████████████████████████▏                                                                                                                                              | 3960/15000 [2:49:08<7:12:52,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.9797, 'grad_norm': 1.7421875, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3486.22, 'total_tokens': 32351540, 'epoch': 0.26}
+ 26%|███████████████████████████████████████████████████▏                                                                                                                                              | 3960/15000 [2:49:08<7:12:52,  2.35s/it] 26%|███████████████████████████████████████████████████▏                                                                                                                                              | 3961/15000 [2:49:11<7:13:13,  2.35s/it] 26%|███████████████████████████████████████████████████▏                                                                                                                                              | 3962/15000 [2:49:13<7:12:54,  2.35s/it] 26%|███████████████████████████████████████████████████▎                                                                                                                                              | 3963/15000 [2:49:16<7:12:32,  2.35s/it] 26%|███████████████████████████████████████████████████▎                                                                                                                                              | 3964/15000 [2:49:18<7:12:34,  2.35s/it] 26%|███████████████████████████████████████████████████▎                                                                                                                                              | 3965/15000 [2:49:20<7:12:37,  2.35s/it] 26%|███████████████████████████████████████████████████▎                                                                                                                                              | 3966/15000 [2:49:23<7:12:34,  2.35s/it] 26%|███████████████████████████████████████████████████▎                                                                                                                                              | 3967/15000 [2:49:25<7:12:10,  2.35s/it] 26%|███████████████████████████████████████████████████▎                                                                                                                                              | 3968/15000 [2:49:27<7:12:23,  2.35s/it] 26%|███████████████████████████████████████████████████▎                                                                                                                                              | 3969/15000 [2:49:30<7:12:41,  2.35s/it] 26%|███████████████████████████████████████████████████▎                                                                                                                                              | 3970/15000 [2:49:32<7:12:12,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.9861, 'grad_norm': 1.8828125, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3500.08, 'total_tokens': 32433380, 'epoch': 0.26}
+ 26%|███████████████████████████████████████████████████▎                                                                                                                                              | 3970/15000 [2:49:32<7:12:12,  2.35s/it] 26%|███████████████████████████████████████████████████▎                                                                                                                                              | 3971/15000 [2:49:34<7:12:36,  2.35s/it] 26%|███████████████████████████████████████████████████▎                                                                                                                                              | 3972/15000 [2:49:37<7:12:44,  2.35s/it] 26%|███████████████████████████████████████████████████▍                                                                                                                                              | 3973/15000 [2:49:39<7:12:37,  2.35s/it] 26%|███████████████████████████████████████████████████▍                                                                                                                                              | 3974/15000 [2:49:41<7:12:45,  2.35s/it] 26%|███████████████████████████████████████████████████▍                                                                                                                                              | 3975/15000 [2:49:44<7:12:27,  2.35s/it] 27%|███████████████████████████████████████████████████▍                                                                                                                                              | 3976/15000 [2:49:46<7:12:11,  2.35s/it] 27%|███████████████████████████████████████████████████▍                                                                                                                                              | 3977/15000 [2:49:48<7:12:26,  2.35s/it] 27%|███████████████████████████████████████████████████▍                                                                                                                                              | 3978/15000 [2:49:51<7:12:08,  2.35s/it] 27%|███████████████████████████████████████████████████▍                                                                                                                                              | 3979/15000 [2:49:53<7:12:05,  2.35s/it] 27%|███████████████████████████████████████████████████▍                                                                                                                                              | 3980/15000 [2:49:56<7:12:38,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.972, 'grad_norm': 1.921875, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3472.19, 'total_tokens': 32515179, 'epoch': 0.27}
+ 27%|███████████████████████████████████████████████████▍                                                                                                                                              | 3980/15000 [2:49:56<7:12:38,  2.36s/it] 27%|███████████████████████████████████████████████████▍                                                                                                                                              | 3981/15000 [2:49:58<7:13:10,  2.36s/it] 27%|███████████████████████████████████████████████████▌                                                                                                                                              | 3982/15000 [2:50:00<7:12:54,  2.36s/it] 27%|███████████████████████████████████████████████████▌                                                                                                                                              | 3983/15000 [2:50:03<7:12:26,  2.36s/it] 27%|███████████████████████████████████████████████████▌                                                                                                                                              | 3984/15000 [2:50:05<7:12:07,  2.35s/it] 27%|███████████████████████████████████████████████████▌                                                                                                                                              | 3985/15000 [2:50:07<7:11:49,  2.35s/it] 27%|███████████████████████████████████████████████████▌                                                                                                                                              | 3986/15000 [2:50:10<7:12:18,  2.36s/it] 27%|███████████████████████████████████████████████████▌                                                                                                                                              | 3987/15000 [2:50:12<7:12:16,  2.36s/it] 27%|███████████████████████████████████████████████████▌                                                                                                                                              | 3988/15000 [2:50:14<7:12:53,  2.36s/it] 27%|███████████████████████████████████████████████████▌                                                                                                                                              | 3989/15000 [2:50:17<7:13:05,  2.36s/it] 27%|███████████████████████████████████████████████████▌                                                                                                                                              | 3990/15000 [2:50:19<7:12:35,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.9945, 'grad_norm': 1.671875, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3490.58, 'total_tokens': 32597013, 'epoch': 0.27}
+ 27%|███████████████████████████████████████████████████▌                                                                                                                                              | 3990/15000 [2:50:19<7:12:35,  2.36s/it] 27%|███████████████████████████████████████████████████▌                                                                                                                                              | 3991/15000 [2:50:21<7:12:16,  2.36s/it] 27%|███████████████████████████████████████████████████▋                                                                                                                                              | 3992/15000 [2:50:24<7:11:50,  2.35s/it] 27%|███████████████████████████████████████████████████▋                                                                                                                                              | 3993/15000 [2:50:26<7:11:46,  2.35s/it] 27%|███████████████████████████████████████████████████▋                                                                                                                                              | 3994/15000 [2:50:28<7:11:50,  2.35s/it] 27%|███████████████████████████████████████████████████▋                                                                                                                                              | 3995/15000 [2:50:31<7:11:51,  2.35s/it] 27%|███████████████████████████████████████████████████▋                                                                                                                                              | 3996/15000 [2:50:33<7:12:07,  2.36s/it] 27%|███████████████████████████████████████████████████▋                                                                                                                                              | 3997/15000 [2:50:36<7:11:59,  2.36s/it] 27%|███████████████████████████████████████████████████▋                                                                                                                                              | 3998/15000 [2:50:38<7:11:27,  2.35s/it] 27%|███████████████████████████████████████████████████▋                                                                                                                                              | 3999/15000 [2:50:40<7:11:32,  2.35s/it] 27%|███████████████████████████████████████████████████▋                                                                                                                                              | 4000/15000 [2:50:43<7:11:32,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 3.0249, 'grad_norm': 1.9609375, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3483.83, 'total_tokens': 32678793, 'epoch': 0.27}
+ 27%|███████████████████████████████████████████████████▋                                                                                                                                              | 4000/15000 [2:50:43<7:11:32,  2.35s/it] 27%|███████████████████████████████████████████████████▋                                                                                                                                              | 4001/15000 [2:50:45<7:11:47,  2.36s/it] 27%|███████████████████████████████████████████████████▊                                                                                                                                              | 4002/15000 [2:50:47<7:11:43,  2.36s/it] 27%|███████████████████████████████████████████████████▊                                                                                                                                              | 4003/15000 [2:50:50<7:11:28,  2.35s/it] 27%|███████████████████████████████████████████████████▊                                                                                                                                              | 4004/15000 [2:50:52<7:11:25,  2.35s/it] 27%|███████████████████████████████████████████████████▊                                                                                                                                              | 4005/15000 [2:50:54<7:11:42,  2.36s/it] 27%|███████████████████████████████████████████████████▊                                                                                                                                              | 4006/15000 [2:50:57<7:11:23,  2.35s/it] 27%|███████████████████████████████████████████████████▊                                                                                                                                              | 4007/15000 [2:50:59<7:11:34,  2.36s/it] 27%|███████████████████████████████████████████████████▊                                                                                                                                              | 4008/15000 [2:51:01<7:11:17,  2.35s/it] 27%|███████████████████████████████████████████████████▊                                                                                                                                              | 4009/15000 [2:51:04<7:11:35,  2.36s/it] 27%|███████████████████████████████████████████████████▊                                                                                                                                              | 4010/15000 [2:51:06<7:11:07,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 3.0336, 'grad_norm': 1.8515625, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3494.51, 'total_tokens': 32760594, 'epoch': 0.27}
+ 27%|███████████████████████████████████████████████████▊                                                                                                                                              | 4010/15000 [2:51:06<7:11:07,  2.35s/it] 27%|████████���██████████████████████████████████████████▉                                                                                                                                              | 4011/15000 [2:51:09<7:10:45,  2.35s/it] 27%|███████████████████████████████████████████████████▉                                                                                                                                              | 4012/15000 [2:51:11<7:10:37,  2.35s/it] 27%|███████████████████████████████████████████████████▉                                                                                                                                              | 4013/15000 [2:51:13<7:10:22,  2.35s/it] 27%|███████████████████████████████████████████████████▉                                                                                                                                              | 4014/15000 [2:51:16<7:10:30,  2.35s/it] 27%|███████████████████████████████████████████████████▉                                                                                                                                              | 4015/15000 [2:51:18<7:10:44,  2.35s/it] 27%|███████████████████████████████████████████████████▉                                                                                                                                              | 4016/15000 [2:51:20<7:10:29,  2.35s/it] 27%|███████████████████████████████████████████████████▉                                                                                                                                              | 4017/15000 [2:51:23<7:10:00,  2.35s/it] 27%|███████████████████████████████████████████████████▉                                                                                                                                              | 4018/15000 [2:51:25<7:10:04,  2.35s/it] 27%|███████████████████████████████████████████████████▉                                                                                                                                              | 4019/15000 [2:51:27<7:10:31,  2.35s/it] 27%|███████████████████████████████████████████████████▉                                                                                                                                              | 4020/15000 [2:51:30<7:10:36,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 3.0403, 'grad_norm': 1.703125, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3484.47, 'total_tokens': 32842392, 'epoch': 0.27}
+ 27%|███████████████████████████████████████████████████▉                                                                                                                                              | 4020/15000 [2:51:30<7:10:36,  2.35s/it] 27%|████████████████████████████████████████████████████                                                                                                                                              | 4021/15000 [2:51:32<7:10:30,  2.35s/it] 27%|████████████████████████████████████████████████████                                                                                                                                              | 4022/15000 [2:51:34<7:10:08,  2.35s/it] 27%|████████████████████████████████████████████████████                                                                                                                                              | 4023/15000 [2:51:37<7:10:06,  2.35s/it] 27%|████████████████████████████████████████████████████                                                                                                                                              | 4024/15000 [2:51:39<7:10:57,  2.36s/it] 27%|████████████████████████████████████████████████████                                                                                                                                              | 4025/15000 [2:51:41<7:10:52,  2.36s/it] 27%|████████████████████████████████████████████████████                                                                                                                                              | 4026/15000 [2:51:44<7:10:46,  2.36s/it] 27%|████████████████████████████████████████████████████                                                                                                                                              | 4027/15000 [2:51:46<7:10:21,  2.35s/it] 27%|████████████████████████████████████████████████████                                                                                                                                              | 4028/15000 [2:51:49<7:10:12,  2.35s/it] 27%|████████████████████████████████████████████████████                                                                                                                                              | 4029/15000 [2:51:51<7:10:19,  2.35s/it] 27%|████████████████████████████████████████████████████                                                                                                                                              | 4030/15000 [2:51:53<7:10:23,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.9349, 'grad_norm': 1.8828125, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3481.61, 'total_tokens': 32924158, 'epoch': 0.27}
+ 27%|████████████████████████████████████████████████████                                                                                                                                              | 4030/15000 [2:51:53<7:10:23,  2.35s/it] 27%|████████████████████████████████████████████████████▏                                                                                                                                             | 4031/15000 [2:51:56<7:10:34,  2.36s/it] 27%|████████████████████████████████████████████████████▏                                                                                                                                             | 4032/15000 [2:51:58<7:10:52,  2.36s/it] 27%|████████████████████████████████████████████████████▏                                                                                                                                             | 4033/15000 [2:52:00<7:10:39,  2.36s/it] 27%|████████████████████████████████████████████████████▏                                                                                                                                             | 4034/15000 [2:52:03<7:09:58,  2.35s/it] 27%|████████████████████████████████████████████████████▏                                                                                                                                             | 4035/15000 [2:52:05<7:10:10,  2.35s/it] 27%|████████████████████████████████████████████████████▏                                                                                                                                             | 4036/15000 [2:52:07<7:10:11,  2.35s/it] 27%|████████████████████████████████████████████████████▏                                                                                                                                             | 4037/15000 [2:52:10<7:09:56,  2.35s/it] 27%|████████████████████████████████████████████████████▏                                                                                                                                             | 4038/15000 [2:52:12<7:09:58,  2.35s/it] 27%|████████████████████████████████████████████████████▏                                                                                                                                             | 4039/15000 [2:52:14<7:10:00,  2.35s/it] 27%|████████████████████████████████████████████████████▎                                                                                                                                             | 4040/15000 [2:52:17<7:09:53,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.8865, 'grad_norm': 1.6875, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3487.08, 'total_tokens': 33005950, 'epoch': 0.27}
+ 27%|████████████████████████████████████████████████████▎                                                                                                                                             | 4040/15000 [2:52:17<7:09:53,  2.35s/it] 27%|████████████████████████████████████████████████████▎                                                                                                                                             | 4041/15000 [2:52:19<7:10:11,  2.36s/it] 27%|████████████████████████████████████████████████████▎                                                                                                                                             | 4042/15000 [2:52:21<7:09:52,  2.35s/it] 27%|████████████████████████████████████████████████████▎                                                                                                                                             | 4043/15000 [2:52:24<7:09:38,  2.35s/it] 27%|████████████████████████████████████████████████████▎                                                                                                                                             | 4044/15000 [2:52:26<7:09:48,  2.35s/it] 27%|████████████████████████████████████████████████████▎                                                                                                                                             | 4045/15000 [2:52:29<7:09:54,  2.35s/it] 27%|████████████████████████████████████████████████████▎                                                                                                                                             | 4046/15000 [2:52:31<7:10:07,  2.36s/it] 27%|████████████████████████████████████████████████████▎                                                                                                                                             | 4047/15000 [2:52:33<7:09:45,  2.35s/it] 27%|████████████████████��███████████████████████████████▎                                                                                                                                             | 4048/15000 [2:52:36<7:09:37,  2.35s/it] 27%|████████████████████████████████████████████████████▎                                                                                                                                             | 4049/15000 [2:52:38<7:09:49,  2.35s/it] 27%|████████████████████████████████████████████████████▍                                                                                                                                             | 4050/15000 [2:52:40<7:09:33,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.9173, 'grad_norm': 1.796875, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3487.24, 'total_tokens': 33087683, 'epoch': 0.27}
+ 27%|████████████████████████████████████████████████████▍                                                                                                                                             | 4050/15000 [2:52:40<7:09:33,  2.35s/it] 27%|████████████████████████████████████████████████████▍                                                                                                                                             | 4051/15000 [2:52:43<7:09:28,  2.35s/it] 27%|████████████████████████████████████████████████████▍                                                                                                                                             | 4052/15000 [2:52:45<7:09:34,  2.35s/it] 27%|████████████████████████████████████████████████████▍                                                                                                                                             | 4053/15000 [2:52:47<7:09:47,  2.36s/it] 27%|████████████████████████████████████████████████████▍                                                                                                                                             | 4054/15000 [2:52:50<7:09:48,  2.36s/it] 27%|████████████████████████████████████████████████████▍                                                                                                                                             | 4055/15000 [2:52:52<7:09:29,  2.35s/it] 27%|████████████████████████████████████████████████████▍                                                                                                                                             | 4056/15000 [2:52:54<7:09:16,  2.35s/it] 27%|████████████████████████████████████████████████████▍                                                                                                                                             | 4057/15000 [2:52:57<7:09:15,  2.35s/it] 27%|████████████████████████████████████████████████████▍                                                                                                                                             | 4058/15000 [2:52:59<7:09:04,  2.35s/it] 27%|████████████████████████████████████████████████████▍                                                                                                                                             | 4059/15000 [2:53:01<7:09:02,  2.35s/it] 27%|████████████████████████████████████████████████████▌                                                                                                                                             | 4060/15000 [2:53:04<7:09:04,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.9531, 'grad_norm': 1.703125, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3487.46, 'total_tokens': 33169531, 'epoch': 0.27}
+ 27%|████████████████████████████████████████████████████▌                                                                                                                                             | 4060/15000 [2:53:04<7:09:04,  2.35s/it] 27%|████████████████████████████████████████████████████▌                                                                                                                                             | 4061/15000 [2:53:06<7:09:27,  2.36s/it] 27%|████████████████████████████████████████████████████▌                                                                                                                                             | 4062/15000 [2:53:09<7:08:42,  2.35s/it] 27%|████████████████████████████████████████████████████▌                                                                                                                                             | 4063/15000 [2:53:11<7:09:16,  2.35s/it] 27%|████████████████████████████████████████████████████▌                                                                                                                                             | 4064/15000 [2:53:13<7:09:04,  2.35s/it] 27%|████████████████████████████████████████████████████▌                                                                                                                                             | 4065/15000 [2:53:16<7:09:21,  2.36s/it] 27%|████████████████████████████████████████████████████▌                                                                                                                                             | 4066/15000 [2:53:18<7:09:23,  2.36s/it] 27%|████████████████████████████████████████████████████▌                                                                                                                                             | 4067/15000 [2:53:20<7:08:57,  2.35s/it] 27%|████████████████████████████████████████████████████▌                                                                                                                                             | 4068/15000 [2:53:23<7:08:27,  2.35s/it] 27%|████████████████████████████████████████████████████▋                                                                                                                                             | 4069/15000 [2:53:25<7:08:33,  2.35s/it] 27%|████████████████████████████████████████████████████▋                                                                                                                                             | 4070/15000 [2:53:27<7:08:44,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.9466, 'grad_norm': 1.734375, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3482.4, 'total_tokens': 33251336, 'epoch': 0.27}
+ 27%|██████████████████████████████████████████████��█████▋                                                                                                                                             | 4070/15000 [2:53:27<7:08:44,  2.35s/it] 27%|████████████████████████████████████████████████████▋                                                                                                                                             | 4071/15000 [2:53:30<7:08:24,  2.35s/it] 27%|████████████████████████████████████████████████████▋                                                                                                                                             | 4072/15000 [2:53:32<7:08:28,  2.35s/it] 27%|████████████████████████████████████████████████████▋                                                                                                                                             | 4073/15000 [2:53:34<7:08:31,  2.35s/it] 27%|████████████████████████████████████████████████████▋                                                                                                                                             | 4074/15000 [2:53:37<7:08:31,  2.35s/it] 27%|████████████████████████████████████████████████████▋                                                                                                                                             | 4075/15000 [2:53:39<7:08:34,  2.35s/it] 27%|████████████████████████████████████████████████████▋                                                                                                                                             | 4076/15000 [2:53:42<7:08:37,  2.35s/it] 27%|████████████████████████████████████████████████████▋                                                                                                                                             | 4077/15000 [2:53:44<7:08:26,  2.35s/it] 27%|████████████████████████████████████████████████████▋                                                                                                                                             | 4078/15000 [2:53:46<7:08:11,  2.35s/it] 27%|████████████████████████████████████████████████████▊                                                                                                                                             | 4079/15000 [2:53:49<7:08:20,  2.35s/it] 27%|████████████████████████████████████████████████████▊                                                                                                                                             | 4080/15000 [2:53:51<7:08:11,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.9803, 'grad_norm': 1.7734375, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3485.28, 'total_tokens': 33333049, 'epoch': 0.27}
+ 27%|████████████████████████████████████████████████████▊                                                                                                                                             | 4080/15000 [2:53:51<7:08:11,  2.35s/it] 27%|████████████████████████████████████████████████████▊                                                                                                                                             | 4081/15000 [2:53:53<7:08:13,  2.35s/it] 27%|████████████████████████████████████████████████████▊                                                                                                                                             | 4082/15000 [2:53:56<7:08:11,  2.35s/it] 27%|████████████████████████████████████████████████████▊                                                                                                                                             | 4083/15000 [2:53:58<7:35:01,  2.50s/it] 27%|████████████████████████████████████████████████████▊                                                                                                                                             | 4084/15000 [2:54:01<7:27:06,  2.46s/it] 27%|████████████████████████████████████████████████████▊                                                                                                                                             | 4085/15000 [2:54:03<7:21:23,  2.43s/it] 27%|████████████████████████████████████████████████████▊                                                                                                                                             | 4086/15000 [2:54:06<7:17:32,  2.41s/it] 27%|████████████████████████████████████████████████████▊                                                                                                                                             | 4087/15000 [2:54:08<7:14:36,  2.39s/it] 27%|████████████████████████████████████████████████████▊                                                                                                                                             | 4088/15000 [2:54:10<7:12:33,  2.38s/it] 27%|████████████████████████████████████████████████████▉                                                                                                                                             | 4089/15000 [2:54:13<7:11:06,  2.37s/it] 27%|████████████████████████████████████████████████████▉                                                                                                                                             | 4090/15000 [2:54:15<7:09:56,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 3.0058, 'grad_norm': 1.859375, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3492.36, 'total_tokens': 33414870, 'epoch': 0.27}
+ 27%|████████████████████████████████████████████████████▉                                                                                                                                             | 4090/15000 [2:54:15<7:09:56,  2.36s/it] 27%|████████████████████████████████████████████████████▉                                                                                                                                             | 4091/15000 [2:54:17<7:09:44,  2.36s/it] 27%|████████████████████████████████████████████████████▉                                                                                                                                             | 4092/15000 [2:54:20<7:09:13,  2.36s/it] 27%|████████████████████████████████████████████████████▉                                                                                                                                             | 4093/15000 [2:54:22<7:09:06,  2.36s/it] 27%|████████████████████████████████████████████████████▉                                                                                                                                             | 4094/15000 [2:54:24<7:08:35,  2.36s/it] 27%|████████████████████████████████████████████████████▉                                                                                                                                             | 4095/15000 [2:54:27<7:08:01,  2.36s/it] 27%|████████████████████████████████████████████████████▉                                                                                                                                             | 4096/15000 [2:54:29<7:07:43,  2.35s/it] 27%|████████████████████████████████████████████████████▉                                                                                                                                             | 4097/15000 [2:54:31<7:07:39,  2.35s/it] 27%|█████████████████████████████████████████████████████                                                                                                                                             | 4098/15000 [2:54:34<7:07:41,  2.35s/it] 27%|█████████████████████████████████████████████████████                                                                                                                                             | 4099/15000 [2:54:36<7:07:42,  2.35s/it] 27%|█████████████████████████████████████████████████████                                                                                                                                             | 4100/15000 [2:54:38<7:07:52,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 3.0478, 'grad_norm': 1.75, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3478.74, 'total_tokens': 33496641, 'epoch': 0.27}
+ 27%|█████████████████████████████████████████████████████                                                                                                                                             | 4100/15000 [2:54:38<7:07:52,  2.36s/it] 27%|█████████████████████████████████████████████████████                                                                                                                                             | 4101/15000 [2:54:41<7:07:47,  2.36s/it] 27%|█████████████████████████████████████████████████████                                                                                                                                             | 4102/15000 [2:54:43<7:08:09,  2.36s/it] 27%|█████████████████████████████████████████████████████                                                                                                                                             | 4103/15000 [2:54:46<7:07:58,  2.36s/it] 27%|█████████████████████████████████████████████████████                                                                                                                                             | 4104/15000 [2:54:48<7:07:53,  2.36s/it] 27%|█████████████████████████████████████████████████████                                                                                                                                             | 4105/15000 [2:54:50<7:07:53,  2.36s/it] 27%|█████████████████████████████████████████████████████                                                                                                                                             | 4106/15000 [2:54:53<7:07:54,  2.36s/it] 27%|█████████████████████████████████████████████████████                                                                                                                                             | 4107/15000 [2:54:55<7:07:41,  2.36s/it] 27%|█████████████████████████████████████████████████████▏                                                                                                                                            | 4108/15000 [2:54:57<7:07:35,  2.36s/it] 27%|█████████████████████████████████████████████████████▏                                                                                                                                            | 4109/15000 [2:55:00<7:07:44,  2.36s/it] 27%|█████████████████████████████████████████████████████▏                                                                                                                                            | 4110/15000 [2:55:02<7:07:06,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 3.0337, 'grad_norm': 1.7890625, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3494.87, 'total_tokens': 33578362, 'epoch': 0.27}
+ 27%|█████████████████████████████████████████████████████▏                                                                                                                                            | 4110/15000 [2:55:02<7:07:06,  2.35s/it] 27%|█████████████████████████████████████████████████████▏                                                                                                                                            | 4111/15000 [2:55:04<7:07:33,  2.36s/it] 27%|█████████████████████████████████████████████████████▏                                                                                                                                            | 4112/15000 [2:55:07<7:07:22,  2.36s/it] 27%|█████████████████████████████████████████████████████▏                                                                                                                                            | 4113/15000 [2:55:09<7:07:28,  2.36s/it] 27%|█████████████████████████████████████████████████████▏                                                                                                                                            | 4114/15000 [2:55:11<7:06:35,  2.35s/it] 27%|█████████████████████████████████████████████████████▏                                                                                                                                            | 4115/15000 [2:55:14<7:06:41,  2.35s/it] 27%|█████████████████████████████████████████████████████▏                                                                                                                                            | 4116/15000 [2:55:16<7:06:37,  2.35s/it] 27%|█████████████████████████████████████████████████████▏                                                                                                                                            | 4117/15000 [2:55:19<7:06:26,  2.35s/it] 27%|█████████████████████████████████████████████████████▎                                                                                                                                            | 4118/15000 [2:55:21<7:06:14,  2.35s/it] 27%|█████████████████████████████████████████████████████▎                                                                                                                                            | 4119/15000 [2:55:23<7:06:18,  2.35s/it] 27%|█████████████████████████████████████████████████████▎                                                                                                                                            | 4120/15000 [2:55:26<7:06:36,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.923, 'grad_norm': 1.8203125, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3478.37, 'total_tokens': 33660100, 'epoch': 0.27}
+ 27%|█████████████████████████████████████████████████████▎                                                                                                                                            | 4120/15000 [2:55:26<7:06:36,  2.35s/it] 27%|█████████████████████████████████████████████████████▎                                                                                                                                            | 4121/15000 [2:55:28<7:06:30,  2.35s/it] 27%|█████████████████████████████████████████████████████▎                                                                                                                                            | 4122/15000 [2:55:30<7:06:16,  2.35s/it] 27%|█████████████████████████████████████████████████████▎                                                                                                                                            | 4123/15000 [2:55:33<7:05:53,  2.35s/it] 27%|█████████████████████████████████████████████████████▎                                                                                                                                            | 4124/15000 [2:55:35<7:05:51,  2.35s/it] 28%|█████████████████████████████████████████████████████▎                                                                                                                                            | 4125/15000 [2:55:37<7:06:41,  2.35s/it] 28%|█████████████████████████████████████████████████████▎                                                                                                                                            | 4126/15000 [2:55:40<7:06:47,  2.35s/it] 28%|█████████████████████████████████████████████████████▍                                                                                                                                            | 4127/15000 [2:55:42<7:06:55,  2.36s/it] 28%|█████████████████████████████████████████████████████▍                                                                                                                                            | 4128/15000 [2:55:44<7:06:23,  2.35s/it] 28%|█████████████████████████████████████████████████████▍                                                                                                                                            | 4129/15000 [2:55:47<7:05:53,  2.35s/it] 28%|█████████████████████████████████████████████████████▍                                                                                                                                            | 4130/15000 [2:55:49<7:06:00,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.9913, 'grad_norm': 1.7265625, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3485.42, 'total_tokens': 33741879, 'epoch': 0.28}
+ 28%|█████████████████████████████████████████████████████▍                                                                                                                                            | 4130/15000 [2:55:49<7:06:00,  2.35s/it] 28%|█████████████████████████████████████████████████████▍                                                                                                                                            | 4131/15000 [2:55:51<7:06:14,  2.35s/it] 28%|█████████████████████████████████████████████████████▍                                                                                                                                            | 4132/15000 [2:55:54<7:06:25,  2.35s/it] 28%|█████████████████████████████████████████████████████▍                                                                                                                                            | 4133/15000 [2:55:56<7:06:19,  2.35s/it] 28%|█████████████████████████████████████████████████████▍                                                                                                                                            | 4134/15000 [2:55:59<7:06:05,  2.35s/it] 28%|█████████████████████████████████████████████████████▍                                                                                                                                            | 4135/15000 [2:56:01<7:05:59,  2.35s/it] 28%|█████████████████████████████████████████████████████▍                                                                                                                                            | 4136/15000 [2:56:03<7:05:51,  2.35s/it] 28%|█████████████████████████████████████████████████████▌                                                                                                                                            | 4137/15000 [2:56:06<7:06:18,  2.35s/it] 28%|█████████████████████████████████████████████████████▌                                                                                                                                            | 4138/15000 [2:56:08<7:05:39,  2.35s/it] 28%|█████████████████████████████████████████████████████▌                                                                                                                                            | 4139/15000 [2:56:10<7:05:47,  2.35s/it] 28%|█████████████████████████████████████████████████████▌                                                                                                                                            | 4140/15000 [2:56:13<7:05:46,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.9518, 'grad_norm': 1.7578125, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3484.69, 'total_tokens': 33823617, 'epoch': 0.28}
+ 28%|█████████████████████████████████████████████████████▌                                                                                                                                            | 4140/15000 [2:56:13<7:05:46,  2.35s/it] 28%|█████████████████████████████████████████████████████▌                                                                                                                                            | 4141/15000 [2:56:15<7:05:46,  2.35s/it] 28%|█████████████████████████████████████████████████████▌                                                                                                                                            | 4142/15000 [2:56:17<7:05:52,  2.35s/it] 28%|█████████████████████████████████████████████████████▌                                                                                                                                            | 4143/15000 [2:56:20<7:06:04,  2.35s/it] 28%|█████████████████████████████████████████████████████▌                                                                                                                                            | 4144/15000 [2:56:22<7:06:03,  2.35s/it] 28%|█████████████████████████████████████████████████████▌                                                                                                                                            | 4145/15000 [2:56:24<7:05:42,  2.35s/it] 28%|█████████████████████████████████████████████████████▌                                                                                                                                            | 4146/15000 [2:56:27<7:05:39,  2.35s/it] 28%|█████████████████████████████████████████████████████▋                                                                                                                                            | 4147/15000 [2:56:29<7:05:19,  2.35s/it] 28%|█████████████████████████████████████████████████████▋                                                                                                                                            | 4148/15000 [2:56:31<7:05:25,  2.35s/it] 28%|█████████████████████████████████████████████████████▋                                                                                                                                            | 4149/15000 [2:56:34<7:05:36,  2.35s/it] 28%|█████████████████████████████████████████████████████▋                                                                                                                                            | 4150/15000 [2:56:36<7:05:23,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.9579, 'grad_norm': 1.765625, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3488.19, 'total_tokens': 33905348, 'epoch': 0.28}
+ 28%|█████████████████████████████████████████████████████▋                                                                                                                                            | 4150/15000 [2:56:36<7:05:23,  2.35s/it] 28%|█████████████████████████████████████████████████████▋                                                                                                                                            | 4151/15000 [2:56:38<7:05:23,  2.35s/it] 28%|█████████████████████████████████████████████████████▋                                                                                                                                            | 4152/15000 [2:56:41<7:05:11,  2.35s/it] 28%|█████████████████████████████████████████████████████▋                                                                                                                                            | 4153/15000 [2:56:43<7:05:19,  2.35s/it] 28%|█████████████████████████████████████████████████████▋                                                                                                                                            | 4154/15000 [2:56:46<7:05:13,  2.35s/it] 28%|█████████████████████████████████████████████████████▋                                                                                                                                            | 4155/15000 [2:56:48<7:05:09,  2.35s/it] 28%|█████████████████████████████████████████████████████▊                                                                                                                                            | 4156/15000 [2:56:50<7:05:17,  2.35s/it] 28%|█████████████████████████████████████████████████████▊                                                                                                                                            | 4157/15000 [2:56:53<7:05:09,  2.35s/it] 28%|█████████████████████████████████████████████████████▊                                                                                                                                            | 4158/15000 [2:56:55<7:05:34,  2.36s/it] 28%|█████████████████████████████████████████████████████▊                                                                                                                                            | 4159/15000 [2:56:57<7:05:11,  2.35s/it] 28%|█████████████████████████████████████████████████████▊                                                                                                                                            | 4160/15000 [2:57:00<7:05:02,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.942, 'grad_norm': 1.8359375, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3485.48, 'total_tokens': 33987049, 'epoch': 0.28}
+ 28%|█████████████████████████████████████████████████████▊                                                                                                                                            | 4160/15000 [2:57:00<7:05:02,  2.35s/it] 28%|█████████████████████████████████████████████████████▊                                                                                                                                            | 4161/15000 [2:57:02<7:05:26,  2.36s/it] 28%|█████████████████████████████████████████████████████▊                                                                                                                                            | 4162/15000 [2:57:04<7:05:07,  2.35s/it] 28%|█████████████████████████████████████████████████████▊                                                                                                                                            | 4163/15000 [2:57:07<7:05:09,  2.35s/it] 28%|█████████████████████████████████████████████████████▊                                                                                                                                            | 4164/15000 [2:57:09<7:05:26,  2.36s/it] 28%|█████████████████████████████████████████████████████▊                                                                                                                                            | 4165/15000 [2:57:11<7:04:45,  2.35s/it] 28%|████████████████████████���████████████████████████████▉                                                                                                                                            | 4166/15000 [2:57:14<7:04:42,  2.35s/it] 28%|█████████████████████████████████████████████████████▉                                                                                                                                            | 4167/15000 [2:57:16<7:04:25,  2.35s/it] 28%|█████████████████████████████████████████████████████▉                                                                                                                                            | 4168/15000 [2:57:18<7:04:41,  2.35s/it] 28%|█████████████████████████████████████████████████████▉                                                                                                                                            | 4169/15000 [2:57:21<7:04:50,  2.35s/it] 28%|█████████████████████████████████████████████████████▉                                                                                                                                            | 4170/15000 [2:57:23<7:04:57,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.9852, 'grad_norm': 1.7578125, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3478.11, 'total_tokens': 34068769, 'epoch': 0.28}
+ 28%|█████████████████████████████████████████████████████▉                                                                                                                                            | 4170/15000 [2:57:23<7:04:57,  2.35s/it] 28%|█████████████████████████████████████████████████████▉                                                                                                                                            | 4171/15000 [2:57:26<7:05:03,  2.36s/it] 28%|█████████████████████████████████████████████████████▉                                                                                                                                            | 4172/15000 [2:57:28<7:05:06,  2.36s/it] 28%|█████████████████████████████████████████████████████▉                                                                                                                                            | 4173/15000 [2:57:30<7:04:52,  2.35s/it] 28%|█████████████████████████████████████████████████████▉                                                                                                                                            | 4174/15000 [2:57:33<7:05:00,  2.36s/it] 28%|█████████████████████████████████████████████████████▉                                                                                                                                            | 4175/15000 [2:57:35<7:05:10,  2.36s/it] 28%|██████████████████████████████████████████████████████                                                                                                                                            | 4176/15000 [2:57:37<7:04:58,  2.36s/it] 28%|██████████████████████████████████████████████████████                                                                                                                                            | 4177/15000 [2:57:40<7:04:33,  2.35s/it] 28%|██████████████████████████████████████████████████████                                                                                                                                            | 4178/15000 [2:57:42<7:04:34,  2.35s/it] 28%|██████████████████████████████████████████████████████                                                                                                                                            | 4179/15000 [2:57:44<7:04:43,  2.35s/it] 28%|██████████████████████████████████████████████████████                                                                                                                                            | 4180/15000 [2:57:47<7:04:05,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.9221, 'grad_norm': 1.71875, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3497.23, 'total_tokens': 34150501, 'epoch': 0.28}
+ 28%|██████████████████████████████████████████████████████                                                                                                                                            | 4180/15000 [2:57:47<7:04:05,  2.35s/it] 28%|██████████████████████████████████████████████████████                                                                                                                                            | 4181/15000 [2:57:49<7:04:28,  2.35s/it] 28%|██████████████████████████████████████████████████████                                                                                                                                            | 4182/15000 [2:57:51<7:03:52,  2.35s/it] 28%|██████████████████████████████████████████████████████                                                                                                                                            | 4183/15000 [2:57:54<7:04:18,  2.35s/it] 28%|██████████████████████████████████████████████████████                                                                                                                                            | 4184/15000 [2:57:56<7:04:21,  2.35s/it] 28%|██████████████████████████████████████████████████████▏                                                                                                                                           | 4185/15000 [2:57:59<7:04:23,  2.35s/it] 28%|██████████████████████████████████████████████████████▏                                                                                                                                           | 4186/15000 [2:58:01<7:03:55,  2.35s/it] 28%|██████████████████████████████████████████████████████▏                                                                                                                                           | 4187/15000 [2:58:03<7:04:10,  2.35s/it] 28%|██████████████████████████████████████████████████████▏                                                                                                                                           | 4188/15000 [2:58:06<7:04:10,  2.35s/it] 28%|██████████████████████████████████████████████████████▏                                                                                                                                           | 4189/15000 [2:58:08<7:04:06,  2.35s/it] 28%|██████████████████████████████████████████████████████▏                                                                                                                                           | 4190/15000 [2:58:10<7:03:44,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.9044, 'grad_norm': 1.796875, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3488.93, 'total_tokens': 34232166, 'epoch': 0.28}
+ 28%|██████████████████████████████████████████████████████▏                                                                                                                                           | 4190/15000 [2:58:10<7:03:44,  2.35s/it] 28%|██████████████████████████████████████████████████████▏                                                                                                                                           | 4191/15000 [2:58:13<7:03:39,  2.35s/it] 28%|██████████████████████████████████████████████████████▏                                                                                                                                           | 4192/15000 [2:58:15<7:03:03,  2.35s/it] 28%|██████████████████████████████████████████████████████▏                                                                                                                                           | 4193/15000 [2:58:17<7:02:55,  2.35s/it] 28%|██████████████████████████████████████████████████████▏                                                                                                                                           | 4194/15000 [2:58:20<7:03:14,  2.35s/it] 28%|██████████████████████████████████████████████████████▎                                                                                                                                           | 4195/15000 [2:58:22<7:03:32,  2.35s/it] 28%|██████████████████████████████████████████████████████▎                                                                                                                                           | 4196/15000 [2:58:24<7:03:30,  2.35s/it] 28%|██████████████████████████████████████████████████████▎                                                                                                                                           | 4197/15000 [2:58:27<7:03:15,  2.35s/it] 28%|██████████████████████████████████████████████████████▎                                                                                                                                           | 4198/15000 [2:58:29<7:03:12,  2.35s/it] 28%|██████████████████████████████████████████████████████▎                                                                                                                                           | 4199/15000 [2:58:31<7:03:45,  2.35s/it] 28%|██████████████████████████████████████████████████████▎                                                                                                                                           | 4200/15000 [2:58:34<7:03:48,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.9584, 'grad_norm': 1.9140625, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3476.69, 'total_tokens': 34313814, 'epoch': 0.28}
+ 28%|██████████████████████████████████████████████████��███▎                                                                                                                                           | 4200/15000 [2:58:34<7:03:48,  2.35s/it] 28%|██████████████████████████████████████████████████████▎                                                                                                                                           | 4201/15000 [2:58:36<7:03:43,  2.35s/it] 28%|██████████████████████████████████████████████████████▎                                                                                                                                           | 4202/15000 [2:58:39<7:03:48,  2.35s/it] 28%|██████████████████████████████████████████████████████▎                                                                                                                                           | 4203/15000 [2:58:41<7:03:23,  2.35s/it] 28%|██████████████████████████████████████████████████████▎                                                                                                                                           | 4204/15000 [2:58:43<7:03:13,  2.35s/it] 28%|██████████████████████████████████████████████████████▍                                                                                                                                           | 4205/15000 [2:58:46<7:03:11,  2.35s/it] 28%|██████████████████████████████████████████████████████▍                                                                                                                                           | 4206/15000 [2:58:48<7:03:17,  2.35s/it] 28%|██████████████████████████████████████████████████████▍                                                                                                                                           | 4207/15000 [2:58:50<7:03:08,  2.35s/it] 28%|██████████████████████████████████████████████████████▍                                                                                                                                           | 4208/15000 [2:58:53<7:02:35,  2.35s/it] 28%|██████████████████████████████████████████████████████▍                                                                                                                                           | 4209/15000 [2:58:55<7:02:28,  2.35s/it] 28%|██████████████████████████████████████████████████████▍                                                                                                                                           | 4210/15000 [2:58:57<7:02:46,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.978, 'grad_norm': 1.765625, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3481.39, 'total_tokens': 34395572, 'epoch': 0.28}
+ 28%|██████████████████████████████████████████████████████▍                                                                                                                                           | 4210/15000 [2:58:57<7:02:46,  2.35s/it] 28%|██████████████████████████████████████████████████████▍                                                                                                                                           | 4211/15000 [2:59:00<7:02:50,  2.35s/it] 28%|██████████████████████████████████████████████████████▍                                                                                                                                           | 4212/15000 [2:59:02<7:02:58,  2.35s/it] 28%|██████████████████████████████████████████████████████▍                                                                                                                                           | 4213/15000 [2:59:04<7:03:03,  2.35s/it] 28%|██████████████████████████████████████████████████████▌                                                                                                                                           | 4214/15000 [2:59:07<7:02:56,  2.35s/it] 28%|██████████████████████████████████████████████████████▌                                                                                                                                           | 4215/15000 [2:59:09<7:02:52,  2.35s/it] 28%|██████████████████████████████████████████████████████▌                                                                                                                                           | 4216/15000 [2:59:11<7:02:48,  2.35s/it] 28%|██████████████████████████████████████████████████████▌                                                                                                                                           | 4217/15000 [2:59:14<7:02:33,  2.35s/it] 28%|██████████████████████████████████████████████████████▌                                                                                                                                           | 4218/15000 [2:59:16<7:02:48,  2.35s/it] 28%|██████████████████████████████████████████████████████▌                                                                                                                                           | 4219/15000 [2:59:18<7:02:38,  2.35s/it] 28%|██████████████████████████████████████████████████████▌                                                                                                                                           | 4220/15000 [2:59:21<7:02:34,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 3.0046, 'grad_norm': 1.8515625, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3481.62, 'total_tokens': 34477198, 'epoch': 0.28}
+ 28%|██████████████████████████████████████████████████████▌                                                                                                                                           | 4220/15000 [2:59:21<7:02:34,  2.35s/it] 28%|██████████████████████████████████████████████████████▌                                                                                                                                           | 4221/15000 [2:59:23<7:02:25,  2.35s/it] 28%|██████████████████████████████████████████████████████▌                                                                                                                                           | 4222/15000 [2:59:26<7:02:11,  2.35s/it] 28%|██████████████████████████████████████████████████████▌                                                                                                                                           | 4223/15000 [2:59:28<7:02:05,  2.35s/it] 28%|██████████████████████████████████████████████████████▋                                                                                                                                           | 4224/15000 [2:59:30<7:02:08,  2.35s/it] 28%|██████████████████████████████████████████████████████▋                                                                                                                                           | 4225/15000 [2:59:33<7:02:17,  2.35s/it] 28%|██████████████████████████████████████████████████████▋                                                                                                                                           | 4226/15000 [2:59:35<7:01:52,  2.35s/it] 28%|██████████████████████████████████████████████████████▋                                                                                                                                           | 4227/15000 [2:59:37<7:02:26,  2.35s/it] 28%|██████████████████████████████████████████████████████▋                                                                                                                                           | 4228/15000 [2:59:40<7:02:26,  2.35s/it] 28%|██████████████████████████████████████████████████████▋                                                                                                                                           | 4229/15000 [2:59:42<7:02:13,  2.35s/it] 28%|██████████████████████████████████████████████████████▋                                                                                                                                           | 4230/15000 [2:59:44<7:02:12,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.8713, 'grad_norm': 1.734375, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3484.48, 'total_tokens': 34558924, 'epoch': 0.28}
+ 28%|██████████████████████████████████████████████████████▋                                                                                                                                           | 4230/15000 [2:59:44<7:02:12,  2.35s/it] 28%|██████████████████████████████████████████████████████▋                                                                                                                                           | 4231/15000 [2:59:47<7:02:09,  2.35s/it] 28%|██████████████████████████████████████████████████████▋                                                                                                                                           | 4232/15000 [2:59:49<7:02:17,  2.35s/it] 28%|██████████████████████████████████████████████████████▋                                                                                                                                           | 4233/15000 [2:59:51<7:02:11,  2.35s/it] 28%|██████████████████████████████████████████████████████▊                                                                                                                                           | 4234/15000 [2:59:54<7:02:13,  2.35s/it] 28%|██████████████████████████████████████████████████████▊                                                                                                                                           | 4235/15000 [2:59:56<7:02:25,  2.35s/it] 28%|██████████████████████████████████████████████████████▊                                                                                                                                           | 4236/15000 [2:59:58<7:02:21,  2.35s/it] 28%|██████████████████████████████████████████████████████▊                                                                                                                                           | 4237/15000 [3:00:01<7:01:50,  2.35s/it] 28%|██████████████████████████████████████████████████████▊                                                                                                                                           | 4238/15000 [3:00:03<7:01:27,  2.35s/it] 28%|██████████████████████████████████████████████████████▊                                                                                                                                           | 4239/15000 [3:00:06<7:01:28,  2.35s/it] 28%|██████████████████████████████████████████████████████▊                                                                                                                                           | 4240/15000 [3:00:08<7:01:08,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.9622, 'grad_norm': 1.96875, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3491.63, 'total_tokens': 34640550, 'epoch': 0.28}
+ 28%|██████████████████████████████████████████████████████▊                                                                                                                                           | 4240/15000 [3:00:08<7:01:08,  2.35s/it] 28%|██████████████████████████████████████████████████████▊                                                                                                                                           | 4241/15000 [3:00:10<7:01:39,  2.35s/it] 28%|██████████████████████████████████████████████████████▊                                                                                                                                           | 4242/15000 [3:00:13<7:01:36,  2.35s/it] 28%|██████████████████████████████████████████████████████▉                                                                                                                                           | 4243/15000 [3:00:15<7:01:29,  2.35s/it] 28%|██████████████████████████████████████████████████████▉                                                                                                                                           | 4244/15000 [3:00:17<7:01:47,  2.35s/it] 28%|██████████████████████████████████████████████████████▉                                                                                                                                           | 4245/15000 [3:00:20<7:01:36,  2.35s/it] 28%|██████████████████████████████████████████████████████▉                                                                                                                                           | 4246/15000 [3:00:22<7:01:50,  2.35s/it] 28%|██████████████████████████████████████████████████████▉                                                                                                                                           | 4247/15000 [3:00:24<7:01:26,  2.35s/it] 28%|██████████████████████████████████████████████████████▉                                                                                                                                           | 4248/15000 [3:00:27<7:01:15,  2.35s/it] 28%|███████████████���██████████████████████████████████████▉                                                                                                                                           | 4249/15000 [3:00:29<7:01:18,  2.35s/it][2025-11-17 00:43:25,008] [INFO] [axolotl.utils.data.wrappers.get_dataset_wrapper:87] [PID:8163] Loading dataset: Goader/kobza-2m-jsonl with base_type: pretrain and prompt_style: None
+
+Tokenizing Prompts (num_proc=64):   0%|                                                                                                                                                                        | 0/10000 [00:00<?, ? examples/s][A
+Tokenizing Prompts (num_proc=64):   2%|██▍                                                                                                                                                           | 157/10000 [00:06<06:30, 25.23 examples/s][A
+Tokenizing Prompts (num_proc=64):   3%|████▉                                                                                                                                                         | 314/10000 [00:06<02:49, 57.08 examples/s][A
+Tokenizing Prompts (num_proc=64):   5%|███████▍                                                                                                                                                      | 471/10000 [00:07<01:47, 88.63 examples/s][A
+Tokenizing Prompts (num_proc=64):   6%|█████████▊                                                                                                                                                   | 628/10000 [00:07<01:19, 117.94 examples/s][A
+Tokenizing Prompts (num_proc=64):   8%|████████████▎                                                                                                                                                | 785/10000 [00:08<01:03, 144.78 examples/s][A
+Tokenizing Prompts (num_proc=64):   9%|██████████████▊                                                                                                                                              | 942/10000 [00:09<00:55, 163.72 examples/s][A
+Tokenizing Prompts (num_proc=64):  11%|█████████████████▏                                                                                                                                          | 1099/10000 [00:10<00:50, 174.88 examples/s][A
+Tokenizing Prompts (num_proc=64):  13%|███████████████████▌                                                                                                                                        | 1256/10000 [00:10<00:42, 204.12 examples/s][A
+Tokenizing Prompts (num_proc=64):  14%|██████████████████████                                                                                                                                      | 1413/10000 [00:11<00:47, 180.46 examples/s][A
+Tokenizing Prompts (num_proc=64):  16%|████████████████████████▍                                                                                                                                   | 1570/10000 [00:11<00:35, 234.51 examples/s][A
+Tokenizing Prompts (num_proc=64):  17%|██████████████████████████▉                                                                                                                                 | 1727/10000 [00:12<00:34, 237.57 examples/s][A
+Tokenizing Prompts (num_proc=64):  19%|█████████████████████████████▍                                                                                                                              | 1884/10000 [00:13<00:34, 237.81 examples/s][A
+Tokenizing Prompts (num_proc=64):  20%|███████████████████████████████▊                                                                                                                            | 2041/10000 [00:14<00:36, 220.91 examples/s][A
+Tokenizing Prompts (num_proc=64):  22%|██████████████████████████████████▎                                                                                                                         | 2198/10000 [00:14<00:31, 244.14 examples/s][A
+Tokenizing Prompts (num_proc=64):  24%|████████████████████████████████████▋                                                                                                                       | 2355/10000 [00:15<00:31, 243.42 examples/s][A
+Tokenizing Prompts (num_proc=64):  25%|███████████████████���███████████████████▏                                                                                                                    | 2512/10000 [00:16<00:37, 201.91 examples/s][A
+Tokenizing Prompts (num_proc=64):  27%|█████████████████████████████████████████▌                                                                                                                  | 2668/10000 [00:16<00:29, 252.22 examples/s][A
+Tokenizing Prompts (num_proc=64):  28%|████████████████████████████████████████████                                                                                                                | 2824/10000 [00:16<00:28, 250.92 examples/s][A
+Tokenizing Prompts (num_proc=64):  30%|██████████████████████████████████████████████▍                                                                                                             | 2980/10000 [00:17<00:28, 249.67 examples/s][A
+Tokenizing Prompts (num_proc=64):  31%|████████████████████████████████████████████████▉                                                                                                           | 3136/10000 [00:18<00:27, 246.67 examples/s][A
+Tokenizing Prompts (num_proc=64):  33%|███████████████████████████████████████████████████▎                                                                                                        | 3292/10000 [00:19<00:33, 202.40 examples/s][A
+Tokenizing Prompts (num_proc=64):  34%|█████████████████████████████████████████████████████▊                                                                                                      | 3448/10000 [00:20<00:26, 251.22 examples/s][A
+Tokenizing Prompts (num_proc=64):  36%|████████████████████████████████████████████████████████▏                                                                                                   | 3604/10000 [00:20<00:25, 252.43 examples/s][A
+Tokenizing Prompts (num_proc=64):  38%|██████████████████████████████████████████████████████████▋                                                                                                 | 3760/10000 [00:21<00:25, 241.25 examples/s][A
+Tokenizing Prompts (num_proc=64):  39%|█████████████████████████████████████████████████████████████                                                                                               | 3916/10000 [00:21<00:26, 232.36 examples/s][A
+Tokenizing Prompts (num_proc=64):  41%|███████████████████████████████████████████████████████████████▌                                                                                            | 4072/10000 [00:22<00:24, 245.99 examples/s][A
+Tokenizing Prompts (num_proc=64):  42%|█████████████████████████████████████████████████████████████████▉                                                                                          | 4228/10000 [00:22<00:23, 247.05 examples/s][A
+Tokenizing Prompts (num_proc=64):  44%|████████████████████████████████████████████████████████████████████▍                                                                                       | 4384/10000 [00:23<00:27, 205.79 examples/s][A
+Tokenizing Prompts (num_proc=64):  45%|██████████████████████████████████████████████████████████████████████▊                                                                                     | 4540/10000 [00:24<00:21, 257.38 examples/s][A
+Tokenizing Prompts (num_proc=64):  47%|█████████████████████████████████████████████████████████████���███████████▎                                                                                  | 4696/10000 [00:25<00:22, 239.04 examples/s][A
+Tokenizing Prompts (num_proc=64):  49%|███████████████████████████████████████████████████████████████████████████▋                                                                                | 4852/10000 [00:25<00:20, 245.17 examples/s][A
+Tokenizing Prompts (num_proc=64):  50%|██████████████████████████████████████████████████████████████████████████████                                                                              | 5008/10000 [00:26<00:21, 235.74 examples/s][A
+Tokenizing Prompts (num_proc=64):  52%|████████████████████████████████████████████████████████████████████████████████▌                                                                           | 5164/10000 [00:26<00:19, 245.47 examples/s][A
+Tokenizing Prompts (num_proc=64):  53%|██████████████████████████████████████████████████████████████████████████████████▉                                                                         | 5320/10000 [00:27<00:18, 250.72 examples/s][A
+Tokenizing Prompts (num_proc=64):  55%|█████████████████████████████████████████████████████████████████████████████████████▍                                                                      | 5476/10000 [00:28<00:21, 207.11 examples/s][A
+Tokenizing Prompts (num_proc=64):  56%|███████████████████████████████████████████████████████████████████████████████████████▊                                                                    | 5632/10000 [00:28<00:16, 259.65 examples/s][A
+Tokenizing Prompts (num_proc=64):  58%|██████████████████████████████████████████████████████████████████████████████████████████▎                                                                 | 5788/10000 [00:29<00:17, 245.10 examples/s][A
+Tokenizing Prompts (num_proc=64):  59%|████████████████████████████████████████████████████████████████████████████████████████████▋                                                               | 5944/10000 [00:30<00:16, 250.01 examples/s][A
+Tokenizing Prompts (num_proc=64):  61%|███████████████████████████████████████████████████████████████████████████████████████████████▏                                                            | 6100/10000 [00:30<00:16, 240.08 examples/s][A
+Tokenizing Prompts (num_proc=64):  63%|█████████████████████████████████████████████████████████████████████████████████████████████████▌                                                          | 6256/10000 [00:31<00:16, 225.57 examples/s][A
+Tokenizing Prompts (num_proc=64):  64%|████████████████████████████████████████████████████████████████████████████████████████████████████                                                        | 6412/10000 [00:32<00:19, 183.01 examples/s][A
+Tokenizing Prompts (num_proc=64):  66%|██████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                     | 6568/10000 [00:33<00:15, 214.58 examples/s][A
+Tokenizing Prompts (num_proc=64):  67%|████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                   | 6724/10000 [00:33<00:13, 236.08 examples/s][A
+Tokenizing Prompts (num_proc=64):  69%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                | 6880/10000 [00:34<00:13, 233.00 examples/s][A
+Tokenizing Prompts (num_proc=64):  70%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                              | 7036/10000 [00:35<00:15, 190.16 examples/s][A
+Tokenizing Prompts (num_proc=64):  72%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                           | 7192/10000 [00:35<00:12, 232.48 examples/s][A
+Tokenizing Prompts (num_proc=64):  73%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                         | 7348/10000 [00:37<00:12, 220.73 examples/s][A
+Tokenizing Prompts (num_proc=64):  75%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                       | 7504/10000 [00:37<00:10, 239.29 examples/s][A
+Tokenizing Prompts (num_proc=64):  77%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                    | 7660/10000 [00:38<00:13, 171.79 examples/s][A
+Tokenizing Prompts (num_proc=64):  78%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                  | 7816/10000 [00:39<00:09, 226.05 examples/s][A
+Tokenizing Prompts (num_proc=64):  80%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                               | 7972/10000 [00:39<00:08, 243.20 examples/s][A
+Tokenizing Prompts (num_proc=64):  81%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                             | 8128/10000 [00:40<00:08, 231.86 examples/s][A
+Tokenizing Prompts (num_proc=64):  83%|█████████████████████████████████████████████████���███████████████████████████████████████████████████████████████████████████████▏                          | 8284/10000 [00:40<00:07, 228.86 examples/s][A
+Tokenizing Prompts (num_proc=64):  84%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                        | 8440/10000 [00:41<00:07, 212.66 examples/s][A
+Tokenizing Prompts (num_proc=64):  86%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                      | 8596/10000 [00:42<00:06, 215.46 examples/s][A
+Tokenizing Prompts (num_proc=64):  88%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                   | 8752/10000 [00:43<00:05, 213.85 examples/s][A
+Tokenizing Prompts (num_proc=64):  89%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                 | 8908/10000 [00:43<00:05, 208.49 examples/s][A
+Tokenizing Prompts (num_proc=64):  91%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍              | 9064/10000 [00:44<00:04, 209.10 examples/s][A
+Tokenizing Prompts (num_proc=64):  92%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊            | 9220/10000 [00:45<00:03, 205.33 examples/s][A
+Tokenizing Prompts (num_proc=64):  94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎         | 9376/10000 [00:46<00:02, 213.90 examples/s][A
+Tokenizing Prompts (num_proc=64):  95%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋       | 9532/10000 [00:46<00:02, 210.44 examples/s][A
+Tokenizing Prompts (num_proc=64):  97%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏    | 9688/10000 [00:47<00:01, 212.91 examples/s][A
+Tokenizing Prompts (num_proc=64):  98%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌  | 9844/10000 [00:48<00:00, 204.75 examples/s][A
+Tokenizing Prompts (num_proc=64): 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10000/10000 [00:49<00:00, 220.35 examples/s][ATokenizing Prompts (num_proc=64): 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10000/10000 [00:51<00:00, 195.65 examples/s]
+
+Dropping Long Sequences:   0%|                                                                                                                                                                                 | 0/10000 [00:00<?, ? examples/s][A
+Dropping Long Sequences:  10%|████████████████▌                                                                                                                                                    | 1000/10000 [00:01<00:12, 709.46 examples/s][A
+Dropping Long Sequences:  20%|████████████████████████████████▊                                                                                                                                   | 2000/10000 [00:01<00:05, 1380.95 examples/s][A
+Dropping Long Sequences:  30%|█████████████████████████████████████████████████▏                                                                                                                  | 3000/10000 [00:01<00:03, 2006.82 examples/s][A
+Dropping Long Sequences:  40%|█████████████████████████████████████████████████████████████████▌                                                                                                  | 4000/10000 [00:02<00:02, 2479.11 examples/s][A
+Dropping Long Sequences:  50%|██████████████████████████████████████████████████████████████████████████████████                                                                                  | 5000/10000 [00:02<00:01, 2873.15 examples/s][A
+Dropping Long Sequences:  60%|██████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                 | 6000/10000 [00:02<00:01, 3120.70 examples/s][A
+Dropping Long Sequences:  70%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                 | 7000/10000 [00:02<00:00, 3320.56 examples/s][A
+Dropping Long Sequences:  80%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                | 8000/10000 [00:03<00:00, 3439.85 examples/s][A
+Dropping Long Sequences:  90%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                | 9000/10000 [00:03<00:00, 3644.20 examples/s][A
+Dropping Long Sequences: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10000/10000 [00:03<00:00, 3677.53 examples/s][ADropping Long Sequences: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10000/10000 [00:03<00:00, 2663.87 examples/s]
+
+Add position_id column (Pretraining Sample Packing):   0%|                                                                                                                                                      | 0/8753 [00:00<?, ? examples/s][A
+Add position_id column (Pretraining Sample Packing):  11%|███████████████▊                                                                                                                          | 1000/8753 [00:01<00:10, 770.16 examples/s][A
+Add position_id column (Pretraining Sample Packing):  23%|███████████████████████████████▎                                                                                                         | 2000/8753 [00:01<00:04, 1602.35 examples/s][A
+Add position_id column (Pretraining Sample Packing):  34%|██████████████████████████████████████████████▉                                                                                          | 3000/8753 [00:01<00:02, 2472.74 examples/s][A
+Add position_id column (Pretraining Sample Packing):  46%|██████████████████████████████████████████████████████████████▌                                                                          | 4000/8753 [00:01<00:01, 3237.66 examples/s][A
+Add position_id column (Pretraining Sample Packing):  57%|██████████████████████████████████████████████████████████████████████████████▎                                                          | 5000/8753 [00:01<00:00, 4004.65 examples/s][A
+Add position_id column (Pretraining Sample Packing):  69%|█████████████████████████████████████████████████████████████████████████████████████████████▉                                           | 6000/8753 [00:02<00:00, 4719.97 examples/s][A
+Add position_id column (Pretraining Sample Packing):  80%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                           | 7000/8753 [00:02<00:00, 5306.03 examples/s][A
+Add position_id column (Pretraining Sample Packing):  91%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏           | 8000/8753 [00:02<00:00, 5577.59 examples/s][A
+Add position_id column (Pretraining Sample Packing): 100%|████████████████████████████████████████���████████████████████████████████████████████████████████████████████████████████████████████████| 8753/8753 [00:02<00:00, 5827.84 examples/s][AAdd position_id column (Pretraining Sample Packing): 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 8753/8753 [00:02<00:00, 3495.07 examples/s]
+[2025-11-17 00:44:23,957] [DEBUG] [axolotl.utils.samplers.multipack.pack_parallel:177] [PID:8163] Using single process for pack_parallel, running sequentially.
+ 28%|██████████████████████████████████████████████████████▋                                                                                                                                          | 4250/15000 [3:01:38<67:03:32, 22.46s/it]                                                                                                                                                                                                                                                {'loss': 2.8918, 'grad_norm': 1.953125, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3435.73, 'total_tokens': 34721128, 'epoch': 0.28}
+ 28%|██████████████████████████████████████████████████████▋                                                                                                                                          | 4250/15000 [3:01:38<67:03:32, 22.46s/it] 28%|██████████████████████████████████████████████████████▋                                                                                                                                          | 4251/15000 [3:01:41<49:02:55, 16.43s/it] 28%|██████████████████████████████████████████████████████▋                                                                                                                                          | 4252/15000 [3:01:43<36:26:40, 12.21s/it] 28%|██████████████████████████████████████████████████████▋                                                                                                                                          | 4253/15000 [3:01:45<27:37:06,  9.25s/it] 28%|██████████████████████████████████████████████████████▋                                                                                                                                          | 4254/15000 [3:01:48<21:26:06,  7.18s/it] 28%|██████████████████████████████████████████████████████▋                                                                                                                                          | 4255/15000 [3:01:50<17:06:30,  5.73s/it] 28%|██████████████████████████████████████████████████████▊                                                                                                                                          | 4256/15000 [3:01:53<14:04:39,  4.72s/it] 28%|██████████████████████████████████████████████████████▊                                                                                                                                          | 4257/15000 [3:01:55<11:57:27,  4.01s/it] 28%|██████████████████████████████████████████████████████▊                                                                                                                                          | 4258/15000 [3:01:57<10:28:32,  3.51s/it] 28%|██████████████████████████████��████████████████████████                                                                                                                                           | 4259/15000 [3:02:00<9:26:06,  3.16s/it] 28%|███████████████████████████████████████████████████████                                                                                                                                           | 4260/15000 [3:02:02<8:42:55,  2.92s/it]                                                                                                                                                                                                                                                {'loss': 2.9753, 'grad_norm': 1.703125, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3480.31, 'total_tokens': 34802992, 'epoch': 0.28}
+ 28%|███████████████████████████████████████████████████████                                                                                                                                           | 4260/15000 [3:02:02<8:42:55,  2.92s/it] 28%|███████████████████████████████████████████████████████                                                                                                                                           | 4261/15000 [3:02:04<8:12:50,  2.75s/it] 28%|███████████████████████████████████████████████████████                                                                                                                                           | 4262/15000 [3:02:07<7:51:05,  2.63s/it] 28%|███████████████████████████████████████████████████████▏                                                                                                                                          | 4263/15000 [3:02:09<7:36:09,  2.55s/it] 28%|███████████████████████████████████████████████████████▏                                                                                                                                          | 4264/15000 [3:02:11<7:25:33,  2.49s/it] 28%|███████████████████████████████████████████████████████▏                                                                                                                                          | 4265/15000 [3:02:14<7:18:07,  2.45s/it] 28%|███████████████████████████████████████████████████████▏                                                                                                                                          | 4266/15000 [3:02:16<7:13:30,  2.42s/it] 28%|███████████████████████████████████████████████████████▏                                                                                                                                          | 4267/15000 [3:02:18<7:09:19,  2.40s/it] 28%|███████████████████████████████████████████████████████▏                                                                                                                                          | 4268/15000 [3:02:21<7:06:56,  2.39s/it] 28%|███████████████████████████████████████████████████████▏                                                                                                                                          | 4269/15000 [3:02:23<7:05:13,  2.38s/it] 28%|███████████████████████████████████████████████████████▏                                                                                                                                          | 4270/15000 [3:02:25<7:03:46,  2.37s/it]                                                                                                                                                                                                                                                {'loss': 2.8855, 'grad_norm': 1.703125, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3489.69, 'total_tokens': 34884801, 'epoch': 0.28}
+ 28%|███████████████████████████████████████████████████████▏                                                                                                                                          | 4270/15000 [3:02:25<7:03:46,  2.37s/it] 28%|███████████████████████████████████████████████████████▏                                                                                                                                          | 4271/15000 [3:02:28<7:03:23,  2.37s/it] 28%|███████████████████████████████████████████████████████▎                                                                                                                                          | 4272/15000 [3:02:30<7:02:42,  2.36s/it] 28%|███████████████████████████████████████████████████████▎                                                                                                                                          | 4273/15000 [3:02:33<7:01:45,  2.36s/it] 28%|███████████████████████████████████████████████████████▎                                                                                                                                          | 4274/15000 [3:02:35<7:01:44,  2.36s/it] 28%|███████████████████████████████████████████████████████▎                                                                                                                                          | 4275/15000 [3:02:37<7:01:23,  2.36s/it] 29%|███████████████████████████████████████████████████████▎                                                                                                                                          | 4276/15000 [3:02:40<7:01:26,  2.36s/it] 29%|███████████████████████████████████████████████████████▎                                                                                                                                          | 4277/15000 [3:02:42<7:01:13,  2.36s/it] 29%|███████████████████████████████████████████████████████▎                                                                                                                                          | 4278/15000 [3:02:44<7:01:19,  2.36s/it] 29%|███████████████████████████████████████████████████████▎                                                                                                                                          | 4279/15000 [3:02:47<7:01:02,  2.36s/it] 29%|███████████████████████████████████████████████████████▎                                                                                                                                          | 4280/15000 [3:02:49<7:00:38,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.9281, 'grad_norm': 1.734375, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3492.27, 'total_tokens': 34966606, 'epoch': 0.29}
+ 29%|███████████████████████████████████████████████████████▎                                                                                                                                          | 4280/15000 [3:02:49<7:00:38,  2.35s/it] 29%|█████████��█████████████████████████████████████████████▎                                                                                                                                          | 4281/15000 [3:02:51<7:00:42,  2.35s/it] 29%|███████████████████████████████████████████████████████▍                                                                                                                                          | 4282/15000 [3:02:54<7:00:29,  2.35s/it] 29%|███████████████████████████████████████████████████████▍                                                                                                                                          | 4283/15000 [3:02:56<7:00:35,  2.35s/it] 29%|███████████████████████████████████████████████████████▍                                                                                                                                          | 4284/15000 [3:02:58<7:00:48,  2.36s/it] 29%|███████████████████████████████████████████████████████▍                                                                                                                                          | 4285/15000 [3:03:01<7:00:49,  2.36s/it] 29%|███████████████████████████████████████████████████████▍                                                                                                                                          | 4286/15000 [3:03:03<7:01:00,  2.36s/it] 29%|███████████████████████████████████████████████████████▍                                                                                                                                          | 4287/15000 [3:03:06<7:00:45,  2.36s/it] 29%|███████████████████████████████████████████████████████▍                                                                                                                                          | 4288/15000 [3:03:08<7:00:31,  2.36s/it] 29%|███████████████████████████████████████████████████████▍                                                                                                                                          | 4289/15000 [3:03:10<7:00:31,  2.36s/it] 29%|███████████████████████████████████████████████████████▍                                                                                                                                          | 4290/15000 [3:03:13<7:00:30,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.9522, 'grad_norm': 1.78125, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3482.89, 'total_tokens': 35048418, 'epoch': 0.29}
+ 29%|███████████████████████████████████████████████████████▍                                                                                                                                          | 4290/15000 [3:03:13<7:00:30,  2.36s/it] 29%|███████████████████████████████████████████████████████▍                                                                                                                                          | 4291/15000 [3:03:15<7:00:08,  2.35s/it] 29%|███████████████████████████████████████████████████████▌                                                                                                                                          | 4292/15000 [3:03:17<7:00:31,  2.36s/it] 29%|█████████████████████��█████████████████████████████████▌                                                                                                                                          | 4293/15000 [3:03:20<7:00:18,  2.36s/it] 29%|███████████████████████████████████████████████████████▌                                                                                                                                          | 4294/15000 [3:03:22<7:00:20,  2.36s/it] 29%|███████████████████████████████████████████████████████▌                                                                                                                                          | 4295/15000 [3:03:24<7:00:20,  2.36s/it] 29%|███████████████████████████████████████████████████████▌                                                                                                                                          | 4296/15000 [3:03:27<6:59:52,  2.35s/it] 29%|███████████████████████████████████████████████████████▌                                                                                                                                          | 4297/15000 [3:03:29<6:59:44,  2.35s/it] 29%|███████████████████████████████████████████████████████▌                                                                                                                                          | 4298/15000 [3:03:31<6:59:59,  2.35s/it] 29%|███████████████████████████████████████████████████████▌                                                                                                                                          | 4299/15000 [3:03:34<7:00:11,  2.36s/it] 29%|███████████████████████████████████████████████████████▌                                                                                                                                          | 4300/15000 [3:03:36<7:00:02,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.9512, 'grad_norm': 1.671875, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3485.65, 'total_tokens': 35130217, 'epoch': 0.29}
+ 29%|███████████████████████████████████████████████████████▌                                                                                                                                          | 4300/15000 [3:03:36<7:00:02,  2.36s/it] 29%|███████████████████████████████████████████████████████▋                                                                                                                                          | 4301/15000 [3:03:39<7:00:13,  2.36s/it] 29%|███████████████████████████████████████████████████████▋                                                                                                                                          | 4302/15000 [3:03:41<7:00:04,  2.36s/it] 29%|███████████████████████████████████████████████████████▋                                                                                                                                          | 4303/15000 [3:03:43<6:59:52,  2.36s/it] 29%|███████████████████████████████████████████████████████▋                                                                                                                                          | 4304/15000 [3:03:46<6:59:51,  2.36s/it] 29%|█████████████████████████████████���█████████████████████▋                                                                                                                                          | 4305/15000 [3:03:48<6:59:24,  2.35s/it] 29%|███████████████████████████████████████████████████████▋                                                                                                                                          | 4306/15000 [3:03:50<6:59:19,  2.35s/it] 29%|███████████████████████████████████████████████████████▋                                                                                                                                          | 4307/15000 [3:03:53<6:59:38,  2.35s/it] 29%|███████████████████████████████████████████████████████▋                                                                                                                                          | 4308/15000 [3:03:55<6:59:04,  2.35s/it] 29%|███████████████████████████████████████████████████████▋                                                                                                                                          | 4309/15000 [3:03:57<6:59:02,  2.35s/it] 29%|███████████████████████████████████████████████████████▋                                                                                                                                          | 4310/15000 [3:04:00<6:58:56,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.9843, 'grad_norm': 1.7734375, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3489.2, 'total_tokens': 35211991, 'epoch': 0.29}
+ 29%|███████████████████████████████████████████████████████▋                                                                                                                                          | 4310/15000 [3:04:00<6:58:56,  2.35s/it] 29%|███████████████████████████████████████████████████████▊                                                                                                                                          | 4311/15000 [3:04:02<6:58:53,  2.35s/it] 29%|███████████████████████████████████████████████████████▊                                                                                                                                          | 4312/15000 [3:04:04<6:59:17,  2.35s/it] 29%|███████████████████████████████████████████████████████▊                                                                                                                                          | 4313/15000 [3:04:07<6:58:53,  2.35s/it] 29%|███████████████████████████████████████████████████████▊                                                                                                                                          | 4314/15000 [3:04:09<6:59:12,  2.35s/it] 29%|███████████████████████████████████████████████████████▊                                                                                                                                          | 4315/15000 [3:04:11<6:59:18,  2.35s/it] 29%|███████████████████████████████████████████████████████▊                                                                                                                                          | 4316/15000 [3:04:14<6:59:12,  2.35s/it] 29%|███████████████████████████████████████████████████████▊                                                                                                                                          | 4317/15000 [3:04:16<6:59:13,  2.35s/it] 29%|███████████████████████████████████████████████████████▊                                                                                                                                          | 4318/15000 [3:04:19<6:59:05,  2.35s/it] 29%|███████████████████████████████████████████████████████▊                                                                                                                                          | 4319/15000 [3:04:21<6:59:04,  2.35s/it] 29%|███████████████████████████████████████████████████████▊                                                                                                                                          | 4320/15000 [3:04:23<6:59:07,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.8412, 'grad_norm': 1.8828125, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3483.15, 'total_tokens': 35293802, 'epoch': 0.29}
+ 29%|███████████████████████████████████████████████████████▊                                                                                                                                          | 4320/15000 [3:04:23<6:59:07,  2.35s/it] 29%|███████████████████████████████████████████████████████▉                                                                                                                                          | 4321/15000 [3:04:26<6:59:00,  2.35s/it] 29%|███████████████████████████████████████████████████████▉                                                                                                                                          | 4322/15000 [3:04:28<6:58:57,  2.35s/it] 29%|███████████████████████████████████████████████████████▉                                                                                                                                          | 4323/15000 [3:04:30<6:58:54,  2.35s/it] 29%|███████████████████████████████████████████████████████▉                                                                                                                                          | 4324/15000 [3:04:33<6:59:12,  2.36s/it] 29%|███████████████████████████████████████████████████████▉                                                                                                                                          | 4325/15000 [3:04:35<6:59:33,  2.36s/it] 29%|███████████████████████████████████████████████████████▉                                                                                                                                          | 4326/15000 [3:04:37<6:58:54,  2.35s/it] 29%|███████████████████████████████████████████████████████▉                                                                                                                                          | 4327/15000 [3:04:40<6:58:53,  2.35s/it] 29%|███████████████████████████████████████████████████████▉                                                                                                                                          | 4328/15000 [3:04:42<6:58:57,  2.36s/it] 29%|███████████████████████████████████████████████████████▉                                                                                                                                          | 4329/15000 [3:04:44<6:58:31,  2.35s/it] 29%|████████████████████████████████████████████████████████                                                                                                                                          | 4330/15000 [3:04:47<6:58:31,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.8548, 'grad_norm': 1.8046875, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3484.8, 'total_tokens': 35375584, 'epoch': 0.29}
+ 29%|████████████████████████████████████████████████████████                                                                                                                                          | 4330/15000 [3:04:47<6:58:31,  2.35s/it] 29%|████████████████████████████████████████████████████████                                                                                                                                          | 4331/15000 [3:04:49<6:58:34,  2.35s/it] 29%|████████████████████████████████████████████████████████                                                                                                                                          | 4332/15000 [3:04:51<6:58:18,  2.35s/it] 29%|████████████████████████████████████████████████████████                                                                                                                                          | 4333/15000 [3:04:54<6:58:10,  2.35s/it] 29%|████████████████████████████████████████████████████████                                                                                                                                          | 4334/15000 [3:04:56<6:58:38,  2.35s/it] 29%|████████████████████████████████████████████████████████                                                                                                                                          | 4335/15000 [3:04:59<6:58:17,  2.35s/it] 29%|████████████████████████████████████████████████████████                                                                                                                                          | 4336/15000 [3:05:01<6:58:44,  2.36s/it] 29%|████████████████████████████████████████████████████████                                                                                                                                          | 4337/15000 [3:05:03<6:58:42,  2.36s/it] 29%|████████████████████████████████████████████████████████                                                                                                                                          | 4338/15000 [3:05:06<7:23:43,  2.50s/it] 29%|████████████████████████████████████████████████████████                                                                                                                                          | 4339/15000 [3:05:08<7:15:28,  2.45s/it] 29%|████████████████████████████████████████████████████████▏                                                                                                                                         | 4340/15000 [3:05:11<7:10:21,  2.42s/it]                                                                                                                                                                                                                                                {'loss': 2.8909, 'grad_norm': 1.921875, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3483.0, 'total_tokens': 35457380, 'epoch': 0.29}
+ 29%|████████████████████████████████████████████████████████▏                                                                                                                                         | 4340/15000 [3:05:11<7:10:21,  2.42s/it] 29%|████████████████████████████████████████████████████████▏                                                                                                                                         | 4341/15000 [3:05:13<7:06:26,  2.40s/it] 29%|████████████████████████████████████████████████████████▏                                                                                                                                         | 4342/15000 [3:05:15<7:03:58,  2.39s/it] 29%|████████████████████████████████████████████████████████▏                                                                                                                                         | 4343/15000 [3:05:18<7:02:24,  2.38s/it] 29%|████████████████████████████████████████████████████████▏                                                                                                                                         | 4344/15000 [3:05:20<7:01:24,  2.37s/it] 29%|████████████████████████████████████████████████████████▏                                                                                                                                         | 4345/15000 [3:05:23<7:00:47,  2.37s/it] 29%|████████████████████████████████████████████████████████▏                                                                                                                                         | 4346/15000 [3:05:25<7:00:01,  2.37s/it] 29%|████████████████████████████████████████████████████████▏                                                                                                                                         | 4347/15000 [3:05:27<6:59:14,  2.36s/it] 29%|████████████████████████████████████████████████████████▏                                                                                                                                         | 4348/15000 [3:05:30<6:58:51,  2.36s/it] 29%|████████████████████████████████████████████████████████▏                                                                                                                                         | 4349/15000 [3:05:32<6:58:23,  2.36s/it] 29%|████████████████████████████████████████████████████████▎                                                                                                                                         | 4350/15000 [3:05:34<6:58:09,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.9646, 'grad_norm': 1.78125, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3483.83, 'total_tokens': 35539128, 'epoch': 0.29}
+ 29%|████████████████████████████████████████████████████████▎                                                                                                                                         | 4350/15000 [3:05:34<6:58:09,  2.36s/it] 29%|████████████████████████████████████████████████████████▎                                                                                                                                         | 4351/15000 [3:05:37<6:58:09,  2.36s/it] 29%|████████████████████████████████████████████████████████▎                                                                                                                                         | 4352/15000 [3:05:39<6:58:10,  2.36s/it] 29%|████████████████████████████████████████████████████████▎                                                                                                                                         | 4353/15000 [3:05:41<6:58:05,  2.36s/it] 29%|████████████████████████████████████████████████████████▎                                                                                                                                         | 4354/15000 [3:05:44<6:58:08,  2.36s/it] 29%|████████████████████████████████████████████████████████▎                                                                                                                                         | 4355/15000 [3:05:46<6:57:49,  2.36s/it] 29%|████████████████████████████████████████████████████████▎                                                                                                                                         | 4356/15000 [3:05:48<6:57:48,  2.36s/it] 29%|████████████████████████████████████████████████████████▎                                                                                                                                         | 4357/15000 [3:05:51<6:58:04,  2.36s/it] 29%|████████████████████████████████████████████████████████▎                                                                                                                                         | 4358/15000 [3:05:53<6:57:11,  2.35s/it] 29%|████████████████████████████████████████████████████████▍                                                                                                                                         | 4359/15000 [3:05:56<6:56:49,  2.35s/it] 29%|████████████████████████████████████████████████████████▍                                                                                                                                         | 4360/15000 [3:05:58<6:57:19,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.9153, 'grad_norm': 1.8046875, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3475.96, 'total_tokens': 35620930, 'epoch': 0.29}
+ 29%|████████████████████████████████████████████████████████▍                                                                                                                                         | 4360/15000 [3:05:58<6:57:19,  2.35s/it] 29%|████████████████████████████████████████████████████████▍                                                                                                                                         | 4361/15000 [3:06:00<6:57:19,  2.35s/it] 29%|████████████████████████████████████████████████████████▍                                                                                                                                         | 4362/15000 [3:06:03<6:57:15,  2.35s/it] 29%|██████████████████████████��█████████████████████████████▍                                                                                                                                         | 4363/15000 [3:06:05<6:57:10,  2.35s/it] 29%|████████████████████████████████████████████████████████▍                                                                                                                                         | 4364/15000 [3:06:07<6:57:36,  2.36s/it] 29%|████████████████████████████████████████████████████████▍                                                                                                                                         | 4365/15000 [3:06:10<6:57:11,  2.35s/it] 29%|████████████████████████████████████████████████████████▍                                                                                                                                         | 4366/15000 [3:06:12<6:57:33,  2.36s/it] 29%|████████████████████████████████████████████████████████▍                                                                                                                                         | 4367/15000 [3:06:14<6:56:47,  2.35s/it] 29%|████████████████████████████████████████████████████████▍                                                                                                                                         | 4368/15000 [3:06:17<6:57:02,  2.35s/it] 29%|████████████████████████████████████████████████████████▌                                                                                                                                         | 4369/15000 [3:06:19<6:57:10,  2.35s/it] 29%|████████████████████████████████████████████████████████▌                                                                                                                                         | 4370/15000 [3:06:21<6:57:38,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.9652, 'grad_norm': 1.8515625, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3470.34, 'total_tokens': 35702724, 'epoch': 0.29}
+ 29%|████████████████████████████████████████████████████████▌                                                                                                                                         | 4370/15000 [3:06:21<6:57:38,  2.36s/it] 29%|████████████████████████████████████████████████████████▌                                                                                                                                         | 4371/15000 [3:06:24<6:57:42,  2.36s/it] 29%|████████████████████████████████████████████████████████▌                                                                                                                                         | 4372/15000 [3:06:26<6:57:36,  2.36s/it] 29%|████████████████████████████████████████████████████████▌                                                                                                                                         | 4373/15000 [3:06:28<6:57:30,  2.36s/it] 29%|████████████████████████████████████████████████████████▌                                                                                                                                         | 4374/15000 [3:06:31<6:56:55,  2.35s/it] 29%|█████████████████████████████���██████████████████████████▌                                                                                                                                         | 4375/15000 [3:06:33<6:56:44,  2.35s/it] 29%|████████████████████████████████████████████████████████▌                                                                                                                                         | 4376/15000 [3:06:36<6:56:37,  2.35s/it] 29%|████████████████████████████████████████████████████████▌                                                                                                                                         | 4377/15000 [3:06:38<6:56:43,  2.35s/it] 29%|████████████████████████████████████████████████████████▌                                                                                                                                         | 4378/15000 [3:06:40<6:56:56,  2.36s/it] 29%|████████████████████████████████████████████████████████▋                                                                                                                                         | 4379/15000 [3:06:43<6:56:45,  2.35s/it] 29%|████████████████████████████████████████████████████████▋                                                                                                                                         | 4380/15000 [3:06:45<6:57:05,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.8817, 'grad_norm': 1.7265625, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3473.1, 'total_tokens': 35784493, 'epoch': 0.29}
+ 29%|████████████████████████████████████████████████████████▋                                                                                                                                         | 4380/15000 [3:06:45<6:57:05,  2.36s/it] 29%|████████████████████████████████████████████████████████▋                                                                                                                                         | 4381/15000 [3:06:47<6:57:27,  2.36s/it] 29%|████████████████████████████████████████████████████████▋                                                                                                                                         | 4382/15000 [3:06:50<6:57:30,  2.36s/it] 29%|████████████████████████████████████████████████████████▋                                                                                                                                         | 4383/15000 [3:06:52<6:57:38,  2.36s/it] 29%|████████████████████████████████████████████████████████▋                                                                                                                                         | 4384/15000 [3:06:54<6:57:03,  2.36s/it] 29%|████████████████████████████████████████████████████████▋                                                                                                                                         | 4385/15000 [3:06:57<6:56:54,  2.36s/it] 29%|████████████████████████████████████████████████████████▋                                                                                                                                         | 4386/15000 [3:06:59<6:56:47,  2.36s/it] 29%|████████████████████████████████���███████████████████████▋                                                                                                                                         | 4387/15000 [3:07:01<6:57:00,  2.36s/it] 29%|████████████████████████████████████████████████████████▊                                                                                                                                         | 4388/15000 [3:07:04<6:56:43,  2.36s/it] 29%|████████████████████████████████████████████████████████▊                                                                                                                                         | 4389/15000 [3:07:06<6:56:33,  2.36s/it] 29%|████████████████████████████████████████████████████████▊                                                                                                                                         | 4390/15000 [3:07:09<6:56:23,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.987, 'grad_norm': 1.8046875, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3486.66, 'total_tokens': 35866293, 'epoch': 0.29}
+ 29%|████████████████████████████████████████████████████████▊                                                                                                                                         | 4390/15000 [3:07:09<6:56:23,  2.35s/it] 29%|████████████████████████████████████████████████████████▊                                                                                                                                         | 4391/15000 [3:07:11<6:56:29,  2.36s/it] 29%|████████████████████████████████████████████████████████▊                                                                                                                                         | 4392/15000 [3:07:13<6:56:41,  2.36s/it] 29%|████████████████████████████████████████████████████████▊                                                                                                                                         | 4393/15000 [3:07:16<6:56:51,  2.36s/it] 29%|████████████████████████████████████████████████████████▊                                                                                                                                         | 4394/15000 [3:07:18<6:56:31,  2.36s/it] 29%|████████████████████████████████████████████████████████▊                                                                                                                                         | 4395/15000 [3:07:20<6:56:13,  2.35s/it] 29%|████████████████████████████████████████████████████████▊                                                                                                                                         | 4396/15000 [3:07:23<6:56:12,  2.35s/it] 29%|████████████████████████████████████████████████████████▊                                                                                                                                         | 4397/15000 [3:07:25<6:55:57,  2.35s/it] 29%|████████████████████████████████████████████████████████▉                                                                                                                                         | 4398/15000 [3:07:27<6:56:01,  2.35s/it] 29%|███████████████████████████████████���████████████████████▉                                                                                                                                         | 4399/15000 [3:07:30<6:55:59,  2.35s/it] 29%|████████████████████████████████████████████████████████▉                                                                                                                                         | 4400/15000 [3:07:32<6:56:02,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.8969, 'grad_norm': 1.6875, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3480.74, 'total_tokens': 35948050, 'epoch': 0.29}
+ 29%|████████████████████████████████████████████████████████▉                                                                                                                                         | 4400/15000 [3:07:32<6:56:02,  2.35s/it] 29%|████████████████████████████████████████████████████████▉                                                                                                                                         | 4401/15000 [3:07:34<6:55:40,  2.35s/it] 29%|████████████████████████████████████████████████████████▉                                                                                                                                         | 4402/15000 [3:07:37<6:55:46,  2.35s/it] 29%|████████████████████████████████████████████████████████▉                                                                                                                                         | 4403/15000 [3:07:39<6:56:10,  2.36s/it] 29%|████████████████████████████████████████████████████████▉                                                                                                                                         | 4404/15000 [3:07:42<6:56:00,  2.36s/it] 29%|████████████████████████████████████████████████████████▉                                                                                                                                         | 4405/15000 [3:07:44<6:56:00,  2.36s/it] 29%|████████████████████████████████████████████████████████▉                                                                                                                                         | 4406/15000 [3:07:46<6:56:03,  2.36s/it] 29%|████████████████████████████████████████████████████████▉                                                                                                                                         | 4407/15000 [3:07:49<6:56:08,  2.36s/it] 29%|█████████████████████████████████████████████████████████                                                                                                                                         | 4408/15000 [3:07:51<6:55:24,  2.35s/it] 29%|█████████████████████████████████████████████████████████                                                                                                                                         | 4409/15000 [3:07:53<6:55:15,  2.35s/it] 29%|█████████████████████████████████████████████████████████                                                                                                                                         | 4410/15000 [3:07:56<6:54:47,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.9664, 'grad_norm': 1.703125, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3497.97, 'total_tokens': 36029811, 'epoch': 0.29}
+ 29%|█████████████████████████████████████████████████████████                                                                                                                                         | 4410/15000 [3:07:56<6:54:47,  2.35s/it] 29%|█████████████████████████████████████████████████████████                                                                                                                                         | 4411/15000 [3:07:58<6:55:07,  2.35s/it] 29%|█████████████████████████████████████████████████████████                                                                                                                                         | 4412/15000 [3:08:00<6:55:14,  2.35s/it] 29%|█████████████████████████████████████████████████████████                                                                                                                                         | 4413/15000 [3:08:03<6:55:10,  2.35s/it] 29%|█████████████████████████████████████████████████████████                                                                                                                                         | 4414/15000 [3:08:05<6:55:10,  2.35s/it] 29%|█████████████████████████████████████████████████████████                                                                                                                                         | 4415/15000 [3:08:07<6:55:08,  2.35s/it] 29%|█████████████████████████████████████████████████████████                                                                                                                                         | 4416/15000 [3:08:10<6:54:46,  2.35s/it] 29%|█████████████████████████████████████████████████████████▏                                                                                                                                        | 4417/15000 [3:08:12<6:55:14,  2.35s/it] 29%|█████████████████████████████████████████████████████████▏                                                                                                                                        | 4418/15000 [3:08:14<6:55:20,  2.36s/it] 29%|█████████████████████████████████████████████████████████▏                                                                                                                                        | 4419/15000 [3:08:17<6:54:58,  2.35s/it] 29%|█████████████████████████████████████████████████████████▏                                                                                                                                        | 4420/15000 [3:08:19<6:55:26,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.9225, 'grad_norm': 1.7890625, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3469.93, 'total_tokens': 36111552, 'epoch': 0.29}
+ 29%|█████████████████████████████████████████████████████████▏                                                                                                                                        | 4420/15000 [3:08:19<6:55:26,  2.36s/it] 29%|█████████████████████████████████████████████████████████▏                                                                                                                                        | 4421/15000 [3:08:22<6:55:00,  2.35s/it] 29%|█████████████████████████████████████████████████████████▏                                                                                                                                        | 4422/15000 [3:08:24<6:55:06,  2.35s/it] 29%|█████████████████████████████████████████████████████████▏                                                                                                                                        | 4423/15000 [3:08:26<6:54:43,  2.35s/it] 29%|█████████████████████████████████████████████████████████▏                                                                                                                                        | 4424/15000 [3:08:29<6:54:46,  2.35s/it] 30%|█████████████████████████████████████████████████████████▏                                                                                                                                        | 4425/15000 [3:08:31<6:54:51,  2.35s/it] 30%|█████████████████████████████████████████████████████████▏                                                                                                                                        | 4426/15000 [3:08:33<6:54:23,  2.35s/it] 30%|█████████████████████████████████████████████████████████▎                                                                                                                                        | 4427/15000 [3:08:36<6:54:10,  2.35s/it] 30%|█████████████████████████████████████████████████████████▎                                                                                                                                        | 4428/15000 [3:08:38<6:54:31,  2.35s/it] 30%|█████████████████████████████████████████████████████████▎                                                                                                                                        | 4429/15000 [3:08:40<6:54:21,  2.35s/it] 30%|█████████████████████████████████████████████████████████▎                                                                                                                                        | 4430/15000 [3:08:43<6:53:33,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.9321, 'grad_norm': 1.703125, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3509.36, 'total_tokens': 36193337, 'epoch': 0.3}
+ 30%|█████████████████████████████████████████████████████████▎                                                                                                                                        | 4430/15000 [3:08:43<6:53:33,  2.35s/it] 30%|█████████████████████████████████████████████████████████▎                                                                                                                                        | 4431/15000 [3:08:45<6:54:09,  2.35s/it] 30%|█████████████████████████████████████████████████████████▎                                                                                                                                        | 4432/15000 [3:08:47<6:54:14,  2.35s/it] 30%|█████████████████████████████████████████████████████████▎                                                                                                                                        | 4433/15000 [3:08:50<6:53:50,  2.35s/it] 30%|█████████████████████████████████████████████████████████▎                                                                                                                                        | 4434/15000 [3:08:52<6:54:05,  2.35s/it] 30%|█████████████████████████████████████████████████████████▎                                                                                                                                        | 4435/15000 [3:08:54<6:53:51,  2.35s/it] 30%|█████████████████████████████████████████████████████████▎                                                                                                                                        | 4436/15000 [3:08:57<6:54:00,  2.35s/it] 30%|█████████████████████████████████████████████████████████▍                                                                                                                                        | 4437/15000 [3:08:59<6:54:12,  2.35s/it] 30%|█████████████████████████████████████████████████████████▍                                                                                                                                        | 4438/15000 [3:09:02<6:54:16,  2.35s/it] 30%|█████████████████████████████████████████████████████████▍                                                                                                                                        | 4439/15000 [3:09:04<6:54:05,  2.35s/it] 30%|█████████████████████████████████████████████████████████▍                                                                                                                                        | 4440/15000 [3:09:06<6:54:08,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.9425, 'grad_norm': 1.703125, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3482.69, 'total_tokens': 36275089, 'epoch': 0.3}
+ 30%|█████████████████████████████████████████████████████████▍                                                                                                                                        | 4440/15000 [3:09:06<6:54:08,  2.35s/it] 30%|█████████████████████████████████████████████████████████▍                                                                                                                                        | 4441/15000 [3:09:09<6:53:20,  2.35s/it] 30%|█████████████████████████████████████████████████████████▍                                                                                                                                        | 4442/15000 [3:09:11<6:53:11,  2.35s/it] 30%|█████████████████████████████████████████████████████████▍                                                                                                                                        | 4443/15000 [3:09:13<6:53:26,  2.35s/it] 30%|█████████████████████████████████████████████████████████▍                                                                                                                                        | 4444/15000 [3:09:16<6:53:45,  2.35s/it] 30%|█████████████████████████████████████████████████████████▍                                                                                                                                        | 4445/15000 [3:09:18<6:53:39,  2.35s/it] 30%|█████████████████████████████████████████████████████████▌                                                                                                                                        | 4446/15000 [3:09:20<6:53:56,  2.35s/it] 30%|█████████████████████████████████████████████████████████▌                                                                                                                                        | 4447/15000 [3:09:23<6:53:57,  2.35s/it] 30%|█████████████████████████████████████████████████████████▌                                                                                                                                        | 4448/15000 [3:09:25<6:54:16,  2.36s/it] 30%|█████████████████████████████████████████████████████████▌                                                                                                                                        | 4449/15000 [3:09:27<6:54:18,  2.36s/it] 30%|█████████████████████████████████████████████████████████▌                                                                                                                                        | 4450/15000 [3:09:30<6:53:38,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.9994, 'grad_norm': 1.796875, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3498.47, 'total_tokens': 36356841, 'epoch': 0.3}
+ 30%|█████████████████████████████████████████████████████████▌                                                                                                                                        | 4450/15000 [3:09:30<6:53:38,  2.35s/it] 30%|█████████████████████████████████████████████████████████▌                                                                                                                                        | 4451/15000 [3:09:32<6:53:45,  2.35s/it] 30%|█████████████████████████████████████████████████████████▌                                                                                                                                        | 4452/15000 [3:09:34<6:53:41,  2.35s/it] 30%|█████████████████████████████████████████████████████████▌                                                                                                                                        | 4453/15000 [3:09:37<6:53:36,  2.35s/it] 30%|█████████████████████████████████████████████████████████▌                                                                                                                                        | 4454/15000 [3:09:39<6:53:38,  2.35s/it] 30%|█████████████████████████████████████████████████████████▌                                                                                                                                        | 4455/15000 [3:09:42<6:53:39,  2.35s/it] 30%|█████████████████████████████████████████████████████████▋                                                                                                                                        | 4456/15000 [3:09:44<6:53:30,  2.35s/it] 30%|█████████████████████████████████████████████████████████▋                                                                                                                                        | 4457/15000 [3:09:46<6:53:09,  2.35s/it] 30%|█████████████████████████████████████████████████████████▋                                                                                                                                        | 4458/15000 [3:09:49<6:53:03,  2.35s/it] 30%|█████████████████████████████████████████████████████████▋                                                                                                                                        | 4459/15000 [3:09:51<6:53:09,  2.35s/it] 30%|█████████████████████████████████████████████████████████▋                                                                                                                                        | 4460/15000 [3:09:53<6:52:56,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.9251, 'grad_norm': 1.7890625, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3493.55, 'total_tokens': 36438635, 'epoch': 0.3}
+ 30%|█████████████████████████████████████████████████████████▋                                                                                                                                        | 4460/15000 [3:09:53<6:52:56,  2.35s/it] 30%|█████████████████████████████████████████████████████████▋                                                                                                                                        | 4461/15000 [3:09:56<6:53:08,  2.35s/it] 30%|█████████████████████████████████████████████████████████▋                                                                                                                                        | 4462/15000 [3:09:58<6:52:39,  2.35s/it] 30%|█████████████████████████████████████████████████████████▋                                                                                                                                        | 4463/15000 [3:10:00<6:52:28,  2.35s/it] 30%|█████████████████████████████████████████████████████████▋                                                                                                                                        | 4464/15000 [3:10:03<6:52:23,  2.35s/it] 30%|█████████████████████████████████████████████████████████▋                                                                                                                                        | 4465/15000 [3:10:05<6:52:45,  2.35s/it] 30%|█████████████████████████████████████████████████████████▊                                                                                                                                        | 4466/15000 [3:10:07<6:52:41,  2.35s/it] 30%|█████████████████████████████████████████████████████████▊                                                                                                                                        | 4467/15000 [3:10:10<6:53:09,  2.35s/it] 30%|█████████████████████████████████████████████████████████▊                                                                                                                                        | 4468/15000 [3:10:12<6:53:03,  2.35s/it] 30%|█████████████████████████████████████████████████████████▊                                                                                                                                        | 4469/15000 [3:10:14<6:53:12,  2.35s/it] 30%|█████████████████████████████████████████████████████████▊                                                                                                                                        | 4470/15000 [3:10:17<6:52:54,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.8126, 'grad_norm': 1.7421875, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3489.06, 'total_tokens': 36520360, 'epoch': 0.3}
+ 30%|█████████████████████████████████████████████████████████▊                                                                                                                                        | 4470/15000 [3:10:17<6:52:54,  2.35s/it] 30%|█████████████████████████████████████████████████████████▊                                                                                                                                        | 4471/15000 [3:10:19<6:53:05,  2.35s/it] 30%|█████████████████████████████████████████████████████████▊                                                                                                                                        | 4472/15000 [3:10:21<6:52:53,  2.35s/it] 30%|█████████████████████████████████████████████████████████▊                                                                                                                                        | 4473/15000 [3:10:24<6:52:56,  2.35s/it] 30%|█████████████████████████████████████████████████████████▊                                                                                                                                        | 4474/15000 [3:10:26<6:52:40,  2.35s/it] 30%|█████████████████████████████████████████████████████████▉                                                                                                                                        | 4475/15000 [3:10:29<6:52:41,  2.35s/it] 30%|█████████████████████████████████████████████████████████▉                                                                                                                                        | 4476/15000 [3:10:31<6:52:41,  2.35s/it] 30%|█████████████████████████████████████████████████████████▉                                                                                                                                        | 4477/15000 [3:10:33<6:52:29,  2.35s/it] 30%|█████████████████████████████████████████████████████████▉                                                                                                                                        | 4478/15000 [3:10:36<6:52:13,  2.35s/it] 30%|█████████████████████████████████████████████████████████▉                                                                                                                                        | 4479/15000 [3:10:38<6:52:32,  2.35s/it] 30%|█████████████████████████████████████████████████████████▉                                                                                                                                        | 4480/15000 [3:10:40<6:52:32,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.9146, 'grad_norm': 1.890625, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3484.35, 'total_tokens': 36602117, 'epoch': 0.3}
+ 30%|█████████████████████████████████████████████████████████▉                                                                                                                                        | 4480/15000 [3:10:40<6:52:32,  2.35s/it] 30%|█████████████████████████████████████████████████████████▉                                                                                                                                        | 4481/15000 [3:10:43<6:52:31,  2.35s/it] 30%|█████████████████████████████████████████████████████████▉                                                                                                                                        | 4482/15000 [3:10:45<6:52:41,  2.35s/it] 30%|█████████████████████████████████████████████████████████▉                                                                                                                                        | 4483/15000 [3:10:47<6:52:50,  2.36s/it] 30%|█████████████████████████████████████████████████████████▉                                                                                                                                        | 4484/15000 [3:10:50<6:52:56,  2.36s/it] 30%|██████████████████████████████████████████████████████████                                                                                                                                        | 4485/15000 [3:10:52<6:52:53,  2.36s/it] 30%|██████████████████████████████████████████████████████████                                                                                                                                        | 4486/15000 [3:10:54<6:52:27,  2.35s/it] 30%|██████████████████████████████████████████████████████████                                                                                                                                        | 4487/15000 [3:10:57<6:52:15,  2.35s/it] 30%|██████████████████████████████████████████████████████████                                                                                                                                        | 4488/15000 [3:10:59<6:52:06,  2.35s/it] 30%|██████████████████████████████████████████████████████████                                                                                                                                        | 4489/15000 [3:11:01<6:52:20,  2.35s/it] 30%|██████████████████████████████████████████████████████████                                                                                                                                        | 4490/15000 [3:11:04<6:52:39,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.9402, 'grad_norm': 1.7109375, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3471.2, 'total_tokens': 36683807, 'epoch': 0.3}
+ 30%|███████████████████████████████��██████████████████████████                                                                                                                                        | 4490/15000 [3:11:04<6:52:39,  2.36s/it] 30%|██████████████████████████████████████████████████████████                                                                                                                                        | 4491/15000 [3:11:06<6:52:10,  2.35s/it] 30%|██████████████████████████████████████████████████████████                                                                                                                                        | 4492/15000 [3:11:09<6:52:08,  2.35s/it] 30%|██████████████████████████████████████████████████████████                                                                                                                                        | 4493/15000 [3:11:11<6:52:28,  2.36s/it] 30%|██████████████████████████████████████████████████████████                                                                                                                                        | 4494/15000 [3:11:13<6:52:20,  2.35s/it] 30%|██████████████████████████████████████████████████████████▏                                                                                                                                       | 4495/15000 [3:11:16<6:52:14,  2.35s/it] 30%|██████████████████████████████████████████████████████████▏                                                                                                                                       | 4496/15000 [3:11:18<6:52:21,  2.36s/it] 30%|██████████████████████████████████████████████████████████▏                                                                                                                                       | 4497/15000 [3:11:20<6:52:19,  2.36s/it] 30%|██████████████████████████████████████████████████████████▏                                                                                                                                       | 4498/15000 [3:11:23<6:52:26,  2.36s/it] 30%|██████████████████████████████████████████████████████████▏                                                                                                                                       | 4499/15000 [3:11:25<6:51:38,  2.35s/it] 30%|██████████████████████████████████████████████████████████▏                                                                                                                                       | 4500/15000 [3:11:27<6:51:46,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.8857, 'grad_norm': 2.25, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3480.0, 'total_tokens': 36765525, 'epoch': 0.3}
+ 30%|██████████████████████████████████████████████████████████▏                                                                                                                                       | 4500/15000 [3:11:27<6:51:46,  2.35s/it] 30%|██████████████████████████████████████████████████████████▏                                                                                                                                       | 4501/15000 [3:11:30<6:52:09,  2.36s/it] 30%|██████████████████████��███████████████████████████████████▏                                                                                                                                       | 4502/15000 [3:11:32<6:51:58,  2.35s/it] 30%|██████████████████████████████████████████████████████████▏                                                                                                                                       | 4503/15000 [3:11:34<6:51:54,  2.35s/it] 30%|██████████████████████████████████████████████████████████▎                                                                                                                                       | 4504/15000 [3:11:37<6:51:54,  2.35s/it] 30%|██████████████████████████████████████████████████████████▎                                                                                                                                       | 4505/15000 [3:11:39<6:51:58,  2.36s/it] 30%|██████████████████████████████████████████████████████████▎                                                                                                                                       | 4506/15000 [3:11:42<6:51:36,  2.35s/it] 30%|██████████████████████████████████████████████████████████▎                                                                                                                                       | 4507/15000 [3:11:44<6:51:43,  2.35s/it] 30%|██████████████████████████████████████████████████████████▎                                                                                                                                       | 4508/15000 [3:11:46<6:51:39,  2.35s/it] 30%|██████████████████████████████████████████████████████████▎                                                                                                                                       | 4509/15000 [3:11:49<6:51:03,  2.35s/it] 30%|██████████████████████████████████████████████████████████▎                                                                                                                                       | 4510/15000 [3:11:51<6:51:19,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.8504, 'grad_norm': 2.046875, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3479.16, 'total_tokens': 36847278, 'epoch': 0.3}
+ 30%|██████████████████████████████████████████████████████████▎                                                                                                                                       | 4510/15000 [3:11:51<6:51:19,  2.35s/it] 30%|██████████████████████████████████████████████████████████▎                                                                                                                                       | 4511/15000 [3:11:53<6:51:29,  2.35s/it] 30%|██████████████████████████████████████████████████████████▎                                                                                                                                       | 4512/15000 [3:11:56<6:51:37,  2.35s/it] 30%|██████████████████████████████████████████████████████████▎                                                                                                                                       | 4513/15000 [3:11:58<6:51:20,  2.35s/it] 30%|████████��█████████████████████████████████████████████████▍                                                                                                                                       | 4514/15000 [3:12:00<6:51:01,  2.35s/it] 30%|██████████████████████████████████████████████████████████▍                                                                                                                                       | 4515/15000 [3:12:03<6:51:09,  2.35s/it] 30%|██████████████████████████████████████████████████████████▍                                                                                                                                       | 4516/15000 [3:12:05<6:51:05,  2.35s/it] 30%|██████████████████████████████████████████████████████████▍                                                                                                                                       | 4517/15000 [3:12:07<6:51:07,  2.35s/it] 30%|██████████████████████████████████████████████████████████▍                                                                                                                                       | 4518/15000 [3:12:10<6:51:15,  2.35s/it] 30%|██████████████████████████████████████████████████████████▍                                                                                                                                       | 4519/15000 [3:12:12<6:51:08,  2.35s/it] 30%|██████████████████████████████████████████████████████████▍                                                                                                                                       | 4520/15000 [3:12:14<6:50:53,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.8785, 'grad_norm': 1.71875, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3488.87, 'total_tokens': 36929000, 'epoch': 0.3}
+ 30%|██████████████████████████████████████████████████████████▍                                                                                                                                       | 4520/15000 [3:12:14<6:50:53,  2.35s/it] 30%|██████████████████████████████████████████████████████████▍                                                                                                                                       | 4521/15000 [3:12:17<6:51:13,  2.35s/it] 30%|██████████████████████████████████████████████████████████▍                                                                                                                                       | 4522/15000 [3:12:19<6:51:04,  2.35s/it] 30%|██████████████████████████████████████████████████████████▍                                                                                                                                       | 4523/15000 [3:12:22<6:51:05,  2.35s/it] 30%|██████████████████████████████████████████████████████████▌                                                                                                                                       | 4524/15000 [3:12:24<6:50:57,  2.35s/it] 30%|██████████████████████████████████████████████████████████▌                                                                                                                                       | 4525/15000 [3:12:26<6:50:42,  2.35s/it] 30%|██████████████████████████████████████████████████████████▌                                                                                                                                       | 4526/15000 [3:12:29<6:50:34,  2.35s/it] 30%|██████████████████████████████████████████████████████████▌                                                                                                                                       | 4527/15000 [3:12:31<6:50:50,  2.35s/it] 30%|██████████████████████████████████████████████████████████▌                                                                                                                                       | 4528/15000 [3:12:33<6:50:53,  2.35s/it] 30%|██████████████████████████████████████████████████████████▌                                                                                                                                       | 4529/15000 [3:12:36<6:50:50,  2.35s/it] 30%|██████████████████████████████████████████████████████████▌                                                                                                                                       | 4530/15000 [3:12:38<6:50:14,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.9057, 'grad_norm': 1.7578125, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3496.69, 'total_tokens': 37010699, 'epoch': 0.3}
+ 30%|██████████████████████████████████████████████████████████▌                                                                                                                                       | 4530/15000 [3:12:38<6:50:14,  2.35s/it] 30%|██████████████████████████████████████████████████████████▌                                                                                                                                       | 4531/15000 [3:12:40<6:50:27,  2.35s/it] 30%|██████████████████████████████████████████████████████████▌                                                                                                                                       | 4532/15000 [3:12:43<6:50:21,  2.35s/it] 30%|██████████████████████████████████████████████████████████▋                                                                                                                                       | 4533/15000 [3:12:45<6:50:27,  2.35s/it] 30%|██████████████████████████████████████████████████████████▋                                                                                                                                       | 4534/15000 [3:12:47<6:50:35,  2.35s/it] 30%|██████████████████████████████████████████████████████████▋                                                                                                                                       | 4535/15000 [3:12:50<6:50:07,  2.35s/it] 30%|██████████████████████████████████████████████████████████▋                                                                                                                                       | 4536/15000 [3:12:52<6:50:27,  2.35s/it] 30%|██████████████████████████████████████████████████████████▋                                                                                                                                       | 4537/15000 [3:12:54<6:50:03,  2.35s/it] 30%|██████████████████████████████████████████████████████████▋                                                                                                                                       | 4538/15000 [3:12:57<6:50:09,  2.35s/it] 30%|██████████████████████████████████████████████████████████▋                                                                                                                                       | 4539/15000 [3:12:59<6:49:58,  2.35s/it] 30%|██████████████████████████████████████████████████████████▋                                                                                                                                       | 4540/15000 [3:13:02<6:49:40,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.8976, 'grad_norm': 1.8359375, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3492.92, 'total_tokens': 37092409, 'epoch': 0.3}
+ 30%|██████████████████████████████████████████████████████████▋                                                                                                                                       | 4540/15000 [3:13:02<6:49:40,  2.35s/it] 30%|██████████████████████████████████████████████████████████▋                                                                                                                                       | 4541/15000 [3:13:04<6:49:41,  2.35s/it] 30%|██████████████████████████████████████████████████████████▋                                                                                                                                       | 4542/15000 [3:13:06<6:49:50,  2.35s/it] 30%|██████████████████████████████████████████████████████████▊                                                                                                                                       | 4543/15000 [3:13:09<6:49:48,  2.35s/it] 30%|██████████████████████████████████████████████████████████▊                                                                                                                                       | 4544/15000 [3:13:11<6:49:56,  2.35s/it] 30%|██████████████████████████████████████████████████████████▊                                                                                                                                       | 4545/15000 [3:13:13<6:49:52,  2.35s/it] 30%|██████████████████████████████████████████████████████████▊                                                                                                                                       | 4546/15000 [3:13:16<6:49:43,  2.35s/it] 30%|██████████████████████████████████████████████████████████▊                                                                                                                                       | 4547/15000 [3:13:18<6:49:34,  2.35s/it] 30%|██████████████████████████████████████████████████████████▊                                                                                                                                       | 4548/15000 [3:13:20<6:49:29,  2.35s/it] 30%|██████████████████████████████████████████████████████████▊                                                                                                                                       | 4549/15000 [3:13:23<6:49:33,  2.35s/it] 30%|██████████████████████████████████████████████████████████▊                                                                                                                                       | 4550/15000 [3:13:25<6:49:59,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.8594, 'grad_norm': 1.703125, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3472.52, 'total_tokens': 37174125, 'epoch': 0.3}
+ 30%|██████████████████████████████████████████████████████████▊                                                                                                                                       | 4550/15000 [3:13:25<6:49:59,  2.35s/it] 30%|██████████████████████████████████████████████████████████▊                                                                                                                                       | 4551/15000 [3:13:27<6:49:52,  2.35s/it] 30%|██████████████████████████████████████████████████████████▊                                                                                                                                       | 4552/15000 [3:13:30<6:49:22,  2.35s/it] 30%|██████████████████████████████████████████████████████████▉                                                                                                                                       | 4553/15000 [3:13:32<6:49:09,  2.35s/it] 30%|██████████████████████████████████████████████████████████▉                                                                                                                                       | 4554/15000 [3:13:34<6:49:11,  2.35s/it] 30%|██████████████████████████████████████████████████████████▉                                                                                                                                       | 4555/15000 [3:13:37<6:49:15,  2.35s/it] 30%|██████████████████████████████████████████████████████████▉                                                                                                                                       | 4556/15000 [3:13:39<6:49:18,  2.35s/it] 30%|██████████████████████████████████████████████████████████▉                                                                                                                                       | 4557/15000 [3:13:41<6:49:42,  2.35s/it] 30%|██████████████████████████████████████████████████████████▉                                                                                                                                       | 4558/15000 [3:13:44<6:49:36,  2.35s/it] 30%|██████████████████████████████████████████████████████████▉                                                                                                                                       | 4559/15000 [3:13:46<6:50:04,  2.36s/it] 30%|██████████████████████████████████████████████████████████▉                                                                                                                                       | 4560/15000 [3:13:49<6:50:13,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.9387, 'grad_norm': 1.65625, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3475.64, 'total_tokens': 37255910, 'epoch': 0.3}
+ 30%|██████████████████████████████████████████████████████████▉                                                                                                                                       | 4560/15000 [3:13:49<6:50:13,  2.36s/it] 30%|██████████████████████████████████████████████████████████▉                                                                                                                                       | 4561/15000 [3:13:51<6:50:14,  2.36s/it] 30%|███████████████████████████████████████████████████████████                                                                                                                                       | 4562/15000 [3:13:53<6:50:20,  2.36s/it] 30%|███████████████████████████████████████████████████████████                                                                                                                                       | 4563/15000 [3:13:56<6:50:11,  2.36s/it] 30%|███████████████████████████████████████████████████████████                                                                                                                                       | 4564/15000 [3:13:58<6:49:38,  2.36s/it] 30%|███████████████████████████████████████████████████████████                                                                                                                                       | 4565/15000 [3:14:00<6:49:44,  2.36s/it] 30%|███████████████████████████████████████████████████████████                                                                                                                                       | 4566/15000 [3:14:03<6:49:15,  2.35s/it] 30%|███████████████████████████████████████████████████████████                                                                                                                                       | 4567/15000 [3:14:05<6:48:52,  2.35s/it] 30%|███████████████████████████████████████████████████████████                                                                                                                                       | 4568/15000 [3:14:07<6:48:44,  2.35s/it] 30%|███████████████████████████████████████████████████████████                                                                                                                                       | 4569/15000 [3:14:10<6:48:34,  2.35s/it] 30%|███████████████████████████████████████████████████████████                                                                                                                                       | 4570/15000 [3:14:12<6:48:55,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.8421, 'grad_norm': 1.8359375, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3475.96, 'total_tokens': 37337618, 'epoch': 0.3}
+ 30%|███████████████████████████████████████████████████████████                                                                                                                                       | 4570/15000 [3:14:12<6:48:55,  2.35s/it] 30%|████████████��██████████████████████████████████████████████                                                                                                                                       | 4571/15000 [3:14:14<6:48:49,  2.35s/it] 30%|███████████████████████████████████████████████████████████▏                                                                                                                                      | 4572/15000 [3:14:17<6:49:00,  2.35s/it] 30%|███████████████████████████████████████████████████████████▏                                                                                                                                      | 4573/15000 [3:14:19<6:49:12,  2.35s/it] 30%|███████████████████████████████████████████████████████████▏                                                                                                                                      | 4574/15000 [3:14:22<6:48:56,  2.35s/it] 30%|███████████████████████████████████████████████████████████▏                                                                                                                                      | 4575/15000 [3:14:24<6:48:52,  2.35s/it] 31%|███████████████████████████████████████████████████████████▏                                                                                                                                      | 4576/15000 [3:14:26<6:49:04,  2.35s/it] 31%|███████████████████████████████████████████████████████████▏                                                                                                                                      | 4577/15000 [3:14:29<6:48:45,  2.35s/it] 31%|███████████████████████████████████████████████████████████▏                                                                                                                                      | 4578/15000 [3:14:31<6:48:26,  2.35s/it] 31%|███████████████████████████████████████████████████████████▏                                                                                                                                      | 4579/15000 [3:14:33<6:49:01,  2.36s/it] 31%|███████████████████████████████████████████████████████████▏                                                                                                                                      | 4580/15000 [3:14:36<6:49:06,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.8912, 'grad_norm': 1.9921875, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3473.59, 'total_tokens': 37419257, 'epoch': 0.31}
+ 31%|███████████████████████████████████████████████████████████▏                                                                                                                                      | 4580/15000 [3:14:36<6:49:06,  2.36s/it] 31%|███████████████████████████████████████████████████████████▏                                                                                                                                      | 4581/15000 [3:14:38<6:49:00,  2.36s/it] 31%|███████████████████████████████████████████████████████████▎                                                                                                                                      | 4582/15000 [3:14:40<6:48:49,  2.35s/it] 31%|███████████████████████████████████████████████████████████▎                                                                                                                                      | 4583/15000 [3:14:43<6:48:48,  2.35s/it] 31%|███████████████████████████████████████████████████████████▎                                                                                                                                      | 4584/15000 [3:14:45<6:48:54,  2.36s/it] 31%|███████████████████████████████████████████████████████████▎                                                                                                                                      | 4585/15000 [3:14:47<6:48:59,  2.36s/it] 31%|███████████████████████████████████████████████████████████▎                                                                                                                                      | 4586/15000 [3:14:50<6:49:01,  2.36s/it] 31%|███████████████████████████████████████████████████████████▎                                                                                                                                      | 4587/15000 [3:14:52<6:48:40,  2.35s/it] 31%|███████████████████████████████████████████████████████████▎                                                                                                                                      | 4588/15000 [3:14:54<6:48:37,  2.35s/it] 31%|███████████████████████████████████████████████████████████▎                                                                                                                                      | 4589/15000 [3:14:57<6:48:13,  2.35s/it] 31%|███████████████████████████████████████████████████████████▎                                                                                                                                      | 4590/15000 [3:14:59<6:48:22,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.8705, 'grad_norm': 1.7421875, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3478.12, 'total_tokens': 37500970, 'epoch': 0.31}
+ 31%|███████████████████████████████████████████████████████████▎                                                                                                                                      | 4590/15000 [3:14:59<6:48:22,  2.35s/it] 31%|███████████████████████████████████████████████████████████▍                                                                                                                                      | 4591/15000 [3:15:02<6:48:36,  2.36s/it] 31%|███████████████████████████████████████████████████████████▍                                                                                                                                      | 4592/15000 [3:15:04<6:48:37,  2.36s/it] 31%|███████████████████████████████████████████████████████████▍                                                                                                                                      | 4593/15000 [3:15:06<6:48:32,  2.36s/it] 31%|███████████████████████████████████████████████████████████▍                                                                                                                                      | 4594/15000 [3:15:09<6:48:27,  2.36s/it] 31%|███████████████████████████████████████████████████████████▍                                                                                                                                      | 4595/15000 [3:15:11<6:48:21,  2.35s/it] 31%|███████████████████████████████████████████████████████████▍                                                                                                                                      | 4596/15000 [3:15:13<6:48:32,  2.36s/it] 31%|███████████████████████████████████████████████████████████▍                                                                                                                                      | 4597/15000 [3:15:16<6:48:13,  2.35s/it] 31%|███████████████████████████████████████████████████████████▍                                                                                                                                      | 4598/15000 [3:15:18<6:48:02,  2.35s/it] 31%|███████████████████████████████████████████████████████████▍                                                                                                                                      | 4599/15000 [3:15:20<6:47:47,  2.35s/it] 31%|███████████████████████████████████████████████████████████▍                                                                                                                                      | 4600/15000 [3:15:23<7:12:29,  2.50s/it]                                                                                                                                                                                                                                                {'loss': 2.9537, 'grad_norm': 1.7578125, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 2888.86, 'total_tokens': 37582464, 'epoch': 0.31}
+ 31%|███████████████████████████████████████████████████████████▍                                                                                                                                      | 4600/15000 [3:15:23<7:12:29,  2.50s/it] 31%|███████████████████████████████████████████████████████████▌                                                                                                                                      | 4601/15000 [3:15:26<7:05:00,  2.45s/it] 31%|███████████████████████████████████████████████████████████▌                                                                                                                                      | 4602/15000 [3:15:28<6:59:28,  2.42s/it] 31%|███████████████████████████████████████████████████████████▌                                                                                                                                      | 4603/15000 [3:15:30<6:55:51,  2.40s/it][2025-11-17 00:58:23,137] [INFO] [axolotl.utils.data.wrappers.get_dataset_wrapper:87] [PID:8163] Loading dataset: Goader/kobza-2m-jsonl with base_type: pretrain and prompt_style: None
+
+Tokenizing Prompts (num_proc=64):   0%|                                                                                                                                                                        | 0/10000 [00:00<?, ? examples/s][A
+Tokenizing Prompts (num_proc=64):   2%|██▍                                                                                                                                                           | 157/10000 [00:05<06:05, 26.92 examples/s][A
+Tokenizing Prompts (num_proc=64):   3%|████▉                                                                                                                                                         | 314/10000 [00:06<02:52, 56.30 examples/s][A
+Tokenizing Prompts (num_proc=64):   5%|███████▍                                                                                                                                                      | 471/10000 [00:07<01:53, 84.14 examples/s][A
+Tokenizing Prompts (num_proc=64):   6%|█████████▊                                                                                                                                                   | 628/10000 [00:08<01:25, 109.06 examples/s][A
+Tokenizing Prompts (num_proc=64):   8%|████████████▎                                                                                                                                                | 785/10000 [00:08<01:07, 136.14 examples/s][A
+Tokenizing Prompts (num_proc=64):   9%|██████████████▊                                                                                                                                              | 942/10000 [00:09<00:59, 152.80 examples/s][A
+Tokenizing Prompts (num_proc=64):  11%|█████████████████▏                                                                                                                                          | 1099/10000 [00:10<00:51, 171.41 examples/s][A
+Tokenizing Prompts (num_proc=64):  13%|███████████████████▌                                                                                                                                        | 1256/10000 [00:10<00:46, 190.03 examples/s][A
+Tokenizing Prompts (num_proc=64):  14%|██████████████████████                                                                                                                                      | 1413/10000 [00:11<00:44, 193.92 examples/s][A
+Tokenizing Prompts (num_proc=64):  16%|████████████████████████▍                                                                                                                                   | 1570/10000 [00:12<00:42, 198.96 examples/s][A
+Tokenizing Prompts (num_proc=64):  17%|██████████████████████████▉                                                                                                                                 | 1727/10000 [00:12<00:39, 211.35 examples/s][A
+Tokenizing Prompts (num_proc=64):  19%|█████████████████████████████▍                                                                                                                              | 1884/10000 [00:13<00:38, 212.82 examples/s][A
+Tokenizing Prompts (num_proc=64):  20%|███████████████████████████████▊                                                                                                                            | 2041/10000 [00:14<00:37, 213.78 examples/s][A
+Tokenizing Prompts (num_proc=64):  22%|██████████████████████████████████▎                                                                                                                         | 2198/10000 [00:15<00:36, 213.47 examples/s][A
+Tokenizing Prompts (num_proc=64):  24%|████████████████████████████████████▋                                                                                                                       | 2355/10000 [00:15<00:34, 219.76 examples/s][A
+Tokenizing Prompts (num_proc=64):  25%|███████████████████████████████████████▏                                                                                                                    | 2512/10000 [00:16<00:34, 218.49 examples/s][A
+Tokenizing Prompts (num_proc=64):  27%|█████████████████████████████████████████▌                                                                                                                  | 2668/10000 [00:17<00:31, 231.54 examples/s][A
+Tokenizing Prompts (num_proc=64):  28%|████████████████████████████████████████████                                                                                                                | 2824/10000 [00:17<00:30, 233.74 examples/s][A
+Tokenizing Prompts (num_proc=64):  30%|██████████████████████████████████████████████▍                                                                                                             | 2980/10000 [00:18<00:30, 232.48 examples/s][A
+Tokenizing Prompts (num_proc=64):  31%|████████████████████████████████████████████████▉                                                                                                           | 3136/10000 [00:19<00:29, 231.09 examples/s][A
+Tokenizing Prompts (num_proc=64):  33%|███████████████████████████████████████████████████▎                                                                                                        | 3292/10000 [00:19<00:28, 239.54 examples/s][A
+Tokenizing Prompts (num_proc=64):  34%|█████████████████████████████████████████████████████▊                                                                                                      | 3448/10000 [00:20<00:27, 240.23 examples/s][A
+Tokenizing Prompts (num_proc=64):  36%|████████████████████████████████████████████████████████▏                                                                                                   | 3604/10000 [00:21<00:27, 235.67 examples/s][A
+Tokenizing Prompts (num_proc=64):  38%|██████████████████████████████████████████████████████████▋                                                                                                 | 3760/10000 [00:21<00:26, 237.06 examples/s][A
+Tokenizing Prompts (num_proc=64):  39%|█████████████████████████████████████████████████████████████                                                                                               | 3916/10000 [00:22<00:25, 239.19 examples/s][A
+Tokenizing Prompts (num_proc=64):  41%|███████████████████████████████████████████████████████████████▌                                                                                            | 4072/10000 [00:23<00:24, 237.69 examples/s][A
+Tokenizing Prompts (num_proc=64):  42%|█████████████████████████████████████████████████████████████████▉                                                                                          | 4228/10000 [00:24<00:29, 198.44 examples/s][A
+Tokenizing Prompts (num_proc=64):  44%|████████████████████████████████████████████████████████████████████▍                                                                                       | 4384/10000 [00:24<00:26, 209.66 examples/s][A
+Tokenizing Prompts (num_proc=64):  45%|██████████████████████████████████████████████████████████████████████▊                                                                                     | 4540/10000 [00:24<00:20, 266.00 examples/s][A
+Tokenizing Prompts (num_proc=64):  47%|█████████████████████████████████████████████████████████████████████████▎                                                                                  | 4696/10000 [00:25<00:20, 258.42 examples/s][A
+Tokenizing Prompts (num_proc=64):  49%|███████████████████████████████████████████████████████████████████████████▋                                                                                | 4852/10000 [00:26<00:22, 232.60 examples/s][A
+Tokenizing Prompts (num_proc=64):  50%|██████████████████████████████████████████████████████████████████████████████                                                                              | 5008/10000 [00:27<00:24, 207.99 examples/s][A
+Tokenizing Prompts (num_proc=64):  52%|█████████████████████████████████████████████████████████████████████���██████████▌                                                                           | 5164/10000 [00:27<00:18, 262.69 examples/s][A
+Tokenizing Prompts (num_proc=64):  53%|██████████████████████████████████████████████████████████████████████████████████▉                                                                         | 5320/10000 [00:28<00:17, 261.49 examples/s][A
+Tokenizing Prompts (num_proc=64):  55%|█████████████████████████████████████████████████████████████████████████████████████▍                                                                      | 5476/10000 [00:28<00:18, 248.65 examples/s][A
+Tokenizing Prompts (num_proc=64):  56%|███████████████████████████████████████████████████████████████████████████████████████▊                                                                    | 5632/10000 [00:30<00:21, 202.81 examples/s][A
+Tokenizing Prompts (num_proc=64):  58%|██████████████████████████████████████████████████████████████████████████████████████████▎                                                                 | 5788/10000 [00:30<00:16, 252.17 examples/s][A
+Tokenizing Prompts (num_proc=64):  59%|████████████████████████████████████████████████████████████████████████████████████████████▋                                                               | 5944/10000 [00:30<00:16, 251.44 examples/s][A
+Tokenizing Prompts (num_proc=64):  61%|███████████████████████████████████████████████████████████████████████████████████████████████▏                                                            | 6100/10000 [00:31<00:15, 244.12 examples/s][A
+Tokenizing Prompts (num_proc=64):  63%|█████████████████████████████████████████████████████████████████████████████████████████████████▌                                                          | 6256/10000 [00:32<00:14, 249.94 examples/s][A
+Tokenizing Prompts (num_proc=64):  64%|████████████████████████████████████████████████████████████████████████████████████████████████████                                                        | 6412/10000 [00:33<00:17, 203.11 examples/s][A
+Tokenizing Prompts (num_proc=64):  66%|██████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                     | 6568/10000 [00:33<00:13, 261.24 examples/s][A
+Tokenizing Prompts (num_proc=64):  67%|████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                   | 6724/10000 [00:34<00:12, 253.61 examples/s][A
+Tokenizing Prompts (num_proc=64):  69%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                | 6880/10000 [00:34<00:12, 247.38 examples/s][A
+Tokenizing Prompts (num_proc=64):  70%|█████████████████████████████████████���███████████████████████████████████████████████████████████████████████▊                                              | 7036/10000 [00:35<00:14, 203.85 examples/s][A
+Tokenizing Prompts (num_proc=64):  72%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                           | 7192/10000 [00:36<00:10, 258.77 examples/s][A
+Tokenizing Prompts (num_proc=64):  73%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                         | 7348/10000 [00:37<00:11, 236.09 examples/s][A
+Tokenizing Prompts (num_proc=64):  75%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                       | 7504/10000 [00:37<00:10, 247.80 examples/s][A
+Tokenizing Prompts (num_proc=64):  77%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                    | 7660/10000 [00:38<00:09, 255.62 examples/s][A
+Tokenizing Prompts (num_proc=64):  78%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                  | 7816/10000 [00:38<00:08, 247.27 examples/s][A
+Tokenizing Prompts (num_proc=64):  80%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                               | 7972/10000 [00:39<00:08, 245.49 examples/s][A
+Tokenizing Prompts (num_proc=64):  81%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                             | 8128/10000 [00:40<00:09, 202.65 examples/s][A
+Tokenizing Prompts (num_proc=64):  83%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                          | 8284/10000 [00:41<00:08, 212.54 examples/s][A
+Tokenizing Prompts (num_proc=64):  84%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                        | 8440/10000 [00:41<00:06, 251.52 examples/s][A
+Tokenizing Prompts (num_proc=64):  86%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████��█████████████████                      | 8596/10000 [00:41<00:05, 267.01 examples/s][A
+Tokenizing Prompts (num_proc=64):  88%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                   | 8752/10000 [00:43<00:05, 211.81 examples/s][A
+Tokenizing Prompts (num_proc=64):  89%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                 | 8908/10000 [00:43<00:04, 260.02 examples/s][A
+Tokenizing Prompts (num_proc=64):  91%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍              | 9064/10000 [00:44<00:03, 242.02 examples/s][A
+Tokenizing Prompts (num_proc=64):  92%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊            | 9220/10000 [00:44<00:03, 258.89 examples/s][A
+Tokenizing Prompts (num_proc=64):  94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎         | 9376/10000 [00:45<00:02, 253.49 examples/s][A
+Tokenizing Prompts (num_proc=64):  95%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋       | 9532/10000 [00:46<00:02, 201.56 examples/s][A
+Tokenizing Prompts (num_proc=64):  97%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏    | 9688/10000 [00:46<00:01, 257.20 examples/s][A
+Tokenizing Prompts (num_proc=64):  98%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌  | 9844/10000 [00:47<00:00, 251.85 examples/s][A
+Tokenizing Prompts (num_proc=64): 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10000/10000 [00:47<00:00, 250.09 examples/s][ATokenizing Prompts (num_proc=64): 100%|███████████████████████████████████���███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10000/10000 [00:49<00:00, 200.66 examples/s]
+
+Dropping Long Sequences:   0%|                                                                                                                                                                                 | 0/10000 [00:00<?, ? examples/s][A
+Dropping Long Sequences:  10%|████████████████▌                                                                                                                                                    | 1000/10000 [00:01<00:12, 720.65 examples/s][A
+Dropping Long Sequences:  20%|████████████████████████████████▊                                                                                                                                   | 2000/10000 [00:01<00:05, 1387.22 examples/s][A
+Dropping Long Sequences:  30%|█████████████████████████████████████████████████▏                                                                                                                  | 3000/10000 [00:01<00:03, 1944.80 examples/s][A
+Dropping Long Sequences:  40%|█████████████████████████████████████████████████████████████████▌                                                                                                  | 4000/10000 [00:02<00:02, 2482.04 examples/s][A
+Dropping Long Sequences:  50%|██████████████████████████████████████████████████████████████████████████████████                                                                                  | 5000/10000 [00:02<00:01, 2762.06 examples/s][A
+Dropping Long Sequences:  60%|██████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                 | 6000/10000 [00:02<00:01, 3045.53 examples/s][A
+Dropping Long Sequences:  70%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                 | 7000/10000 [00:02<00:00, 3392.54 examples/s][A
+Dropping Long Sequences:  80%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                | 8000/10000 [00:03<00:00, 3559.10 examples/s][A
+Dropping Long Sequences:  90%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                | 9000/10000 [00:03<00:00, 3577.40 examples/s][A
+Dropping Long Sequences: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10000/10000 [00:03<00:00, 3731.76 examples/s][ADropping Long Sequences: 100%|███████████████████████████████████████████████████████���███████████████████████████████████████████████████████████████████████████████████████████████████████████| 10000/10000 [00:03<00:00, 2670.32 examples/s]
+
+Add position_id column (Pretraining Sample Packing):   0%|                                                                                                                                                      | 0/8751 [00:00<?, ? examples/s][A
+Add position_id column (Pretraining Sample Packing):  11%|███████████████▊                                                                                                                          | 1000/8751 [00:01<00:09, 794.69 examples/s][A
+Add position_id column (Pretraining Sample Packing):  23%|███████████████████████████████▎                                                                                                         | 2000/8751 [00:01<00:04, 1642.95 examples/s][A
+Add position_id column (Pretraining Sample Packing):  34%|██████████████████████████████████████████████▉                                                                                          | 3000/8751 [00:01<00:02, 2525.54 examples/s][A
+Add position_id column (Pretraining Sample Packing):  46%|██████████████████████████████████████████████████████████████▌                                                                          | 4000/8751 [00:01<00:01, 3314.50 examples/s][A
+Add position_id column (Pretraining Sample Packing):  57%|██████████████████████████████████████████████████████████████████████████████▎                                                          | 5000/8751 [00:01<00:00, 4059.23 examples/s][A
+Add position_id column (Pretraining Sample Packing):  69%|█████████████████████████████████████████████████████████████████████████████████████████████▉                                           | 6000/8751 [00:02<00:00, 4739.61 examples/s][A
+Add position_id column (Pretraining Sample Packing):  80%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                           | 7000/8751 [00:02<00:00, 5352.48 examples/s][A
+Add position_id column (Pretraining Sample Packing):  91%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏           | 8000/8751 [00:02<00:00, 5554.94 examples/s][A
+Add position_id column (Pretraining Sample Packing): 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 8751/8751 [00:02<00:00, 5869.15 examples/s][AAdd position_id column (Pretraining Sample Packing): 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 8751/8751 [00:02<00:00, 3540.63 examples/s]
+[2025-11-17 00:59:20,769] [DEBUG] [axolotl.utils.samplers.multipack.pack_parallel:177] [PID:8163] Using single process for pack_parallel, running sequentially.
+ 31%|███████████████████████████████████████████████████████████▏                                                                                                                                     | 4604/15000 [3:16:35<61:07:48, 21.17s/it] 31%|███████████████████████████████████████████████████████████▎                                                                                                                                     | 4605/15000 [3:16:38<44:49:13, 15.52s/it] 31%|███████████████████████████████████████████████████████████▎                                                                                                                                     | 4606/15000 [3:16:40<33:24:34, 11.57s/it] 31%|███████████████████████████████████████████████████████████▎                                                                                                                                     | 4607/15000 [3:16:42<25:25:29,  8.81s/it] 31%|███████████████████████████████████████████████████████████▎                                                                                                                                     | 4608/15000 [3:16:45<19:50:06,  6.87s/it] 31%|███████████████████████████████████████████████████████████▎                                                                                                                                     | 4609/15000 [3:16:47<15:55:12,  5.52s/it] 31%|███████████████████████████████████████████████████████████▎                                                                                                                                     | 4610/15000 [3:16:49<13:10:46,  4.57s/it]                                                                                                                                                                                                                                                {'loss': 2.9051, 'grad_norm': 1.7578125, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3465.28, 'total_tokens': 37663728, 'epoch': 0.31}
+ 31%|███████████████████████████████████████████████████████████▎                                                                                                                                     | 4610/15000 [3:16:49<13:10:46,  4.57s/it] 31%|███████████████████████████████████████████████████████████▎                                                                                                                                     | 4611/15000 [3:16:52<11:15:35,  3.90s/it] 31%|███████████████████████████████████████████████████████████▋                                                                                                                                      | 4612/15000 [3:16:54<9:54:47,  3.44s/it] 31%|███████████████████████████████████████████████████████████▋                                                                                                                                      | 4613/15000 [3:16:56<8:58:39,  3.11s/it] 31%|███████████████████████████████████████████████████████████▋                                                                                                                                      | 4614/15000 [3:16:59<8:19:06,  2.88s/it] 31%|███████████████████████████████████████████████████████████▋                                                                                                                                      | 4615/15000 [3:17:01<7:51:37,  2.72s/it] 31%|███████████████████████████████████████████████████████████▋                                                                                                                                      | 4616/15000 [3:17:03<7:32:31,  2.61s/it] 31%|███████████████████████████████████████████████████████████▋                                                                                                                                      | 4617/15000 [3:17:06<7:19:14,  2.54s/it] 31%|███████████████████████████████████████████████████████████▋                                                                                                                                      | 4618/15000 [3:17:08<7:09:23,  2.48s/it] 31%|███████████████████████████████████████████████████████████▋                                                                                                                                      | 4619/15000 [3:17:11<7:02:27,  2.44s/it] 31%|███████████████████████████████████████████████████████████▊                                                                                                                                      | 4620/15000 [3:17:13<6:57:51,  2.42s/it]                                                                                                                                                                                                                                                {'loss': 2.8864, 'grad_norm': 1.7578125, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3486.91, 'total_tokens': 37745562, 'epoch': 0.31}
+ 31%|███████████████████████████████████████████████████████████▊                                                                                                                                      | 4620/15000 [3:17:13<6:57:51,  2.42s/it] 31%|███████████████████████████████████████████████████████████▊                                                                                                                                      | 4621/15000 [3:17:15<6:54:39,  2.40s/it] 31%|███████████████████████████████████████████████████████████▊                                                                                                                                      | 4622/15000 [3:17:18<6:51:59,  2.38s/it] 31%|███████████████████████████████████████████████████████████▊                                                                                                                                      | 4623/15000 [3:17:20<6:50:12,  2.37s/it] 31%|███████████████████████████████████████████████████████████▊                                                                                                                                      | 4624/15000 [3:17:22<6:48:50,  2.36s/it] 31%|███████████████████████████████████████████████████████████▊                                                                                                                                      | 4625/15000 [3:17:25<6:48:01,  2.36s/it] 31%|███████████████████████████████████████████████████████████▊                                                                                                                                      | 4626/15000 [3:17:27<6:47:45,  2.36s/it] 31%|███████████████████████████████████████████████████████████▊                                                                                                                                      | 4627/15000 [3:17:29<6:47:28,  2.36s/it] 31%|██████████████████��████████████████████████████████████████▊                                                                                                                                      | 4628/15000 [3:17:32<6:47:08,  2.36s/it] 31%|███████████████████████████████████████████████████████████▊                                                                                                                                      | 4629/15000 [3:17:34<6:47:13,  2.36s/it] 31%|███████████████████████████████████████████████████████████▉                                                                                                                                      | 4630/15000 [3:17:36<6:46:53,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.8937, 'grad_norm': 1.7734375, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3493.67, 'total_tokens': 37827422, 'epoch': 0.31}
+ 31%|███████████████████████████████████████████████████████████▉                                                                                                                                      | 4630/15000 [3:17:36<6:46:53,  2.35s/it] 31%|███████████████████████████████████████████████████████████▉                                                                                                                                      | 4631/15000 [3:17:39<6:46:22,  2.35s/it] 31%|███████████████████████████████████████████████████████████▉                                                                                                                                      | 4632/15000 [3:17:41<6:46:13,  2.35s/it] 31%|███████████████████████████████████████████████████████████▉                                                                                                                                      | 4633/15000 [3:17:43<6:45:58,  2.35s/it] 31%|███████████████████████████████████████████████████████████▉                                                                                                                                      | 4634/15000 [3:17:46<6:46:15,  2.35s/it] 31%|███████████████████████████████████████████████████████████▉                                                                                                                                      | 4635/15000 [3:17:48<6:46:33,  2.35s/it] 31%|███████████████████████████████████████████████████████████▉                                                                                                                                      | 4636/15000 [3:17:50<6:46:18,  2.35s/it] 31%|███████████████████████████████████████████████████████████▉                                                                                                                                      | 4637/15000 [3:17:53<6:46:09,  2.35s/it] 31%|███████████████████████████████████████████████████████████▉                                                                                                                                      | 4638/15000 [3:17:55<6:46:32,  2.35s/it] 31%|███████████████████████████████████████████████████████████▉                                                                                                                                      | 4639/15000 [3:17:58<6:46:06,  2.35s/it] 31%|████████████████████████████████████████████████████████████                                                                                                                                      | 4640/15000 [3:18:00<6:46:04,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.8436, 'grad_norm': 1.890625, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3488.91, 'total_tokens': 37909226, 'epoch': 0.31}
+ 31%|████████████████████████████████████████████████████████████                                                                                                                                      | 4640/15000 [3:18:00<6:46:04,  2.35s/it] 31%|████████████████████████████████████████████████████████████                                                                                                                                      | 4641/15000 [3:18:02<6:46:15,  2.35s/it] 31%|████████████████████████████████████████████████████████████                                                                                                                                      | 4642/15000 [3:18:05<6:46:07,  2.35s/it] 31%|████████████████████████████████████████████████████████████                                                                                                                                      | 4643/15000 [3:18:07<6:46:10,  2.35s/it] 31%|████████████████████████████████████████████████████████████                                                                                                                                      | 4644/15000 [3:18:09<6:46:06,  2.35s/it] 31%|████████████████████████████████████████████████████████████                                                                                                                                      | 4645/15000 [3:18:12<6:46:11,  2.35s/it] 31%|████████████████████████████████████████████████████████████                                                                                                                                      | 4646/15000 [3:18:14<6:46:49,  2.36s/it] 31%|████████████████████████████████████████████████████████████                                                                                                                                      | 4647/15000 [3:18:16<6:46:21,  2.36s/it] 31%|████████████████████████████████████████████████████████████                                                                                                                                      | 4648/15000 [3:18:19<6:45:51,  2.35s/it] 31%|████████████████████████████████████████████████████████████▏                                                                                                                                     | 4649/15000 [3:18:21<6:45:42,  2.35s/it] 31%|████████████████████████████████████████████████████████████▏                                                                                                                                     | 4650/15000 [3:18:23<6:46:07,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.9068, 'grad_norm': 1.859375, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3476.95, 'total_tokens': 37991045, 'epoch': 0.31}
+ 31%|████████████████████████████████████████████████████████████▏                                                                                                                                     | 4650/15000 [3:18:23<6:46:07,  2.35s/it] 31%|████████████████████████████████████████████████████████████▏                                                                                                                                     | 4651/15000 [3:18:26<6:46:25,  2.36s/it] 31%|████████████████████████████████████████████████████████████▏                                                                                                                                     | 4652/15000 [3:18:28<6:46:05,  2.35s/it] 31%|████████████████████████████████████████████████████████████▏                                                                                                                                     | 4653/15000 [3:18:31<6:46:36,  2.36s/it] 31%|████████████████████████████████████████████████████████████▏                                                                                                                                     | 4654/15000 [3:18:33<6:46:19,  2.36s/it] 31%|████████████████████████████████████████████████████████████▏                                                                                                                                     | 4655/15000 [3:18:35<6:46:09,  2.36s/it] 31%|████████████████████████████████████████████████████████████▏                                                                                                                                     | 4656/15000 [3:18:38<6:46:02,  2.36s/it] 31%|████████████████████████████████████████████████████████████▏                                                                                                                                     | 4657/15000 [3:18:40<6:46:03,  2.36s/it] 31%|████████████████████████████████████████████████████████████▏                                                                                                                                     | 4658/15000 [3:18:42<6:46:15,  2.36s/it] 31%|████████████████████████████████████████████████████████████▎                                                                                                                                     | 4659/15000 [3:18:45<6:45:48,  2.35s/it] 31%|████████████████████████████████████████████████████████████▎                                                                                                                                     | 4660/15000 [3:18:47<6:45:24,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.9225, 'grad_norm': 1.78125, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3495.81, 'total_tokens': 38072858, 'epoch': 0.31}
+ 31%|████████████████████████████████████████████████████████████▎                                                                                                                                     | 4660/15000 [3:18:47<6:45:24,  2.35s/it] 31%|███████████████��████████████████████████████████████████████▎                                                                                                                                     | 4661/15000 [3:18:49<6:45:26,  2.35s/it] 31%|████████████████████████████████████████████████████████████▎                                                                                                                                     | 4662/15000 [3:18:52<6:45:29,  2.35s/it] 31%|████████████████████████████████████████████████████████████▎                                                                                                                                     | 4663/15000 [3:18:54<6:45:03,  2.35s/it] 31%|████████████████████████████████████████████████████████████▎                                                                                                                                     | 4664/15000 [3:18:56<6:45:08,  2.35s/it] 31%|████████████████████████████████████████████████████████████▎                                                                                                                                     | 4665/15000 [3:18:59<6:45:12,  2.35s/it] 31%|████████████████████████████████████████████████████████████▎                                                                                                                                     | 4666/15000 [3:19:01<6:45:27,  2.35s/it] 31%|████████████████████████████████████████████████████████████▎                                                                                                                                     | 4667/15000 [3:19:03<6:45:35,  2.36s/it] 31%|████████████████████████████████████████████████████████████▎                                                                                                                                     | 4668/15000 [3:19:06<6:45:44,  2.36s/it] 31%|████████████████████████████████████████████████████████████▍                                                                                                                                     | 4669/15000 [3:19:08<6:45:35,  2.36s/it] 31%|████████████████████████████████████████████████████████████▍                                                                                                                                     | 4670/15000 [3:19:11<6:45:25,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.8448, 'grad_norm': 1.7265625, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3485.98, 'total_tokens': 38154640, 'epoch': 0.31}
+ 31%|████████████████████████████████████████████████████████████▍                                                                                                                                     | 4670/15000 [3:19:11<6:45:25,  2.35s/it] 31%|████████████████████████████████████████████████████████████▍                                                                                                                                     | 4671/15000 [3:19:13<6:45:28,  2.36s/it] 31%|████████████████████████████████████████████████████████████▍                                                                                                                                     | 4672/15000 [3:19:15<6:45:28,  2.36s/it] 31%|████████████████████████████████████████████████████████████▍                                                                                                                                     | 4673/15000 [3:19:18<6:45:47,  2.36s/it] 31%|████████████████████████████████████████████████████████████▍                                                                                                                                     | 4674/15000 [3:19:20<6:46:05,  2.36s/it] 31%|████████████████████████████████████████████████████████████▍                                                                                                                                     | 4675/15000 [3:19:22<6:45:31,  2.36s/it] 31%|████████████████████████████████████████████████████████████▍                                                                                                                                     | 4676/15000 [3:19:25<6:45:11,  2.35s/it] 31%|████████████████████████████████████████████████████████████▍                                                                                                                                     | 4677/15000 [3:19:27<6:44:57,  2.35s/it] 31%|████████████████████████████████████████████████████████████▌                                                                                                                                     | 4678/15000 [3:19:29<6:44:55,  2.35s/it] 31%|████████████████████████████████████████████████████████████▌                                                                                                                                     | 4679/15000 [3:19:32<6:44:31,  2.35s/it] 31%|████████████████████████████████████████████████████████████▌                                                                                                                                     | 4680/15000 [3:19:34<6:44:30,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.8931, 'grad_norm': 1.671875, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3487.0, 'total_tokens': 38236411, 'epoch': 0.31}
+ 31%|████████████████████████████████████████████████████████████▌                                                                                                                                     | 4680/15000 [3:19:34<6:44:30,  2.35s/it] 31%|████████████████████████████████████████████████████████████▌                                                                                                                                     | 4681/15000 [3:19:36<6:44:50,  2.35s/it] 31%|████████████████████████████████████████████████████████████▌                                                                                                                                     | 4682/15000 [3:19:39<6:44:34,  2.35s/it] 31%|████████████████████████████████████████████████████████████▌                                                                                                                                     | 4683/15000 [3:19:41<6:44:19,  2.35s/it] 31%|████████████████████████████████████████████████████████████▌                                                                                                                                     | 4684/15000 [3:19:43<6:44:23,  2.35s/it] 31%|████████████████████████████████████████████████████████████▌                                                                                                                                     | 4685/15000 [3:19:46<6:43:58,  2.35s/it] 31%|████████████████████████████████████████████████████████████▌                                                                                                                                     | 4686/15000 [3:19:48<6:43:50,  2.35s/it] 31%|████████████████████████████████████████████████████████████▌                                                                                                                                     | 4687/15000 [3:19:51<6:43:40,  2.35s/it] 31%|████████████████████████████████████████████████████████████▋                                                                                                                                     | 4688/15000 [3:19:53<6:43:44,  2.35s/it] 31%|████████████████████████████████████████████████████████████▋                                                                                                                                     | 4689/15000 [3:19:55<6:44:03,  2.35s/it] 31%|████████████████████████████████████████████████████████████▋                                                                                                                                     | 4690/15000 [3:19:58<6:43:41,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.8903, 'grad_norm': 1.7109375, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3500.39, 'total_tokens': 38318243, 'epoch': 0.31}
+ 31%|████████████████████████████████████████████████████████████▋                                                                                                                                     | 4690/15000 [3:19:58<6:43:41,  2.35s/it] 31%|████████████████████████████████████████████████████████████▋                                                                                                                                     | 4691/15000 [3:20:00<6:43:49,  2.35s/it] 31%|████████████████████████████████████████████████████████████▋                                                                                                                                     | 4692/15000 [3:20:02<6:43:58,  2.35s/it] 31%|████████████████████████████████████████████████████████████▋                                                                                                                                     | 4693/15000 [3:20:05<6:43:48,  2.35s/it] 31%|████████████████████████████████████████████████████████████▋                                                                                                                                     | 4694/15000 [3:20:07<6:43:39,  2.35s/it] 31%|████████████████████████████████████████████████████████████▋                                                                                                                                     | 4695/15000 [3:20:09<6:43:55,  2.35s/it] 31%|█████████████████████████████████████████���██████████████████▋                                                                                                                                     | 4696/15000 [3:20:12<6:43:47,  2.35s/it] 31%|████████████████████████████████████████████████████████████▋                                                                                                                                     | 4697/15000 [3:20:14<6:43:49,  2.35s/it] 31%|████████████████████████████████████████████████████████████▊                                                                                                                                     | 4698/15000 [3:20:16<6:43:56,  2.35s/it] 31%|████████████████████████████████████████████████████████████▊                                                                                                                                     | 4699/15000 [3:20:19<6:43:38,  2.35s/it] 31%|████████████████████████████████████████████████████████████▊                                                                                                                                     | 4700/15000 [3:20:21<6:43:40,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.8941, 'grad_norm': 1.875, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3486.35, 'total_tokens': 38400008, 'epoch': 0.31}
+ 31%|████████████████████████████████████████████████████████████▊                                                                                                                                     | 4700/15000 [3:20:21<6:43:40,  2.35s/it] 31%|████████████████████████████████████████████████████████████▊                                                                                                                                     | 4701/15000 [3:20:23<6:44:24,  2.36s/it] 31%|████████████████████████████████████████████████████████████▊                                                                                                                                     | 4702/15000 [3:20:26<6:44:26,  2.36s/it] 31%|████████████████████████████████████████████████████████████▊                                                                                                                                     | 4703/15000 [3:20:28<6:44:20,  2.36s/it] 31%|████████████████████████████████████████████████████████████▊                                                                                                                                     | 4704/15000 [3:20:31<6:44:27,  2.36s/it] 31%|████████████████████████████████████████████████████████████▊                                                                                                                                     | 4705/15000 [3:20:33<6:44:12,  2.36s/it] 31%|████████████████████████████████████████████████████████████▊                                                                                                                                     | 4706/15000 [3:20:35<6:43:53,  2.35s/it] 31%|████████████████████████████████████████████████████████████▉                                                                                                                                     | 4707/15000 [3:20:38<6:44:06,  2.36s/it] 31%|██████████��█████████████████████████████████████████████████▉                                                                                                                                     | 4708/15000 [3:20:40<6:43:50,  2.35s/it] 31%|████████████████████████████████████████████████████████████▉                                                                                                                                     | 4709/15000 [3:20:42<6:44:04,  2.36s/it] 31%|████████████████████████████████████████████████████████████▉                                                                                                                                     | 4710/15000 [3:20:45<6:43:50,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.8836, 'grad_norm': 1.734375, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3487.17, 'total_tokens': 38481798, 'epoch': 0.31}
+ 31%|████████████████████████████████████████████████████████████▉                                                                                                                                     | 4710/15000 [3:20:45<6:43:50,  2.35s/it] 31%|████████████████████████████████████████████████████████████▉                                                                                                                                     | 4711/15000 [3:20:47<6:43:38,  2.35s/it] 31%|████████████████████████████████████████████████████████████▉                                                                                                                                     | 4712/15000 [3:20:49<6:43:59,  2.36s/it] 31%|████████████████████████████████████████████████████████████▉                                                                                                                                     | 4713/15000 [3:20:52<6:43:45,  2.35s/it] 31%|████████████████████████████████████████████████████████████▉                                                                                                                                     | 4714/15000 [3:20:54<6:43:44,  2.36s/it] 31%|████████████████████████████████████████████████████████████▉                                                                                                                                     | 4715/15000 [3:20:56<6:43:51,  2.36s/it] 31%|████████████████████████████████████████████████████████████▉                                                                                                                                     | 4716/15000 [3:20:59<6:43:34,  2.35s/it] 31%|█████████████████████████████████████████████████████████████                                                                                                                                     | 4717/15000 [3:21:01<6:43:18,  2.35s/it] 31%|█████████████████████████████████████████████████████████████                                                                                                                                     | 4718/15000 [3:21:03<6:43:04,  2.35s/it] 31%|█████████████████████████████████████████████████████████████                                                                                                                                     | 4719/15000 [3:21:06<6:42:57,  2.35s/it] 31%|█████████████████████████████████████████████████████████████                                                                                                                                     | 4720/15000 [3:21:08<6:43:19,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.9219, 'grad_norm': 1.734375, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3475.86, 'total_tokens': 38563563, 'epoch': 0.31}
+ 31%|█████████████████████████████████████████████████████████████                                                                                                                                     | 4720/15000 [3:21:08<6:43:19,  2.35s/it] 31%|█████████████████████████████████████████████████████████████                                                                                                                                     | 4721/15000 [3:21:11<6:43:08,  2.35s/it] 31%|█████████████████████████████████████████████████████████████                                                                                                                                     | 4722/15000 [3:21:13<6:43:25,  2.36s/it] 31%|█████████████████████████████████████████████████████████████                                                                                                                                     | 4723/15000 [3:21:15<6:43:33,  2.36s/it] 31%|█████████████████████████████████████████████████████████████                                                                                                                                     | 4724/15000 [3:21:18<6:43:57,  2.36s/it] 32%|█████████████████████████████████████████████████████████████                                                                                                                                     | 4725/15000 [3:21:20<6:43:23,  2.36s/it] 32%|█████████████████████████████████████████████████████████████                                                                                                                                     | 4726/15000 [3:21:22<6:43:22,  2.36s/it] 32%|█████████████████████████████████████████████████████████████▏                                                                                                                                    | 4727/15000 [3:21:25<6:43:27,  2.36s/it] 32%|█████████████████████████████████████████████████████████████▏                                                                                                                                    | 4728/15000 [3:21:27<6:42:47,  2.35s/it] 32%|█████████████████████████████████████████████████████████████▏                                                                                                                                    | 4729/15000 [3:21:29<6:42:32,  2.35s/it] 32%|█████████████████████████████████████████████████████████████▏                                                                                                                                    | 4730/15000 [3:21:32<6:42:47,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.831, 'grad_norm': 1.8046875, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3479.96, 'total_tokens': 38645336, 'epoch': 0.32}
+ 32%|█████████████████████████████████████████████████████████████▏                                                                                                                                    | 4730/15000 [3:21:32<6:42:47,  2.35s/it] 32%|█████████████████████████████████████████████████████████████▏                                                                                                                                    | 4731/15000 [3:21:34<6:42:59,  2.35s/it] 32%|█████████████████████████████████████████████████████████████▏                                                                                                                                    | 4732/15000 [3:21:36<6:42:54,  2.35s/it] 32%|█████████████████████████████████████████████████████████████▏                                                                                                                                    | 4733/15000 [3:21:39<6:43:12,  2.36s/it] 32%|█████████████████████████████████████████████████████████████▏                                                                                                                                    | 4734/15000 [3:21:41<6:42:53,  2.35s/it] 32%|█████████████████████████████████████████████████████████████▏                                                                                                                                    | 4735/15000 [3:21:44<6:42:44,  2.35s/it] 32%|█████████████████████████████████████████████████████████████▎                                                                                                                                    | 4736/15000 [3:21:46<6:42:23,  2.35s/it] 32%|█████████████████████████████████████████████████████████████▎                                                                                                                                    | 4737/15000 [3:21:48<6:42:06,  2.35s/it] 32%|█████████████████████████████████████████████████████████████▎                                                                                                                                    | 4738/15000 [3:21:51<6:42:00,  2.35s/it] 32%|█████████████████████████████████████████████████████████████▎                                                                                                                                    | 4739/15000 [3:21:53<6:42:04,  2.35s/it] 32%|█████████████████████████████████████████████████████████████▎                                                                                                                                    | 4740/15000 [3:21:55<6:41:34,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.8834, 'grad_norm': 1.6875, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3502.68, 'total_tokens': 38727115, 'epoch': 0.32}
+ 32%|█████████████████████████████████████████████████████████████▎                                                                                                                                    | 4740/15000 [3:21:55<6:41:34,  2.35s/it] 32%|█████████████████████████████████████████████████████████████▎                                                                                                                                    | 4741/15000 [3:21:58<6:41:59,  2.35s/it] 32%|█████████████████████████████████████████████████████████████▎                                                                                                                                    | 4742/15000 [3:22:00<6:41:46,  2.35s/it] 32%|█████████████████████████████████████████████████████████████▎                                                                                                                                    | 4743/15000 [3:22:02<6:41:32,  2.35s/it] 32%|█████████████████████████████████████████████████████████████▎                                                                                                                                    | 4744/15000 [3:22:05<6:41:36,  2.35s/it] 32%|█████████████████████████████████████████████████████████████▎                                                                                                                                    | 4745/15000 [3:22:07<6:41:57,  2.35s/it] 32%|█████████████████████████████████████████████████████████████▍                                                                                                                                    | 4746/15000 [3:22:09<6:42:00,  2.35s/it] 32%|█████████████████████████████████████████████████████████████▍                                                                                                                                    | 4747/15000 [3:22:12<6:42:14,  2.35s/it] 32%|█████████████████████████████████████████████████████████████▍                                                                                                                                    | 4748/15000 [3:22:14<6:41:49,  2.35s/it] 32%|█████████████████████████████████████████████████████████████▍                                                                                                                                    | 4749/15000 [3:22:16<6:42:25,  2.36s/it] 32%|█████████████████████████████████████████████████████████████▍                                                                                                                                    | 4750/15000 [3:22:19<6:42:12,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.8568, 'grad_norm': 1.6796875, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3487.21, 'total_tokens': 38808880, 'epoch': 0.32}
+ 32%|█████████████████████████████████████████████████████████████▍                                                                                                                                    | 4750/15000 [3:22:19<6:42:12,  2.35s/it] 32%|█████████████████████████████████████████████████████████████▍                                                                                                                                    | 4751/15000 [3:22:21<6:42:37,  2.36s/it] 32%|█████████████████████████████████████████████████████████████▍                                                                                                                                    | 4752/15000 [3:22:24<6:42:27,  2.36s/it] 32%|█████████████████████████████████████████████████████████████▍                                                                                                                                    | 4753/15000 [3:22:26<6:42:32,  2.36s/it] 32%|█████████████████████████████████████████████████████████████▍                                                                                                                                    | 4754/15000 [3:22:28<6:42:40,  2.36s/it] 32%|█████████████████████████████████████████████████████████████▍                                                                                                                                    | 4755/15000 [3:22:31<6:42:25,  2.36s/it] 32%|█████████████████████████████████████████████████████████████▌                                                                                                                                    | 4756/15000 [3:22:33<6:42:14,  2.36s/it] 32%|█████████████████████████████████████████████████████████████▌                                                                                                                                    | 4757/15000 [3:22:35<6:41:55,  2.35s/it] 32%|█████████████████████████████████████████████████████████████▌                                                                                                                                    | 4758/15000 [3:22:38<6:41:24,  2.35s/it] 32%|█████████████████████████████████████████████████████████████▌                                                                                                                                    | 4759/15000 [3:22:40<6:41:21,  2.35s/it] 32%|█████████████████████████████████████████████████████████████▌                                                                                                                                    | 4760/15000 [3:22:42<6:41:51,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.865, 'grad_norm': 1.796875, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3473.09, 'total_tokens': 38890661, 'epoch': 0.32}
+ 32%|█████████████████████████████████████████████████████████████▌                                                                                                                                    | 4760/15000 [3:22:42<6:41:51,  2.35s/it] 32%|█████████████████████████████████████████████████████████████▌                                                                                                                                    | 4761/15000 [3:22:45<6:41:49,  2.35s/it] 32%|█████████████████████████████████████████████████████████████▌                                                                                                                                    | 4762/15000 [3:22:47<6:41:08,  2.35s/it] 32%|█████████████████████████████████████████████████████████████▌                                                                                                                                    | 4763/15000 [3:22:49<6:41:06,  2.35s/it] 32%|███████████████████████���█████████████████████████████████████▌                                                                                                                                    | 4764/15000 [3:22:52<6:41:08,  2.35s/it] 32%|█████████████████████████████████████████████████████████████▋                                                                                                                                    | 4765/15000 [3:22:54<6:41:18,  2.35s/it] 32%|█████████████████████████████████████████████████████████████▋                                                                                                                                    | 4766/15000 [3:22:56<6:41:03,  2.35s/it] 32%|█████████████████████████████████████████████████████████████▋                                                                                                                                    | 4767/15000 [3:22:59<6:41:24,  2.35s/it] 32%|█████████████████████████████████████████████████████████████▋                                                                                                                                    | 4768/15000 [3:23:01<6:41:30,  2.35s/it] 32%|█████████████████████████████████████████████████████████████▋                                                                                                                                    | 4769/15000 [3:23:04<6:41:15,  2.35s/it] 32%|█████████████████████████████████████████████████████████████▋                                                                                                                                    | 4770/15000 [3:23:06<6:41:15,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.9225, 'grad_norm': 1.71875, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3486.44, 'total_tokens': 38972485, 'epoch': 0.32}
+ 32%|█████████████████████████████████████████████████████████████▋                                                                                                                                    | 4770/15000 [3:23:06<6:41:15,  2.35s/it] 32%|█████████████████████████████████████████████████████████████▋                                                                                                                                    | 4771/15000 [3:23:08<6:41:10,  2.35s/it] 32%|█████████████████████████████████████████████████████████████▋                                                                                                                                    | 4772/15000 [3:23:11<6:41:21,  2.35s/it] 32%|█████████████████████████████████████████████████████████████▋                                                                                                                                    | 4773/15000 [3:23:13<6:40:49,  2.35s/it] 32%|█████████████████████████████████████████████████████████████▋                                                                                                                                    | 4774/15000 [3:23:15<6:40:40,  2.35s/it] 32%|█████████████████████████████████████████████████████████████▊                                                                                                                                    | 4775/15000 [3:23:18<6:40:35,  2.35s/it] 32%|█████████████████████████████████████████████████████████████▊                                                                                                                                    | 4776/15000 [3:23:20<6:40:36,  2.35s/it] 32%|█████████████████████████████████████████████████████████████▊                                                                                                                                    | 4777/15000 [3:23:22<6:40:21,  2.35s/it] 32%|█████████████████████████████████████████████████████████████▊                                                                                                                                    | 4778/15000 [3:23:25<6:40:18,  2.35s/it] 32%|█████████████████████████████████████████████████████████████▊                                                                                                                                    | 4779/15000 [3:23:27<6:40:17,  2.35s/it] 32%|█████████████████████████████████████████████████████████████▊                                                                                                                                    | 4780/15000 [3:23:29<6:40:12,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.8845, 'grad_norm': 1.8046875, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3492.06, 'total_tokens': 39054261, 'epoch': 0.32}
+ 32%|█████████████████████████████████████████████████████████████▊                                                                                                                                    | 4780/15000 [3:23:29<6:40:12,  2.35s/it] 32%|█████████████████████████████████████████████████████████████▊                                                                                                                                    | 4781/15000 [3:23:32<6:40:17,  2.35s/it] 32%|█████████████████████████████████████████████████████████████▊                                                                                                                                    | 4782/15000 [3:23:34<6:40:12,  2.35s/it] 32%|█████████████████████████████████████████████████████████████▊                                                                                                                                    | 4783/15000 [3:23:36<6:40:04,  2.35s/it] 32%|█████████████████████████████████████████████████████████████▊                                                                                                                                    | 4784/15000 [3:23:39<6:40:15,  2.35s/it] 32%|█████████████████████████████████████████████████████████████▉                                                                                                                                    | 4785/15000 [3:23:41<6:40:14,  2.35s/it] 32%|█████████████████████████████████████████████████████████████▉                                                                                                                                    | 4786/15000 [3:23:43<6:39:38,  2.35s/it] 32%|█████████████████████████████████████████████████████████████▉                                                                                                                                    | 4787/15000 [3:23:46<6:40:05,  2.35s/it] 32%|█████████████████████████████████████████████████████████████▉                                                                                                                                    | 4788/15000 [3:23:48<6:40:13,  2.35s/it] 32%|█████████████████████████████████████████████████████████████▉                                                                                                                                    | 4789/15000 [3:23:51<6:40:02,  2.35s/it] 32%|█████████████████████████████████████████████████████████████▉                                                                                                                                    | 4790/15000 [3:23:53<6:40:20,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.9827, 'grad_norm': 1.8125, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3479.96, 'total_tokens': 39136048, 'epoch': 0.32}
+ 32%|█████████████████████████████████████████████████████████████▉                                                                                                                                    | 4790/15000 [3:23:53<6:40:20,  2.35s/it] 32%|█████████████████████████████████████████████████████████████▉                                                                                                                                    | 4791/15000 [3:23:55<6:40:33,  2.35s/it] 32%|█████████████████████████████████████████████████████████████▉                                                                                                                                    | 4792/15000 [3:23:58<6:40:30,  2.35s/it] 32%|█████████████████████████████████████████████████████████████▉                                                                                                                                    | 4793/15000 [3:24:00<6:40:51,  2.36s/it] 32%|██████████████████████████████████████████████████████████████                                                                                                                                    | 4794/15000 [3:24:02<6:40:50,  2.36s/it] 32%|██████████████████████████████████████████████████████████████                                                                                                                                    | 4795/15000 [3:24:05<6:40:22,  2.35s/it] 32%|██████████████████████████████████████████████████████████████                                                                                                                                    | 4796/15000 [3:24:07<6:40:31,  2.36s/it] 32%|██████████████████████████████████████████████████████████████                                                                                                                                    | 4797/15000 [3:24:09<6:40:38,  2.36s/it] 32%|██████████████████████████████████████████████████████████████                                                                                                                                    | 4798/15000 [3:24:12<6:41:06,  2.36s/it] 32%|████████████████████████��█████████████████████████████████████                                                                                                                                    | 4799/15000 [3:24:14<6:40:30,  2.36s/it] 32%|██████████████████████████████████████████████████████████████                                                                                                                                    | 4800/15000 [3:24:16<6:40:34,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.9041, 'grad_norm': 1.765625, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3478.4, 'total_tokens': 39217816, 'epoch': 0.32}
+ 32%|██████████████████████████████████████████████████████████████                                                                                                                                    | 4800/15000 [3:24:16<6:40:34,  2.36s/it] 32%|██████████████████████████████████████████████████████████████                                                                                                                                    | 4801/15000 [3:24:19<6:40:52,  2.36s/it] 32%|██████████████████████████████████████████████████████████████                                                                                                                                    | 4802/15000 [3:24:21<6:40:31,  2.36s/it] 32%|██████████████████████████████████████████████████████████████                                                                                                                                    | 4803/15000 [3:24:24<6:40:24,  2.36s/it] 32%|██████████████████████████████████████████████████████████████▏                                                                                                                                   | 4804/15000 [3:24:26<6:40:24,  2.36s/it] 32%|██████████████████████████████████████████████████████████████▏                                                                                                                                   | 4805/15000 [3:24:28<6:40:35,  2.36s/it] 32%|██████████████████████████████████████████████████████████████▏                                                                                                                                   | 4806/15000 [3:24:31<6:40:17,  2.36s/it] 32%|██████████████████████████████████████████████████████████████▏                                                                                                                                   | 4807/15000 [3:24:33<6:40:16,  2.36s/it] 32%|██████████████████████████████████████████████████████████████▏                                                                                                                                   | 4808/15000 [3:24:35<6:39:56,  2.35s/it] 32%|██████████████████████████████████████████████████████████████▏                                                                                                                                   | 4809/15000 [3:24:38<6:39:13,  2.35s/it] 32%|██████████████████████████████████████████████████████████████▏                                                                                                                                   | 4810/15000 [3:24:40<6:38:47,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.8843, 'grad_norm': 1.6875, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3499.54, 'total_tokens': 39299554, 'epoch': 0.32}
+ 32%|██████████████████████████████████████████████████████████████▏                                                                                                                                   | 4810/15000 [3:24:40<6:38:47,  2.35s/it] 32%|██████████████████████████████████████████████████████████████▏                                                                                                                                   | 4811/15000 [3:24:42<6:39:03,  2.35s/it] 32%|██████████████████████████████████████████████████████████████▏                                                                                                                                   | 4812/15000 [3:24:45<6:39:08,  2.35s/it] 32%|██████████████████████████████████████████████████████████████▏                                                                                                                                   | 4813/15000 [3:24:47<6:39:39,  2.35s/it] 32%|██████████████████████████████████████████████████████████████▎                                                                                                                                   | 4814/15000 [3:24:49<6:39:27,  2.35s/it] 32%|██████████████████████████████████████████████████████████████▎                                                                                                                                   | 4815/15000 [3:24:52<6:39:47,  2.36s/it] 32%|██████████████████████████████████████████████████████████████▎                                                                                                                                   | 4816/15000 [3:24:54<6:39:33,  2.35s/it] 32%|██████████████████████████████████████████████████████████████▎                                                                                                                                   | 4817/15000 [3:24:56<6:39:39,  2.35s/it] 32%|██████████████████████████████████████████████████████████████▎                                                                                                                                   | 4818/15000 [3:24:59<6:39:36,  2.35s/it] 32%|██████████████████████████████████████████████████████████████▎                                                                                                                                   | 4819/15000 [3:25:01<6:39:12,  2.35s/it] 32%|██████████████████████████████████████████████████████████████▎                                                                                                                                   | 4820/15000 [3:25:04<6:39:14,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.8695, 'grad_norm': 1.765625, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3483.99, 'total_tokens': 39381321, 'epoch': 0.32}
+ 32%|██████████████████████████████████████████████████████████████▎                                                                                                                                   | 4820/15000 [3:25:04<6:39:14,  2.35s/it] 32%|██████████████████████████████████████████████████████████████▎                                                                                                                                   | 4821/15000 [3:25:06<6:38:49,  2.35s/it] 32%|██████████████████████████████████████████████████████████████▎                                                                                                                                   | 4822/15000 [3:25:08<6:39:17,  2.35s/it] 32%|██████████████████████████████████████████████████████████████▍                                                                                                                                   | 4823/15000 [3:25:11<6:39:07,  2.35s/it] 32%|██████████████████████████████████████████████████████████████▍                                                                                                                                   | 4824/15000 [3:25:13<6:39:07,  2.35s/it] 32%|██████████████████████████████████████████████████████████████▍                                                                                                                                   | 4825/15000 [3:25:15<6:38:48,  2.35s/it] 32%|██████████████████████████████████████████████████████████████▍                                                                                                                                   | 4826/15000 [3:25:18<6:39:00,  2.35s/it] 32%|██████████████████████████████████████████████████████████████▍                                                                                                                                   | 4827/15000 [3:25:20<6:39:32,  2.36s/it] 32%|██████████████████████████████████████████████████████████████▍                                                                                                                                   | 4828/15000 [3:25:22<6:39:07,  2.35s/it] 32%|██████████████████████████████████████████████████████████████▍                                                                                                                                   | 4829/15000 [3:25:25<6:39:35,  2.36s/it] 32%|██████████████████████████████████████████████████████████████▍                                                                                                                                   | 4830/15000 [3:25:27<6:39:18,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.9054, 'grad_norm': 1.7265625, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3487.16, 'total_tokens': 39463115, 'epoch': 0.32}
+ 32%|██████████████████████████████████████████████████████████████▍                                                                                                                                   | 4830/15000 [3:25:27<6:39:18,  2.36s/it] 32%|██████████████████████████████████████████████████████████████▍                                                                                                                                   | 4831/15000 [3:25:29<6:39:15,  2.36s/it] 32%|██████████████████████████████████████████████████████████████▍                                                                                                                                   | 4832/15000 [3:25:32<6:39:19,  2.36s/it] 32%|██████████████████████████████████████████████████████████████▌                                                                                                                                   | 4833/15000 [3:25:34<6:39:03,  2.36s/it] 32%|██████████████████████████████████████████████████████████████▌                                                                                                                                   | 4834/15000 [3:25:36<6:38:48,  2.35s/it] 32%|██████████████████████████████████████████████████████████████▌                                                                                                                                   | 4835/15000 [3:25:39<6:38:35,  2.35s/it] 32%|██████████████████████████████████████████████████████████████▌                                                                                                                                   | 4836/15000 [3:25:41<6:38:38,  2.35s/it] 32%|██████████████████████████████████████████████████████████████▌                                                                                                                                   | 4837/15000 [3:25:44<6:38:29,  2.35s/it] 32%|██████████████████████████████████████████████████████████████▌                                                                                                                                   | 4838/15000 [3:25:46<6:38:30,  2.35s/it] 32%|██████████████████████████████████████████████████████████████▌                                                                                                                                   | 4839/15000 [3:25:48<6:38:33,  2.35s/it] 32%|██████████████████████████████████████████████████████████████▌                                                                                                                                   | 4840/15000 [3:25:51<6:38:34,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.9144, 'grad_norm': 1.859375, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3483.91, 'total_tokens': 39544888, 'epoch': 0.32}
+ 32%|██████████████████████████████████████████████████████████████▌                                                                                                                                   | 4840/15000 [3:25:51<6:38:34,  2.35s/it] 32%|██████████████████████████████████████████████████████████████▌                                                                                                                                   | 4841/15000 [3:25:53<6:38:54,  2.36s/it] 32%|██████████████████████████████████████████████████████████████▌                                                                                                                                   | 4842/15000 [3:25:55<6:38:38,  2.35s/it] 32%|██████████████████████████████████████████████████████████████▋                                                                                                                                   | 4843/15000 [3:25:58<6:38:36,  2.35s/it] 32%|██████████████████████████████████████████████████████████████▋                                                                                                                                   | 4844/15000 [3:26:00<6:38:52,  2.36s/it] 32%|██████████████████████████████████████████████████████████████▋                                                                                                                                   | 4845/15000 [3:26:02<6:38:21,  2.35s/it] 32%|██████████████████████████████████████████████████████████████▋                                                                                                                                   | 4846/15000 [3:26:05<6:38:38,  2.36s/it] 32%|██████████████████████████████████████████████████████████████▋                                                                                                                                   | 4847/15000 [3:26:07<6:38:14,  2.35s/it] 32%|██████████████████████████████████████████████████████████████▋                                                                                                                                   | 4848/15000 [3:26:09<6:38:43,  2.36s/it] 32%|██████████████████████████████████████████████████████████████▋                                                                                                                                   | 4849/15000 [3:26:12<6:38:45,  2.36s/it] 32%|██████████████████████████████████████████████████████████████▋                                                                                                                                   | 4850/15000 [3:26:14<6:38:36,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.9423, 'grad_norm': 1.8359375, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3483.58, 'total_tokens': 39626671, 'epoch': 0.32}
+ 32%|██████████████████████████████████████████████████████████████▋                                                                                                                                   | 4850/15000 [3:26:14<6:38:36,  2.36s/it] 32%|██████████████████████████████████████████████████████████████▋                                                                                                                                   | 4851/15000 [3:26:17<6:38:12,  2.35s/it] 32%|██████████████████████████████████████████████████████████████▊                                                                                                                                   | 4852/15000 [3:26:19<6:37:43,  2.35s/it] 32%|██████████████████████████████████████████████████████████████▊                                                                                                                                   | 4853/15000 [3:26:21<6:37:27,  2.35s/it] 32%|██████████████████████████████████████████████████████████████▊                                                                                                                                   | 4854/15000 [3:26:24<6:37:27,  2.35s/it] 32%|██████████████████████████████████████████████████████████████▊                                                                                                                                   | 4855/15000 [3:26:26<6:37:48,  2.35s/it] 32%|██████████████████████████████████████████████████████████████▊                                                                                                                                   | 4856/15000 [3:26:28<6:37:39,  2.35s/it] 32%|██████████████████████████████████████████████████████████████▊                                                                                                                                   | 4857/15000 [3:26:31<6:37:34,  2.35s/it] 32%|██████████████████████████████████████████████████████████████▊                                                                                                                                   | 4858/15000 [3:26:33<6:37:25,  2.35s/it] 32%|██████████████████████████████████████████████████████████████▊                                                                                                                                   | 4859/15000 [3:26:35<6:37:25,  2.35s/it] 32%|██████████████████████████████████████████████████████████████▊                                                                                                                                   | 4860/15000 [3:26:38<7:01:20,  2.49s/it]                                                                                                                                                                                                                                                {'loss': 2.816, 'grad_norm': 1.828125, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 2904.49, 'total_tokens': 39708488, 'epoch': 0.32}
+ 32%|██████████████████████████████████████████████████████████████▊                                                                                                                                   | 4860/15000 [3:26:38<7:01:20,  2.49s/it] 32%|██████████████████████████████████████████████████████████████▊                                                                                                                                   | 4861/15000 [3:26:40<6:54:19,  2.45s/it] 32%|██████████████████████████████████████████████████████████████▉                                                                                                                                   | 4862/15000 [3:26:43<6:49:23,  2.42s/it] 32%|██████████████████████████████████████████████████████████████▉                                                                                                                                   | 4863/15000 [3:26:45<6:45:50,  2.40s/it] 32%|██████████████████████████████████████████████████████████████▉                                                                                                                                   | 4864/15000 [3:26:48<6:43:08,  2.39s/it] 32%|██████████████████████████████████████████████████████████████▉                                                                                                                                   | 4865/15000 [3:26:50<6:41:31,  2.38s/it] 32%|███████████████████████████████████████████████████████████���██▉                                                                                                                                   | 4866/15000 [3:26:52<6:40:13,  2.37s/it] 32%|██████████████████████████████████████████████████████████████▉                                                                                                                                   | 4867/15000 [3:26:55<6:39:15,  2.36s/it] 32%|██████████████████████████████████████████████████████████████▉                                                                                                                                   | 4868/15000 [3:26:57<6:38:40,  2.36s/it] 32%|██████████████████████████████████████████████████████████████▉                                                                                                                                   | 4869/15000 [3:26:59<6:38:25,  2.36s/it] 32%|██████████████████████████████████████████████████████████████▉                                                                                                                                   | 4870/15000 [3:27:02<6:37:54,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.8061, 'grad_norm': 1.7734375, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3490.54, 'total_tokens': 39790268, 'epoch': 0.32}
+ 32%|██████████████████████████████████████████████████████████████▉                                                                                                                                   | 4870/15000 [3:27:02<6:37:54,  2.36s/it] 32%|██████████████████████████████████████████████████████████████▉                                                                                                                                   | 4871/15000 [3:27:04<6:37:50,  2.36s/it] 32%|███████████████████████████████████████████████████████████████                                                                                                                                   | 4872/15000 [3:27:06<6:38:08,  2.36s/it] 32%|███████████████████████████████████████████████████████████████                                                                                                                                   | 4873/15000 [3:27:09<6:38:04,  2.36s/it] 32%|███████████████████████████████████████████████████████████████                                                                                                                                   | 4874/15000 [3:27:11<6:37:43,  2.36s/it] 32%|███████████████████████████████████████████████████████████████                                                                                                                                   | 4875/15000 [3:27:13<6:37:21,  2.35s/it] 33%|███████████████████████████████████████████████████████████████                                                                                                                                   | 4876/15000 [3:27:16<6:37:25,  2.36s/it] 33%|███████████████████████████████████████████████████████████████                                                                                                                                   | 4877/15000 [3:27:18<6:37:22,  2.36s/it] 33%|███████████████████████████████████████████████████████████████                                                                                                                                   | 4878/15000 [3:27:21<6:37:20,  2.36s/it] 33%|███████████████████████████████████████████████████████████████                                                                                                                                   | 4879/15000 [3:27:23<6:37:27,  2.36s/it] 33%|███████████████████████████████████████████████████████████████                                                                                                                                   | 4880/15000 [3:27:25<6:37:20,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.9276, 'grad_norm': 1.8984375, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3480.4, 'total_tokens': 39871982, 'epoch': 0.33}
+ 33%|███████████████████████████████████████████████████████████████                                                                                                                                   | 4880/15000 [3:27:25<6:37:20,  2.36s/it] 33%|███████████████████████████████████████████████████████████████▏                                                                                                                                  | 4881/15000 [3:27:28<6:36:59,  2.35s/it] 33%|███████████████████████████████████████████████████████████████▏                                                                                                                                  | 4882/15000 [3:27:30<6:36:31,  2.35s/it] 33%|███████████████████████████████████████████████████████████████▏                                                                                                                                  | 4883/15000 [3:27:32<6:36:33,  2.35s/it] 33%|███████████████████████████████████████████████████████████████▏                                                                                                                                  | 4884/15000 [3:27:35<6:36:47,  2.35s/it] 33%|███████████████████████████████████████████████████████████████▏                                                                                                                                  | 4885/15000 [3:27:37<6:37:06,  2.36s/it] 33%|███████████████████████████████████████████████████████████████▏                                                                                                                                  | 4886/15000 [3:27:39<6:37:10,  2.36s/it] 33%|███████████████████████████████████████████████████████████████▏                                                                                                                                  | 4887/15000 [3:27:42<6:37:17,  2.36s/it] 33%|███████████████████████████████████████████████████████████████▏                                                                                                                                  | 4888/15000 [3:27:44<6:36:40,  2.35s/it] 33%|███████████████████████████████████████████████████████████████▏                                                                                                                                  | 4889/15000 [3:27:46<6:36:09,  2.35s/it] 33%|███████████████████████████████████████████████████████████████▏                                                                                                                                  | 4890/15000 [3:27:49<6:36:03,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.8828, 'grad_norm': 1.6953125, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3490.47, 'total_tokens': 39953748, 'epoch': 0.33}
+ 33%|███████████████████████████████████████████████████████████████▏                                                                                                                                  | 4890/15000 [3:27:49<6:36:03,  2.35s/it] 33%|███████████████████████████████████████████████████████████████▎                                                                                                                                  | 4891/15000 [3:27:51<6:35:55,  2.35s/it] 33%|███████████████████████████████████████████████████████████████▎                                                                                                                                  | 4892/15000 [3:27:53<6:35:58,  2.35s/it] 33%|███████████████████████████████████████████████████████████████▎                                                                                                                                  | 4893/15000 [3:27:56<6:35:57,  2.35s/it] 33%|███████████████████████████████████████████████████████████████▎                                                                                                                                  | 4894/15000 [3:27:58<6:36:28,  2.35s/it] 33%|███████████████████████████████████████████████████████████████▎                                                                                                                                  | 4895/15000 [3:28:01<6:36:24,  2.35s/it] 33%|███████████████████████████████████████████████████████████████▎                                                                                                                                  | 4896/15000 [3:28:03<6:36:11,  2.35s/it] 33%|███████████████████████████████████████████████████████████████▎                                                                                                                                  | 4897/15000 [3:28:05<6:35:55,  2.35s/it] 33%|███████████████████████████████████████████████████████████████▎                                                                                                                                  | 4898/15000 [3:28:08<6:36:04,  2.35s/it] 33%|███████████████████████████████████████████████████████████████▎                                                                                                                                  | 4899/15000 [3:28:10<6:36:29,  2.36s/it] 33%|███████████████████████████████████████████████████████████████▎                                                                                                                                  | 4900/15000 [3:28:12<6:36:08,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.8735, 'grad_norm': 1.7265625, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3489.58, 'total_tokens': 40035481, 'epoch': 0.33}
+ 33%|███████████████████████████████████████████████████████████████▎                                                                                                                                  | 4900/15000 [3:28:12<6:36:08,  2.35s/it] 33%|███████████████████████████████████████████████████████████████▍                                                                                                                                  | 4901/15000 [3:28:15<6:36:03,  2.35s/it] 33%|███████████████████████████████████████████████████████████████▍                                                                                                                                  | 4902/15000 [3:28:17<6:36:22,  2.36s/it] 33%|███████████████████████████████████████████████████████████████▍                                                                                                                                  | 4903/15000 [3:28:19<6:36:24,  2.36s/it] 33%|███████████████████████████████████████████████████████████████▍                                                                                                                                  | 4904/15000 [3:28:22<6:36:45,  2.36s/it] 33%|███████████████████████████████████████████████████████████████▍                                                                                                                                  | 4905/15000 [3:28:24<6:36:31,  2.36s/it] 33%|███████████████████████████████████████████████████████████████▍                                                                                                                                  | 4906/15000 [3:28:26<6:36:19,  2.36s/it] 33%|███████████████████████████████████████████████████████████████▍                                                                                                                                  | 4907/15000 [3:28:29<6:36:09,  2.36s/it] 33%|███████████████████████████████████████████████████████████████▍                                                                                                                                  | 4908/15000 [3:28:31<6:36:02,  2.35s/it] 33%|███████████████████████████████████████████████████████████████▍                                                                                                                                  | 4909/15000 [3:28:33<6:35:32,  2.35s/it] 33%|███████████████████████████████████████████████████████████████▌                                                                                                                                  | 4910/15000 [3:28:36<6:35:49,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.8839, 'grad_norm': 1.7265625, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3478.02, 'total_tokens': 40117255, 'epoch': 0.33}
+ 33%|██████████████████████████████████████████���████████████████████▌                                                                                                                                  | 4910/15000 [3:28:36<6:35:49,  2.35s/it] 33%|███████████████████████████████████████████████████████████████▌                                                                                                                                  | 4911/15000 [3:28:38<6:35:37,  2.35s/it] 33%|███████████████████████████████████████████████████████████████▌                                                                                                                                  | 4912/15000 [3:28:41<6:35:49,  2.35s/it] 33%|███████████████████████████████████████████████████████████████▌                                                                                                                                  | 4913/15000 [3:28:43<6:35:30,  2.35s/it] 33%|███████████████████████████████████████████████████████████████▌                                                                                                                                  | 4914/15000 [3:28:45<6:35:19,  2.35s/it] 33%|███████████████████████████████████████████████████████████████▌                                                                                                                                  | 4915/15000 [3:28:48<6:35:41,  2.35s/it] 33%|███████████████████████████████████████████████████████████████▌                                                                                                                                  | 4916/15000 [3:28:50<6:35:54,  2.36s/it] 33%|███████████████████████████████████████████████████████████████▌                                                                                                                                  | 4917/15000 [3:28:52<6:35:43,  2.35s/it] 33%|███████████████████████████████████████████████████████████████▌                                                                                                                                  | 4918/15000 [3:28:55<6:35:44,  2.36s/it] 33%|███████████████████████████████████████████████████████████████▌                                                                                                                                  | 4919/15000 [3:28:57<6:35:40,  2.35s/it] 33%|███████████████████████████████████████████████████████████████▋                                                                                                                                  | 4920/15000 [3:28:59<6:35:34,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.9382, 'grad_norm': 1.765625, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3481.25, 'total_tokens': 40198957, 'epoch': 0.33}
+ 33%|███████████████████████████████████████████████████████████████▋                                                                                                                                  | 4920/15000 [3:28:59<6:35:34,  2.35s/it] 33%|███████████████████████████████████████████████████████████████▋                                                                                                                                  | 4921/15000 [3:29:02<6:35:39,  2.36s/it] 33%|███████████████████████████████████████████████████████████████▋                                                                                                                                  | 4922/15000 [3:29:04<6:35:32,  2.35s/it] 33%|███████████████████████████████████████████████████████████████▋                                                                                                                                  | 4923/15000 [3:29:06<6:35:39,  2.36s/it] 33%|███████████████████████████████████████████████████████████████▋                                                                                                                                  | 4924/15000 [3:29:09<6:35:39,  2.36s/it] 33%|███████████████████████████████████████████████████████████████▋                                                                                                                                  | 4925/15000 [3:29:11<6:35:40,  2.36s/it] 33%|███████████████████████████████████████████████████████████████▋                                                                                                                                  | 4926/15000 [3:29:14<6:35:25,  2.36s/it] 33%|███████████████████████████████████████████████████████████████▋                                                                                                                                  | 4927/15000 [3:29:16<6:35:22,  2.36s/it] 33%|███████████████████████████████████████████████████████████████▋                                                                                                                                  | 4928/15000 [3:29:18<6:35:06,  2.35s/it] 33%|███████████████████████████████████████████████████████████████▋                                                                                                                                  | 4929/15000 [3:29:21<6:35:05,  2.35s/it] 33%|███████████████████████████████████████████████████████████████▊                                                                                                                                  | 4930/15000 [3:29:23<6:35:01,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.8458, 'grad_norm': 1.7578125, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3481.55, 'total_tokens': 40280644, 'epoch': 0.33}
+ 33%|███████████████████████████████████████████████████████████████▊                                                                                                                                  | 4930/15000 [3:29:23<6:35:01,  2.35s/it] 33%|███████████████████████████████████████████████████████████████▊                                                                                                                                  | 4931/15000 [3:29:25<6:34:44,  2.35s/it] 33%|███████████████████████████████████████████████████████████████▊                                                                                                                                  | 4932/15000 [3:29:28<6:35:09,  2.35s/it] 33%|█████████████████████████████████████████████████��█████████████▊                                                                                                                                  | 4933/15000 [3:29:30<6:35:06,  2.35s/it] 33%|███████████████████████████████████████████████████████████████▊                                                                                                                                  | 4934/15000 [3:29:32<6:35:14,  2.36s/it] 33%|███████████████████████████████████████████████████████████████▊                                                                                                                                  | 4935/15000 [3:29:35<6:34:58,  2.35s/it] 33%|███████████████████████████████████████████████████████████████▊                                                                                                                                  | 4936/15000 [3:29:37<6:34:42,  2.35s/it] 33%|███████████████████████████████████████████████████████████████▊                                                                                                                                  | 4937/15000 [3:29:39<6:34:35,  2.35s/it] 33%|███████████████████████████████████████████████████████████████▊                                                                                                                                  | 4938/15000 [3:29:42<6:34:42,  2.35s/it] 33%|███████████████████████████████████████████████████████████████▉                                                                                                                                  | 4939/15000 [3:29:44<6:34:35,  2.35s/it] 33%|███████████████████████████████████████████████████████████████▉                                                                                                                                  | 4940/15000 [3:29:46<6:34:18,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.8332, 'grad_norm': 1.734375, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3484.11, 'total_tokens': 40362230, 'epoch': 0.33}
+ 33%|███████████████████████████████████████████████████████████████▉                                                                                                                                  | 4940/15000 [3:29:46<6:34:18,  2.35s/it] 33%|███████████████████████████████████████████████████████████████▉                                                                                                                                  | 4941/15000 [3:29:49<6:34:45,  2.35s/it] 33%|███████████████████████████████████████████████████████████████▉                                                                                                                                  | 4942/15000 [3:29:51<6:34:19,  2.35s/it] 33%|███████████████████████████████████████████████████████████████▉                                                                                                                                  | 4943/15000 [3:29:54<6:34:06,  2.35s/it] 33%|███████████████████████████████████████████████████████████████▉                                                                                                                                  | 4944/15000 [3:29:56<6:34:20,  2.35s/it] 33%|███████████████████████████████████████████████████████████████▉                                                                                                                                  | 4945/15000 [3:29:58<6:34:17,  2.35s/it] 33%|███████████████████████████████████████████████████████████████▉                                                                                                                                  | 4946/15000 [3:30:01<6:34:18,  2.35s/it] 33%|███████████████████████████████████████████████████████████████▉                                                                                                                                  | 4947/15000 [3:30:03<6:34:12,  2.35s/it] 33%|███████████████████████████████████████████████████████████████▉                                                                                                                                  | 4948/15000 [3:30:05<6:34:09,  2.35s/it] 33%|████████████████████████████████████████████████████████████████                                                                                                                                  | 4949/15000 [3:30:08<6:34:42,  2.36s/it] 33%|████████████████████████████████████████████████████████████████                                                                                                                                  | 4950/15000 [3:30:10<6:34:11,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.8954, 'grad_norm': 1.921875, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3488.27, 'total_tokens': 40443841, 'epoch': 0.33}
+ 33%|████████████████████████████████████████████████████████████████                                                                                                                                  | 4950/15000 [3:30:10<6:34:11,  2.35s/it] 33%|████████████████████████████████████████████████████████████████                                                                                                                                  | 4951/15000 [3:30:12<6:34:10,  2.35s/it] 33%|████████████████████████████████████████████████████████████████                                                                                                                                  | 4952/15000 [3:30:15<6:34:12,  2.35s/it] 33%|████████████████████████████████████████████████████████████████                                                                                                                                  | 4953/15000 [3:30:17<6:34:13,  2.35s/it] 33%|████████████████████████████████████████████████████████████████                                                                                                                                  | 4954/15000 [3:30:19<6:34:22,  2.36s/it] 33%|████████████████████████████████████████████████████████████████                                                                                                                                  | 4955/15000 [3:30:22<6:34:04,  2.35s/it] 33%|█████████████████████████████████████████████████████████���██████                                                                                                                                  | 4956/15000 [3:30:24<6:34:10,  2.35s/it] 33%|████████████████████████████████████████████████████████████████                                                                                                                                  | 4957/15000 [3:30:26<6:34:16,  2.36s/it][2025-11-17 01:13:21,308] [INFO] [axolotl.utils.data.wrappers.get_dataset_wrapper:87] [PID:8163] Loading dataset: Goader/kobza-2m-jsonl with base_type: pretrain and prompt_style: None
+
+Tokenizing Prompts (num_proc=64):   0%|                                                                                                                                                                        | 0/10000 [00:00<?, ? examples/s][A
+Tokenizing Prompts (num_proc=64):   2%|██▍                                                                                                                                                           | 157/10000 [00:05<06:14, 26.26 examples/s][A
+Tokenizing Prompts (num_proc=64):   3%|████▉                                                                                                                                                         | 314/10000 [00:06<02:57, 54.55 examples/s][A
+Tokenizing Prompts (num_proc=64):   5%|███████▍                                                                                                                                                      | 471/10000 [00:07<01:54, 83.44 examples/s][A
+Tokenizing Prompts (num_proc=64):   6%|█████████▊                                                                                                                                                   | 628/10000 [00:08<01:23, 111.85 examples/s][A
+Tokenizing Prompts (num_proc=64):   8%|████████████▎                                                                                                                                                | 785/10000 [00:08<01:07, 136.39 examples/s][A
+Tokenizing Prompts (num_proc=64):   9%|██████████████▊                                                                                                                                              | 942/10000 [00:09<00:57, 157.74 examples/s][A
+Tokenizing Prompts (num_proc=64):  11%|█████████████████▏                                                                                                                                          | 1099/10000 [00:10<00:52, 170.60 examples/s][A
+Tokenizing Prompts (num_proc=64):  13%|███████████████████▌                                                                                                                                        | 1256/10000 [00:10<00:47, 185.68 examples/s][A
+Tokenizing Prompts (num_proc=64):  14%|██████████████████████                                                                                                                                      | 1413/10000 [00:11<00:44, 194.74 examples/s][A
+Tokenizing Prompts (num_proc=64):  16%|████████████████████████▍                                                                                                                                   | 1570/10000 [00:12<00:40, 208.27 examples/s][A
+Tokenizing Prompts (num_proc=64):  17%|██████████████████████████▉                                                                                                                                 | 1727/10000 [00:13<00:40, 206.81 examples/s][A
+Tokenizing Prompts (num_proc=64):  19%|█████████████████████████████▍                                                                                                                              | 1884/10000 [00:13<00:38, 209.56 examples/s][A
+Tokenizing Prompts (num_proc=64):  20%|███████████████████████████████▊                                                                                                                            | 2041/10000 [00:14<00:37, 214.96 examples/s][A
+Tokenizing Prompts (num_proc=64):  22%|██████████████████████████████████▎                                                                                                                         | 2198/10000 [00:15<00:35, 218.26 examples/s][A
+Tokenizing Prompts (num_proc=64):  24%|████████████████████████████████████▋                                                                                                                       | 2355/10000 [00:15<00:34, 224.41 examples/s][A
+Tokenizing Prompts (num_proc=64):  25%|███████████████████████████████████████▏                                                                                                                    | 2512/10000 [00:16<00:39, 191.40 examples/s][A
+Tokenizing Prompts (num_proc=64):  27%|█████████████████████████████████████████▌                                                                                                                  | 2668/10000 [00:17<00:30, 243.74 examples/s][A
+Tokenizing Prompts (num_proc=64):  28%|████████████████████████████████████████████                                                                                                                | 2824/10000 [00:18<00:32, 223.26 examples/s][A
+Tokenizing Prompts (num_proc=64):  30%|██████████████████████████████████████████████▍                                                                                                             | 2980/10000 [00:18<00:34, 206.14 examples/s][A
+Tokenizing Prompts (num_proc=64):  31%|████████████████████████████████████████████████▉                                                                                                           | 3136/10000 [00:19<00:26, 258.25 examples/s][A
+Tokenizing Prompts (num_proc=64):  33%|███████████████████████████████████████████████████▎                                                                                                        | 3292/10000 [00:19<00:26, 254.46 examples/s][A
+Tokenizing Prompts (num_proc=64):  34%|█████████████████████████████████████████████████████▊                                                                                                      | 3448/10000 [00:20<00:31, 205.84 examples/s][A
+Tokenizing Prompts (num_proc=64):  36%|████████████████████████████████████████████████████████▏                                                                                                   | 3604/10000 [00:21<00:25, 248.00 examples/s][A
+Tokenizing Prompts (num_proc=64):  38%|██████████████████████████████████████████████████████████▋                                                                                                 | 3760/10000 [00:21<00:23, 261.78 examples/s][A
+Tokenizing Prompts (num_proc=64):  39%|█████████████████████████████████████████████████████████████                                                                                               | 3916/10000 [00:22<00:26, 231.48 examples/s][A
+Tokenizing Prompts (num_proc=64):  41%|███████████████████████████████████████████████████████████████▌                                                                                            | 4072/10000 [00:23<00:25, 232.26 examples/s][A
+Tokenizing Prompts (num_proc=64):  42%|█████████████████████████████████████████████████████████████████▉                                                                                          | 4228/10000 [00:24<00:28, 205.67 examples/s][A
+Tokenizing Prompts (num_proc=64):  44%|████████████████████████████████████████████████████████████████████▍                                                                                       | 4384/10000 [00:24<00:21, 266.93 examples/s][A
+Tokenizing Prompts (num_proc=64):  45%|██████████████████████████████████████████████████████████████████████▊                                                                                     | 4540/10000 [00:25<00:21, 255.43 examples/s][A
+Tokenizing Prompts (num_proc=64):  47%|█████████████████████████████████████████████████████████████████████████▎                                                                                  | 4696/10000 [00:25<00:21, 246.63 examples/s][A
+Tokenizing Prompts (num_proc=64):  49%|███████████████████████████████████████████████████████████████████████████▋                                                                                | 4852/10000 [00:26<00:21, 244.43 examples/s][A
+Tokenizing Prompts (num_proc=64):  50%|██████████████████████████████████████████████████████████████████████████████                                                                              | 5008/10000 [00:27<00:22, 226.83 examples/s][A
+Tokenizing Prompts (num_proc=64):  52%|████████████████████████████████████████████████████████████████████████████████▌                                                                           | 5164/10000 [00:27<00:19, 246.37 examples/s][A
+Tokenizing Prompts (num_proc=64):  53%|██████████████████████████████████████████████████████████████████████████████████▉                                                                         | 5320/10000 [00:28<00:19, 240.81 examples/s][A
+Tokenizing Prompts (num_proc=64):  55%|█████████████████████████████████████████████████████████████████████████████████████▍                                                                      | 5476/10000 [00:28<00:18, 242.64 examples/s][A
+Tokenizing Prompts (num_proc=64):  56%|███████████████████████████████████████████████████████████████████████████████████████▊                                                                    | 5632/10000 [00:29<00:18, 242.58 examples/s][A
+Tokenizing Prompts (num_proc=64):  58%|██████████████████████████████████████████████████████████████████████████████████████████▎                                                                 | 5788/10000 [00:30<00:17, 239.22 examples/s][A
+Tokenizing Prompts (num_proc=64):  59%|████████████████████████████████████████████████████████████████████████████████████████████▋                                                               | 5944/10000 [00:30<00:16, 240.13 examples/s][A
+Tokenizing Prompts (num_proc=64):  61%|███████████████████████████████████████████████████████████████████████████████████████████████▏                                                            | 6100/10000 [00:31<00:17, 226.75 examples/s][A
+Tokenizing Prompts (num_proc=64):  63%|█████████████████████████████████████████████████████████████████████████████████████████████████▌                                                          | 6256/10000 [00:32<00:15, 235.75 examples/s][A
+Tokenizing Prompts (num_proc=64):  64%|████████████████████████████████████████████████████████████████████████████████████████████████████                                                        | 6412/10000 [00:32<00:15, 238.10 examples/s][A
+Tokenizing Prompts (num_proc=64):  66%|██████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                     | 6568/10000 [00:33<00:14, 237.54 examples/s][A
+Tokenizing Prompts (num_proc=64):  67%|████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                   | 6724/10000 [00:34<00:13, 238.01 examples/s][A
+Tokenizing Prompts (num_proc=64):  69%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                | 6880/10000 [00:35<00:13, 229.03 examples/s][A
+Tokenizing Prompts (num_proc=64):  70%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                              | 7036/10000 [00:35<00:12, 238.78 examples/s][A
+Tokenizing Prompts (num_proc=64):  72%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                           | 7192/10000 [00:36<00:11, 245.16 examples/s][A
+Tokenizing Prompts (num_proc=64):  73%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                         | 7348/10000 [00:36<00:11, 233.71 examples/s][A
+Tokenizing Prompts (num_proc=64):  75%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                       | 7504/10000 [00:37<00:10, 237.69 examples/s][A
+Tokenizing Prompts (num_proc=64):  77%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                    | 7660/10000 [00:38<00:09, 237.07 examples/s][A
+Tokenizing Prompts (num_proc=64):  78%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                  | 7816/10000 [00:39<00:10, 199.95 examples/s][A
+Tokenizing Prompts (num_proc=64):  80%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                               | 7972/10000 [00:39<00:08, 252.98 examples/s][A
+Tokenizing Prompts (num_proc=64):  81%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                             | 8128/10000 [00:40<00:07, 248.40 examples/s][A
+Tokenizing Prompts (num_proc=64):  83%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                          | 8284/10000 [00:40<00:06, 247.33 examples/s][A
+Tokenizing Prompts (num_proc=64):  84%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                        | 8440/10000 [00:41<00:06, 235.90 examples/s][A
+Tokenizing Prompts (num_proc=64):  86%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                      | 8596/10000 [00:42<00:05, 244.89 examples/s][A
+Tokenizing Prompts (num_proc=64):  88%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                   | 8752/10000 [00:42<00:05, 246.87 examples/s][A
+Tokenizing Prompts (num_proc=64):  89%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                 | 8908/10000 [00:43<00:04, 228.20 examples/s][A
+Tokenizing Prompts (num_proc=64):  91%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍              | 9064/10000 [00:44<00:03, 242.03 examples/s][A
+Tokenizing Prompts (num_proc=64):  92%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊            | 9220/10000 [00:44<00:03, 234.59 examples/s][A
+Tokenizing Prompts (num_proc=64):  94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎         | 9376/10000 [00:45<00:02, 246.11 examples/s][A
+Tokenizing Prompts (num_proc=64):  95%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋       | 9532/10000 [00:46<00:01, 241.10 examples/s][A
+Tokenizing Prompts (num_proc=64):  97%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏    | 9688/10000 [00:46<00:01, 241.17 examples/s][A
+Tokenizing Prompts (num_proc=64):  98%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌  | 9844/10000 [00:47<00:00, 241.56 examples/s][A
+Tokenizing Prompts (num_proc=64): 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10000/10000 [00:48<00:00, 239.61 examples/s][ATokenizing Prompts (num_proc=64): 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10000/10000 [00:50<00:00, 199.73 examples/s]
+
+Dropping Long Sequences:   0%|                                                                                                                                                                                 | 0/10003 [00:00<?, ? examples/s][A
+Dropping Long Sequences:  10%|████████████████▍                                                                                                                                                    | 1000/10003 [00:01<00:12, 729.34 examples/s][A
+Dropping Long Sequences:  20%|████████████████████████████████▊                                                                                                                                   | 2000/10003 [00:01<00:05, 1426.02 examples/s][A
+Dropping Long Sequences:  30%|█████████████████████████████████████████████████▏                                                                                                                  | 3000/10003 [00:01<00:03, 1924.97 examples/s][A
+Dropping Long Sequences:  40%|█████████████████████████████████████████████████████████████████▌                                                                                                  | 4000/10003 [00:02<00:02, 2331.05 examples/s][A
+Dropping Long Sequences:  50%|█████████████████████████████████████████████████████████████████████████████████▉                                                                                  | 5000/10003 [00:02<00:01, 2543.92 examples/s][A
+Dropping Long Sequences:  60%|██████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                 | 6000/10003 [00:02<00:01, 2981.58 examples/s][A
+Dropping Long Sequences:  70%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                 | 7000/10003 [00:02<00:00, 3296.48 examples/s][A
+Dropping Long Sequences:  80%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                | 8000/10003 [00:03<00:00, 3505.80 examples/s][A
+Dropping Long Sequences:  90%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                | 9000/10003 [00:03<00:00, 3682.96 examples/s][A
+Dropping Long Sequences: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉| 10000/10003 [00:03<00:00, 3849.81 examples/s][ADropping Long Sequences: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10003/10003 [00:03<00:00, 2653.40 examples/s]
+
+Add position_id column (Pretraining Sample Packing):   0%|                                                                                                                                                      | 0/8742 [00:00<?, ? examples/s][A
+Add position_id column (Pretraining Sample Packing):  11%|███████████████▊                                                                                                                          | 1000/8742 [00:01<00:09, 780.82 examples/s][A
+Add position_id column (Pretraining Sample Packing):  23%|███████████████████████████████▎                                                                                                         | 2000/8742 [00:01<00:04, 1623.55 examples/s][A
+Add position_id column (Pretraining Sample Packing):  34%|███████████████████████████████████████████████                                                                                          | 3000/8742 [00:01<00:02, 2494.68 examples/s][A
+Add position_id column (Pretraining Sample Packing):  46%|██████████████████████████████████████████████████████████████▋                                                                          | 4000/8742 [00:01<00:01, 3297.67 examples/s][A
+Add position_id column (Pretraining Sample Packing):  57%|██████████████████████████████████████████████████████████████████████████████▎                                                          | 5000/8742 [00:01<00:00, 4067.11 examples/s][A
+Add position_id column (Pretraining Sample Packing):  69%|██████████████████████████████████████████████████████████████████████████████████████████████                                           | 6000/8742 [00:02<00:00, 4767.73 examples/s][A
+Add position_id column (Pretraining Sample Packing):  80%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                           | 7000/8742 [00:02<00:00, 5321.14 examples/s][A
+Add position_id column (Pretraining Sample Packing):  92%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████���█████▎           | 8000/8742 [00:02<00:00, 5569.30 examples/s][A
+Add position_id column (Pretraining Sample Packing): 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 8742/8742 [00:02<00:00, 5865.72 examples/s][AAdd position_id column (Pretraining Sample Packing): 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 8742/8742 [00:02<00:00, 3532.12 examples/s]
+[2025-11-17 01:14:19,145] [DEBUG] [axolotl.utils.samplers.multipack.pack_parallel:177] [PID:8163] Using single process for pack_parallel, running sequentially.
+ 33%|███████████████████████████████████████████████████████████████▊                                                                                                                                 | 4958/15000 [3:31:33<60:32:29, 21.70s/it] 33%|███████████████████████████████████████████████████████████████▊                                                                                                                                 | 4959/15000 [3:31:36<44:20:14, 15.90s/it] 33%|███████████████████████████████████████████████████████████████▊                                                                                                                                 | 4960/15000 [3:31:38<33:00:02, 11.83s/it]                                                                                                                                                                                                                                                {'loss': 2.9264, 'grad_norm': 1.7109375, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3311.61, 'total_tokens': 40521503, 'epoch': 0.33}
+ 33%|███████████████████████████████████████████████████████████████▊                                                                                                                                 | 4960/15000 [3:31:38<33:00:02, 11.83s/it] 33%|███████████████████████████████████████████████████████████████▊                                                                                                                                 | 4961/15000 [3:31:40<25:04:31,  8.99s/it] 33%|███████████████████████████████████████████████████████████████▊                                                                                                                                 | 4962/15000 [3:31:43<19:31:22,  7.00s/it] 33%|███████████████████████████████████████████████████████████████▊                                                                                                                                 | 4963/15000 [3:31:45<15:37:18,  5.60s/it] 33%|███████████████████████████████████████████████████████████████▊                                                                                                                                 | 4964/15000 [3:31:47<12:54:08,  4.63s/it] 33%|███████████████████████████████████████████████████████████████▉                                                                                                                                 | 4965/15000 [3:31:50<10:59:32,  3.94s/it] 33%|██████���█████████████████████████████████████████████████████████▏                                                                                                                                 | 4966/15000 [3:31:52<9:39:51,  3.47s/it] 33%|████████████████████████████████████████████████████████████████▏                                                                                                                                 | 4967/15000 [3:31:54<8:43:42,  3.13s/it] 33%|████████████████████████████████████████████████████████████████▎                                                                                                                                 | 4968/15000 [3:31:57<8:04:17,  2.90s/it] 33%|████████████████████████████████████████████████████████████████▎                                                                                                                                 | 4969/15000 [3:31:59<7:36:50,  2.73s/it] 33%|████████████████████████████████████████████████████████████████▎                                                                                                                                 | 4970/15000 [3:32:02<7:17:27,  2.62s/it]                                                                                                                                                                                                                                                {'loss': 2.858, 'grad_norm': 1.78125, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3499.24, 'total_tokens': 40603372, 'epoch': 0.33}
+ 33%|████████████████████████████████████████████████████████████████▎                                                                                                                                 | 4970/15000 [3:32:02<7:17:27,  2.62s/it] 33%|████████████████████████████████████████████████████████████████▎                                                                                                                                 | 4971/15000 [3:32:04<7:04:15,  2.54s/it] 33%|████████████████████████████████████████████████████████████████▎                                                                                                                                 | 4972/15000 [3:32:06<6:54:58,  2.48s/it] 33%|████████████████████████████████████████████████████████████████▎                                                                                                                                 | 4973/15000 [3:32:09<6:48:07,  2.44s/it] 33%|████████████████████████████████████████████████████████████████▎                                                                                                                                 | 4974/15000 [3:32:11<6:43:52,  2.42s/it] 33%|████████████████████████████████████████████████████████████████▎                                                                                                                                 | 4975/15000 [3:32:13<6:41:00,  2.40s/it] 33%|████████████████████████████████████████████████████████████████▎                                                                                                                                 | 4976/15000 [3:32:16<6:38:38,  2.39s/it] 33%|████████████████████████████████████████████████████████████████���                                                                                                                                 | 4977/15000 [3:32:18<6:36:50,  2.38s/it] 33%|████████████████████████████████████████████████████████████████▍                                                                                                                                 | 4978/15000 [3:32:20<6:35:42,  2.37s/it] 33%|████████████████████████████████████████████████████████████████▍                                                                                                                                 | 4979/15000 [3:32:23<6:34:46,  2.36s/it] 33%|████████████████████████████████████████████████████████████████▍                                                                                                                                 | 4980/15000 [3:32:25<6:34:04,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.8017, 'grad_norm': 1.7578125, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3492.2, 'total_tokens': 40685220, 'epoch': 0.33}
+ 33%|████████████████████████████████████████████████████████████████▍                                                                                                                                 | 4980/15000 [3:32:25<6:34:04,  2.36s/it] 33%|████████████████████████████████████████████████████████████████▍                                                                                                                                 | 4981/15000 [3:32:27<6:33:34,  2.36s/it] 33%|████████████████████████████████████████████████████████████████▍                                                                                                                                 | 4982/15000 [3:32:30<6:33:37,  2.36s/it] 33%|████████████████████████████████████████████████████████████████▍                                                                                                                                 | 4983/15000 [3:32:32<6:33:26,  2.36s/it] 33%|████████████████████████████████████████████████████████████████▍                                                                                                                                 | 4984/15000 [3:32:34<6:33:00,  2.35s/it] 33%|████████████████████████████████████████████████████████████████▍                                                                                                                                 | 4985/15000 [3:32:37<6:32:51,  2.35s/it] 33%|████████████████████████████████████████████████████████████████▍                                                                                                                                 | 4986/15000 [3:32:39<6:32:32,  2.35s/it] 33%|████████████████████████████████████████████████████████████████▍                                                                                                                                 | 4987/15000 [3:32:42<6:32:32,  2.35s/it] 33%|████████████████████████████████████████████████████████████████▌                                                                                                                                 | 4988/15000 [3:32:44<6:32:14,  2.35s/it] 33%|████████████████████████████████████████████████████████████████▌                                                                                                                                 | 4989/15000 [3:32:46<6:32:31,  2.35s/it] 33%|████████████████████████████████████████████████████████████████▌                                                                                                                                 | 4990/15000 [3:32:49<6:32:32,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.873, 'grad_norm': 1.90625, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3486.35, 'total_tokens': 40767031, 'epoch': 0.33}
+ 33%|████████████████████████████████████████████████████████████████▌                                                                                                                                 | 4990/15000 [3:32:49<6:32:32,  2.35s/it] 33%|████████████████████████████████████████████████████████████████▌                                                                                                                                 | 4991/15000 [3:32:51<6:32:30,  2.35s/it] 33%|████████████████████████████████████████████████████████████████▌                                                                                                                                 | 4992/15000 [3:32:53<6:32:27,  2.35s/it] 33%|████████████████████████████████████████████████████████████████▌                                                                                                                                 | 4993/15000 [3:32:56<6:32:39,  2.35s/it] 33%|████████████████████████████████████████████████████████████████▌                                                                                                                                 | 4994/15000 [3:32:58<6:32:50,  2.36s/it] 33%|████████████████████████████████████████████████████████████████▌                                                                                                                                 | 4995/15000 [3:33:00<6:32:54,  2.36s/it] 33%|████████████████████████████████████████████████████████████████▌                                                                                                                                 | 4996/15000 [3:33:03<6:32:35,  2.35s/it] 33%|████████████████████████████████████████████████████████████████▋                                                                                                                                 | 4997/15000 [3:33:05<6:32:31,  2.35s/it] 33%|████████████████████████████████████████████████████████████████▋                                                                                                                                 | 4998/15000 [3:33:07<6:32:16,  2.35s/it] 33%|████████████████████████████████████████████████████████████████▋                                                                                                                                 | 4999/15000 [3:33:10<6:32:13,  2.35s/it] 33%|████████████████████████████████████████████████████████████████▋                                                                                                                                 | 5000/15000 [3:33:12<6:32:54,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.8627, 'grad_norm': 1.6640625, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3465.45, 'total_tokens': 40848841, 'epoch': 0.33}
+ 33%|████████████████████████████████████████████████████████████████▋                                                                                                                                 | 5000/15000 [3:33:12<6:32:54,  2.36s/it][2025-11-17 01:16:04,099] [INFO] [axolotl.core.trainers.base._save:676] [PID:7990] Saving model checkpoint to ./outputs/gemma-3-12b-focus-pt/checkpoint-5000
+ 33%|████████████████████████████████████████████████████████████████▎                                                                                                                                | 5001/15000 [3:33:53<38:34:46, 13.89s/it] 33%|████████████████████████████████████████████████████████████████▎                                                                                                                                | 5002/15000 [3:33:55<28:57:52, 10.43s/it] 33%|████████████████████████████████████████████████████████████████▎                                                                                                                                | 5003/15000 [3:33:58<22:14:00,  8.01s/it] 33%|████████████████████████████████████████████████████████████████▍                                                                                                                                | 5004/15000 [3:34:00<17:31:35,  6.31s/it] 33%|████████████████████████████████████████████████████████████████▍                                                                                                                                | 5005/15000 [3:34:02<14:13:45,  5.13s/it] 33%|████████████████████████████████████████████████████████████████▍                                                                                                                                | 5006/15000 [3:34:05<11:55:07,  4.29s/it] 33%|████████████████████████████████████████████████████████████████▍                                                                                                                                | 5007/15000 [3:34:07<10:17:55,  3.71s/it] 33%|████████████████████████████████████████████████████████████████▊                                                                                                                                 | 5008/15000 [3:34:09<9:09:59,  3.30s/it] 33%|████████████████████████████████████████████████████████████████▊                                                                                                                                 | 5009/15000 [3:34:12<8:22:35,  3.02s/it] 33%|████████████████████████████████████████████████████████████████▊                                                                                                                                 | 5010/15000 [3:34:14<7:49:10,  2.82s/it]                                                                                                                                                                                                                                                {'loss': 2.8845, 'grad_norm': 1.7578125, 'learning_rate': 4.999990506680591e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3491.56, 'total_tokens': 40930655, 'epoch': 0.33}
+ 33%|████████████████████████████████████████████████████████████████▊                                                                                                                                 | 5010/15000 [3:34:14<7:49:10,  2.82s/it] 33%|████████████████████████████████████████████████████████████████▊                                                                                                                                 | 5011/15000 [3:34:16<7:26:12,  2.68s/it] 33%|████████████████████████████████████████████████████████████████▊                                                                                                                                 | 5012/15000 [3:34:19<7:10:02,  2.58s/it] 33%|████████████████████████████████████████████████████████████████▊                                                                                                                                 | 5013/15000 [3:34:21<6:58:18,  2.51s/it] 33%|████████████████████████████████████████████████████████████████▊                                                                                                                                 | 5014/15000 [3:34:24<6:50:17,  2.47s/it] 33%|████████████████████████████████████████████████████████████████▊                                                                                                                                 | 5015/15000 [3:34:26<6:44:30,  2.43s/it] 33%|████████████████████████████████████████████████████████████████▊                                                                                                                                 | 5016/15000 [3:34:28<6:40:23,  2.41s/it] 33%|████████████████████████████████████████████████████████████████▉                                                                                                                                 | 5017/15000 [3:34:31<6:37:42,  2.39s/it] 33%|████████████████████████████████████████████████████████████████▉                                                                                                                                 | 5018/15000 [3:34:33<6:35:57,  2.38s/it] 33%|████████████████████████████████████████████████████████████████▉                                                                                                                                 | 5019/15000 [3:34:35<6:34:24,  2.37s/it] 33%|████████████████████████████████████████████████████████████████▉                                                                                                                                 | 5020/15000 [3:34:38<6:33:34,  2.37s/it]                                                                                                                                                                                                                                                {'loss': 2.8851, 'grad_norm': 1.8046875, 'learning_rate': 4.999957690365255e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3486.13, 'total_tokens': 41012501, 'epoch': 0.33}
+ 33%|████████████████████████████████████████████████████████████████��                                                                                                                                 | 5020/15000 [3:34:38<6:33:34,  2.37s/it] 33%|████████████████████████████████████████████████████████████████▉                                                                                                                                 | 5021/15000 [3:34:40<6:32:53,  2.36s/it] 33%|████████████████████████████████████████████████████████████████▉                                                                                                                                 | 5022/15000 [3:34:42<6:32:40,  2.36s/it] 33%|████████████████████████████████████████████████████████████████▉                                                                                                                                 | 5023/15000 [3:34:45<6:31:58,  2.36s/it] 33%|████████████████████████████████████████████████████████████████▉                                                                                                                                 | 5024/15000 [3:34:47<6:31:47,  2.36s/it] 34%|████████████████████████████████████████████████████████████████▉                                                                                                                                 | 5025/15000 [3:34:49<6:31:52,  2.36s/it] 34%|█████████████████████████████████████████████████████████████████                                                                                                                                 | 5026/15000 [3:34:52<6:31:38,  2.36s/it] 34%|█████████████████████████████████████████████████████████████████                                                                                                                                 | 5027/15000 [3:34:54<6:31:06,  2.35s/it] 34%|█████████████████████████████████████████████████████████████████                                                                                                                                 | 5028/15000 [3:34:56<6:31:10,  2.35s/it] 34%|█████████████████████████████████████████████████████████████████                                                                                                                                 | 5029/15000 [3:34:59<6:31:13,  2.35s/it] 34%|█████████████████████████████████████████████████████████████████                                                                                                                                 | 5030/15000 [3:35:01<6:31:07,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.782, 'grad_norm': 1.703125, 'learning_rate': 4.9999014341763244e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3486.28, 'total_tokens': 41094285, 'epoch': 0.34}
+ 34%|█████████████████████████████████████████████████████████████████                                                                                                                                 | 5030/15000 [3:35:01<6:31:07,  2.35s/it] 34%|█████████████████████████████████████████████████████████████████                                                                                                                                 | 5031/15000 [3:35:04<6:31:07,  2.35s/it] 34%|█████████████████████████████████████████████████████████████████                                                                                                                                 | 5032/15000 [3:35:06<6:31:16,  2.36s/it] 34%|█████████████████████████████████████████████████████████████████                                                                                                                                 | 5033/15000 [3:35:08<6:31:04,  2.35s/it] 34%|█████████████████████████████████████████████████████████████████                                                                                                                                 | 5034/15000 [3:35:11<6:30:47,  2.35s/it] 34%|█████████████████████████████████████████████████████████████████                                                                                                                                 | 5035/15000 [3:35:13<6:30:25,  2.35s/it] 34%|█████████████████████████████████████████████████████████████████▏                                                                                                                                | 5036/15000 [3:35:15<6:30:37,  2.35s/it] 34%|█████████████████████████████████████████████████████████████████▏                                                                                                                                | 5037/15000 [3:35:18<6:30:40,  2.35s/it] 34%|█████████████████████████████████████████████████████████████████▏                                                                                                                                | 5038/15000 [3:35:20<6:30:46,  2.35s/it] 34%|█████████████████████████████████████████████████████████████████▏                                                                                                                                | 5039/15000 [3:35:22<6:30:44,  2.35s/it] 34%|█████████████████████████████████████████████████████████████████▏                                                                                                                                | 5040/15000 [3:35:25<6:30:31,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.8963, 'grad_norm': 1.828125, 'learning_rate': 4.999821738669025e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3492.84, 'total_tokens': 41176128, 'epoch': 0.34}
+ 34%|█████████████████████████████████████████████████████████████████▏                                                                                                                                | 5040/15000 [3:35:25<6:30:31,  2.35s/it] 34%|█████████████████████████████████████████████████████████████████▏                                                                                                                                | 5041/15000 [3:35:27<6:30:37,  2.35s/it] 34%|█████████████████████████████████████████████████████████████████▏                                                                                                                                | 5042/15000 [3:35:29<6:31:13,  2.36s/it] 34%|███████████████████████████████████████��█████████████████████████▏                                                                                                                                | 5043/15000 [3:35:32<6:30:48,  2.35s/it] 34%|█████████████████████████████████████████████████████████████████▏                                                                                                                                | 5044/15000 [3:35:34<6:30:39,  2.35s/it] 34%|█████████████████████████████████████████████████████████████████▏                                                                                                                                | 5045/15000 [3:35:37<6:30:43,  2.35s/it] 34%|█████████████████████████████████████████████████████████████████▎                                                                                                                                | 5046/15000 [3:35:39<6:30:26,  2.35s/it] 34%|█████████████████████████████████████████████████████████████████▎                                                                                                                                | 5047/15000 [3:35:41<6:30:34,  2.35s/it] 34%|█████████████████████████████████████████████████████████████████▎                                                                                                                                | 5048/15000 [3:35:44<6:30:51,  2.36s/it] 34%|█████████████████████████████████████████████████████████████████▎                                                                                                                                | 5049/15000 [3:35:46<6:30:45,  2.36s/it] 34%|█████████████████████████████████████████████████████████████████▎                                                                                                                                | 5050/15000 [3:35:48<6:30:33,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.8774, 'grad_norm': 1.8125, 'learning_rate': 4.999718604629919e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3487.17, 'total_tokens': 41257928, 'epoch': 0.34}
+ 34%|█████████████████████████████████████████████████████████████████▎                                                                                                                                | 5050/15000 [3:35:48<6:30:33,  2.36s/it] 34%|█████████████████████████████████████████████████████████████████▎                                                                                                                                | 5051/15000 [3:35:51<6:30:38,  2.36s/it] 34%|█████████████████████████████████████████████████████████████████▎                                                                                                                                | 5052/15000 [3:35:53<6:30:32,  2.36s/it] 34%|█████████████████████████████████████████████████████████████████▎                                                                                                                                | 5053/15000 [3:35:55<6:30:34,  2.36s/it] 34%|█████████████████████████████████████████████████████████████████▎                                                                                                                                | 5054/15000 [3:35:58<6:32:30,  2.37s/it] 34%|█████████████████████████████████████████████████████████████████▍                                                                                                                                | 5055/15000 [3:36:00<6:31:24,  2.36s/it] 34%|█████████████████████████████████████████████████████████████████▍                                                                                                                                | 5056/15000 [3:36:02<6:30:51,  2.36s/it] 34%|█████████████████████████████████████████████████████████████████▍                                                                                                                                | 5057/15000 [3:36:05<6:30:29,  2.36s/it] 34%|█████████████████████████████████████████████████████████████████▍                                                                                                                                | 5058/15000 [3:36:07<6:30:18,  2.36s/it] 34%|█████████████████████████████████████████████████████████████████▍                                                                                                                                | 5059/15000 [3:36:10<6:30:02,  2.35s/it] 34%|█████████████████████████████████████████████████████████████████▍                                                                                                                                | 5060/15000 [3:36:12<6:30:16,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.8662, 'grad_norm': 1.8359375, 'learning_rate': 4.999592033076898e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3478.21, 'total_tokens': 41339752, 'epoch': 0.34}
+ 34%|█████████████████████████████████████████████████████████████████▍                                                                                                                                | 5060/15000 [3:36:12<6:30:16,  2.36s/it] 34%|█████████████████████████████████████████████████████████████████▍                                                                                                                                | 5061/15000 [3:36:14<6:30:20,  2.36s/it] 34%|█████████████████████████████████████████████████████████████████▍                                                                                                                                | 5062/15000 [3:36:17<6:29:54,  2.35s/it] 34%|█████████████████████████████████████████████████████████████████▍                                                                                                                                | 5063/15000 [3:36:19<6:29:59,  2.35s/it] 34%|█████████████████████████████████████████████████████████████████▍                                                                                                                                | 5064/15000 [3:36:21<6:29:28,  2.35s/it] 34%|█████████████████████████████████████████████████████████████████▌                                                                                                                                | 5065/15000 [3:36:24<6:29:09,  2.35s/it] 34%|███��█████████████████████████████████████████████████████████████▌                                                                                                                                | 5066/15000 [3:36:26<6:28:50,  2.35s/it] 34%|█████████████████████████████████████████████████████████████████▌                                                                                                                                | 5067/15000 [3:36:28<6:28:58,  2.35s/it] 34%|█████████████████████████████████████████████████████████████████▌                                                                                                                                | 5068/15000 [3:36:31<6:29:04,  2.35s/it] 34%|█████████████████████████████████████████████████████████████████▌                                                                                                                                | 5069/15000 [3:36:33<6:28:50,  2.35s/it] 34%|█████████████████████████████████████████████████████████████████▌                                                                                                                                | 5070/15000 [3:36:35<6:28:51,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.8335, 'grad_norm': 1.78125, 'learning_rate': 4.999442025259172e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3490.32, 'total_tokens': 41421539, 'epoch': 0.34}
+ 34%|█████████████████████████████████████████████████████████████████▌                                                                                                                                | 5070/15000 [3:36:35<6:28:51,  2.35s/it] 34%|█████████████████████████████████████████████████████████████████▌                                                                                                                                | 5071/15000 [3:36:38<6:29:24,  2.35s/it] 34%|█████████████████████████████████████████████████████████████████▌                                                                                                                                | 5072/15000 [3:36:40<6:29:24,  2.35s/it] 34%|█████████████████████████████████████████████████████████████████▌                                                                                                                                | 5073/15000 [3:36:42<6:29:02,  2.35s/it] 34%|█████████████████████████████████████████████████████████████████▌                                                                                                                                | 5074/15000 [3:36:45<6:29:18,  2.35s/it] 34%|█████████████████████████████████████████████████████████████████▋                                                                                                                                | 5075/15000 [3:36:47<6:29:29,  2.35s/it] 34%|█████████████████████████████████████████████████████████████████▋                                                                                                                                | 5076/15000 [3:36:50<6:29:55,  2.36s/it] 34%|█████████████████████████████████████████████████████████████████▋                                                                                                                                | 5077/15000 [3:36:52<6:29:40,  2.36s/it] 34%|█████████████████████████████████████████████████████████████████▋                                                                                                                                | 5078/15000 [3:36:54<6:29:25,  2.35s/it] 34%|█████████████████████████████████████████████████████████████████▋                                                                                                                                | 5079/15000 [3:36:57<6:29:24,  2.36s/it] 34%|█████████████████████████████████████████████████████████████████▋                                                                                                                                | 5080/15000 [3:36:59<6:29:12,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.8263, 'grad_norm': 1.7578125, 'learning_rate': 4.999268582657258e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3488.75, 'total_tokens': 41503337, 'epoch': 0.34}
+ 34%|█████████████████████████████████████████████████████████████████▋                                                                                                                                | 5080/15000 [3:36:59<6:29:12,  2.35s/it] 34%|█████████████████████████████████████████████████████████████████▋                                                                                                                                | 5081/15000 [3:37:01<6:29:26,  2.36s/it] 34%|█████████████████████████████████████████████████████████████████▋                                                                                                                                | 5082/15000 [3:37:04<6:29:38,  2.36s/it] 34%|█████████████████████████████████████████████████████████████████▋                                                                                                                                | 5083/15000 [3:37:06<6:29:11,  2.35s/it] 34%|█████████████████████████████████████████████████████████████████▊                                                                                                                                | 5084/15000 [3:37:08<6:29:06,  2.35s/it] 34%|█████████████████████████████████████████████████████████████████▊                                                                                                                                | 5085/15000 [3:37:11<6:29:09,  2.35s/it] 34%|█████████████████████████████████████████████████████████████████▊                                                                                                                                | 5086/15000 [3:37:13<6:28:39,  2.35s/it] 34%|█████████████████████████████████████████████████████████████████▊                                                                                                                                | 5087/15000 [3:37:15<6:28:43,  2.35s/it] 34%|█████████████████████████████████████████████████████████████████▊                                                                                                                                | 5088/15000 [3:37:18<6:28:19,  2.35s/it] 34%|█████████████████████████████████████████████████████████████████▊                                                                                                                                | 5089/15000 [3:37:20<6:28:43,  2.35s/it] 34%|█████████████████████████████████████████████████████████████████▊                                                                                                                                | 5090/15000 [3:37:22<6:28:45,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.9175, 'grad_norm': 1.8515625, 'learning_rate': 4.999071706982964e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3483.22, 'total_tokens': 41585106, 'epoch': 0.34}
+ 34%|█████████████████████████████████████████████████████████████████▊                                                                                                                                | 5090/15000 [3:37:22<6:28:45,  2.35s/it] 34%|█████████████████████████████████████████████████████████████████▊                                                                                                                                | 5091/15000 [3:37:25<6:28:50,  2.35s/it] 34%|█████████████████████████████████████████████████████████████████▊                                                                                                                                | 5092/15000 [3:37:27<6:28:49,  2.35s/it] 34%|█████████████████████████████████████████████████████████████████▊                                                                                                                                | 5093/15000 [3:37:30<6:28:41,  2.35s/it] 34%|█████████████████████████████████████████████████████████████████▉                                                                                                                                | 5094/15000 [3:37:32<6:28:48,  2.36s/it] 34%|█████████████████████████████████████████████████████████████████▉                                                                                                                                | 5095/15000 [3:37:35<6:51:58,  2.50s/it] 34%|█████████████████████████████████████████████████████████████████▉                                                                                                                                | 5096/15000 [3:37:37<6:44:55,  2.45s/it] 34%|█████████████████████████████████████████████████████████████████▉                                                                                                                                | 5097/15000 [3:37:39<6:40:06,  2.42s/it] 34%|█████████████████████████████████████████████████████████████████▉                                                                                                                                | 5098/15000 [3:37:42<6:36:37,  2.40s/it] 34%|█████████████████████████████████████████████████████████████████▉                                                                                                                                | 5099/15000 [3:37:44<6:34:19,  2.39s/it] 34%|█████████████████████████████████████████████████████████████████▉                                                                                                                                | 5100/15000 [3:37:46<6:32:42,  2.38s/it]                                                                                                                                                                                                                                                {'loss': 2.8996, 'grad_norm': 1.703125, 'learning_rate': 4.998851400179374e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3478.03, 'total_tokens': 41666875, 'epoch': 0.34}
+ 34%|█████████████████████████████████████████████████████████████████▉                                                                                                                                | 5100/15000 [3:37:46<6:32:42,  2.38s/it] 34%|█████████████████████████████████████████████████████████████████▉                                                                                                                                | 5101/15000 [3:37:49<6:31:11,  2.37s/it] 34%|█████████████████████████████████████████████████████████████████▉                                                                                                                                | 5102/15000 [3:37:51<6:30:23,  2.37s/it] 34%|█████████████████████████████████████████████████████████████████▉                                                                                                                                | 5103/15000 [3:37:54<6:29:31,  2.36s/it] 34%|██████████████████████████████████████████████████████████████████                                                                                                                                | 5104/15000 [3:37:56<6:29:07,  2.36s/it] 34%|██████████████████████████████████████████████████████████████████                                                                                                                                | 5105/15000 [3:37:58<6:29:01,  2.36s/it] 34%|██████████████████████████████████████████████████████████████████                                                                                                                                | 5106/15000 [3:38:01<6:28:56,  2.36s/it] 34%|██████████████████████████████████████████████████████████████████                                                                                                                                | 5107/15000 [3:38:03<6:28:56,  2.36s/it] 34%|██████████████████████████████████████████████████████████████████                                                                                                                                | 5108/15000 [3:38:05<6:28:11,  2.35s/it] 34%|██████████████████████████████████████████████████████████████████                                                                                                                                | 5109/15000 [3:38:08<6:28:15,  2.36s/it] 34%|██████████████████████████████████████████████████████████████████                                                                                                                                | 5110/15000 [3:38:10<6:27:45,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.8352, 'grad_norm': 1.671875, 'learning_rate': 4.9986076644208265e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3498.29, 'total_tokens': 41748688, 'epoch': 0.34}
+ 34%|██████████████████████████████████████████████████████████████████                                                                                                                                | 5110/15000 [3:38:10<6:27:45,  2.35s/it] 34%|██████████████████████████████████████████████████████████████████                                                                                                                                | 5111/15000 [3:38:12<6:27:39,  2.35s/it] 34%|██████████████████████████████████████████████████████████████████                                                                                                                                | 5112/15000 [3:38:15<6:27:38,  2.35s/it] 34%|██████████████████████████████████████████████████████████████████▏                                                                                                                               | 5113/15000 [3:38:17<6:27:36,  2.35s/it] 34%|██████████████████████████████████████████████████████████████████▏                                                                                                                               | 5114/15000 [3:38:19<6:27:37,  2.35s/it] 34%|██████████████████████████████████████████████████████████████████▏                                                                                                                               | 5115/15000 [3:38:22<6:27:58,  2.35s/it] 34%|██████████████████████████████████████████████████████████████████▏                                                                                                                               | 5116/15000 [3:38:24<6:28:15,  2.36s/it] 34%|██████████████████████████████████████████████████████████████████▏                                                                                                                               | 5117/15000 [3:38:26<6:27:42,  2.35s/it] 34%|██████████████████████████████████████████████████████████████████▏                                                                                                                               | 5118/15000 [3:38:29<6:27:43,  2.35s/it] 34%|██████████████████████████████████████████████████████████████████▏                                                                                                                               | 5119/15000 [3:38:31<6:27:11,  2.35s/it] 34%|██████████████████████████████████████████████████████████████████▏                                                                                                                               | 5120/15000 [3:38:34<6:27:31,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.8259, 'grad_norm': 1.765625, 'learning_rate': 4.998340502112896e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3476.99, 'total_tokens': 41830448, 'epoch': 0.34}
+ 34%|██████████████████████████████████████████████████████████████████▏                                                                                                                               | 5120/15000 [3:38:34<6:27:31,  2.35s/it] 34%|██████████████████████████████████████████████████████████████████▏                                                                                                                               | 5121/15000 [3:38:36<6:27:22,  2.35s/it] 34%|██████████████████████████████████████████████████████████████████▏                                                                                                                               | 5122/15000 [3:38:38<6:27:35,  2.35s/it] 34%|██████████████████████████████████████████████████████████████████▎                                                                                                                               | 5123/15000 [3:38:41<6:27:48,  2.36s/it] 34%|██████████████████████████████████████████████████████████████████▎                                                                                                                               | 5124/15000 [3:38:43<6:27:48,  2.36s/it] 34%|██████████████████████████████████████████████████████████████████▎                                                                                                                               | 5125/15000 [3:38:45<6:27:34,  2.35s/it] 34%|██████████████████████████████████████████████████████████████████▎                                                                                                                               | 5126/15000 [3:38:48<6:27:46,  2.36s/it] 34%|██████████████████████████████████████████████████████████████████▎                                                                                                                               | 5127/15000 [3:38:50<6:27:27,  2.35s/it] 34%|██████████████████████████████████████████████████████████████████▎                                                                                                                               | 5128/15000 [3:38:52<6:27:34,  2.36s/it] 34%|██████████████████████████████████████████████████████████████████▎                                                                                                                               | 5129/15000 [3:38:55<6:27:27,  2.36s/it] 34%|██████████████████████████████████████████████████████████████████▎                                                                                                                               | 5130/15000 [3:38:57<6:27:11,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.8198, 'grad_norm': 1.7578125, 'learning_rate': 4.9980499158923646e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3488.23, 'total_tokens': 41912191, 'epoch': 0.34}
+ 34%|██████████████████████████████████████████████████████████████████▎                                                                                                                               | 5130/15000 [3:38:57<6:27:11,  2.35s/it] 34%|██████████████████████████████████████████████████████████████████▎                                                                                                                               | 5131/15000 [3:38:59<6:27:20,  2.35s/it] 34%|██████████████████████████████████████████████████████████████████▎                                                                                                                               | 5132/15000 [3:39:02<6:26:59,  2.35s/it] 34%|██████████████████████████████████████████████████████████████████▍                                                                                                                               | 5133/15000 [3:39:04<6:27:18,  2.36s/it] 34%|██████████████████████████████████████████████████████████████████▍                                                                                                                               | 5134/15000 [3:39:07<6:27:34,  2.36s/it] 34%|██████████████████████████████████████████████████████████████████▍                                                                                                                               | 5135/15000 [3:39:09<6:27:07,  2.35s/it] 34%|██████████████████████████████████████████████████████████████████▍                                                                                                                               | 5136/15000 [3:39:11<6:26:56,  2.35s/it] 34%|██████████████████████████████████████████████████████████████████▍                                                                                                                               | 5137/15000 [3:39:14<6:27:05,  2.35s/it] 34%|██████████████████████████████████████████████████████████████████▍                                                                                                                               | 5138/15000 [3:39:16<6:26:43,  2.35s/it] 34%|██████████████████████████████████████████████████████████████████▍                                                                                                                               | 5139/15000 [3:39:18<6:26:44,  2.35s/it] 34%|██████████████████████████████████████████████████████████████████▍                                                                                                                               | 5140/15000 [3:39:21<6:26:55,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.8614, 'grad_norm': 1.734375, 'learning_rate': 4.9977359086272035e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3477.23, 'total_tokens': 41993931, 'epoch': 0.34}
+ 34%|██████████████████████████████████████████████████████████████████▍                                                                                                                               | 5140/15000 [3:39:21<6:26:55,  2.35s/it] 34%|██████████████████████████████████████████████████████████████████▍                                                                                                                               | 5141/15000 [3:39:23<6:26:54,  2.35s/it] 34%|██████████████████████████████████████████████████████████████████▌                                                                                                                               | 5142/15000 [3:39:25<6:26:49,  2.35s/it] 34%|██████████████████████████████████████████████████████████████████▌                                                                                                                               | 5143/15000 [3:39:28<6:26:27,  2.35s/it] 34%|██████████████████████████████████████████████████████████████████▌                                                                                                                               | 5144/15000 [3:39:30<6:26:26,  2.35s/it] 34%|██████████████████████████████████████████████████████████████████▌                                                                                                                               | 5145/15000 [3:39:32<6:26:27,  2.35s/it] 34%|██████████████████████████████████████████████████████████████████▌                                                                                                                               | 5146/15000 [3:39:35<6:26:25,  2.35s/it] 34%|██████████████████████████████████████████████████████████████████▌                                                                                                                               | 5147/15000 [3:39:37<6:26:39,  2.35s/it] 34%|██████████████████████████████████████████████████████████████████▌                                                                                                                               | 5148/15000 [3:39:39<6:26:26,  2.35s/it] 34%|██████████████████████████████████████████████████████████████████▌                                                                                                                               | 5149/15000 [3:39:42<6:26:37,  2.35s/it] 34%|██████████████████████████████████████████████████████████████████▌                                                                                                                               | 5150/15000 [3:39:44<6:26:29,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.9119, 'grad_norm': 1.7109375, 'learning_rate': 4.9973984834165354e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3483.59, 'total_tokens': 42075660, 'epoch': 0.34}
+ 34%|██████████████████████████████████████████████████████████████████▌                                                                                                                               | 5150/15000 [3:39:44<6:26:29,  2.35s/it] 34%|██████████████████████████████████████████████████████████████████▌                                                                                                                               | 5151/15000 [3:39:47<6:26:13,  2.35s/it] 34%|██████████████████████████████████████████████████████████████████▋                                                                                                                               | 5152/15000 [3:39:49<6:26:18,  2.35s/it] 34%|██████████████████████████████████████████████████████████████████▋                                                                                                                               | 5153/15000 [3:39:51<6:26:29,  2.35s/it] 34%|████████████████████████████���█████████████████████████████████████▋                                                                                                                               | 5154/15000 [3:39:54<6:26:26,  2.35s/it] 34%|██████████████████████████████████████████████████████████████████▋                                                                                                                               | 5155/15000 [3:39:56<6:26:15,  2.35s/it] 34%|██████████████████████████████████████████████████████████████████▋                                                                                                                               | 5156/15000 [3:39:58<6:26:11,  2.35s/it] 34%|██████████████████████████████████████████████████████████████████▋                                                                                                                               | 5157/15000 [3:40:01<6:25:59,  2.35s/it] 34%|██████████████████████████████████████████████████████████████████▋                                                                                                                               | 5158/15000 [3:40:03<6:25:18,  2.35s/it] 34%|██████████████████████████████████████████████████████████████████▋                                                                                                                               | 5159/15000 [3:40:05<6:25:35,  2.35s/it] 34%|██████████████████████████████████████████████████████████████████▋                                                                                                                               | 5160/15000 [3:40:08<6:25:49,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.8836, 'grad_norm': 1.859375, 'learning_rate': 4.997037643590613e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3479.47, 'total_tokens': 42157413, 'epoch': 0.34}
+ 34%|██████████████████████████████████████████████████████████████████▋                                                                                                                               | 5160/15000 [3:40:08<6:25:49,  2.35s/it] 34%|██████████████████████████████████████████████████████████████████▋                                                                                                                               | 5161/15000 [3:40:10<6:26:09,  2.35s/it] 34%|██████████████████████████████████████████████████████████████████▊                                                                                                                               | 5162/15000 [3:40:12<6:26:09,  2.36s/it] 34%|██████████████████████████████████████████████████████████████████▊                                                                                                                               | 5163/15000 [3:40:15<6:25:47,  2.35s/it] 34%|██████████████████████████████████████████████████████████████████▊                                                                                                                               | 5164/15000 [3:40:17<6:25:48,  2.35s/it] 34%|████████████████████████████████████████████████████████████████���█▊                                                                                                                               | 5165/15000 [3:40:19<6:25:59,  2.35s/it] 34%|██████████████████████████████████████████████████████████████████▊                                                                                                                               | 5166/15000 [3:40:22<6:25:59,  2.36s/it] 34%|██████████████████████████████████████████████████████████████████▊                                                                                                                               | 5167/15000 [3:40:24<6:25:51,  2.35s/it] 34%|██████████████████████████████████████████████████████████████████▊                                                                                                                               | 5168/15000 [3:40:27<6:25:57,  2.36s/it] 34%|██████████████████████████████████████████████████████████████████▊                                                                                                                               | 5169/15000 [3:40:29<6:25:52,  2.36s/it] 34%|██████████████████████████████████████████████████████████████████▊                                                                                                                               | 5170/15000 [3:40:31<6:25:26,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.8124, 'grad_norm': 1.6875, 'learning_rate': 4.996653392710778e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3491.18, 'total_tokens': 42239118, 'epoch': 0.34}
+ 34%|██████████████████████████████████████████████████████████████████▊                                                                                                                               | 5170/15000 [3:40:31<6:25:26,  2.35s/it] 34%|██████████████████████████████████████████████████████████████████▉                                                                                                                               | 5171/15000 [3:40:34<6:25:47,  2.35s/it] 34%|██████████████████████████████████████████████████████████████████▉                                                                                                                               | 5172/15000 [3:40:36<6:25:34,  2.35s/it] 34%|██████████████████████████████████████████████████████████████████▉                                                                                                                               | 5173/15000 [3:40:38<6:25:40,  2.35s/it] 34%|██████████████████████████████████████████████████████████████████▉                                                                                                                               | 5174/15000 [3:40:41<6:25:31,  2.35s/it] 34%|██████████████████████████████████████████████████████████████████▉                                                                                                                               | 5175/15000 [3:40:43<6:25:30,  2.35s/it] 35%|██████████████████████████████████████████████████████████████████▉                                                                                                                               | 5176/15000 [3:40:45<6:25:26,  2.35s/it] 35%|██████████████████████████████████████████████████████████████████▉                                                                                                                               | 5177/15000 [3:40:48<6:25:25,  2.35s/it] 35%|██████████████████████████████████████████████████████████████████▉                                                                                                                               | 5178/15000 [3:40:50<6:25:31,  2.36s/it] 35%|██████████████████████████████████████████████████████████████████▉                                                                                                                               | 5179/15000 [3:40:52<6:25:55,  2.36s/it] 35%|██████████████████████████████████████████████████████████████████▉                                                                                                                               | 5180/15000 [3:40:55<6:25:30,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.7593, 'grad_norm': 1.75, 'learning_rate': 4.996245734569432e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3489.72, 'total_tokens': 42320884, 'epoch': 0.35}
+ 35%|██████████████████████████████████████████████████████████████████▉                                                                                                                               | 5180/15000 [3:40:55<6:25:30,  2.36s/it] 35%|███████████████████████████████████████████████████████████████████                                                                                                                               | 5181/15000 [3:40:57<6:25:35,  2.36s/it] 35%|███████████████████████████████████████████████████████████████████                                                                                                                               | 5182/15000 [3:41:00<6:25:13,  2.35s/it] 35%|███████████████████████████████████████████████████████████████████                                                                                                                               | 5183/15000 [3:41:02<6:25:20,  2.36s/it] 35%|███████████████████████████████████████████████████████████████████                                                                                                                               | 5184/15000 [3:41:04<6:24:57,  2.35s/it] 35%|███████████████████████████████████████████████████████████████████                                                                                                                               | 5185/15000 [3:41:07<6:25:11,  2.35s/it] 35%|███████████████████████████████████████████████████████████████████                                                                                                                               | 5186/15000 [3:41:09<6:25:02,  2.35s/it] 35%|███████████████████████████████████████████████████████████████████                                                                                                                               | 5187/15000 [3:41:11<6:25:12,  2.36s/it] 35%|█████████████���█████████████████████████████████████████████████████                                                                                                                               | 5188/15000 [3:41:14<6:24:56,  2.35s/it] 35%|███████████████████████████████████████████████████████████████████                                                                                                                               | 5189/15000 [3:41:16<6:25:03,  2.35s/it] 35%|███████████████████████████████████████████████████████████████████                                                                                                                               | 5190/15000 [3:41:18<6:24:37,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.8746, 'grad_norm': 1.8828125, 'learning_rate': 4.995814673189997e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3490.02, 'total_tokens': 42402549, 'epoch': 0.35}
+ 35%|███████████████████████████████████████████████████████████████████                                                                                                                               | 5190/15000 [3:41:18<6:24:37,  2.35s/it] 35%|███████████████████████████████████████████████████████████████████▏                                                                                                                              | 5191/15000 [3:41:21<6:24:46,  2.35s/it] 35%|███████████████████████████████████████████████████████████████████▏                                                                                                                              | 5192/15000 [3:41:23<6:24:29,  2.35s/it] 35%|███████████████████████████████████████████████████████████████████▏                                                                                                                              | 5193/15000 [3:41:25<6:24:37,  2.35s/it] 35%|███████████████████████████████████████████████████████████████████▏                                                                                                                              | 5194/15000 [3:41:28<6:24:44,  2.35s/it] 35%|███████████████████████████████████████████████████████████████████▏                                                                                                                              | 5195/15000 [3:41:30<6:24:52,  2.36s/it] 35%|███████████████████████████████████████████████████████████████████▏                                                                                                                              | 5196/15000 [3:41:32<6:24:59,  2.36s/it] 35%|███████████████████████████████████████████████████████████████████▏                                                                                                                              | 5197/15000 [3:41:35<6:24:44,  2.35s/it] 35%|███████████████████████████████████████████████████████████████████▏                                                                                                                              | 5198/15000 [3:41:37<6:24:48,  2.36s/it] 35%|███████████████████████████████████████████��███████████████████████▏                                                                                                                              | 5199/15000 [3:41:40<6:24:33,  2.35s/it] 35%|███████████████████████████████████████████████████████████████████▎                                                                                                                              | 5200/15000 [3:41:42<6:24:36,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.8501, 'grad_norm': 1.765625, 'learning_rate': 4.995360212826875e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3479.58, 'total_tokens': 42484272, 'epoch': 0.35}
+ 35%|███████████████████████████████████████████████████████████████████▎                                                                                                                              | 5200/15000 [3:41:42<6:24:36,  2.35s/it] 35%|███████████████████████████████████████████████████████████████████▎                                                                                                                              | 5201/15000 [3:41:44<6:24:45,  2.36s/it] 35%|███████████████████████████████████████████████████████████████████▎                                                                                                                              | 5202/15000 [3:41:47<6:24:43,  2.36s/it] 35%|███████████████████████████████████████████████████████████████████▎                                                                                                                              | 5203/15000 [3:41:49<6:24:26,  2.35s/it] 35%|███████████████████████████████████████████████████████████████████▎                                                                                                                              | 5204/15000 [3:41:51<6:24:33,  2.36s/it] 35%|███████████████████████████████████████████████████████████████████▎                                                                                                                              | 5205/15000 [3:41:54<6:24:17,  2.35s/it] 35%|███████████████████████████████████████████████████████████████████▎                                                                                                                              | 5206/15000 [3:41:56<6:24:31,  2.36s/it] 35%|███████████████████████████████████████████████████████████████████▎                                                                                                                              | 5207/15000 [3:41:58<6:24:34,  2.36s/it] 35%|███████████████████████████████████████████████████████████████████▎                                                                                                                              | 5208/15000 [3:42:01<6:24:21,  2.36s/it] 35%|███████████████████████████████████████████████████████████████████▎                                                                                                                              | 5209/15000 [3:42:03<6:24:19,  2.36s/it] 35%|███████████████████████████████████████████████████████████████████▍                                                                                                                              | 5210/15000 [3:42:05<6:24:43,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.8968, 'grad_norm': 1.7421875, 'learning_rate': 4.994882357965405e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3469.78, 'total_tokens': 42566063, 'epoch': 0.35}
+ 35%|███████████████████████████████████████████████████████████████████▍                                                                                                                              | 5210/15000 [3:42:05<6:24:43,  2.36s/it] 35%|███████████████████████████████████████████████████████████████████▍                                                                                                                              | 5211/15000 [3:42:08<6:24:15,  2.36s/it] 35%|███████████████████████████████████████████████████████████████████▍                                                                                                                              | 5212/15000 [3:42:10<6:24:12,  2.36s/it] 35%|███████████████████████████████████████████████████████████████████▍                                                                                                                              | 5213/15000 [3:42:13<6:23:42,  2.35s/it] 35%|███████████████████████████████████████████████████████████████████▍                                                                                                                              | 5214/15000 [3:42:15<6:23:42,  2.35s/it] 35%|███████████████████████████████████████████████████████████████████▍                                                                                                                              | 5215/15000 [3:42:17<6:23:19,  2.35s/it] 35%|███████████████████████████████████████████████████████████████████▍                                                                                                                              | 5216/15000 [3:42:20<6:23:36,  2.35s/it] 35%|███████████████████████████████████████████████████████████████████▍                                                                                                                              | 5217/15000 [3:42:22<6:23:39,  2.35s/it] 35%|███████████████████████████████████████████████████████████████████▍                                                                                                                              | 5218/15000 [3:42:24<6:24:08,  2.36s/it] 35%|███████████████████████████████████████████████████████████████████▍                                                                                                                              | 5219/15000 [3:42:27<6:23:56,  2.36s/it] 35%|███████████████████████████████████████████████████████████████████▌                                                                                                                              | 5220/15000 [3:42:29<6:24:00,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.7893, 'grad_norm': 1.828125, 'learning_rate': 4.9943811133218216e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3474.74, 'total_tokens': 42647731, 'epoch': 0.35}
+ 35%|███████████████████████████████████████████████████████████████████▌                                                                                                                              | 5220/15000 [3:42:29<6:24:00,  2.36s/it] 35%|███████████████████████████████████████████████████████████████████▌                                                                                                                              | 5221/15000 [3:42:31<6:24:02,  2.36s/it] 35%|███████████████████████████████████████████████████████████████████▌                                                                                                                              | 5222/15000 [3:42:34<6:23:30,  2.35s/it] 35%|███████████████████████████████████████████████████████████████████▌                                                                                                                              | 5223/15000 [3:42:36<6:23:37,  2.35s/it] 35%|███████████████████████████████████████████████████████████████████▌                                                                                                                              | 5224/15000 [3:42:38<6:23:29,  2.35s/it] 35%|███████████████████████████████████████████████████████████████████▌                                                                                                                              | 5225/15000 [3:42:41<6:23:17,  2.35s/it] 35%|███████████████████████████████████████████████████████████████████▌                                                                                                                              | 5226/15000 [3:42:43<6:23:47,  2.36s/it] 35%|███████████████████████████████████████████████████████████████████▌                                                                                                                              | 5227/15000 [3:42:45<6:23:23,  2.35s/it] 35%|███████████████████████████████████████████████████████████████████▌                                                                                                                              | 5228/15000 [3:42:48<6:23:10,  2.35s/it] 35%|███████████████████████████████████████████████████████████████████▋                                                                                                                              | 5229/15000 [3:42:50<6:23:21,  2.35s/it] 35%|███████████████████████████████████████████████████████████████████▋                                                                                                                              | 5230/15000 [3:42:53<6:23:14,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.7868, 'grad_norm': 1.671875, 'learning_rate': 4.993856483843207e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3483.0, 'total_tokens': 42729416, 'epoch': 0.35}
+ 35%|███████████████████████████████████████████████████████████████████▋                                                                                                                              | 5230/15000 [3:42:53<6:23:14,  2.35s/it] 35%|███████████████████████████████████████████████████████████████████▋                                                                                                                              | 5231/15000 [3:42:55<6:23:13,  2.35s/it] 35%|███████████████████████████████████████████████████████████████████▋                                                                                                                              | 5232/15000 [3:42:57<6:23:06,  2.35s/it] 35%|███████████████████████████████████████████████████████████████████▋                                                                                                                              | 5233/15000 [3:43:00<6:23:23,  2.36s/it] 35%|███████████████████████████████████████████████████████████████████▋                                                                                                                              | 5234/15000 [3:43:02<6:22:55,  2.35s/it] 35%|███████████████████████████████████████████████████████████████████▋                                                                                                                              | 5235/15000 [3:43:04<6:23:04,  2.35s/it] 35%|███████████████████████████████████████████████████████████████████▋                                                                                                                              | 5236/15000 [3:43:07<6:23:07,  2.35s/it] 35%|███████████████████████████████████████████████████████████████████▋                                                                                                                              | 5237/15000 [3:43:09<6:23:16,  2.36s/it] 35%|███████████████████████████████████████████████████████████████████▋                                                                                                                              | 5238/15000 [3:43:11<6:23:14,  2.36s/it] 35%|███████████████████████████████████████████████████████████████████▊                                                                                                                              | 5239/15000 [3:43:14<6:23:19,  2.36s/it] 35%|███████████████████████████████████████████████████████████████████▊                                                                                                                              | 5240/15000 [3:43:16<6:23:23,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.8023, 'grad_norm': 1.7421875, 'learning_rate': 4.993308474707444e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3477.53, 'total_tokens': 42811179, 'epoch': 0.35}
+ 35%|███████████████████████████████████████████████████████████████████▊                                                                                                                              | 5240/15000 [3:43:16<6:23:23,  2.36s/it] 35%|███████████████████████████████████████████████████████████████████▊                                                                                                                              | 5241/15000 [3:43:18<6:23:04,  2.36s/it] 35%|███████████████████████████████████████████████████████████████████▊                                                                                                                              | 5242/15000 [3:43:21<6:22:37,  2.35s/it] 35%|███████████████████████████████████████████████████████████████████▊                                                                                                                              | 5243/15000 [3:43:23<6:22:25,  2.35s/it] 35%|███████████████████████████████████████████████████████████████████▊                                                                                                                              | 5244/15000 [3:43:25<6:22:21,  2.35s/it] 35%|███████████████████████████████████████████████████████████████████▊                                                                                                                              | 5245/15000 [3:43:28<6:22:05,  2.35s/it] 35%|███████████████████████████████████████████████████████████████████▊                                                                                                                              | 5246/15000 [3:43:30<6:21:56,  2.35s/it] 35%|███████████████████████████████████████████████████████████████████▊                                                                                                                              | 5247/15000 [3:43:33<6:21:56,  2.35s/it] 35%|███████████████████████████████████████████████████████████████████▊                                                                                                                              | 5248/15000 [3:43:35<6:22:20,  2.35s/it] 35%|███████████████████████████████████████████████████████████████████▉                                                                                                                              | 5249/15000 [3:43:37<6:22:44,  2.36s/it] 35%|███████████████████████████████████████████████████████████████████▉                                                                                                                              | 5250/15000 [3:43:40<6:22:39,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.8298, 'grad_norm': 1.7109375, 'learning_rate': 4.9927370913231605e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3478.31, 'total_tokens': 42892826, 'epoch': 0.35}
+ 35%|███████████████████████████████████████████████████████████████████▉                                                                                                                              | 5250/15000 [3:43:40<6:22:39,  2.35s/it] 35%|███████████████████████████████████████████████████████████████████▉                                                                                                                              | 5251/15000 [3:43:42<6:22:55,  2.36s/it] 35%|███████████████████████████████████████████████████████████████████▉                                                                                                                              | 5252/15000 [3:43:44<6:22:53,  2.36s/it] 35%|███████████��███████████████████████████████████████████████████████▉                                                                                                                              | 5253/15000 [3:43:47<6:22:36,  2.36s/it] 35%|███████████████████████████████████████████████████████████████████▉                                                                                                                              | 5254/15000 [3:43:49<6:22:21,  2.35s/it] 35%|███████████████████████████████████████████████████████████████████▉                                                                                                                              | 5255/15000 [3:43:51<6:22:13,  2.35s/it] 35%|███████████████████████████████████████████████████████████████████▉                                                                                                                              | 5256/15000 [3:43:54<6:22:11,  2.35s/it] 35%|███████████████████████████████████████████████████████████████████▉                                                                                                                              | 5257/15000 [3:43:56<6:22:00,  2.35s/it] 35%|████████████████████████████████████████████████████████████████████                                                                                                                              | 5258/15000 [3:43:58<6:21:56,  2.35s/it] 35%|████████████████████████████████████████████████████████████████████                                                                                                                              | 5259/15000 [3:44:01<6:21:39,  2.35s/it] 35%|████████████████████████████████████████████████████████████████████                                                                                                                              | 5260/15000 [3:44:03<6:21:57,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.8243, 'grad_norm': 1.6640625, 'learning_rate': 4.9921423393296793e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3477.91, 'total_tokens': 42974582, 'epoch': 0.35}
+ 35%|████████████████████████████████████████████████████████████████████                                                                                                                              | 5260/15000 [3:44:03<6:21:57,  2.35s/it] 35%|████████████████████████████████████████████████████████████████████                                                                                                                              | 5261/15000 [3:44:05<6:22:07,  2.35s/it] 35%|████████████████████████████████████████████████████████████████████                                                                                                                              | 5262/15000 [3:44:08<6:22:33,  2.36s/it] 35%|████████████████████████████████████████████████████████████████████                                                                                                                              | 5263/15000 [3:44:10<6:21:58,  2.35s/it] 35%|████████████████████████████████████████████████████████████████████                                                                                                                              | 5264/15000 [3:44:13<6:22:14,  2.36s/it] 35%|████████████████████████████████████████████████████████████████████                                                                                                                              | 5265/15000 [3:44:15<6:22:10,  2.36s/it] 35%|████████████████████████████████████████████████████████████████████                                                                                                                              | 5266/15000 [3:44:17<6:21:50,  2.35s/it] 35%|████████████████████████████████████████████████████████████████████                                                                                                                              | 5267/15000 [3:44:20<6:21:28,  2.35s/it] 35%|████████████████████████████████████████████████████████████████████▏                                                                                                                             | 5268/15000 [3:44:22<6:21:51,  2.35s/it] 35%|████████████████████████████████████████████████████████████████████▏                                                                                                                             | 5269/15000 [3:44:24<6:22:15,  2.36s/it] 35%|████████████████████████████████████████████████████████████████████▏                                                                                                                             | 5270/15000 [3:44:27<6:22:24,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.8591, 'grad_norm': 1.75, 'learning_rate': 4.991524224596963e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3468.37, 'total_tokens': 43056316, 'epoch': 0.35}
+ 35%|████████████████████████████████████████████████████████████████████▏                                                                                                                             | 5270/15000 [3:44:27<6:22:24,  2.36s/it] 35%|████████████████████████████████████████████████████████████████████▏                                                                                                                             | 5271/15000 [3:44:29<6:22:10,  2.36s/it] 35%|████████████████████████████████████████████████████████████████████▏                                                                                                                             | 5272/15000 [3:44:31<6:21:42,  2.35s/it] 35%|████████████████████████████████████████████████████████████████████▏                                                                                                                             | 5273/15000 [3:44:34<6:21:54,  2.36s/it] 35%|████████████████████████████████████████████████████████████████████▏                                                                                                                             | 5274/15000 [3:44:36<6:21:48,  2.36s/it] 35%|████████████████████████████████████████████████████████████████████▏                                                                                                                             | 5275/15000 [3:44:38<6:21:34,  2.35s/it] 35%|████████████████████████████████████████████████████████████████████▏                                                                                                                             | 5276/15000 [3:44:41<6:21:39,  2.35s/it] 35%|████████████████████████████████████████████████████████████████████▏                                                                                                                             | 5277/15000 [3:44:43<6:21:20,  2.35s/it] 35%|████████████████████████████████████████████████████████████████████▎                                                                                                                             | 5278/15000 [3:44:46<6:21:21,  2.35s/it] 35%|████████████████████████████████████████████████████████████████████▎                                                                                                                             | 5279/15000 [3:44:48<6:21:26,  2.35s/it] 35%|████████████████████████████████████████████████████████████████████▎                                                                                                                             | 5280/15000 [3:44:50<6:21:24,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.874, 'grad_norm': 1.765625, 'learning_rate': 4.990882753225555e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3483.93, 'total_tokens': 43138097, 'epoch': 0.35}
+ 35%|████████████████████████████████████████████████████████████████████▎                                                                                                                             | 5280/15000 [3:44:50<6:21:24,  2.35s/it] 35%|████████████████████████████████████████████████████████████████████▎                                                                                                                             | 5281/15000 [3:44:53<6:21:12,  2.35s/it] 35%|████████████████████████████████████████████████████████████████████▎                                                                                                                             | 5282/15000 [3:44:55<6:20:53,  2.35s/it] 35%|████████████████████████████████████████████████████████████████████▎                                                                                                                             | 5283/15000 [3:44:57<6:21:06,  2.35s/it] 35%|████████████████████████████████████████████████████████████████████▎                                                                                                                             | 5284/15000 [3:45:00<6:21:00,  2.35s/it] 35%|████████████████████████████████████████████████████████████████████▎                                                                                                                             | 5285/15000 [3:45:02<6:20:58,  2.35s/it] 35%|████████████████████████████████████████████████████████████████████▎                                                                                                                             | 5286/15000 [3:45:04<6:20:52,  2.35s/it] 35%|████████████████████████████████████████████████████████████████████▍                                                                                                                             | 5287/15000 [3:45:07<6:21:08,  2.35s/it] 35%|████████████████████████████████████████████████████████████████████▍                                                                                                                             | 5288/15000 [3:45:09<6:20:49,  2.35s/it] 35%|████████████████████████████████████████████████████████████████████▍                                                                                                                             | 5289/15000 [3:45:11<6:20:30,  2.35s/it] 35%|████████████████████████████████████████████████████████████████████▍                                                                                                                             | 5290/15000 [3:45:14<6:20:28,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.7559, 'grad_norm': 1.7578125, 'learning_rate': 4.990217931546517e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3479.0, 'total_tokens': 43219643, 'epoch': 0.35}
+ 35%|████████████████████████████████████████████████████████████████████▍                                                                                                                             | 5290/15000 [3:45:14<6:20:28,  2.35s/it] 35%|████████████████████████████████████████████████████████████████████▍                                                                                                                             | 5291/15000 [3:45:16<6:20:35,  2.35s/it] 35%|████████████████████████████████████████████████████████████████████▍                                                                                                                             | 5292/15000 [3:45:18<6:20:27,  2.35s/it] 35%|████████████████████████████████████████████████████████████████████▍                                                                                                                             | 5293/15000 [3:45:21<6:20:57,  2.35s/it] 35%|████████████████████████████████████████████████████████████████████▍                                                                                                                             | 5294/15000 [3:45:23<6:20:57,  2.36s/it] 35%|████████████████████████████████████████████████████████████████████▍                                                                                                                             | 5295/15000 [3:45:26<6:20:36,  2.35s/it] 35%|████████████████████████████████████████████████████████████████████▍                                                                                                                             | 5296/15000 [3:45:28<6:20:22,  2.35s/it] 35%|████████████████████████████████████████████████████████████████████▌                                                                                                                             | 5297/15000 [3:45:30<6:20:13,  2.35s/it] 35%|████████████████████████████████████████████████████████████████████▌                                                                                                                             | 5298/15000 [3:45:33<6:20:04,  2.35s/it] 35%|████████████████████████████████████████████████████████████████████▌                                                                                                                             | 5299/15000 [3:45:35<6:20:15,  2.35s/it] 35%|████████████████████████████████████████████████████████████████████▌                                                                                                                             | 5300/15000 [3:45:37<6:20:31,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.86, 'grad_norm': 1.671875, 'learning_rate': 4.989529766121373e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3471.79, 'total_tokens': 43301257, 'epoch': 0.35}
+ 35%|████████████████████████████████████████████████████████████████████▌                                                                                                                             | 5300/15000 [3:45:37<6:20:31,  2.35s/it] 35%|████████████████████████████████████████████████████████████████████▌                                                                                                                             | 5301/15000 [3:45:40<6:20:43,  2.36s/it] 35%|████████████████████████████████████████████████████████████████████▌                                                                                                                             | 5302/15000 [3:45:42<6:20:30,  2.35s/it] 35%|████████████████████████████████████████████████████████████████████▌                                                                                                                             | 5303/15000 [3:45:44<6:20:14,  2.35s/it] 35%|████████████████████████████████████████████████████████████████████▌                                                                                                                             | 5304/15000 [3:45:47<6:20:28,  2.35s/it] 35%|████████████████████████████████████████████████████████████████████▌                                                                                                                             | 5305/15000 [3:45:49<6:20:10,  2.35s/it] 35%|████████████████████████████████████████████████████████████████████▌                                                                                                                             | 5306/15000 [3:45:51<6:19:40,  2.35s/it] 35%|████████████████████████████████████████████████████████████████████▋                                                                                                                             | 5307/15000 [3:45:54<6:19:23,  2.35s/it] 35%|████████████████████████████████████████████████████████████████████▋                                                                                                                             | 5308/15000 [3:45:56<6:19:26,  2.35s/it] 35%|████████████████████████████████████████████████████████████████████▋                                                                                                                             | 5309/15000 [3:45:58<6:19:51,  2.35s/it] 35%|████████████████████████████████████████████████████████████████████▋                                                                                                                             | 5310/15000 [3:46:01<6:19:59,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.8647, 'grad_norm': 1.7421875, 'learning_rate': 4.988818263742036e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3459.73, 'total_tokens': 43382512, 'epoch': 0.35}
+ 35%|████████████████████████████████████████████████████████████████████▋                                                                                                                             | 5310/15000 [3:46:01<6:19:59,  2.35s/it] 35%|████████████████████████████████████████████████████████████████████▋                                                                                                                             | 5311/15000 [3:46:03<6:20:08,  2.35s/it] 35%|████████████████████████████████████████████████████████████████████▋                                                                                                                             | 5312/15000 [3:46:06<6:20:05,  2.35s/it][2025-11-17 01:28:59,734] [INFO] [axolotl.utils.data.wrappers.get_dataset_wrapper:87] [PID:8163] Loading dataset: Goader/kobza-2m-jsonl with base_type: pretrain and prompt_style: None
+
+Tokenizing Prompts (num_proc=64):   0%|                                                                                                                                                                        | 0/10000 [00:00<?, ? examples/s][A
+Tokenizing Prompts (num_proc=64):   2%|██▍                                                                                                                                                           | 157/10000 [00:06<06:13, 26.35 examples/s][A
+Tokenizing Prompts (num_proc=64):   3%|████▉                                                                                                                                                         | 314/10000 [00:06<02:47, 57.77 examples/s][A
+Tokenizing Prompts (num_proc=64):   5%|███████▍                                                                                                                                                      | 471/10000 [00:07<01:49, 86.86 examples/s][A
+Tokenizing Prompts (num_proc=64):   6%|█████████▊                                                                                                                                                   | 628/10000 [00:07<01:23, 112.58 examples/s][A
+Tokenizing Prompts (num_proc=64):   8%|████████████▎                                                                                                                                                | 785/10000 [00:09<01:15, 121.41 examples/s][A
+Tokenizing Prompts (num_proc=64):   9%|██████████████▊                                                                                                                                              | 942/10000 [00:09<00:53, 170.46 examples/s][A
+Tokenizing Prompts (num_proc=64):  11%|█████████████████▏                                                                                                                                          | 1099/10000 [00:10<00:49, 180.91 examples/s][A
+Tokenizing Prompts (num_proc=64):  13%|███████████████████▌                                                                                                                                        | 1256/10000 [00:10<00:42, 204.02 examples/s][A
+Tokenizing Prompts (num_proc=64):  14%|██████████████████████                                                                                                                                      | 1413/10000 [00:11<00:39, 214.77 examples/s][A
+Tokenizing Prompts (num_proc=64):  16%|████████████████████████▍                                                                                                                                   | 1570/10000 [00:11<00:37, 223.54 examples/s][A
+Tokenizing Prompts (num_proc=64):  17%|██████████████████████████▉                                                                                                                                 | 1727/10000 [00:12<00:43, 190.69 examples/s][A
+Tokenizing Prompts (num_proc=64):  19%|█████████████████████████████▍                                                                                                                              | 1884/10000 [00:13<00:33, 245.28 examples/s][A
+Tokenizing Prompts (num_proc=64):  20%|███████████████████████████████▊                                                                                                                            | 2041/10000 [00:13<00:33, 238.33 examples/s][A
+Tokenizing Prompts (num_proc=64):  22%|██████████████████████████████████▎                                                                                                                         | 2198/10000 [00:14<00:32, 243.10 examples/s][A
+Tokenizing Prompts (num_proc=64):  24%|████████████████████████████████████▋                                                                                                                       | 2355/10000 [00:15<00:31, 242.62 examples/s][A
+Tokenizing Prompts (num_proc=64):  25%|███████████████████████████████████████▏                                                                                                                    | 2512/10000 [00:15<00:30, 241.94 examples/s][A
+Tokenizing Prompts (num_proc=64):  27%|█████████████████████████████████████████▌                                                                                                                  | 2668/10000 [00:16<00:30, 238.93 examples/s][A
+Tokenizing Prompts (num_proc=64):  28%|████████████████████████████████████████████                                                                                                                | 2824/10000 [00:17<00:30, 238.96 examples/s][A
+Tokenizing Prompts (num_proc=64):  30%|██████████████████████████████████████████████▍                                                                                                             | 2980/10000 [00:18<00:31, 225.96 examples/s][A
+Tokenizing Prompts (num_proc=64):  31%|████████████████████████████████████████████████▉                                                                                                           | 3136/10000 [00:18<00:28, 241.61 examples/s][A
+Tokenizing Prompts (num_proc=64):  33%|███████████████████████████████████████████████████▎                                                                                                        | 3292/10000 [00:19<00:27, 241.06 examples/s][A
+Tokenizing Prompts (num_proc=64):  34%|█████████████████████████████████████████████████████▊                                                                                                      | 3448/10000 [00:20<00:32, 201.65 examples/s][A
+Tokenizing Prompts (num_proc=64):  36%|████████████████████████████████████████████████████████▏                                                                                                   | 3604/10000 [00:20<00:30, 211.27 examples/s][A
+Tokenizing Prompts (num_proc=64):  38%|██████████████████████████████████████████████████████████▋                                                                                                 | 3760/10000 [00:21<00:24, 257.67 examples/s][A
+Tokenizing Prompts (num_proc=64):  39%|█████████████████████████████████████████████████████████████                                                                                               | 3916/10000 [00:21<00:23, 263.28 examples/s][A
+Tokenizing Prompts (num_proc=64):  41%|███████████████████████████████████████████████████████████████▌                                                                                            | 4072/10000 [00:22<00:23, 253.16 examples/s][A
+Tokenizing Prompts (num_proc=64):  42%|█████████████████████████████████████████████████████████████████▉                                                                                          | 4228/10000 [00:22<00:22, 253.61 examples/s][A
+Tokenizing Prompts (num_proc=64):  44%|████████████████████████████████████████████████████████████████████▍                                                                                       | 4384/10000 [00:24<00:27, 205.70 examples/s][A
+Tokenizing Prompts (num_proc=64):  45%|██████████████████████████████████████████████████████████████████████▊                                                                                     | 4540/10000 [00:24<00:20, 261.98 examples/s][A
+Tokenizing Prompts (num_proc=64):  47%|█████████████████████████████████████████████████████████████████████████▎                                                                                  | 4696/10000 [00:24<00:20, 256.02 examples/s][A
+Tokenizing Prompts (num_proc=64):  49%|███████████████████████████████████████████████████████████████████████████▋                                                                                | 4852/10000 [00:25<00:20, 250.68 examples/s][A
+Tokenizing Prompts (num_proc=64):  50%|██████████████████████████████████████████████████████████████████████████████                                                                              | 5008/10000 [00:26<00:21, 230.13 examples/s][A
+Tokenizing Prompts (num_proc=64):  52%|████████████████████████████████████████████████████████████████████████████████▌                                                                           | 5164/10000 [00:26<00:19, 248.00 examples/s][A
+Tokenizing Prompts (num_proc=64):  53%|██████████████████████████████████████████████████████████████████████████████████▉                                                                         | 5320/10000 [00:27<00:18, 249.85 examples/s][A
+Tokenizing Prompts (num_proc=64):  55%|█████████████████████████████████████████████████████████████████████████████████████▍                                                                      | 5476/10000 [00:28<00:21, 206.85 examples/s][A
+Tokenizing Prompts (num_proc=64):  56%|███████████████████████████████████████████████████████████████████████████████████████▊                                                                    | 5632/10000 [00:28<00:16, 263.13 examples/s][A
+Tokenizing Prompts (num_proc=64):  58%|██████████████████████████████████████████████████████████████████████████████████████████▎                                                                 | 5788/10000 [00:29<00:16, 253.88 examples/s][A
+Tokenizing Prompts (num_proc=64):  59%|████████████████████████████████████████████████████████████████████████████████████████████▋                                                               | 5944/10000 [00:30<00:19, 206.43 examples/s][A
+Tokenizing Prompts (num_proc=64):  61%|███████████████████████████████████████████████████████████████████████████████████████████████▏                                                            | 6100/10000 [00:30<00:15, 253.91 examples/s][A
+Tokenizing Prompts (num_proc=64):  63%|█████████████████████████████████████████████████████████████████████████████████████████████████▌                                                          | 6256/10000 [00:31<00:14, 255.49 examples/s][A
+Tokenizing Prompts (num_proc=64):  64%|████████████████████████████████████████████████████████████████████████████████████████████████████                                                        | 6412/10000 [00:31<00:14, 253.26 examples/s][A
+Tokenizing Prompts (num_proc=64):  66%|██████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                     | 6568/10000 [00:32<00:13, 248.57 examples/s][A
+Tokenizing Prompts (num_proc=64):  67%|████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                   | 6724/10000 [00:33<00:13, 245.25 examples/s][A
+Tokenizing Prompts (num_proc=64):  69%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                | 6880/10000 [00:33<00:12, 241.65 examples/s][A
+Tokenizing Prompts (num_proc=64):  70%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                              | 7036/10000 [00:34<00:12, 243.76 examples/s][A
+Tokenizing Prompts (num_proc=64):  72%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                           | 7192/10000 [00:35<00:13, 205.58 examples/s][A
+Tokenizing Prompts (num_proc=64):  73%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                         | 7348/10000 [00:35<00:10, 259.38 examples/s][A
+Tokenizing Prompts (num_proc=64):  75%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                       | 7504/10000 [00:36<00:09, 252.05 examples/s][A
+Tokenizing Prompts (num_proc=64):  77%|███���███████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                    | 7660/10000 [00:37<00:09, 240.22 examples/s][A
+Tokenizing Prompts (num_proc=64):  78%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                  | 7816/10000 [00:37<00:08, 247.81 examples/s][A
+Tokenizing Prompts (num_proc=64):  80%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                               | 7972/10000 [00:38<00:08, 243.30 examples/s][A
+Tokenizing Prompts (num_proc=64):  81%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                             | 8128/10000 [00:39<00:09, 207.30 examples/s][A
+Tokenizing Prompts (num_proc=64):  83%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                          | 8284/10000 [00:40<00:07, 216.71 examples/s][A
+Tokenizing Prompts (num_proc=64):  84%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                        | 8440/10000 [00:40<00:05, 274.24 examples/s][A
+Tokenizing Prompts (num_proc=64):  86%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                      | 8596/10000 [00:41<00:05, 264.70 examples/s][A
+Tokenizing Prompts (num_proc=64):  88%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                   | 8752/10000 [00:41<00:04, 252.33 examples/s][A
+Tokenizing Prompts (num_proc=64):  89%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                 | 8908/10000 [00:42<00:04, 255.58 examples/s][A
+Tokenizing Prompts (num_proc=64):  91%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍              | 9064/10000 [00:43<00:04, 207.43 examples/s][A
+Tokenizing Prompts (num_proc=64):  92%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊            | 9220/10000 [00:43<00:02, 264.26 examples/s][A
+Tokenizing Prompts (num_proc=64):  94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎         | 9376/10000 [00:44<00:02, 258.44 examples/s][A
+Tokenizing Prompts (num_proc=64):  95%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋       | 9532/10000 [00:44<00:01, 251.35 examples/s][A
+Tokenizing Prompts (num_proc=64):  97%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏    | 9688/10000 [00:45<00:01, 244.19 examples/s][A
+Tokenizing Prompts (num_proc=64):  98%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌  | 9844/10000 [00:46<00:00, 213.81 examples/s][A
+Tokenizing Prompts (num_proc=64): 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10000/10000 [00:46<00:00, 261.18 examples/s][ATokenizing Prompts (num_proc=64): 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10000/10000 [00:48<00:00, 205.10 examples/s]
+
+Dropping Long Sequences:   0%|                                                                                                                                                                                 | 0/10002 [00:00<?, ? examples/s][A
+Dropping Long Sequences:  10%|████████████████▍                                                                                                                                                    | 1000/10002 [00:01<00:13, 672.16 examples/s][A
+Dropping Long Sequences:  20%|████████████████████████████████▊                                                                                                                                   | 2000/10002 [00:01<00:06, 1312.90 examples/s][A
+Dropping Long Sequences:  30%|█████████████████████████████████████████████████▏                                                                                                                  | 3000/10002 [00:02<00:03, 1859.52 examples/s][A
+Dropping Long Sequences:  40%|█████████████████████████████████████████████████████████████████▌                                                                                                  | 4000/10002 [00:02<00:02, 2348.07 examples/s][A
+Dropping Long Sequences:  50%|█████████████████████████████████████████████████████████████████████████████████▉                                                                                  | 5000/10002 [00:02<00:01, 2714.10 examples/s][A
+Dropping Long Sequences:  60%|██████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                 | 6000/10002 [00:02<00:01, 2952.09 examples/s][A
+Dropping Long Sequences:  70%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                 | 7000/10002 [00:03<00:00, 3324.15 examples/s][A
+Dropping Long Sequences:  80%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                | 8000/10002 [00:03<00:00, 3552.24 examples/s][A
+Dropping Long Sequences:  90%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                | 9000/10002 [00:03<00:00, 3742.75 examples/s][A
+Dropping Long Sequences: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉| 10000/10002 [00:03<00:00, 3977.72 examples/s][ADropping Long Sequences: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10002/10002 [00:03<00:00, 2646.46 examples/s]
+
+Add position_id column (Pretraining Sample Packing):   0%|                                                                                                                                                      | 0/8791 [00:00<?, ? examples/s][A
+Add position_id column (Pretraining Sample Packing):  11%|███████████████▋                                                                                                                          | 1000/8791 [00:01<00:09, 805.71 examples/s][A
+Add position_id column (Pretraining Sample Packing):  23%|███████████████████████████████▏                                                                                                         | 2000/8791 [00:01<00:04, 1662.06 examples/s][A
+Add position_id column (Pretraining Sample Packing):  34%|██████████████████████████████████████████████▊                                                                                          | 3000/8791 [00:01<00:02, 2561.96 examples/s][A
+Add position_id column (Pretraining Sample Packing):  46%|█████████████████████████████████████████████████████████████��▎                                                                          | 4000/8791 [00:01<00:01, 3357.02 examples/s][A
+Add position_id column (Pretraining Sample Packing):  57%|█████████████████████████████████████████████████████████████████████████████▉                                                           | 5000/8791 [00:01<00:00, 4146.39 examples/s][A
+Add position_id column (Pretraining Sample Packing):  68%|█████████████████████████████████████████████████████████████████████████████████████████████▌                                           | 6000/8791 [00:01<00:00, 4780.38 examples/s][A
+Add position_id column (Pretraining Sample Packing):  80%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████                            | 7000/8791 [00:02<00:00, 5369.60 examples/s][A
+Add position_id column (Pretraining Sample Packing):  91%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋            | 8000/8791 [00:02<00:00, 5557.27 examples/s][A
+Add position_id column (Pretraining Sample Packing): 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 8791/8791 [00:02<00:00, 5843.00 examples/s][AAdd position_id column (Pretraining Sample Packing): 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 8791/8791 [00:02<00:00, 3589.98 examples/s]
+[2025-11-17 01:29:56,255] [DEBUG] [axolotl.utils.samplers.multipack.pack_parallel:177] [PID:8163] Using single process for pack_parallel, running sequentially.
+ 35%|████████████████████████████████████████████████████████████████████▎                                                                                                                            | 5313/15000 [3:47:11<56:57:21, 21.17s/it] 35%|████████████████████████████████████████████████████████████████████▎                                                                                                                            | 5314/15000 [3:47:13<41:45:50, 15.52s/it] 35%|████████████████████████████████████████████████████████████████████▍                                                                                                                            | 5315/15000 [3:47:15<31:08:01, 11.57s/it] 35%|████████████████████████████████████████████████████████████████████▍                                                                                                                            | 5316/15000 [3:47:18<23:41:22,  8.81s/it] 35%|████████████████████████████████████████████████████████████████████▍                                                                                                                            | 5317/15000 [3:47:20<18:28:54,  6.87s/it] 35%|████████████████████████████████████████████████████████████████████▍                                                                                                                            | 5318/15000 [3:47:22<14:49:58,  5.52s/it] 35%|████████████████████████████████████████████████████████████████████▍                                                                                                                            | 5319/15000 [3:47:25<12:17:00,  4.57s/it] 35%|████████████████████████████████████████████████████████████████████▍                                                                                                                            | 5320/15000 [3:47:27<10:30:09,  3.91s/it]                                                                                                                                                                                                                                                {'loss': 2.7676, 'grad_norm': 1.6796875, 'learning_rate': 4.988083431430747e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3352.72, 'total_tokens': 43461456, 'epoch': 0.35}
+ 35%|████████████████████████████████████████████████████████████████████▍                                                                                                                            | 5320/15000 [3:47:27<10:30:09,  3.91s/it] 35%|████████████████████████████████████████████████████████████████████▊                                                                                                                             | 5321/15000 [3:47:29<9:14:55,  3.44s/it] 35%|████████████████████████████████████████████████████████████████████▊                                                                                                                             | 5322/15000 [3:47:32<8:22:05,  3.11s/it] 35%|████████████████████████████████████████████████████████████████████▊                                                                                                                             | 5323/15000 [3:47:34<7:45:26,  2.89s/it] 35%|████████████████████████████████████████████████████████████████████▊                                                                                                                             | 5324/15000 [3:47:36<7:19:01,  2.72s/it] 36%|████████████████████████████████████████████████████████████████████▊                                                                                                                             | 5325/15000 [3:47:39<7:01:11,  2.61s/it] 36%|████████████████████████████████████████████████████████████████████▉                                                                                                                             | 5326/15000 [3:47:41<6:48:31,  2.53s/it] 36%|████████████████████████████████████████████████████████████████████▉                                                                                                                             | 5327/15000 [3:47:44<6:39:40,  2.48s/it] 36%|████████████████████████████████████████████████████████████████████▉                                                                                                                             | 5328/15000 [3:47:46<6:33:27,  2.44s/it] 36%|████████████████████████████████████████████████████��███████████████▉                                                                                                                             | 5329/15000 [3:47:48<6:29:06,  2.41s/it] 36%|████████████████████████████████████████████████████████████████████▉                                                                                                                             | 5330/15000 [3:47:51<6:26:02,  2.40s/it]                                                                                                                                                                                                                                                {'loss': 2.7762, 'grad_norm': 1.609375, 'learning_rate': 4.987325276440007e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3489.96, 'total_tokens': 43543279, 'epoch': 0.36}
+ 36%|████████████████████████████████████████████████████████████████████▉                                                                                                                             | 5330/15000 [3:47:51<6:26:02,  2.40s/it] 36%|████████████████████████████████████████████████████████████████████▉                                                                                                                             | 5331/15000 [3:47:53<6:23:45,  2.38s/it] 36%|████████████████████████████████████████████████████████████████████▉                                                                                                                             | 5332/15000 [3:47:55<6:22:16,  2.37s/it] 36%|████████████████████████████████████████████████████████████████████▉                                                                                                                             | 5333/15000 [3:47:58<6:21:34,  2.37s/it] 36%|████████████████████████████████████████████████████████████████████▉                                                                                                                             | 5334/15000 [3:48:00<6:20:50,  2.36s/it] 36%|████████████████████████████████████████████████████████████████████▉                                                                                                                             | 5335/15000 [3:48:02<6:19:54,  2.36s/it] 36%|█████████████████████████████████████████████████████████████████████                                                                                                                             | 5336/15000 [3:48:05<6:19:25,  2.36s/it] 36%|█████████████████████████████████████████████████████████████████████                                                                                                                             | 5337/15000 [3:48:07<6:19:47,  2.36s/it] 36%|█████████████████████████████████████████████████████████████████████                                                                                                                             | 5338/15000 [3:48:09<6:19:33,  2.36s/it] 36%|█████████████████████████████████████████████████████████████████████                                                                                                                             | 5339/15000 [3:48:12<6:19:32,  2.36s/it] 36%|█████████████████████████████████████████████████████████████████████                                                                                                                             | 5340/15000 [3:48:14<6:19:30,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.8882, 'grad_norm': 1.9765625, 'learning_rate': 4.986543806252496e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3482.48, 'total_tokens': 43625123, 'epoch': 0.36}
+ 36%|█████████████████████████████████████████████████████████████████████                                                                                                                             | 5340/15000 [3:48:14<6:19:30,  2.36s/it] 36%|█████████████████████████████████████████████████████████████████████                                                                                                                             | 5341/15000 [3:48:16<6:19:19,  2.36s/it] 36%|█████████████████████████████████████████████████████████████████████                                                                                                                             | 5342/15000 [3:48:19<6:18:48,  2.35s/it] 36%|█████████████████████████████████████████████████████████████████████                                                                                                                             | 5343/15000 [3:48:21<6:18:31,  2.35s/it] 36%|█████████████████████████████████████████████████████████████████████                                                                                                                             | 5344/15000 [3:48:24<6:18:26,  2.35s/it] 36%|█████████████████████████████████████████████████████████████████████▏                                                                                                                            | 5345/15000 [3:48:26<6:18:26,  2.35s/it] 36%|█████████████████████████████████████████████████████████████████████▏                                                                                                                            | 5346/15000 [3:48:28<6:18:19,  2.35s/it] 36%|█████████████████████████████████████████████████████████████████████▏                                                                                                                            | 5347/15000 [3:48:31<6:18:09,  2.35s/it] 36%|█████████████████████████████████████████████████████████████████████▏                                                                                                                            | 5348/15000 [3:48:33<6:18:23,  2.35s/it] 36%|█████████████████████████████████████████████████████████████████████▏                                                                                                                            | 5349/15000 [3:48:35<6:18:49,  2.36s/it] 36%|█████████████████████████████████████████████████████████████████████▏                                                                                                                            | 5350/15000 [3:48:38<6:18:37,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.788, 'grad_norm': 1.9296875, 'learning_rate': 4.985739028581013e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3489.2, 'total_tokens': 43706954, 'epoch': 0.36}
+ 36%|█████████████████████████████████████████████████████████████████████▏                                                                                                                            | 5350/15000 [3:48:38<6:18:37,  2.35s/it] 36%|█████████████████████████████████████████████████████████████████████▏                                                                                                                            | 5351/15000 [3:48:40<6:18:14,  2.35s/it] 36%|█████████████████████████████████████████████████████████████████████▏                                                                                                                            | 5352/15000 [3:48:42<6:18:09,  2.35s/it] 36%|█████████████████████████████████████████████████████████████████████▏                                                                                                                            | 5353/15000 [3:48:45<6:18:05,  2.35s/it] 36%|█████████████████████████████████████████████████████████████████████▏                                                                                                                            | 5354/15000 [3:48:47<6:18:13,  2.35s/it] 36%|█████████████████████████████████████████████████████████████████████▎                                                                                                                            | 5355/15000 [3:48:49<6:18:14,  2.35s/it] 36%|█████████████████████████████████████████████████████████████████████▎                                                                                                                            | 5356/15000 [3:48:52<6:41:07,  2.50s/it] 36%|█████████████████████████████████████████████████████████████████████▎                                                                                                                            | 5357/15000 [3:48:55<6:34:26,  2.45s/it] 36%|█████████████████████████████████████████████████████████████████████▎                                                                                                                            | 5358/15000 [3:48:57<6:29:29,  2.42s/it] 36%|█████████████████████████████████████████████████████████████████████▎                                                                                                                            | 5359/15000 [3:48:59<6:26:08,  2.40s/it] 36%|█████████████████████████████████████████████████████████████████████▎                                                                                                                            | 5360/15000 [3:49:02<6:24:00,  2.39s/it]                                                                                                                                                                                                                                                {'loss': 2.8302, 'grad_norm': 1.75, 'learning_rate': 4.984910951368385e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3476.94, 'total_tokens': 43788754, 'epoch': 0.36}
+ 36%|██████████████████████████████████████████████████████████���██████████▎                                                                                                                            | 5360/15000 [3:49:02<6:24:00,  2.39s/it] 36%|█████████████████████████████████████████████████████████████████████▎                                                                                                                            | 5361/15000 [3:49:04<6:22:13,  2.38s/it] 36%|█████████████████████████████████████████████████████████████████████▎                                                                                                                            | 5362/15000 [3:49:06<6:21:06,  2.37s/it] 36%|█████████████████████████████████████████████████████████████████████▎                                                                                                                            | 5363/15000 [3:49:09<6:20:05,  2.37s/it] 36%|█████████████████████████████████████████████████████████████████████▎                                                                                                                            | 5364/15000 [3:49:11<6:19:35,  2.36s/it] 36%|█████████████████████████████████████████████████████████████████████▍                                                                                                                            | 5365/15000 [3:49:13<6:19:13,  2.36s/it] 36%|█████████████████████████████████████████████████████████████████████▍                                                                                                                            | 5366/15000 [3:49:16<6:18:48,  2.36s/it] 36%|█████████████████████████████████████████████████████████████████████▍                                                                                                                            | 5367/15000 [3:49:18<6:18:32,  2.36s/it] 36%|█████████████████████████████████████████████████████████████████████▍                                                                                                                            | 5368/15000 [3:49:20<6:18:17,  2.36s/it] 36%|█████████████████████████████████████████████████████████████████████▍                                                                                                                            | 5369/15000 [3:49:23<6:18:10,  2.36s/it] 36%|█████████████████████████████████████████████████████████████████████▍                                                                                                                            | 5370/15000 [3:49:25<6:17:38,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.7773, 'grad_norm': 1.7734375, 'learning_rate': 4.984059582787403e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3497.17, 'total_tokens': 43870538, 'epoch': 0.36}
+ 36%|█████████████████████████████████████████████████████████████████████▍                                                                                                                            | 5370/15000 [3:49:25<6:17:38,  2.35s/it] 36%|█████████████████████████████████████████████████████████████████████▍                                                                                                                            | 5371/15000 [3:49:28<6:17:59,  2.36s/it] 36%|█████████████████████████████████████████████████████████████████████▍                                                                                                                            | 5372/15000 [3:49:30<6:17:52,  2.35s/it] 36%|█████████████████████████████████████████████████████████████████████▍                                                                                                                            | 5373/15000 [3:49:32<6:17:38,  2.35s/it] 36%|█████████████████████████████████████████████████████████████████████▌                                                                                                                            | 5374/15000 [3:49:35<6:17:32,  2.35s/it] 36%|█████████████████████████████████████████████████████████████████████▌                                                                                                                            | 5375/15000 [3:49:37<6:17:37,  2.35s/it] 36%|█████████████████████████████████████████████████████████████████████▌                                                                                                                            | 5376/15000 [3:49:39<6:17:24,  2.35s/it] 36%|█████████████████████████████████████████████████████████████████████▌                                                                                                                            | 5377/15000 [3:49:42<6:17:05,  2.35s/it] 36%|█████████████████████████████████████████████████████████████████████▌                                                                                                                            | 5378/15000 [3:49:44<6:17:24,  2.35s/it] 36%|█████████████████████████████████████████████████████████████████████▌                                                                                                                            | 5379/15000 [3:49:46<6:17:24,  2.35s/it] 36%|█████████████████████████████████████████████████████████████████████▌                                                                                                                            | 5380/15000 [3:49:49<6:17:37,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.8781, 'grad_norm': 1.765625, 'learning_rate': 4.9831849312407286e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3478.64, 'total_tokens': 43952361, 'epoch': 0.36}
+ 36%|█████████████████████████████████████████████████████████████████████▌                                                                                                                            | 5380/15000 [3:49:49<6:17:37,  2.36s/it] 36%|█████████████████████████████████████████████████████████████████████▌                                                                                                                            | 5381/15000 [3:49:51<6:17:36,  2.36s/it] 36%|█████████████████████████████████████████████████████████████████████▌                                                                                                                            | 5382/15000 [3:49:53<6:17:17,  2.35s/it] 36%|█████████████████████████████████████████████████████████████████████▌                                                                                                                            | 5383/15000 [3:49:56<6:16:57,  2.35s/it] 36%|█████████████████████████████████████████████████████████████████████▋                                                                                                                            | 5384/15000 [3:49:58<6:17:09,  2.35s/it] 36%|█████████████████████████████████████████████████████████████████████▋                                                                                                                            | 5385/15000 [3:50:00<6:17:09,  2.35s/it] 36%|█████████████████████████████████████████████████████████████████████▋                                                                                                                            | 5386/15000 [3:50:03<6:17:09,  2.35s/it] 36%|█████████████████████████████████████████████████████████████████████▋                                                                                                                            | 5387/15000 [3:50:05<6:16:55,  2.35s/it] 36%|█████████████████████████████████████████████████████████████████████▋                                                                                                                            | 5388/15000 [3:50:08<6:16:36,  2.35s/it] 36%|█████████████████████████████████████████████████████████████████████▋                                                                                                                            | 5389/15000 [3:50:10<6:17:09,  2.35s/it] 36%|█████████████████████████████████████████████████████████████████████▋                                                                                                                            | 5390/15000 [3:50:12<6:17:03,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.8299, 'grad_norm': 1.7421875, 'learning_rate': 4.982287005360821e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3486.88, 'total_tokens': 44034173, 'epoch': 0.36}
+ 36%|█████████████████████████████████████████████████████████████████████▋                                                                                                                            | 5390/15000 [3:50:12<6:17:03,  2.35s/it] 36%|█████████████████████████████████████████████████████████████████████▋                                                                                                                            | 5391/15000 [3:50:15<6:17:01,  2.35s/it] 36%|█████████████████████████████████████████████████████████████████████▋                                                                                                                            | 5392/15000 [3:50:17<6:17:02,  2.35s/it] 36%|█████████████████████████████████████████████████████████████████████▋                                                                                                                            | 5393/15000 [3:50:19<6:16:41,  2.35s/it] 36%|█████████████████████████████████████████████████████████████████████▊                                                                                                                            | 5394/15000 [3:50:22<6:16:46,  2.35s/it] 36%|█████████████████████████████████████████████████████████████████████▊                                                                                                                            | 5395/15000 [3:50:24<6:16:42,  2.35s/it] 36%|█████████████████████████████████████████████████████████████████████▊                                                                                                                            | 5396/15000 [3:50:26<6:16:20,  2.35s/it] 36%|█████████████████████████████████████████████████████████████████████▊                                                                                                                            | 5397/15000 [3:50:29<6:16:24,  2.35s/it] 36%|█████████████████████████████████████████████████████████████████████▊                                                                                                                            | 5398/15000 [3:50:31<6:16:13,  2.35s/it] 36%|█████████████████████████████████████████████████████████████████████▊                                                                                                                            | 5399/15000 [3:50:33<6:16:22,  2.35s/it] 36%|█████████████████████████████████████████████████████████████████████▊                                                                                                                            | 5400/15000 [3:50:36<6:16:20,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.7563, 'grad_norm': 1.8203125, 'learning_rate': 4.981365814009846e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3487.72, 'total_tokens': 44115963, 'epoch': 0.36}
+ 36%|█████████████████████████████████████████████████████████████████████▊                                                                                                                            | 5400/15000 [3:50:36<6:16:20,  2.35s/it] 36%|█████████████████████████████████████████████████████████████████████▊                                                                                                                            | 5401/15000 [3:50:38<6:16:26,  2.35s/it] 36%|█████████████████████████████████████████████████████████████████████▊                                                                                                                            | 5402/15000 [3:50:40<6:16:21,  2.35s/it] 36%|█████████████████████████████████████████████████████████████████████▉                                                                                                                            | 5403/15000 [3:50:43<6:16:27,  2.35s/it] 36%|█████████████████████████████████████████████████████████████████████▉                                                                                                                            | 5404/15000 [3:50:45<6:16:29,  2.35s/it] 36%|█████████████████████████████████████████████████████████████████████▉                                                                                                                            | 5405/15000 [3:50:48<6:16:43,  2.36s/it] 36%|█████████████████████████████████████████████████████████████████████▉                                                                                                                            | 5406/15000 [3:50:50<6:16:34,  2.36s/it] 36%|█████████████████████████████████████████████████████████████████████▉                                                                                                                            | 5407/15000 [3:50:52<6:16:08,  2.35s/it] 36%|█████████████████████████████████████████████████████████████████████▉                                                                                                                            | 5408/15000 [3:50:55<6:15:59,  2.35s/it] 36%|█████████████████████████████████████████████████████████████████████▉                                                                                                                            | 5409/15000 [3:50:57<6:15:42,  2.35s/it] 36%|█████████████████████████████████████████████████████████████████████▉                                                                                                                            | 5410/15000 [3:50:59<6:16:03,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.8138, 'grad_norm': 1.8125, 'learning_rate': 4.9804213662795904e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3478.15, 'total_tokens': 44197751, 'epoch': 0.36}
+ 36%|█████████████████████████████████████████████████████████████████████▉                                                                                                                            | 5410/15000 [3:50:59<6:16:03,  2.35s/it] 36%|█████████████████████████████████████████████████████████████████████▉                                                                                                                            | 5411/15000 [3:51:02<6:16:01,  2.35s/it] 36%|█████████████████████████████████████████████████████████████████████▉                                                                                                                            | 5412/15000 [3:51:04<6:15:39,  2.35s/it] 36%|██████████████████████████████████████████████████████████████████████                                                                                                                            | 5413/15000 [3:51:06<6:15:44,  2.35s/it] 36%|██████████████████████████████████████████████████████████████████████                                                                                                                            | 5414/15000 [3:51:09<6:15:45,  2.35s/it] 36%|██████████████████████████████████████████████████████████████████████                                                                                                                            | 5415/15000 [3:51:11<6:15:44,  2.35s/it] 36%|██████████████████████████████████████████████████████████████████████                                                                                                                            | 5416/15000 [3:51:13<6:16:10,  2.36s/it] 36%|██████████████████████████████████████████████████████████████████████                                                                                                                            | 5417/15000 [3:51:16<6:16:18,  2.36s/it] 36%|██████████████████████████████████████████████████████████████████████                                                                                                                            | 5418/15000 [3:51:18<6:16:08,  2.36s/it] 36%|██████████████████████████████████████████████████████████████████████                                                                                                                            | 5419/15000 [3:51:20<6:15:58,  2.35s/it] 36%|██████████████████████████████████████████████████████████████████████                                                                                                                            | 5420/15000 [3:51:23<6:15:36,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.8055, 'grad_norm': 1.7734375, 'learning_rate': 4.979453671491371e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3494.36, 'total_tokens': 44279560, 'epoch': 0.36}
+ 36%|██████████████████████████████████████████████████████████████████████                                                                                                                            | 5420/15000 [3:51:23<6:15:36,  2.35s/it] 36%|██████████████████████████████████████████████████████████████████████                                                                                                                            | 5421/15000 [3:51:25<6:16:04,  2.36s/it] 36%|██████████████████████████████████████████████████████████████████████                                                                                                                            | 5422/15000 [3:51:28<6:16:05,  2.36s/it] 36%|██████████████████████████████████████████████████████████████████████▏                                                                                                                           | 5423/15000 [3:51:30<6:15:56,  2.36s/it] 36%|██████████████████████████████████████████████████████████████████████▏                                                                                                                           | 5424/15000 [3:51:32<6:15:48,  2.35s/it] 36%|██████████████████████████████████████████████████████████████████████▏                                                                                                                           | 5425/15000 [3:51:35<6:15:36,  2.35s/it] 36%|██████████████████████████████████████████████████████████████████████▏                                                                                                                           | 5426/15000 [3:51:37<6:15:26,  2.35s/it] 36%|██████████████████████████████████████████████████████████████████████▏                                                                                                                           | 5427/15000 [3:51:39<6:15:46,  2.36s/it] 36%|██████████████████████████████████████████████████████████████████████▏                                                                                                                           | 5428/15000 [3:51:42<6:15:30,  2.35s/it] 36%|██████████████████████████████████████████████████████████████████████▏                                                                                                                           | 5429/15000 [3:51:44<6:15:15,  2.35s/it] 36%|██████████████████████████████████████████████████████████████████████▏                                                                                                                           | 5430/15000 [3:51:46<6:15:21,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.7825, 'grad_norm': 2.03125, 'learning_rate': 4.978462739195946e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3484.04, 'total_tokens': 44361366, 'epoch': 0.36}
+ 36%|██████████████████████████████████████████████████████████████████████▏                                                                                                                           | 5430/15000 [3:51:46<6:15:21,  2.35s/it] 36%|██████████████████████████████████████████████████████████████████████▏                                                                                                                           | 5431/15000 [3:51:49<6:15:36,  2.36s/it] 36%|██████████████████████████████████████████████████████████████████████▎                                                                                                                           | 5432/15000 [3:51:51<6:15:40,  2.36s/it] 36%|██████████████████████████████████████████████████████████████████████▎                                                                                                                           | 5433/15000 [3:51:53<6:15:26,  2.35s/it] 36%|██████████████████████████████████████████████████████████████████████▎                                                                                                                           | 5434/15000 [3:51:56<6:15:25,  2.35s/it] 36%|██████████████████████████████████████████████████████████████████████▎                                                                                                                           | 5435/15000 [3:51:58<6:15:11,  2.35s/it] 36%|██████████████████████████████████████████████████████████████████████▎                                                                                                                           | 5436/15000 [3:52:01<6:15:07,  2.35s/it] 36%|██████████████████████████████████████████████████████████████████████▎                                                                                                                           | 5437/15000 [3:52:03<6:15:00,  2.35s/it] 36%|███��██████████████████████████████████████████████████████████████████▎                                                                                                                           | 5438/15000 [3:52:05<6:15:11,  2.35s/it] 36%|██████████████████████████████████████████████████████████████████████▎                                                                                                                           | 5439/15000 [3:52:08<6:14:51,  2.35s/it] 36%|██████████████████████████████████████████████████████████████████████▎                                                                                                                           | 5440/15000 [3:52:10<6:14:36,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.9039, 'grad_norm': 1.7265625, 'learning_rate': 4.9774485791734166e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3490.64, 'total_tokens': 44443075, 'epoch': 0.36}
+ 36%|██████████████████████████████████████████████████████████████████████▎                                                                                                                           | 5440/15000 [3:52:10<6:14:36,  2.35s/it] 36%|██████████████████████████████████████████████████████████████████████▎                                                                                                                           | 5441/15000 [3:52:12<6:14:53,  2.35s/it] 36%|██████████████████████████████████████████████████████████████████████▍                                                                                                                           | 5442/15000 [3:52:15<6:14:57,  2.35s/it] 36%|██████████████████████████████████████████████████████████████████████▍                                                                                                                           | 5443/15000 [3:52:17<6:15:03,  2.35s/it] 36%|██████████████████████████████████████████████████████████████████████▍                                                                                                                           | 5444/15000 [3:52:19<6:14:40,  2.35s/it] 36%|██████████████████████████████████████████████████████████████████████▍                                                                                                                           | 5445/15000 [3:52:22<6:14:50,  2.35s/it] 36%|██████████████████████████████████████████████████████████████████████▍                                                                                                                           | 5446/15000 [3:52:24<6:14:27,  2.35s/it] 36%|██████████████████████████████████████████████████████████████████████▍                                                                                                                           | 5447/15000 [3:52:26<6:14:34,  2.35s/it] 36%|██████████████████████████████████████████████████████████████████████▍                                                                                                                           | 5448/15000 [3:52:29<6:14:38,  2.35s/it] 36%|██████████████████████████████████████████████████████████████████████▍                                                                                                                           | 5449/15000 [3:52:31<6:14:32,  2.35s/it] 36%|██████████████████████████████████████████████████████████████████████▍                                                                                                                           | 5450/15000 [3:52:33<6:14:15,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.8207, 'grad_norm': 1.703125, 'learning_rate': 4.9764112014331316e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3493.7, 'total_tokens': 44524842, 'epoch': 0.36}
+ 36%|██████████████████████████████████████████████████████████████████████▍                                                                                                                           | 5450/15000 [3:52:33<6:14:15,  2.35s/it] 36%|██████████████████████████████████████████████████████████████████████▍                                                                                                                           | 5451/15000 [3:52:36<6:14:44,  2.35s/it] 36%|██████████████████████████████████████████████████████████████████████▌                                                                                                                           | 5452/15000 [3:52:38<6:14:42,  2.35s/it] 36%|██████████████████████████████████████████████████████████████████████▌                                                                                                                           | 5453/15000 [3:52:41<6:14:32,  2.35s/it] 36%|██████████████████████████████████████████████████████████████████████▌                                                                                                                           | 5454/15000 [3:52:43<6:14:50,  2.36s/it] 36%|██████████████████████████████████████████████████████████████████████▌                                                                                                                           | 5455/15000 [3:52:45<6:14:44,  2.36s/it] 36%|██████████████████████████████████████████████████████████████████████▌                                                                                                                           | 5456/15000 [3:52:48<6:14:43,  2.36s/it] 36%|██████████████████████████████████████████████████████████████████████▌                                                                                                                           | 5457/15000 [3:52:50<6:14:13,  2.35s/it] 36%|██████████████████████████████████████████████████████████████████████▌                                                                                                                           | 5458/15000 [3:52:52<6:14:15,  2.35s/it] 36%|██████████████████████████████████████████████████████████████████████▌                                                                                                                           | 5459/15000 [3:52:55<6:13:44,  2.35s/it] 36%|██████████████████████████████████████████████████████████████████████▌                                                                                                                           | 5460/15000 [3:52:57<6:13:36,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.7943, 'grad_norm': 1.6875, 'learning_rate': 4.975350616213592e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3490.66, 'total_tokens': 44606565, 'epoch': 0.36}
+ 36%|██████████████████████████████████████████████████████████████████████▌                                                                                                                           | 5460/15000 [3:52:57<6:13:36,  2.35s/it] 36%|██████████████████████████████████████████████████████████████████████▋                                                                                                                           | 5461/15000 [3:52:59<6:13:45,  2.35s/it] 36%|██████████████████████████████████████████████████████████████████████▋                                                                                                                           | 5462/15000 [3:53:02<6:13:44,  2.35s/it] 36%|██████████████████████████████████████████████████████████████████████▋                                                                                                                           | 5463/15000 [3:53:04<6:14:13,  2.35s/it] 36%|██████████████████████████████████████████████████████████████████████▋                                                                                                                           | 5464/15000 [3:53:06<6:14:44,  2.36s/it] 36%|██████████████████████████████████████████████████████████████████████▋                                                                                                                           | 5465/15000 [3:53:09<6:14:22,  2.36s/it] 36%|██████████████████████████████████████████████████████████████████████▋                                                                                                                           | 5466/15000 [3:53:11<6:14:15,  2.36s/it] 36%|██████████████████████████████████████████████████████████████████████▋                                                                                                                           | 5467/15000 [3:53:13<6:14:12,  2.36s/it] 36%|██████████████████████████████████████████████████████████████████████▋                                                                                                                           | 5468/15000 [3:53:16<6:13:40,  2.35s/it] 36%|██████████████████████████████████████████████████████████████████████▋                                                                                                                           | 5469/15000 [3:53:18<6:13:36,  2.35s/it] 36%|██████████████████████████████████████████████████████████████████████▋                                                                                                                           | 5470/15000 [3:53:21<6:13:21,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.819, 'grad_norm': 1.765625, 'learning_rate': 4.974266833982346e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3491.82, 'total_tokens': 44688293, 'epoch': 0.36}
+ 36%|██████████████████████████████████████████████████████████████████████▋                                                                                                                           | 5470/15000 [3:53:21<6:13:21,  2.35s/it] 36%|██████████████████████████████████████████████████████████████████████▊                                                                                                                           | 5471/15000 [3:53:23<6:13:45,  2.35s/it] 36%|██████████████████████████████████████████████████████████████████████▊                                                                                                                           | 5472/15000 [3:53:25<6:13:56,  2.35s/it] 36%|██████████████████████████████████████████████████████████████████████▊                                                                                                                           | 5473/15000 [3:53:28<6:13:54,  2.35s/it] 36%|██████████████████████████████████████████████████████████████████████▊                                                                                                                           | 5474/15000 [3:53:30<6:14:04,  2.36s/it] 36%|██████████████████████████████████████████████████████████████████████▊                                                                                                                           | 5475/15000 [3:53:32<6:14:07,  2.36s/it] 37%|██████████████████████████████████████████████████████████████████████▊                                                                                                                           | 5476/15000 [3:53:35<6:13:55,  2.36s/it] 37%|██████████████████████████████████████████████████████████████████████▊                                                                                                                           | 5477/15000 [3:53:37<6:13:53,  2.36s/it] 37%|██████████████████████████████████████████████████████████████████████▊                                                                                                                           | 5478/15000 [3:53:39<6:13:51,  2.36s/it] 37%|██████████████████████████████████████████████████████████████████████▊                                                                                                                           | 5479/15000 [3:53:42<6:13:49,  2.36s/it] 37%|██████████████████████████████████████████████████████████████████████▊                                                                                                                           | 5480/15000 [3:53:44<6:13:52,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.8106, 'grad_norm': 1.71875, 'learning_rate': 4.9731598654358855e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3478.25, 'total_tokens': 44770044, 'epoch': 0.37}
+ 37%|██████████████████████████████████████████████████████████████████████▊                                                                                                                           | 5480/15000 [3:53:44<6:13:52,  2.36s/it] 37%|██████████████████████████████████████████████████████████████████████▉                                                                                                                           | 5481/15000 [3:53:46<6:13:27,  2.35s/it] 37%|██████████████████████████████████████████████████████████████████████▉                                                                                                                           | 5482/15000 [3:53:49<6:13:30,  2.35s/it] 37%|██████████████████████████████████████████████████████████████████████▉                                                                                                                           | 5483/15000 [3:53:51<6:13:13,  2.35s/it] 37%|██████████████████████████████████████████████████████████████████████▉                                                                                                                           | 5484/15000 [3:53:53<6:12:53,  2.35s/it] 37%|██████████████████████████████████████████████████████████████████████▉                                                                                                                           | 5485/15000 [3:53:56<6:13:10,  2.35s/it] 37%|██████████████████████████████████████████████████████████████████████▉                                                                                                                           | 5486/15000 [3:53:58<6:13:21,  2.35s/it] 37%|██████████████████████████████████████████████████████████████████████▉                                                                                                                           | 5487/15000 [3:54:01<6:13:14,  2.35s/it] 37%|██████████████████████████████████████████████████████████████████████▉                                                                                                                           | 5488/15000 [3:54:03<6:13:32,  2.36s/it] 37%|██████████████████████████████████████████████████████████████████████▉                                                                                                                           | 5489/15000 [3:54:05<6:13:40,  2.36s/it] 37%|███████████████████████████████████████████████████████████████████████                                                                                                                           | 5490/15000 [3:54:08<6:14:00,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.7969, 'grad_norm': 1.671875, 'learning_rate': 4.972029721499543e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3467.31, 'total_tokens': 44851798, 'epoch': 0.37}
+ 37%|███████████████████████████████████████████████████████████████████████                                                                                                                           | 5490/15000 [3:54:08<6:14:00,  2.36s/it] 37%|███████████████████████████████████████████████████████████████████████                                                                                                                           | 5491/15000 [3:54:10<6:13:55,  2.36s/it] 37%|███████████████████████████████████████████████████████████████████████                                                                                                                           | 5492/15000 [3:54:12<6:13:19,  2.36s/it] 37%|███████████████████████████████████████████████████████████████████████                                                                                                                           | 5493/15000 [3:54:15<6:13:04,  2.35s/it] 37%|███████████████████████████████████████████████████████████████████████                                                                                                                           | 5494/15000 [3:54:17<6:12:50,  2.35s/it] 37%|███████████████████████████████████████████████████████████████████████                                                                                                                           | 5495/15000 [3:54:19<6:12:48,  2.35s/it] 37%|███████████████████████████████████████████████████████████████████████                                                                                                                           | 5496/15000 [3:54:22<6:12:59,  2.35s/it] 37%|███████████████████████████████████████████████████████████████████████                                                                                                                           | 5497/15000 [3:54:24<6:12:35,  2.35s/it] 37%|███████████████████████████████████████████████████████████████████████                                                                                                                           | 5498/15000 [3:54:26<6:12:31,  2.35s/it] 37%|███████████████████████████████████████████████████████████████████████                                                                                                                           | 5499/15000 [3:54:29<6:12:16,  2.35s/it] 37%|███████████████████████████████████████████████████████████████████████▏                                                                                                                          | 5500/15000 [3:54:31<6:12:17,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.7681, 'grad_norm': 1.8203125, 'learning_rate': 4.970876413327385e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3485.47, 'total_tokens': 44933543, 'epoch': 0.37}
+ 37%|███████████████████████████████████████████████████████████████████████▏                                                                                                                          | 5500/15000 [3:54:31<6:12:17,  2.35s/it] 37%|███████████████████████████████████████████████████████████████████████▏                                                                                                                          | 5501/15000 [3:54:34<6:12:22,  2.35s/it] 37%|███████████████████████████████████████████████████████████████████████▏                                                                                                                          | 5502/15000 [3:54:36<6:12:26,  2.35s/it] 37%|███████████████████████████████████████████████████████████████████████▏                                                                                                                          | 5503/15000 [3:54:38<6:12:25,  2.35s/it] 37%|███████████████████████████████████████████████████████████████████████▏                                                                                                                          | 5504/15000 [3:54:41<6:12:41,  2.35s/it] 37%|███████████████████████████████████████████████████████████████████████▏                                                                                                                          | 5505/15000 [3:54:43<6:12:38,  2.35s/it] 37%|███████████████████████████████████████████████████████████████████████▏                                                                                                                          | 5506/15000 [3:54:45<6:12:52,  2.36s/it] 37%|███████████████████████████████████████████████████████████████████████▏                                                                                                                          | 5507/15000 [3:54:48<6:12:45,  2.36s/it] 37%|███████████████████████████████████████████████████████████████████████▏                                                                                                                          | 5508/15000 [3:54:50<6:12:25,  2.35s/it] 37%|███████████████████████████████████████████████████████████████████████▏                                                                                                                          | 5509/15000 [3:54:52<6:12:18,  2.35s/it] 37%|███████████████████████████████████████████████████████████████████████▎                                                                                                                          | 5510/15000 [3:54:55<6:11:41,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.8144, 'grad_norm': 1.671875, 'learning_rate': 4.969699952302094e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3501.33, 'total_tokens': 45015284, 'epoch': 0.37}
+ 37%|███████████████████████████████████████████████████████████████████████▎                                                                                                                          | 5510/15000 [3:54:55<6:11:41,  2.35s/it] 37%|███████████████████████████████████████████████████████████████████████▎                                                                                                                          | 5511/15000 [3:54:57<6:11:45,  2.35s/it] 37%|███████████████████████████████████████████████████████████████████████▎                                                                                                                          | 5512/15000 [3:54:59<6:11:33,  2.35s/it] 37%|███████████████████████████████████████████████████████████████████████▎                                                                                                                          | 5513/15000 [3:55:02<6:11:24,  2.35s/it] 37%|███████████████████████████████████████████████████████████████████████▎                                                                                                                          | 5514/15000 [3:55:04<6:11:32,  2.35s/it] 37%|███████████████████████████████████████████████████████████████████████▎                                                                                                                          | 5515/15000 [3:55:06<6:11:24,  2.35s/it] 37%|███████████████████████████████████████████████████████████████████████▎                                                                                                                          | 5516/15000 [3:55:09<6:11:16,  2.35s/it] 37%|███████████████████████████████████████████████████████████████████████▎                                                                                                                          | 5517/15000 [3:55:11<6:11:42,  2.35s/it] 37%|███████████████████████████████████████████████████████████████████████▎                                                                                                                          | 5518/15000 [3:55:14<6:12:06,  2.35s/it] 37%|███████████████████████████████████████████████████████████████████████▍                                                                                                                          | 5519/15000 [3:55:16<6:11:37,  2.35s/it] 37%|███████████████████████████████████████████████████████████████████████▍                                                                                                                          | 5520/15000 [3:55:18<6:12:02,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.8288, 'grad_norm': 2.546875, 'learning_rate': 4.9685003500348695e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3470.9, 'total_tokens': 45097001, 'epoch': 0.37}
+ 37%|███████████████████████████████████████████████████████████████████████▍                                                                                                                          | 5520/15000 [3:55:18<6:12:02,  2.35s/it] 37%|███████████████████████████████████████████████████████████████████████▍                                                                                                                          | 5521/15000 [3:55:21<6:11:41,  2.35s/it] 37%|███████████████████████████████████████████████████████████████████████▍                                                                                                                          | 5522/15000 [3:55:23<6:11:50,  2.35s/it] 37%|███████████████████████████████████████████████████████████████████████▍                                                                                                                          | 5523/15000 [3:55:25<6:11:56,  2.35s/it] 37%|███████████████████████████████████████████████████████████████████████▍                                                                                                                          | 5524/15000 [3:55:28<6:11:59,  2.36s/it] 37%|███████████████████████████████████████████████████████████████████████▍                                                                                                                          | 5525/15000 [3:55:30<6:11:34,  2.35s/it] 37%|███████████████████████████████████████████████████████████████████████▍                                                                                                                          | 5526/15000 [3:55:32<6:11:39,  2.35s/it] 37%|███████████████████████████████████████████████████████████████████████▍                                                                                                                          | 5527/15000 [3:55:35<6:11:24,  2.35s/it] 37%|███████████████████████████████████████████████████████████████████████▍                                                                                                                          | 5528/15000 [3:55:37<6:11:15,  2.35s/it] 37%|███████████████████████████████████████████████████████████████████████▌                                                                                                                          | 5529/15000 [3:55:39<6:11:11,  2.35s/it] 37%|███████████████████████████████████████████████████████████████████████▌                                                                                                                          | 5530/15000 [3:55:42<6:11:09,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.7917, 'grad_norm': 1.6953125, 'learning_rate': 4.967277618365298e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3486.45, 'total_tokens': 45178753, 'epoch': 0.37}
+ 37%|███████████████████████████████████████████████████████████████████████▌                                                                                                                          | 5530/15000 [3:55:42<6:11:09,  2.35s/it] 37%|███████████████████████████████████████████████████████████████████████▌                                                                                                                          | 5531/15000 [3:55:44<6:11:32,  2.35s/it] 37%|███████████████████████████████████████████████████████████████████████▌                                                                                                                          | 5532/15000 [3:55:46<6:11:31,  2.35s/it] 37%|███████████████████████████████████████████████████████████████████████▌                                                                                                                          | 5533/15000 [3:55:49<6:11:39,  2.36s/it] 37%|███████████████████████████████████████████████████████████████████████▌                                                                                                                          | 5534/15000 [3:55:51<6:11:42,  2.36s/it] 37%|███████████████████████████████████████████████████████████████████████▌                                                                                                                          | 5535/15000 [3:55:54<6:11:41,  2.36s/it] 37%|███████████████████████████████████████████████████████████████████████▌                                                                                                                          | 5536/15000 [3:55:56<6:11:17,  2.35s/it] 37%|███████████████████████████████████████████████████████████████████████▌                                                                                                                          | 5537/15000 [3:55:58<6:11:27,  2.36s/it] 37%|███████████████████████████████████████████████████████████████████████▌                                                                                                                          | 5538/15000 [3:56:01<6:11:20,  2.35s/it] 37%|███████████████████████████████████████████████████████████████████████▋                                                                                                                          | 5539/15000 [3:56:03<6:11:30,  2.36s/it] 37%|███████████████████████████████████████████████████████████████████████▋                                                                                                                          | 5540/15000 [3:56:05<6:11:27,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.8456, 'grad_norm': 1.734375, 'learning_rate': 4.96603176936125e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3480.51, 'total_tokens': 45260514, 'epoch': 0.37}
+ 37%|███████████████████████████████████████████████████████████████████████▋                                                                                                                          | 5540/15000 [3:56:05<6:11:27,  2.36s/it] 37%|███████████████████████████████████████████████████████████████████████▋                                                                                                                          | 5541/15000 [3:56:08<6:11:32,  2.36s/it] 37%|███████████████████████████████████████████████████████████████████████▋                                                                                                                          | 5542/15000 [3:56:10<6:11:06,  2.35s/it] 37%|███████████████████████████████████████████████████████████████████████▋                                                                                                                          | 5543/15000 [3:56:12<6:11:08,  2.35s/it] 37%|███████████████████████████████████████████████████████████████████████▋                                                                                                                          | 5544/15000 [3:56:15<6:10:54,  2.35s/it] 37%|███████████████████████████████████████████████████████████████████████▋                                                                                                                          | 5545/15000 [3:56:17<6:10:50,  2.35s/it] 37%|███████████████████████████████████████████████████████████████████████▋                                                                                                                          | 5546/15000 [3:56:19<6:10:44,  2.35s/it] 37%|███████████████████████████████████████████████████████████████████████▋                                                                                                                          | 5547/15000 [3:56:22<6:10:24,  2.35s/it] 37%|███████████████████████████████████████████████████████████████████████▊                                                                                                                          | 5548/15000 [3:56:24<6:10:01,  2.35s/it] 37%|███████████████████████████████████████████████████████████████████████▊                                                                                                                          | 5549/15000 [3:56:26<6:10:41,  2.35s/it] 37%|███████████████████████████████████████████████████████████████████████▊                                                                                                                          | 5550/15000 [3:56:29<6:10:23,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.8527, 'grad_norm': 1.71875, 'learning_rate': 4.964762815318751e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3492.56, 'total_tokens': 45342268, 'epoch': 0.37}
+ 37%|███████████████████████████████████████████████████████████████████████▊                                                                                                                          | 5550/15000 [3:56:29<6:10:23,  2.35s/it] 37%|███████████████████████████████████████████████████████████████████████▊                                                                                                                          | 5551/15000 [3:56:31<6:10:20,  2.35s/it] 37%|███████████████████████████████████████████████████████████████████████▊                                                                                                                          | 5552/15000 [3:56:34<6:10:28,  2.35s/it] 37%|███████████████████████████████████████████████████████████████████████▊                                                                                                                          | 5553/15000 [3:56:36<6:10:44,  2.35s/it] 37%|███████████████████████████████████████████████████████████████████████▊                                                                                                                          | 5554/15000 [3:56:38<6:10:45,  2.36s/it] 37%|███████████████████████████████████████████████████████████████████████▊                                                                                                                          | 5555/15000 [3:56:41<6:11:00,  2.36s/it] 37%|███████████████████████████████████████████████████████████████████████▊                                                                                                                          | 5556/15000 [3:56:43<6:10:44,  2.36s/it] 37%|███████████████████████████████████████████████████████████████████████▊                                                                                                                          | 5557/15000 [3:56:45<6:10:50,  2.36s/it] 37%|███████████████████████████████████████████████████████████████████████▉                                                                                                                          | 5558/15000 [3:56:48<6:11:02,  2.36s/it] 37%|███████████████████████████████████████████████████████████████████████▉                                                                                                                          | 5559/15000 [3:56:50<6:10:18,  2.35s/it] 37%|███████████████████████████████████████████████████████████████████████▉                                                                                                                          | 5560/15000 [3:56:52<6:10:13,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.8048, 'grad_norm': 1.71875, 'learning_rate': 4.9634707687618657e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3487.42, 'total_tokens': 45424057, 'epoch': 0.37}
+ 37%|███████████████████████████████████████████████████████████████████████▉                                                                                                                          | 5560/15000 [3:56:52<6:10:13,  2.35s/it] 37%|███████████████████████████████████████████████████████████████████████▉                                                                                                                          | 5561/15000 [3:56:55<6:10:30,  2.36s/it] 37%|███████████████████████████████████████████████████████████████████████▉                                                                                                                          | 5562/15000 [3:56:57<6:10:20,  2.35s/it] 37%|███████████████████████████████████████████████████████████████████████▉                                                                                                                          | 5563/15000 [3:56:59<6:10:17,  2.35s/it] 37%|███████████████████████████████████████████████████████████████████████▉                                                                                                                          | 5564/15000 [3:57:02<6:10:05,  2.35s/it] 37%|███████████████████████████████████████████████████████████████████████▉                                                                                                                          | 5565/15000 [3:57:04<6:09:51,  2.35s/it] 37%|███████████████████████████████████████████████████████████████████████▉                                                                                                                          | 5566/15000 [3:57:07<6:10:06,  2.35s/it] 37%|███████████████████████████████████████████████████████████████████████▉                                                                                                                          | 5567/15000 [3:57:09<6:09:55,  2.35s/it] 37%|████████████████████████████████████████████████████████████████████████                                                                                                                          | 5568/15000 [3:57:11<6:09:45,  2.35s/it] 37%|████████████████████████████████████████████████████████████████████████                                                                                                                          | 5569/15000 [3:57:14<6:09:51,  2.35s/it] 37%|████████████████████████████████████████████████████████████████████████                                                                                                                          | 5570/15000 [3:57:16<6:09:35,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.833, 'grad_norm': 1.734375, 'learning_rate': 4.9621556424425705e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3489.95, 'total_tokens': 45505766, 'epoch': 0.37}
+ 37%|████████████████████████████████████████████████████████████████████████                                                                                                                          | 5570/15000 [3:57:16<6:09:35,  2.35s/it] 37%|████████████████████████████████████████████████████████████████████████                                                                                                                          | 5571/15000 [3:57:18<6:09:27,  2.35s/it] 37%|████████████████████████████████████████████████████████████████████████                                                                                                                          | 5572/15000 [3:57:21<6:09:43,  2.35s/it] 37%|████████████████████████████████████████████████████████████████████████                                                                                                                          | 5573/15000 [3:57:23<6:09:40,  2.35s/it] 37%|████████████████████████████████████████████████████████████████████████                                                                                                                          | 5574/15000 [3:57:25<6:09:49,  2.35s/it] 37%|████████████████████████████████████████████████████████████████████████                                                                                                                          | 5575/15000 [3:57:28<6:09:39,  2.35s/it] 37%|████████████████████████████████████████████████████████████████████████                                                                                                                          | 5576/15000 [3:57:30<6:09:53,  2.35s/it] 37%|████████████████████████████████████████████████████████████████████████▏                                                                                                                         | 5577/15000 [3:57:32<6:09:22,  2.35s/it] 37%|████████████████████████████████████████████████████████████████████████▏                                                                                                                         | 5578/15000 [3:57:35<6:09:16,  2.35s/it] 37%|████████████████████████████████████████████████████████████████████████▏                                                                                                                         | 5579/15000 [3:57:37<6:09:30,  2.35s/it] 37%|████████████████████████████████████████████████████████████████████████▏                                                                                                                         | 5580/15000 [3:57:39<6:09:26,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.8203, 'grad_norm': 1.7421875, 'learning_rate': 4.9608174493406334e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3486.51, 'total_tokens': 45587545, 'epoch': 0.37}
+ 37%|████████████████████████████████████████████████████████████████████████▏                                                                                                                         | 5580/15000 [3:57:39<6:09:26,  2.35s/it] 37%|████████████████████████████████████████████████████████████████████████▏                                                                                                                         | 5581/15000 [3:57:42<6:09:45,  2.36s/it] 37%|████████████████████████████████████████████████████████████████████████▏                                                                                                                         | 5582/15000 [3:57:44<6:09:36,  2.35s/it] 37%|████████████████████████████████████████████████████████████████████████▏                                                                                                                         | 5583/15000 [3:57:47<6:09:23,  2.35s/it] 37%|████████████████████████████████████████████████████████████████████████▏                                                                                                                         | 5584/15000 [3:57:49<6:09:21,  2.35s/it] 37%|████████████████████████████████████████████████████████████████████████▏                                                                                                                         | 5585/15000 [3:57:51<6:09:24,  2.35s/it] 37%|████████████████████████████████████████████████████████████████████████▏                                                                                                                         | 5586/15000 [3:57:54<6:09:13,  2.35s/it] 37%|████████████████████████████████████████████████████████████████████████▎                                                                                                                         | 5587/15000 [3:57:56<6:09:05,  2.35s/it] 37%|████████████████████████████████████████████████████████████████████████▎                                                                                                                         | 5588/15000 [3:57:58<6:09:19,  2.35s/it] 37%|████████████████████████████████████████████████████████████████████████▎                                                                                                                         | 5589/15000 [3:58:01<6:08:58,  2.35s/it] 37%|████████████████████████████████████████████████████████████████████████▎                                                                                                                         | 5590/15000 [3:58:03<6:08:40,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.8205, 'grad_norm': 1.8359375, 'learning_rate': 4.959456202663478e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3495.54, 'total_tokens': 45669326, 'epoch': 0.37}
+ 37%|████████████████████████████████████████████████████████████████████████▎                                                                                                                         | 5590/15000 [3:58:03<6:08:40,  2.35s/it] 37%|████████████████████████████████████████████████████████████████████████▎                                                                                                                         | 5591/15000 [3:58:05<6:08:38,  2.35s/it] 37%|████████████████████████████████████████████████████████████████████████▎                                                                                                                         | 5592/15000 [3:58:08<6:08:36,  2.35s/it] 37%|████████████████████████████████████████████████████████████████████████▎                                                                                                                         | 5593/15000 [3:58:10<6:08:42,  2.35s/it] 37%|████████████████████████████████████████████████████████████████████████▎                                                                                                                         | 5594/15000 [3:58:12<6:08:43,  2.35s/it] 37%|████████████████████████████████████████████████████████████████████████▎                                                                                                                         | 5595/15000 [3:58:15<6:09:00,  2.35s/it] 37%|████████████████████████████████████████████████████████████████████████▎                                                                                                                         | 5596/15000 [3:58:17<6:08:38,  2.35s/it] 37%|████████████████████████████████████████████████████████████████████████▍                                                                                                                         | 5597/15000 [3:58:19<6:08:56,  2.35s/it] 37%|████████████████████████████████████████████████████████████████████████▍                                                                                                                         | 5598/15000 [3:58:22<6:08:19,  2.35s/it] 37%|████████████████████████████████████████████████████████████████████████▍                                                                                                                         | 5599/15000 [3:58:24<6:08:12,  2.35s/it] 37%|█████████████████████████████████████████████████████████��██████████████▍                                                                                                                         | 5600/15000 [3:58:26<6:08:13,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.8738, 'grad_norm': 1.703125, 'learning_rate': 4.958071915846061e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3488.5, 'total_tokens': 45751105, 'epoch': 0.37}
+ 37%|████████████████████████████████████████████████████████████████████████▍                                                                                                                         | 5600/15000 [3:58:26<6:08:13,  2.35s/it] 37%|████████████████████████████████████████████████████████████████████████▍                                                                                                                         | 5601/15000 [3:58:29<6:08:12,  2.35s/it] 37%|████████████████████████████████████████████████████████████████████████▍                                                                                                                         | 5602/15000 [3:58:31<6:08:38,  2.35s/it] 37%|████████████████████████████████████████████████████████████████████████▍                                                                                                                         | 5603/15000 [3:58:34<6:08:31,  2.35s/it] 37%|████████████████████████████████████████████████████████████████████████▍                                                                                                                         | 5604/15000 [3:58:36<6:08:36,  2.35s/it] 37%|████████████████████████████████████████████████████████████████████████▍                                                                                                                         | 5605/15000 [3:58:38<6:08:28,  2.35s/it] 37%|████████████████████████████████████████████████████████████████████████▌                                                                                                                         | 5606/15000 [3:58:41<6:08:25,  2.35s/it] 37%|████████████████████████████████████████████████████████████████████████▌                                                                                                                         | 5607/15000 [3:58:43<6:08:21,  2.35s/it] 37%|████████████████████████████████████████████████████████████████████████▌                                                                                                                         | 5608/15000 [3:58:45<6:08:25,  2.35s/it] 37%|████████████████████████████████████████████████████████████████████████▌                                                                                                                         | 5609/15000 [3:58:48<6:08:26,  2.35s/it] 37%|████████████████████████████████████████████████████████████████████████▌                                                                                                                         | 5610/15000 [3:58:50<6:08:16,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.8292, 'grad_norm': 1.796875, 'learning_rate': 4.956664602550733e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3486.13, 'total_tokens': 45832841, 'epoch': 0.37}
+ 37%|████████████████████████████████████████████████████████████████████████▌                                                                                                                         | 5610/15000 [3:58:50<6:08:16,  2.35s/it] 37%|████████████████████████████████████████████████████████████████████████▌                                                                                                                         | 5611/15000 [3:58:52<6:08:06,  2.35s/it] 37%|████████████████████████████████████████████████████████████████████████▌                                                                                                                         | 5612/15000 [3:58:55<6:08:12,  2.35s/it] 37%|████████████████████████████████████████████████████████████████████████▌                                                                                                                         | 5613/15000 [3:58:57<6:08:03,  2.35s/it] 37%|████████████████████████████████████████████████████████████████████████▌                                                                                                                         | 5614/15000 [3:58:59<6:07:43,  2.35s/it] 37%|████████████████████████████████████████████████████████████████████████▌                                                                                                                         | 5615/15000 [3:59:02<6:07:59,  2.35s/it] 37%|████████████████████████████████████████████████████████████████████████▋                                                                                                                         | 5616/15000 [3:59:04<6:08:01,  2.35s/it] 37%|████████████████████████████████████████████████████████████████████████▋                                                                                                                         | 5617/15000 [3:59:06<6:08:01,  2.35s/it] 37%|████████████████████████████████████████████████████████████████████████▋                                                                                                                         | 5618/15000 [3:59:09<6:07:37,  2.35s/it] 37%|████████████████████████████████████████████████████████████████████████▋                                                                                                                         | 5619/15000 [3:59:11<6:07:32,  2.35s/it] 37%|████████████████████████████████████████████████████████████████████████▋                                                                                                                         | 5620/15000 [3:59:14<6:07:41,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.7536, 'grad_norm': 1.640625, 'learning_rate': 4.9552342766671094e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3479.18, 'total_tokens': 45914523, 'epoch': 0.37}
+ 37%|████████████████████████████████████████████████████████████████████████▋                                                                                                                         | 5620/15000 [3:59:14<6:07:41,  2.35s/it] 37%|████████████████████████████████████████████████████████████████████████▋                                                                                                                         | 5621/15000 [3:59:16<6:30:07,  2.50s/it] 37%|████████████████████████████████████████████████████████████████████████▋                                                                                                                         | 5622/15000 [3:59:19<6:23:40,  2.45s/it] 37%|████████████████████████████████████████████████████████████████████████▋                                                                                                                         | 5623/15000 [3:59:21<6:18:46,  2.42s/it] 37%|████████████████████████████████████████████████████████████████████████▋                                                                                                                         | 5624/15000 [3:59:23<6:15:38,  2.40s/it] 38%|████████████████████████████████████████████████████████████████████████▊                                                                                                                         | 5625/15000 [3:59:26<6:13:28,  2.39s/it] 38%|████████████████████████████████████████████████████████████████████████▊                                                                                                                         | 5626/15000 [3:59:28<6:11:28,  2.38s/it] 38%|████████████████████████████████████████████████████████████████████████▊                                                                                                                         | 5627/15000 [3:59:30<6:10:07,  2.37s/it] 38%|████████████████████████████████████████████████████████████████████████▊                                                                                                                         | 5628/15000 [3:59:33<6:09:32,  2.37s/it] 38%|████████████████████████████████████████████████████████████████████████▊                                                                                                                         | 5629/15000 [3:59:35<6:08:50,  2.36s/it] 38%|████████████████████████████████████████████████████████████████████████▊                                                                                                                         | 5630/15000 [3:59:38<6:08:19,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.8334, 'grad_norm': 1.703125, 'learning_rate': 4.953780952311929e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3483.3, 'total_tokens': 45996188, 'epoch': 0.38}
+ 38%|████████████████████████████████████████████████████████████████████████▊                                                                                                                         | 5630/15000 [3:59:38<6:08:19,  2.36s/it] 38%|████████████████████████████████████████████████████████████████████████▊                                                                                                                         | 5631/15000 [3:59:40<6:08:12,  2.36s/it] 38%|████████████████████████████████████████████████████████████████████████▊                                                                                                                         | 5632/15000 [3:59:42<6:08:07,  2.36s/it] 38%|████████████████████████████████████████████████████████████████████████▊                                                                                                                         | 5633/15000 [3:59:45<6:08:11,  2.36s/it] 38%|████████████████████████████████████████████████████████████████████████▊                                                                                                                         | 5634/15000 [3:59:47<6:07:57,  2.36s/it] 38%|████████████████████████████████████████████████████████████████████████▉                                                                                                                         | 5635/15000 [3:59:49<6:07:45,  2.36s/it] 38%|████████████████████████████████████████████████████████████████████████▉                                                                                                                         | 5636/15000 [3:59:52<6:07:44,  2.36s/it] 38%|████████████████████████████████████████████████████████████████████████▉                                                                                                                         | 5637/15000 [3:59:54<6:07:00,  2.35s/it] 38%|████████████████████████████████████████████████████████████████████████▉                                                                                                                         | 5638/15000 [3:59:56<6:07:00,  2.35s/it] 38%|████████████████████████████████████████████████████████████████████████▉                                                                                                                         | 5639/15000 [3:59:59<6:06:54,  2.35s/it] 38%|████████████████████████████████████████████████████████████████████████▉                                                                                                                         | 5640/15000 [4:00:01<6:07:11,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.8004, 'grad_norm': 2.265625, 'learning_rate': 4.952304643828916e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3475.33, 'total_tokens': 46077916, 'epoch': 0.38}
+ 38%|████████████████████████████████████████████████████████████████████████▉                                                                                                                         | 5640/15000 [4:00:01<6:07:11,  2.35s/it] 38%|████████████████████████████████████████████████████████████████████████▉                                                                                                                         | 5641/15000 [4:00:03<6:07:18,  2.35s/it] 38%|████████████████████████████████████████████████████████████████████████▉                                                                                                                         | 5642/15000 [4:00:06<6:07:20,  2.36s/it] 38%|████████████████████████████████████████████████████████████████████████▉                                                                                                                         | 5643/15000 [4:00:08<6:07:23,  2.36s/it] 38%|████████████████████████████████████████████████████████████████████████▉                                                                                                                         | 5644/15000 [4:00:11<6:07:13,  2.36s/it] 38%|█████████████████████████████████████████████████████████████████████████                                                                                                                         | 5645/15000 [4:00:13<6:06:53,  2.35s/it] 38%|█████████████████████████████████████████████████████████████████████████                                                                                                                         | 5646/15000 [4:00:15<6:06:50,  2.35s/it] 38%|█████████████████████████████████████████████████████████████████████████                                                                                                                         | 5647/15000 [4:00:18<6:06:59,  2.35s/it] 38%|█████████████████████████████████████████████████████████████████████████                                                                                                                         | 5648/15000 [4:00:20<6:06:49,  2.35s/it] 38%|█████████████████████████████████████████████████████████████████████████                                                                                                                         | 5649/15000 [4:00:22<6:06:46,  2.35s/it] 38%|█████████████████████████████████████████████████████████████████████████                                                                                                                         | 5650/15000 [4:00:25<6:06:43,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.87, 'grad_norm': 1.859375, 'learning_rate': 4.9508053657886397e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3480.6, 'total_tokens': 46159576, 'epoch': 0.38}
+ 38%|█████████████████████████████████████████████████████████████████████████                                                                                                                         | 5650/15000 [4:00:25<6:06:43,  2.35s/it] 38%|█████████████████████████████████████████████████████████████████████████                                                                                                                         | 5651/15000 [4:00:27<6:06:44,  2.35s/it] 38%|█████████████████████████████████████████████████████████████████████████                                                                                                                         | 5652/15000 [4:00:29<6:06:52,  2.35s/it] 38%|█████████████████████████████████████████████████████████████████████████                                                                                                                         | 5653/15000 [4:00:32<6:07:07,  2.36s/it] 38%|█████████████████████████████████████████████████████████████████████████▏                                                                                                                        | 5654/15000 [4:00:34<6:06:48,  2.35s/it] 38%|█████████████████████████████████████████████████████████████████████████▏                                                                                                                        | 5655/15000 [4:00:36<6:06:29,  2.35s/it] 38%|█████████████████████████████████████████████████████████████████████████▏                                                                                                                        | 5656/15000 [4:00:39<6:06:31,  2.35s/it] 38%|█████████████████████████████████████████████████████████████████████████▏                                                                                                                        | 5657/15000 [4:00:41<6:06:37,  2.35s/it] 38%|█████████████████████████████████████████████████████████████████████████▏                                                                                                                        | 5658/15000 [4:00:43<6:06:24,  2.35s/it] 38%|█████████████████████████████████████████████████████████████████████████▏                                                                                                                        | 5659/15000 [4:00:46<6:06:20,  2.35s/it] 38%|█████████████████████████████████████████████████████████████████████████▏                                                                                                                        | 5660/15000 [4:00:48<6:06:18,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.7964, 'grad_norm': 1.875, 'learning_rate': 4.9492831329883676e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3473.95, 'total_tokens': 46241086, 'epoch': 0.38}
+ 38%|█████████████████████████████████████████████████████████████████████████▏                                                                                                                        | 5660/15000 [4:00:48<6:06:18,  2.35s/it] 38%|█████████████████████████████████████████████████████████████████████████▏                                                                                                                        | 5661/15000 [4:00:51<6:05:53,  2.35s/it] 38%|█████████████████████████████████████████████████████████████████████████▏                                                                                                                        | 5662/15000 [4:00:53<6:06:16,  2.35s/it] 38%|█████████████████████████████████████████████████████████████████████████▏                                                                                                                        | 5663/15000 [4:00:55<6:05:57,  2.35s/it] 38%|█████████████████████████████████████████████████████████████████████████▎                                                                                                                        | 5664/15000 [4:00:58<6:06:18,  2.35s/it] 38%|█████████████████████████████████████████████████████████████████████████▎                                                                                                                        | 5665/15000 [4:01:00<6:06:05,  2.35s/it] 38%|█████████████████████████████████████████████████████████████████████████▎                                                                                                                        | 5666/15000 [4:01:02<6:05:55,  2.35s/it] 38%|█████████████████████████████████████████████████████████████████████████▎                                                                                                                        | 5667/15000 [4:01:05<6:06:12,  2.35s/it] 38%|█████████████████████████████████████████████████████████████████████████▎                                                                                                                        | 5668/15000 [4:01:07<6:05:47,  2.35s/it] 38%|█████████████████████████████████████████████████████████████████████████▎                                                                                                                        | 5669/15000 [4:01:09<6:05:44,  2.35s/it] 38%|█████████████████████████████████████████████████████████████████████████▎                                                                                                                        | 5670/15000 [4:01:12<6:05:40,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.7918, 'grad_norm': 1.8984375, 'learning_rate': 4.9477379604519247e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3481.26, 'total_tokens': 46322692, 'epoch': 0.38}
+ 38%|█████████████████████████████████████████████████████████████████████████▎                                                                                                                        | 5670/15000 [4:01:12<6:05:40,  2.35s/it] 38%|█████████████████████████████████████████████████████████████████████████▎                                                                                                                        | 5671/15000 [4:01:14<6:05:23,  2.35s/it][2025-11-17 01:44:07,928] [INFO] [axolotl.utils.data.wrappers.get_dataset_wrapper:87] [PID:8163] Loading dataset: Goader/kobza-2m-jsonl with base_type: pretrain and prompt_style: None
+
+Tokenizing Prompts (num_proc=64):   0%|                                                                                                                                                                        | 0/10000 [00:00<?, ? examples/s][A
+Tokenizing Prompts (num_proc=64):   2%|██▍                                                                                                                                                           | 157/10000 [00:05<05:54, 27.75 examples/s][A
+Tokenizing Prompts (num_proc=64):   3%|████▉                                                                                                                                                         | 314/10000 [00:06<03:04, 52.63 examples/s][A
+Tokenizing Prompts (num_proc=64):   5%|███████▍                                                                                                                                                      | 471/10000 [00:07<01:57, 81.39 examples/s][A
+Tokenizing Prompts (num_proc=64):   6%|█████████▊                                                                                                                                                   | 628/10000 [00:07<01:14, 125.61 examples/s][A
+Tokenizing Prompts (num_proc=64):   8%|████████████▎                                                                                                                                                | 785/10000 [00:08<01:10, 130.77 examples/s][A
+Tokenizing Prompts (num_proc=64):   9%|██████████████▊                                                                                                                                              | 942/10000 [00:09<00:59, 151.30 examples/s][A
+Tokenizing Prompts (num_proc=64):  11%|█████████████████▏                                                                                                                                          | 1099/10000 [00:10<00:50, 176.60 examples/s][A
+Tokenizing Prompts (num_proc=64):  13%|███████████████████▌                                                                                                                                        | 1256/10000 [00:10<00:40, 214.45 examples/s][A
+Tokenizing Prompts (num_proc=64):  14%|██████████████████████                                                                                                                                      | 1413/10000 [00:10<00:35, 244.87 examples/s][A
+Tokenizing Prompts (num_proc=64):  16%|████████████████████████▍                                                                                                                                   | 1570/10000 [00:11<00:35, 235.70 examples/s][A
+Tokenizing Prompts (num_proc=64):  17%|██████████████████████████▉                                                                                                                                 | 1727/10000 [00:12<00:42, 192.57 examples/s][A
+Tokenizing Prompts (num_proc=64):  19%|█████████████████████████████▍                                                                                                                              | 1884/10000 [00:13<00:39, 203.75 examples/s][A
+Tokenizing Prompts (num_proc=64):  20%|███████████████████████████████▊                                                                                                                            | 2041/10000 [00:14<00:31, 248.75 examples/s][A
+Tokenizing Prompts (num_proc=64):  22%|██████████████████████████████████▎                                                                                                                         | 2198/10000 [00:14<00:30, 253.03 examples/s][A
+Tokenizing Prompts (num_proc=64):  24%|████████████████████████████████████▋                                                                                                                       | 2355/10000 [00:15<00:31, 242.19 examples/s][A
+Tokenizing Prompts (num_proc=64):  25%|███████████████████████████████████████▏                                                                                                                    | 2512/10000 [00:16<00:38, 196.44 examples/s][A
+Tokenizing Prompts (num_proc=64):  27%|█████████████████████████████████████████▌                                                                                                                  | 2668/10000 [00:16<00:31, 236.43 examples/s][A
+Tokenizing Prompts (num_proc=64):  28%|████████████████████████████████████████████                                                                                                                | 2824/10000 [00:17<00:28, 249.92 examples/s][A
+Tokenizing Prompts (num_proc=64):  30%|██████████████████████████████████████████████▍                                                                                                             | 2980/10000 [00:18<00:35, 198.40 examples/s][A
+Tokenizing Prompts (num_proc=64):  31%|████████████████████████████████████████████████▉                                                                                                           | 3136/10000 [00:18<00:26, 260.71 examples/s][A
+Tokenizing Prompts (num_proc=64):  33%|███████████████████████████████████████████████████▎                                                                                                        | 3292/10000 [00:19<00:27, 246.16 examples/s][A
+Tokenizing Prompts (num_proc=64):  34%|█████████████████████████████████████████████████████▊                                                                                                      | 3448/10000 [00:20<00:33, 197.51 examples/s][A
+Tokenizing Prompts (num_proc=64):  36%|████████████████████████████████████████████████████████▏                                                                                                   | 3604/10000 [00:20<00:24, 260.46 examples/s][A
+Tokenizing Prompts (num_proc=64):  38%|██████████████████████████████████████████████████████████▋                                                                                                 | 3760/10000 [00:21<00:31, 198.79 examples/s][A
+Tokenizing Prompts (num_proc=64):  39%|█████████████████████████████████████████████████████████████                                                                                               | 3916/10000 [00:22<00:30, 202.11 examples/s][A
+Tokenizing Prompts (num_proc=64):  41%|███████████████████████████████████████████████████████████████▌                                                                                            | 4072/10000 [00:22<00:23, 249.10 examples/s][A
+Tokenizing Prompts (num_proc=64):  42%|█████████████████████████████████████████████████████████████████▉                                                                                          | 4228/10000 [00:23<00:24, 237.33 examples/s][A
+Tokenizing Prompts (num_proc=64):  44%|████████████████████████████████████████████████████████████████████▍                                                                                       | 4384/10000 [00:23<00:22, 247.39 examples/s][A
+Tokenizing Prompts (num_proc=64):  45%|██████████████████████████████████████████████████████████████████████▊                                                                                     | 4540/10000 [00:25<00:28, 188.28 examples/s][A
+Tokenizing Prompts (num_proc=64):  47%|█████████████████████████████████████████████████████████████████████████▎                                                                                  | 4696/10000 [00:25<00:21, 243.28 examples/s][A
+Tokenizing Prompts (num_proc=64):  49%|███████████████████████████████████████████████████████████████████████████▋                                                                                | 4852/10000 [00:26<00:21, 239.16 examples/s][A
+Tokenizing Prompts (num_proc=64):  50%|██████████████████████████████████████████████████████████████████████████████                                                                              | 5008/10000 [00:27<00:26, 187.79 examples/s][A
+Tokenizing Prompts (num_proc=64):  52%|███████████████████████████████████████████████████████████████████████��████████▌                                                                           | 5164/10000 [00:28<00:24, 198.47 examples/s][A
+Tokenizing Prompts (num_proc=64):  53%|██████████████████████████████████████████████████████████████████████████████████▉                                                                         | 5320/10000 [00:28<00:19, 236.47 examples/s][A
+Tokenizing Prompts (num_proc=64):  55%|█████████████████████████████████████████████████████████████████████████████████████▍                                                                      | 5476/10000 [00:28<00:17, 256.66 examples/s][A
+Tokenizing Prompts (num_proc=64):  56%|███████████████████████████████████████████████████████████████████████████████████████▊                                                                    | 5632/10000 [00:29<00:17, 246.02 examples/s][A
+Tokenizing Prompts (num_proc=64):  58%|██████████████████████████████████████████████████████████████████████████████████████████▎                                                                 | 5788/10000 [00:30<00:17, 244.31 examples/s][A
+Tokenizing Prompts (num_proc=64):  59%|████████████████████████████████████████████████████████████████████████████████████████████▋                                                               | 5944/10000 [00:31<00:20, 196.73 examples/s][A
+Tokenizing Prompts (num_proc=64):  61%|███████████████████████████████████████████████████████████████████████████████████████████████▏                                                            | 6100/10000 [00:31<00:15, 251.80 examples/s][A
+Tokenizing Prompts (num_proc=64):  63%|█████████████████████████████████████████████████████████████████████████████████████████████████▌                                                          | 6256/10000 [00:32<00:18, 201.33 examples/s][A
+Tokenizing Prompts (num_proc=64):  64%|████████████████████████████████████████████████████████████████████████████████████████████████████                                                        | 6412/10000 [00:33<00:17, 207.61 examples/s][A
+Tokenizing Prompts (num_proc=64):  66%|██████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                     | 6568/10000 [00:34<00:15, 215.35 examples/s][A
+Tokenizing Prompts (num_proc=64):  67%|████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                   | 6724/10000 [00:34<00:11, 277.89 examples/s][A
+Tokenizing Prompts (num_proc=64):  69%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                | 6880/10000 [00:35<00:15, 204.71 examples/s][A
+Tokenizing Prompts (num_proc=64):  70%|███████████████████████████████████████��█████████████████████████████████████████████████████████████████████▊                                              | 7036/10000 [00:35<00:12, 245.03 examples/s][A
+Tokenizing Prompts (num_proc=64):  72%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                           | 7192/10000 [00:36<00:11, 239.62 examples/s][A
+Tokenizing Prompts (num_proc=64):  73%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                         | 7348/10000 [00:37<00:12, 205.48 examples/s][A
+Tokenizing Prompts (num_proc=64):  75%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                       | 7504/10000 [00:37<00:09, 262.40 examples/s][A
+Tokenizing Prompts (num_proc=64):  77%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                    | 7660/10000 [00:38<00:11, 205.10 examples/s][A
+Tokenizing Prompts (num_proc=64):  78%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                  | 7816/10000 [00:39<00:10, 209.28 examples/s][A
+Tokenizing Prompts (num_proc=64):  80%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                               | 7972/10000 [00:40<00:09, 215.52 examples/s][A
+Tokenizing Prompts (num_proc=64):  81%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                             | 8128/10000 [00:40<00:07, 261.96 examples/s][A
+Tokenizing Prompts (num_proc=64):  83%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                          | 8284/10000 [00:41<00:08, 209.68 examples/s][A
+Tokenizing Prompts (num_proc=64):  84%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                        | 8440/10000 [00:42<00:07, 215.87 examples/s][A
+Tokenizing Prompts (num_proc=64):  86%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                      | 8596/10000 [00:42<00:05, 272.02 examples/s][A
+Tokenizing Prompts (num_proc=64):  88%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                   | 8752/10000 [00:43<00:05, 209.65 examples/s][A
+Tokenizing Prompts (num_proc=64):  89%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                 | 8908/10000 [00:44<00:05, 215.27 examples/s][A
+Tokenizing Prompts (num_proc=64):  91%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍              | 9064/10000 [00:45<00:04, 220.31 examples/s][A
+Tokenizing Prompts (num_proc=64):  92%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊            | 9220/10000 [00:45<00:02, 280.25 examples/s][A
+Tokenizing Prompts (num_proc=64):  94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎         | 9376/10000 [00:46<00:02, 213.23 examples/s][A
+Tokenizing Prompts (num_proc=64):  95%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋       | 9532/10000 [00:47<00:01, 239.61 examples/s][A
+Tokenizing Prompts (num_proc=64):  97%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏    | 9688/10000 [00:47<00:01, 249.00 examples/s][A
+Tokenizing Prompts (num_proc=64):  98%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌  | 9844/10000 [00:48<00:00, 250.01 examples/s][A
+Tokenizing Prompts (num_proc=64): 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10000/10000 [00:48<00:00, 224.50 examples/s][ATokenizing Prompts (num_proc=64): 100%|█████████████████████████████████████��█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10000/10000 [00:50<00:00, 198.22 examples/s]
+
+Dropping Long Sequences:   0%|                                                                                                                                                                                 | 0/10001 [00:00<?, ? examples/s][A
+Dropping Long Sequences:  10%|████████████████▍                                                                                                                                                    | 1000/10001 [00:01<00:12, 702.39 examples/s][A
+Dropping Long Sequences:  20%|████████████████████████████████▊                                                                                                                                   | 2000/10001 [00:01<00:05, 1385.97 examples/s][A
+Dropping Long Sequences:  30%|█████████████████████████████████████████████████▏                                                                                                                  | 3000/10001 [00:01<00:03, 1974.24 examples/s][A
+Dropping Long Sequences:  40%|█████████████████████████████████████████████████████████████████▌                                                                                                  | 4000/10001 [00:02<00:02, 2468.86 examples/s][A
+Dropping Long Sequences:  50%|█████████████████████████████████████████████████████████████████████████████████▉                                                                                  | 5000/10001 [00:02<00:01, 2785.22 examples/s][A
+Dropping Long Sequences:  60%|██████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                 | 6000/10001 [00:02<00:01, 2974.60 examples/s][A
+Dropping Long Sequences:  70%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                 | 7000/10001 [00:02<00:00, 3366.95 examples/s][A
+Dropping Long Sequences:  80%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                | 8000/10001 [00:03<00:00, 3522.55 examples/s][A
+Dropping Long Sequences:  90%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                | 9000/10001 [00:03<00:00, 3650.53 examples/s][A
+Dropping Long Sequences: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉| 10000/10001 [00:03<00:00, 3776.02 examples/s][ADropping Long Sequences: 100%|█████████████████████████████████████████████████████████��█████████████████████████████████████████████████████████████████████████████████████████████████████████| 10001/10001 [00:03<00:00, 2669.38 examples/s]
+
+Add position_id column (Pretraining Sample Packing):   0%|                                                                                                                                                      | 0/8752 [00:00<?, ? examples/s][A
+Add position_id column (Pretraining Sample Packing):  11%|███████████████▊                                                                                                                          | 1000/8752 [00:01<00:09, 809.74 examples/s][A
+Add position_id column (Pretraining Sample Packing):  23%|███████████████████████████████▎                                                                                                         | 2000/8752 [00:01<00:04, 1679.84 examples/s][A
+Add position_id column (Pretraining Sample Packing):  34%|██████████████████████████████████████████████▉                                                                                          | 3000/8752 [00:01<00:02, 2574.11 examples/s][A
+Add position_id column (Pretraining Sample Packing):  46%|██████████████████████████████████████████████████████████████▌                                                                          | 4000/8752 [00:01<00:01, 3368.14 examples/s][A
+Add position_id column (Pretraining Sample Packing):  57%|██████████████████████████████████████████████████████████████████████████████▎                                                          | 5000/8752 [00:01<00:00, 4116.95 examples/s][A
+Add position_id column (Pretraining Sample Packing):  69%|█████████████████████████████████████████████████████████████████████████████████████████████▉                                           | 6000/8752 [00:01<00:00, 4731.85 examples/s][A
+Add position_id column (Pretraining Sample Packing):  80%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                           | 7000/8752 [00:02<00:00, 5289.19 examples/s][A
+Add position_id column (Pretraining Sample Packing):  91%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏           | 8000/8752 [00:02<00:00, 5555.16 examples/s][A
+Add position_id column (Pretraining Sample Packing): 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 8752/8752 [00:02<00:00, 5847.19 examples/s][AAdd position_id column (Pretraining Sample Packing): 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 8752/8752 [00:02<00:00, 3572.14 examples/s]
+[2025-11-17 01:45:06,138] [DEBUG] [axolotl.utils.samplers.multipack.pack_parallel:177] [PID:8163] Using single process for pack_parallel, running sequentially.
+ 38%|███████████████████████████████████████████████████████████████████��████▉                                                                                                                        | 5672/15000 [4:02:21<55:59:11, 21.61s/it] 38%|████████████████████████████████████████████████████████████████████████▉                                                                                                                        | 5673/15000 [4:02:23<41:00:39, 15.83s/it] 38%|█████████████████████████████████████████████████████████████████████████                                                                                                                        | 5674/15000 [4:02:25<30:32:04, 11.79s/it] 38%|█████████████████████████████████████████████████████████████████████████                                                                                                                        | 5675/15000 [4:02:28<23:11:40,  8.95s/it] 38%|█████████████████████████████████████████████████████████████████████████                                                                                                                        | 5676/15000 [4:02:30<18:03:37,  6.97s/it] 38%|█████████████████████████████████████████████████████████████████████████                                                                                                                        | 5677/15000 [4:02:32<14:27:48,  5.58s/it] 38%|█████████████████████████████████████████████████████████████████████████                                                                                                                        | 5678/15000 [4:02:35<11:57:27,  4.62s/it] 38%|█████████████████████████████████████████████████████████████████████████                                                                                                                        | 5679/15000 [4:02:37<10:11:42,  3.94s/it] 38%|█████████████████████████████████████████████████████████████████████████▍                                                                                                                        | 5680/15000 [4:02:39<8:57:30,  3.46s/it]                                                                                                                                                                                                                                                {'loss': 2.7939, 'grad_norm': 1.7578125, 'learning_rate': 4.9461698634295394e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3464.47, 'total_tokens': 46403754, 'epoch': 0.38}
+ 38%|█████████████████████████████████████████████████████████████████████████▍                                                                                                                        | 5680/15000 [4:02:39<8:57:30,  3.46s/it] 38%|█████████████████████████████████████████████████████████████████████████▍                                                                                                                        | 5681/15000 [4:02:42<8:06:01,  3.13s/it] 38%|█████████████████████████████████████████████████████████████████████████▍                                                                                                                        | 5682/15000 [4:02:44<7:29:52,  2.90s/it] 38%|████████████████████████████████████████████████████���████████████████████▌                                                                                                                        | 5683/15000 [4:02:46<7:04:29,  2.73s/it] 38%|█████████████████████████████████████████████████████████████████████████▌                                                                                                                        | 5684/15000 [4:02:49<6:46:59,  2.62s/it] 38%|█████████████████████████████████████████████████████████████████████████▌                                                                                                                        | 5685/15000 [4:02:51<6:34:34,  2.54s/it] 38%|█████████████████████████████████████████████████████████████████████████▌                                                                                                                        | 5686/15000 [4:02:54<6:25:27,  2.48s/it] 38%|█████████████████████████████████████████████████████████████████████████▌                                                                                                                        | 5687/15000 [4:02:56<6:19:06,  2.44s/it] 38%|█████████████████████████████████████████████████████████████████████████▌                                                                                                                        | 5688/15000 [4:02:58<6:14:37,  2.41s/it] 38%|█████████████████████████████████████████████████████████████████████████▌                                                                                                                        | 5689/15000 [4:03:01<6:11:49,  2.40s/it] 38%|█████████████████████████████████████████████████████████████████████████▌                                                                                                                        | 5690/15000 [4:03:03<6:09:36,  2.38s/it]                                                                                                                                                                                                                                                {'loss': 2.8382, 'grad_norm': 2.015625, 'learning_rate': 4.944578857397696e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3494.65, 'total_tokens': 46485613, 'epoch': 0.38}
+ 38%|█████████████████████████████████████████████████████████████████████████▌                                                                                                                        | 5690/15000 [4:03:03<6:09:36,  2.38s/it] 38%|█████████████████████████████████████████████████████████████████████████▌                                                                                                                        | 5691/15000 [4:03:05<6:08:33,  2.38s/it] 38%|█████████████████████████████████████████████████████████████████████████▌                                                                                                                        | 5692/15000 [4:03:08<6:07:36,  2.37s/it] 38%|█████████████████████████████████████████████████████████████████████████▋                                                                                                                        | 5693/15000 [4:03:10<6:07:01,  2.37s/it] 38%|████████████████████████████████���████████████████████████████████████████▋                                                                                                                        | 5694/15000 [4:03:12<6:06:35,  2.36s/it] 38%|█████████████████████████████████████████████████████████████████████████▋                                                                                                                        | 5695/15000 [4:03:15<6:05:45,  2.36s/it] 38%|█████████████████████████████████████████████████████████████████████████▋                                                                                                                        | 5696/15000 [4:03:17<6:05:14,  2.36s/it] 38%|█████████████████████████████████████████████████████████████████████████▋                                                                                                                        | 5697/15000 [4:03:19<6:05:19,  2.36s/it] 38%|█████████████████████████████████████████████████████████████████████████▋                                                                                                                        | 5698/15000 [4:03:22<6:05:08,  2.36s/it] 38%|█████████████████████████████████████████████████████████████████████████▋                                                                                                                        | 5699/15000 [4:03:24<6:05:03,  2.35s/it] 38%|█████████████████████████████████████████████████████████████████████████▋                                                                                                                        | 5700/15000 [4:03:26<6:04:52,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.8202, 'grad_norm': 1.9140625, 'learning_rate': 4.942964958058983e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3490.34, 'total_tokens': 46567449, 'epoch': 0.38}
+ 38%|█████████████████████████████████████████████████████████████████████████▋                                                                                                                        | 5700/15000 [4:03:26<6:04:52,  2.35s/it] 38%|█████████████████████████████████████████████████████████████████████████▋                                                                                                                        | 5701/15000 [4:03:29<6:04:55,  2.35s/it] 38%|█████████████████████████████████████████████████████████████████████████▋                                                                                                                        | 5702/15000 [4:03:31<6:04:54,  2.35s/it] 38%|█████████████████████████████████████████████████████████████████████████▊                                                                                                                        | 5703/15000 [4:03:34<6:04:43,  2.35s/it] 38%|█████████████████████████████████████████████████████████████████████████▊                                                                                                                        | 5704/15000 [4:03:36<6:04:29,  2.35s/it] 38%|█████████████████████████████████████████████████████████████████████████▊                                                                                                                        | 5705/15000 [4:03:38<6:04:26,  2.35s/it] 38%|█████████████████████████████████████████████████████████████████████████▊                                                                                                                        | 5706/15000 [4:03:41<6:04:43,  2.35s/it] 38%|█████████████████████████████████████████████████████████████████████████▊                                                                                                                        | 5707/15000 [4:03:43<6:04:42,  2.35s/it] 38%|█████████████████████████████████████████████████████████████████████████▊                                                                                                                        | 5708/15000 [4:03:45<6:04:47,  2.36s/it] 38%|█████████████████████████████████████████████████████████████████████████▊                                                                                                                        | 5709/15000 [4:03:48<6:04:17,  2.35s/it] 38%|█████████████████████████████████████████████████████████████████████████▊                                                                                                                        | 5710/15000 [4:03:50<6:04:22,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.7913, 'grad_norm': 1.65625, 'learning_rate': 4.941328181341933e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3483.11, 'total_tokens': 46649242, 'epoch': 0.38}
+ 38%|█████████████████████████████████████████████████████████████████████████▊                                                                                                                        | 5710/15000 [4:03:50<6:04:22,  2.35s/it] 38%|█████████████████████████████████████████████████████████████████████████▊                                                                                                                        | 5711/15000 [4:03:52<6:04:35,  2.35s/it] 38%|█████████████████████████████████████████████████████████████████████████▉                                                                                                                        | 5712/15000 [4:03:55<6:04:07,  2.35s/it] 38%|█████████████████████████████████████████████████████████████████████████▉                                                                                                                        | 5713/15000 [4:03:57<6:04:10,  2.35s/it] 38%|█████████████████████████████████████████████████████████████████████████▉                                                                                                                        | 5714/15000 [4:03:59<6:04:17,  2.35s/it] 38%|█████████████████████████████████████████████████████████████████████████▉                                                                                                                        | 5715/15000 [4:04:02<6:04:17,  2.35s/it] 38%|█████████████████████████████████████████████████████████████████████████▉                                                                                                                        | 5716/15000 [4:04:04<6:03:59,  2.35s/it] 38%|█████████████████████████████████████████████████████████████████████████▉                                                                                                                        | 5717/15000 [4:04:06<6:04:02,  2.35s/it] 38%|█████████████████████████████████████████████████████████████████████████▉                                                                                                                        | 5718/15000 [4:04:09<6:03:39,  2.35s/it] 38%|█████████████████████████████████████████████████████████████████████████▉                                                                                                                        | 5719/15000 [4:04:11<6:03:20,  2.35s/it] 38%|█████████████████████████████████████████████████████████████████████████▉                                                                                                                        | 5720/15000 [4:04:14<6:03:16,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.7625, 'grad_norm': 1.7421875, 'learning_rate': 4.9396685434008725e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3495.08, 'total_tokens': 46731078, 'epoch': 0.38}
+ 38%|█████████████████████████████████████████████████████████████████████████▉                                                                                                                        | 5720/15000 [4:04:14<6:03:16,  2.35s/it] 38%|█████████████████████████████████████████████████████████████████████████▉                                                                                                                        | 5721/15000 [4:04:16<6:03:34,  2.35s/it] 38%|██████████████████████████████████████████████████████████████████████████                                                                                                                        | 5722/15000 [4:04:18<6:03:21,  2.35s/it] 38%|██████████████████████████████████████████████████████████████████████████                                                                                                                        | 5723/15000 [4:04:21<6:03:36,  2.35s/it] 38%|██████████████████████████████████████████████████████████████████████████                                                                                                                        | 5724/15000 [4:04:23<6:03:12,  2.35s/it] 38%|██████████████████████████████████████████████████████████████████████████                                                                                                                        | 5725/15000 [4:04:25<6:03:30,  2.35s/it] 38%|██████████████████████████████████████████████████████████████████████████                                                                                                                        | 5726/15000 [4:04:28<6:03:28,  2.35s/it] 38%|██████████████████████████████████████████████████████████████████████████                                                                                                                        | 5727/15000 [4:04:30<6:03:41,  2.35s/it] 38%|██████████████████████████████████████████████████████████████████████████                                                                                                                        | 5728/15000 [4:04:32<6:03:27,  2.35s/it] 38%|██████████████████████████████████████████████████████████████████████████                                                                                                                        | 5729/15000 [4:04:35<6:03:28,  2.35s/it] 38%|██████████████████████████████████████████████████████████████████████████                                                                                                                        | 5730/15000 [4:04:37<6:03:23,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.8349, 'grad_norm': 1.8046875, 'learning_rate': 4.937986060615759e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3489.64, 'total_tokens': 46812893, 'epoch': 0.38}
+ 38%|██████████████████████████████████████████████████████████████████████████                                                                                                                        | 5730/15000 [4:04:37<6:03:23,  2.35s/it] 38%|██████████████████████████████████████████████████████████████████████████                                                                                                                        | 5731/15000 [4:04:39<6:03:20,  2.35s/it] 38%|██████████████████████████████████████████████████████████████████████████▏                                                                                                                       | 5732/15000 [4:04:42<6:03:05,  2.35s/it] 38%|██████████████████████████████████████████████████████████████████████████▏                                                                                                                       | 5733/15000 [4:04:44<6:03:05,  2.35s/it] 38%|██████████████████████████████████████████████████████████████████████████▏                                                                                                                       | 5734/15000 [4:04:46<6:02:53,  2.35s/it] 38%|██████████████████████████████████████████████████████████████████████████▏                                                                                                                       | 5735/15000 [4:04:49<6:03:15,  2.35s/it] 38%|██████████████████████████████████████████████████████████████████████████▏                                                                                                                       | 5736/15000 [4:04:51<6:03:24,  2.35s/it] 38%|██████████████████████████████████████████████████████████████████████████▏                                                                                                                       | 5737/15000 [4:04:53<6:03:21,  2.35s/it] 38%|██████████████████████████████████████████████████████████████████████████▏                                                                                                                       | 5738/15000 [4:04:56<6:03:08,  2.35s/it] 38%|██████████████████████████████████████████████████████████████████████████▏                                                                                                                       | 5739/15000 [4:04:58<6:03:22,  2.35s/it] 38%|██████████████████████████████████████████████████████████████████████████▏                                                                                                                       | 5740/15000 [4:05:01<6:03:30,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.8556, 'grad_norm': 1.75, 'learning_rate': 4.936280749592017e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3481.46, 'total_tokens': 46894738, 'epoch': 0.38}
+ 38%|██████████████████████████████████████████████████████████████████████████▏                                                                                                                       | 5740/15000 [4:05:01<6:03:30,  2.36s/it] 38%|██████████████████████████████████████████████████████████████████████████▎                                                                                                                       | 5741/15000 [4:05:03<6:03:03,  2.35s/it] 38%|██████████████████████████████████████████████████████████████████████████▎                                                                                                                       | 5742/15000 [4:05:05<6:03:02,  2.35s/it] 38%|██████████████████████████████████████████████████████████████████████████▎                                                                                                                       | 5743/15000 [4:05:08<6:03:22,  2.36s/it] 38%|██████████████████████████████████████████████████████████████████████████▎                                                                                                                       | 5744/15000 [4:05:10<6:03:14,  2.35s/it] 38%|██████████████████████████████████████████████████████████████████████████▎                                                                                                                       | 5745/15000 [4:05:12<6:03:31,  2.36s/it] 38%|██████████████████████████████████████████████████████████████████████████▎                                                                                                                       | 5746/15000 [4:05:15<6:03:02,  2.35s/it] 38%|██████████████████████████████████████████████████████████████████████████▎                                                                                                                       | 5747/15000 [4:05:17<6:02:56,  2.35s/it] 38%|██████████████████████████████████████████████████████████████████████████▎                                                                                                                       | 5748/15000 [4:05:19<6:03:00,  2.35s/it] 38%|██████████████████████████████████████████████████████████████████████████▎                                                                                                                       | 5749/15000 [4:05:22<6:02:49,  2.35s/it] 38%|██████████████████████████████████████████████████████████████████████████▎                                                                                                                       | 5750/15000 [4:05:24<6:02:32,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.8198, 'grad_norm': 1.6953125, 'learning_rate': 4.9345526271603786e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3496.23, 'total_tokens': 46976572, 'epoch': 0.38}
+ 38%|██████████████████████████████████████████████████████████████████████████▎                                                                                                                       | 5750/15000 [4:05:24<6:02:32,  2.35s/it] 38%|██████████████████████████████████████████████████████████████████████████▍                                                                                                                       | 5751/15000 [4:05:26<6:02:20,  2.35s/it] 38%|██████████████████████████████████████████████████████████████████████████▍                                                                                                                       | 5752/15000 [4:05:29<6:02:30,  2.35s/it] 38%|██████████████████████████████████████████████████████████████████████████▍                                                                                                                       | 5753/15000 [4:05:31<6:02:23,  2.35s/it] 38%|██████████████████████████████████████████████████████████████████████████▍                                                                                                                       | 5754/15000 [4:05:34<6:02:37,  2.35s/it] 38%|██████████████████████████████████████████████████████████████████████████▍                                                                                                                       | 5755/15000 [4:05:36<6:02:42,  2.35s/it] 38%|██████████████████████████████████████████████████████████████████████████▍                                                                                                                       | 5756/15000 [4:05:38<6:02:34,  2.35s/it] 38%|██████████████████████████████████████████████████████████████████████████▍                                                                                                                       | 5757/15000 [4:05:41<6:02:36,  2.35s/it] 38%|██████████████████████████████████████████████████████████████████████████▍                                                                                                                       | 5758/15000 [4:05:43<6:02:23,  2.35s/it] 38%|██████████████████████���███████████████████████████████████████████████████▍                                                                                                                       | 5759/15000 [4:05:45<6:02:15,  2.35s/it] 38%|██████████████████████████████████████████████████████████████████████████▍                                                                                                                       | 5760/15000 [4:05:48<6:01:57,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.7855, 'grad_norm': 1.8515625, 'learning_rate': 4.9328017103767146e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3498.25, 'total_tokens': 47058404, 'epoch': 0.38}
+ 38%|██████████████████████████████████████████████████████████████████████████▍                                                                                                                       | 5760/15000 [4:05:48<6:01:57,  2.35s/it] 38%|██████████████████████████████████████████████████████████████████████████▌                                                                                                                       | 5761/15000 [4:05:50<6:01:58,  2.35s/it] 38%|██████████████████████████████████████████████████████████████████████████▌                                                                                                                       | 5762/15000 [4:05:52<6:01:49,  2.35s/it] 38%|██████████████████████████████████████████████████████████████████████████▌                                                                                                                       | 5763/15000 [4:05:55<6:01:58,  2.35s/it] 38%|██████████████████████████████████████████████████████████████████████████▌                                                                                                                       | 5764/15000 [4:05:57<6:01:56,  2.35s/it] 38%|██████████████████████████████████████████████████████████████████████████▌                                                                                                                       | 5765/15000 [4:05:59<6:01:59,  2.35s/it] 38%|██████████████████████████████████████████████████████████████████████████▌                                                                                                                       | 5766/15000 [4:06:02<6:01:48,  2.35s/it] 38%|██████████████████████████████████████████████████████████████████████████▌                                                                                                                       | 5767/15000 [4:06:04<6:01:42,  2.35s/it] 38%|██████████████████████████████████████████████████████████████████████████▌                                                                                                                       | 5768/15000 [4:06:06<6:01:31,  2.35s/it] 38%|██████████████████████████████████████████████████████████████████████████▌                                                                                                                       | 5769/15000 [4:06:09<6:01:42,  2.35s/it] 38%|██████████████████████████████████████████████████████████████████████████▋                                                                                                                       | 5770/15000 [4:06:11<6:02:08,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.8196, 'grad_norm': 1.828125, 'learning_rate': 4.931028016521866e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3471.97, 'total_tokens': 47140140, 'epoch': 0.38}
+ 38%|██████████████████████████████████████████████████████████████████████████▋                                                                                                                       | 5770/15000 [4:06:11<6:02:08,  2.35s/it] 38%|██████████████████████████████████████████████████████████████████████████▋                                                                                                                       | 5771/15000 [4:06:13<6:01:56,  2.35s/it] 38%|██████████████████████████████████████████████████████████████████████████▋                                                                                                                       | 5772/15000 [4:06:16<6:01:52,  2.35s/it] 38%|██████████████████████████████████████████████████████████████████████████▋                                                                                                                       | 5773/15000 [4:06:18<6:01:47,  2.35s/it] 38%|██████████████████████████████████████████████████████████████████████████▋                                                                                                                       | 5774/15000 [4:06:21<6:01:59,  2.35s/it] 38%|██████████████████████████████████████████████████████████████████████████▋                                                                                                                       | 5775/15000 [4:06:23<6:01:56,  2.35s/it] 39%|██████████████████████████████████████████████████████████████████████████▋                                                                                                                       | 5776/15000 [4:06:25<6:02:14,  2.36s/it] 39%|██████████████████████████████████████████████████████████████████████████▋                                                                                                                       | 5777/15000 [4:06:28<6:02:19,  2.36s/it] 39%|██████████████████████████████████████████████████████████████████████████▋                                                                                                                       | 5778/15000 [4:06:30<6:02:23,  2.36s/it] 39%|██████████████████████████████████████████████████████████████████████████▋                                                                                                                       | 5779/15000 [4:06:32<6:01:58,  2.36s/it] 39%|██████████████████████████████████████████████████████████████████████████▊                                                                                                                       | 5780/15000 [4:06:35<6:01:56,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.8492, 'grad_norm': 1.7578125, 'learning_rate': 4.929231563101475e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3484.26, 'total_tokens': 47221961, 'epoch': 0.39}
+ 39%|██████████████████████████████████████████████████████████████████████████▊                                                                                                                       | 5780/15000 [4:06:35<6:01:56,  2.36s/it] 39%|██████████████████████████████████████████████████████████████████████████▊                                                                                                                       | 5781/15000 [4:06:37<6:02:05,  2.36s/it] 39%|██████████████████████████████████████████████████████████████████████████▊                                                                                                                       | 5782/15000 [4:06:39<6:02:17,  2.36s/it] 39%|██████████████████████████████████████████████████████████████████████████▊                                                                                                                       | 5783/15000 [4:06:42<6:01:42,  2.35s/it] 39%|██████████████████████████████████████████████████████████████████████████▊                                                                                                                       | 5784/15000 [4:06:44<6:01:46,  2.36s/it] 39%|██████████████████████████████████████████████████████████████████████████▊                                                                                                                       | 5785/15000 [4:06:46<6:01:42,  2.36s/it] 39%|██████████████████████████████████████████████████████████████████████████▊                                                                                                                       | 5786/15000 [4:06:49<6:01:30,  2.35s/it] 39%|██████████████████████████████████████████████████████████████████████████▊                                                                                                                       | 5787/15000 [4:06:51<6:01:25,  2.35s/it] 39%|██████████████████████████████████████████████████████████████████████████▊                                                                                                                       | 5788/15000 [4:06:54<6:01:22,  2.35s/it] 39%|██████████████████████████████████████████████████████████████████████████▊                                                                                                                       | 5789/15000 [4:06:56<6:00:57,  2.35s/it] 39%|██████████████████████████████████████████████████████████████████████████▉                                                                                                                       | 5790/15000 [4:06:58<6:01:10,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.866, 'grad_norm': 1.65625, 'learning_rate': 4.927412367845812e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3481.82, 'total_tokens': 47303767, 'epoch': 0.39}
+ 39%|██████████████████████████████████████████████████████████████████████████▉                                                                                                                       | 5790/15000 [4:06:58<6:01:10,  2.35s/it] 39%|██████████████████████████████████████████████████████████████████████████▉                                                                                                                       | 5791/15000 [4:07:01<6:01:37,  2.36s/it] 39%|██████████████████████████████████████████████████████████████████████████▉                                                                                                                       | 5792/15000 [4:07:03<6:01:27,  2.36s/it] 39%|██████████████████████████████████████████████████████████████████████████▉                                                                                                                       | 5793/15000 [4:07:05<6:01:22,  2.36s/it] 39%|██████████████████████████████████████████████████████████████████████████▉                                                                                                                       | 5794/15000 [4:07:08<6:01:31,  2.36s/it] 39%|██████████████████████████████████████████████████████████████████████████▉                                                                                                                       | 5795/15000 [4:07:10<6:01:17,  2.35s/it] 39%|██████████████████████████████████████████████████████████████████████████▉                                                                                                                       | 5796/15000 [4:07:12<6:01:04,  2.35s/it] 39%|██████████████████████████████████████████████████████████████████████████▉                                                                                                                       | 5797/15000 [4:07:15<6:00:57,  2.35s/it] 39%|██████████████████████████████████████████████████████████████████████████▉                                                                                                                       | 5798/15000 [4:07:17<6:01:02,  2.35s/it] 39%|███████████████████████████████████████████████████████████████████████████                                                                                                                       | 5799/15000 [4:07:19<6:01:00,  2.35s/it] 39%|███████████████████████████████████████████████████████████████████████████                                                                                                                       | 5800/15000 [4:07:22<6:00:52,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.8207, 'grad_norm': 1.7421875, 'learning_rate': 4.925570448709601e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3484.33, 'total_tokens': 47385469, 'epoch': 0.39}
+ 39%|███████████████████████████████████████████████████████████████████████████                                                                                                                       | 5800/15000 [4:07:22<6:00:52,  2.35s/it] 39%|███████████████████████████████████████████████████████████████████████████                                                                                                                       | 5801/15000 [4:07:24<6:00:51,  2.35s/it] 39%|███████████████████████████████████████████████████████████████████████████                                                                                                                       | 5802/15000 [4:07:26<6:01:01,  2.35s/it] 39%|███████████████████████████████████████████████████████████████████████████                                                                                                                       | 5803/15000 [4:07:29<6:00:55,  2.35s/it] 39%|███████████████████████████████████████████████████████████████████████████                                                                                                                       | 5804/15000 [4:07:31<6:00:46,  2.35s/it] 39%|███████████████████████████████████████████████████████████████████████████                                                                                                                       | 5805/15000 [4:07:34<6:00:41,  2.35s/it] 39%|███████████████████████████████████████████████████████████████████████████                                                                                                                       | 5806/15000 [4:07:36<6:00:39,  2.35s/it] 39%|███████████████████████████████████████████████████████████████████████████                                                                                                                       | 5807/15000 [4:07:38<6:00:36,  2.35s/it] 39%|███████████████████████████████████████████████████████████████████████████                                                                                                                       | 5808/15000 [4:07:41<6:00:42,  2.35s/it] 39%|███████████████████████████████████████████████████████████████████████████▏                                                                                                                      | 5809/15000 [4:07:43<6:00:53,  2.36s/it] 39%|███████████████████████████████████████████████████████████████████████████▏                                                                                                                      | 5810/15000 [4:07:45<6:00:36,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.8449, 'grad_norm': 1.8203125, 'learning_rate': 4.923705823871839e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3491.65, 'total_tokens': 47467288, 'epoch': 0.39}
+ 39%|███████████████████████████████████████████████████████████████████████████▏                                                                                                                      | 5810/15000 [4:07:45<6:00:36,  2.35s/it] 39%|███████████████████████████████████████████████████████████████████████████▏                                                                                                                      | 5811/15000 [4:07:48<6:00:20,  2.35s/it] 39%|███████████████████████████████████████████████████████████████████████████▏                                                                                                                      | 5812/15000 [4:07:50<6:00:22,  2.35s/it] 39%|███████████████████████████████████████████████████████████████████████████▏                                                                                                                      | 5813/15000 [4:07:52<6:00:21,  2.35s/it] 39%|███████████████████████████████████████████████████████████████████████████▏                                                                                                                      | 5814/15000 [4:07:55<6:00:16,  2.35s/it] 39%|███████████████████████████████████████████████████████████████████████████▏                                                                                                                      | 5815/15000 [4:07:57<6:00:25,  2.35s/it] 39%|███████████████████████████████████████████████████████████████████████████▏                                                                                                                      | 5816/15000 [4:07:59<6:00:29,  2.36s/it] 39%|███████████████████████████████████████████████████████████████████████████▏                                                                                                                      | 5817/15000 [4:08:02<6:00:20,  2.35s/it] 39%|███████████████████████████████████████████████████████████████████████████▏                                                                                                                      | 5818/15000 [4:08:04<6:00:15,  2.35s/it] 39%|███████████████████████████████████████████████████████████████████████████▎                                                                                                                      | 5819/15000 [4:08:07<6:00:14,  2.35s/it] 39%|███████████████████████████████████████████████████████████████████████████▎                                                                                                                      | 5820/15000 [4:08:09<6:00:25,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.7475, 'grad_norm': 1.84375, 'learning_rate': 4.92181851173562e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3477.83, 'total_tokens': 47549094, 'epoch': 0.39}
+ 39%|███████████████████████████████████████████████████████████████████████████▎                                                                                                                      | 5820/15000 [4:08:09<6:00:25,  2.36s/it] 39%|███████████████████████████████████████████████████████████████████████████▎                                                                                                                      | 5821/15000 [4:08:11<6:00:30,  2.36s/it] 39%|███████████████████████████████████████████████████████████████████████████▎                                                                                                                      | 5822/15000 [4:08:14<6:00:11,  2.35s/it] 39%|███████████████████████████████████████████████████████████████████████████▎                                                                                                                      | 5823/15000 [4:08:16<6:00:16,  2.36s/it] 39%|███████████████████████████████████████████████████████████████████████████▎                                                                                                                      | 5824/15000 [4:08:18<6:00:13,  2.36s/it] 39%|███████████████████████████████████████████████████████████████████████████▎                                                                                                                      | 5825/15000 [4:08:21<6:00:02,  2.35s/it] 39%|███████████████████████████████████████████████████████████████████████████▎                                                                                                                      | 5826/15000 [4:08:23<5:59:55,  2.35s/it] 39%|███████████████████████████████████████████████████████████████████████████▎                                                                                                                      | 5827/15000 [4:08:25<6:00:10,  2.36s/it] 39%|███████████████████████████████████████████████████████████████████████████▍                                                                                                                      | 5828/15000 [4:08:28<6:00:11,  2.36s/it] 39%|███████████████████████████████████████████████████████████████████████████▍                                                                                                                      | 5829/15000 [4:08:30<6:00:13,  2.36s/it] 39%|███████████████████████████████████████████████████████████████████████████▍                                                                                                                      | 5830/15000 [4:08:32<6:00:20,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.8135, 'grad_norm': 1.734375, 'learning_rate': 4.919908530927953e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3475.36, 'total_tokens': 47630870, 'epoch': 0.39}
+ 39%|███████████████████████████████████████████████████████████████████████████▍                                                                                                                      | 5830/15000 [4:08:32<6:00:20,  2.36s/it] 39%|███████████████████████████████████████████████████████████████████████████▍                                                                                                                      | 5831/15000 [4:08:35<6:00:01,  2.36s/it] 39%|███████████████████████████████████████████████████████████████████████████▍                                                                                                                      | 5832/15000 [4:08:37<6:00:06,  2.36s/it] 39%|███████████████████████████████████████████████████████████████████████████▍                                                                                                                      | 5833/15000 [4:08:39<6:00:05,  2.36s/it] 39%|███████████████████████████████████████████████████████████████████████████▍                                                                                                                      | 5834/15000 [4:08:42<5:59:42,  2.35s/it] 39%|███████████████████████████████████████████████████████████████████████████▍                                                                                                                      | 5835/15000 [4:08:44<5:59:36,  2.35s/it] 39%|███████████████████████████████████████████████████████████████████████████▍                                                                                                                      | 5836/15000 [4:08:47<5:59:40,  2.35s/it] 39%|███████████████████████████████████████████████████████████████████████████▍                                                                                                                      | 5837/15000 [4:08:49<5:59:59,  2.36s/it] 39%|███████████████████████████████████████████████████████████████████████████▌                                                                                                                      | 5838/15000 [4:08:51<5:59:55,  2.36s/it] 39%|███████████████████████████████████████████████████████████████████████████▌                                                                                                                      | 5839/15000 [4:08:54<5:59:24,  2.35s/it] 39%|███████████████████████████████████████████████████████████████████████████▌                                                                                                                      | 5840/15000 [4:08:56<5:59:14,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.8335, 'grad_norm': 1.7421875, 'learning_rate': 4.917975900299578e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3489.18, 'total_tokens': 47712666, 'epoch': 0.39}
+ 39%|███████████████████████████████████████████████████████████████████████████▌                                                                                                                      | 5840/15000 [4:08:56<5:59:14,  2.35s/it] 39%|███████████████████████████████████████████████████████████████████████████▌                                                                                                                      | 5841/15000 [4:08:58<5:59:12,  2.35s/it] 39%|███████████████████████████████████████████████████████████████████████████▌                                                                                                                      | 5842/15000 [4:09:01<5:59:35,  2.36s/it] 39%|███████████████████████████████████████████████████████████████████████████▌                                                                                                                      | 5843/15000 [4:09:03<5:59:33,  2.36s/it] 39%|███████████████████████████████████████████████████████████████████████████▌                                                                                                                      | 5844/15000 [4:09:05<5:59:00,  2.35s/it] 39%|███████████████████████████████████████████████████████████████████████████▌                                                                                                                      | 5845/15000 [4:09:08<5:58:59,  2.35s/it] 39%|███████████████████████████████████████████████████████████████████████████▌                                                                                                                      | 5846/15000 [4:09:10<5:59:31,  2.36s/it] 39%|███████████████████████████████████████████████████████████████████████████▌                                                                                                                      | 5847/15000 [4:09:12<5:59:25,  2.36s/it] 39%|███████████████████████████████████████████████████████████████████████████▋                                                                                                                      | 5848/15000 [4:09:15<5:59:01,  2.35s/it] 39%|███████████████████████████████████████████████████████████████████████████▋                                                                                                                      | 5849/15000 [4:09:17<5:59:04,  2.35s/it] 39%|███████████████████████████████████████████████████████████████████████████▋                                                                                                                      | 5850/15000 [4:09:20<5:58:58,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.7433, 'grad_norm': 1.7578125, 'learning_rate': 4.9160206389247784e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3486.88, 'total_tokens': 47794479, 'epoch': 0.39}
+ 39%|███████████████████████████████████████████████████████████████████████████▋                                                                                                                      | 5850/15000 [4:09:20<5:58:58,  2.35s/it] 39%|███████████████████████████████████████████████████████████████████████████▋                                                                                                                      | 5851/15000 [4:09:22<5:59:14,  2.36s/it] 39%|███████████████████████████████████████████████████████████████████████████▋                                                                                                                      | 5852/15000 [4:09:24<5:59:24,  2.36s/it] 39%|███████████████████████████████████████████████████████████████████████████▋                                                                                                                      | 5853/15000 [4:09:27<5:59:25,  2.36s/it] 39%|███████████████████████████████████████████████████████████████████████████▋                                                                                                                      | 5854/15000 [4:09:29<5:59:09,  2.36s/it] 39%|███████████████████████████████████████████████████████████████████████████▋                                                                                                                      | 5855/15000 [4:09:31<5:58:41,  2.35s/it] 39%|███████████████████████████████████████████████████████████████████████████▋                                                                                                                      | 5856/15000 [4:09:34<5:58:24,  2.35s/it] 39%|███████████████████████████████████████████████████████████████████████████▊                                                                                                                      | 5857/15000 [4:09:36<5:58:29,  2.35s/it] 39%|███████████████████████████████████████████████████████████████████████████▊                                                                                                                      | 5858/15000 [4:09:38<5:58:30,  2.35s/it] 39%|███████████████████████████████████████████████████████████████████████████▊                                                                                                                      | 5859/15000 [4:09:41<5:58:32,  2.35s/it] 39%|███████████████████████████████████████████████████████████████████████████▊                                                                                                                      | 5860/15000 [4:09:43<5:58:35,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.7574, 'grad_norm': 1.8984375, 'learning_rate': 4.9140427661011964e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3482.32, 'total_tokens': 47876248, 'epoch': 0.39}
+ 39%|███████████████████████████████████████████████████████████████████████████▊                                                                                                                      | 5860/15000 [4:09:43<5:58:35,  2.35s/it] 39%|███████████████████████████████████████████████████████████████████████████▊                                                                                                                      | 5861/15000 [4:09:45<5:58:42,  2.36s/it] 39%|███████████████████████████████████████████████████████████████████████████▊                                                                                                                      | 5862/15000 [4:09:48<5:58:58,  2.36s/it] 39%|███████████████████████████████████████████████████████████████████████████▊                                                                                                                      | 5863/15000 [4:09:50<5:58:51,  2.36s/it] 39%|██████████████████████████████████████████████████���████████████████████████▊                                                                                                                      | 5864/15000 [4:09:53<6:20:41,  2.50s/it] 39%|███████████████████████████████████████████████████████████████████████████▊                                                                                                                      | 5865/15000 [4:09:55<6:13:45,  2.45s/it] 39%|███████████████████████████████████████████████████████████████████████████▊                                                                                                                      | 5866/15000 [4:09:58<6:09:18,  2.43s/it] 39%|███████████████████████████████████████████████████████████████████████████▉                                                                                                                      | 5867/15000 [4:10:00<6:06:06,  2.41s/it] 39%|███████████████████████████████████████████████████████████████████████████▉                                                                                                                      | 5868/15000 [4:10:02<6:03:50,  2.39s/it] 39%|███████████████████████████████████████████████████████████████████████████▉                                                                                                                      | 5869/15000 [4:10:05<6:02:05,  2.38s/it] 39%|███████████████████████████████████████████████████████████████████████████▉                                                                                                                      | 5870/15000 [4:10:07<6:00:26,  2.37s/it]                                                                                                                                                                                                                                                {'loss': 2.9213, 'grad_norm': 1.734375, 'learning_rate': 4.912042301349635e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3500.0, 'total_tokens': 47958044, 'epoch': 0.39}
+ 39%|███████████████████████████████████████████████████████████████████████████▉                                                                                                                      | 5870/15000 [4:10:07<6:00:26,  2.37s/it] 39%|███████████████████████████████████████████████████████████████████████████▉                                                                                                                      | 5871/15000 [4:10:09<6:00:03,  2.37s/it] 39%|███████████████████████████████████████████████████████████████████████████▉                                                                                                                      | 5872/15000 [4:10:12<5:59:38,  2.36s/it] 39%|███████████████████████████████████████████████████████████████████████████▉                                                                                                                      | 5873/15000 [4:10:14<5:58:46,  2.36s/it] 39%|███████████████████████████████████████████████████████████████████████████▉                                                                                                                      | 5874/15000 [4:10:17<5:58:23,  2.36s/it] 39%|██████████████��████████████████████████████████████████████████████████████▉                                                                                                                      | 5875/15000 [4:10:19<5:58:21,  2.36s/it] 39%|███████████████████████████████████████████████████████████████████████████▉                                                                                                                      | 5876/15000 [4:10:21<5:58:06,  2.35s/it] 39%|████████████████████████████████████████████████████████████████████████████                                                                                                                      | 5877/15000 [4:10:24<5:57:38,  2.35s/it] 39%|████████████████████████████████████████████████████████████████████████████                                                                                                                      | 5878/15000 [4:10:26<5:57:27,  2.35s/it] 39%|████████████████████████████████████████████████████████████████████████████                                                                                                                      | 5879/15000 [4:10:28<5:57:33,  2.35s/it] 39%|████████████████████████████████████████████████████████████████████████████                                                                                                                      | 5880/15000 [4:10:31<5:57:12,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.7802, 'grad_norm': 1.7890625, 'learning_rate': 4.9100192644138774e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3495.93, 'total_tokens': 48039793, 'epoch': 0.39}
+ 39%|████████████████████████████████████████████████████████████████████████████                                                                                                                      | 5880/15000 [4:10:31<5:57:12,  2.35s/it] 39%|████████████████████████████████████████████████████████████████████████████                                                                                                                      | 5881/15000 [4:10:33<5:57:33,  2.35s/it] 39%|████████████████████████████████████████████████████████████████████████████                                                                                                                      | 5882/15000 [4:10:35<5:57:25,  2.35s/it] 39%|████████████████████████████████████████████████████████████████████████████                                                                                                                      | 5883/15000 [4:10:38<5:57:11,  2.35s/it] 39%|████████████████████████████████████████████████████████████████████████████                                                                                                                      | 5884/15000 [4:10:40<5:57:37,  2.35s/it] 39%|████████████████████████████████████████████████████████████████████████████                                                                                                                      | 5885/15000 [4:10:42<5:57:43,  2.35s/it] 39%|████████████████████████████████████████████████████████████████████████████▏                                                                                                                     | 5886/15000 [4:10:45<5:57:31,  2.35s/it] 39%|████████████████████████████████████████████████████████████████████████████▏                                                                                                                     | 5887/15000 [4:10:47<5:57:39,  2.35s/it] 39%|████████████████████████████████████████████████████████████████████████████▏                                                                                                                     | 5888/15000 [4:10:49<5:57:38,  2.35s/it] 39%|████████████████████████████████████████████████████████████████████████████▏                                                                                                                     | 5889/15000 [4:10:52<5:57:25,  2.35s/it] 39%|████████████████████████████████████████████████████████████████████████████▏                                                                                                                     | 5890/15000 [4:10:54<5:57:22,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.828, 'grad_norm': 1.796875, 'learning_rate': 4.907973675260479e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3486.58, 'total_tokens': 48121617, 'epoch': 0.39}
+ 39%|████████████████████████████████████████████████████████████████████████████▏                                                                                                                     | 5890/15000 [4:10:54<5:57:22,  2.35s/it] 39%|████████████████████████████████████████████████████████████████████████████▏                                                                                                                     | 5891/15000 [4:10:57<5:57:26,  2.35s/it] 39%|████████████████████████████████████████████████████████████████████████████▏                                                                                                                     | 5892/15000 [4:10:59<5:57:06,  2.35s/it] 39%|████████████████████████████████████████████████████████████████████████████▏                                                                                                                     | 5893/15000 [4:11:01<5:56:59,  2.35s/it] 39%|████████████████████████████████████████████████████████████████████████████▏                                                                                                                     | 5894/15000 [4:11:04<5:56:52,  2.35s/it] 39%|████████████████████████████████████████████████████████████████████████████▏                                                                                                                     | 5895/15000 [4:11:06<5:56:58,  2.35s/it] 39%|████████████████████████████████████████████████████████████████████████████▎                                                                                                                     | 5896/15000 [4:11:08<5:57:02,  2.35s/it] 39%|████████████████████████████████████████████████████████████████████████████▎                                                                                                                     | 5897/15000 [4:11:11<5:57:10,  2.35s/it] 39%|████████████████████████████████████████████████████████████████████████████▎                                                                                                                     | 5898/15000 [4:11:13<5:57:24,  2.36s/it] 39%|████████████████████████████████████████████████████████████████████████████▎                                                                                                                     | 5899/15000 [4:11:15<5:57:08,  2.35s/it] 39%|████████████████████████████████████████████████████████████████████████████▎                                                                                                                     | 5900/15000 [4:11:18<5:56:44,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.7982, 'grad_norm': 1.8828125, 'learning_rate': 4.905905554078579e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3493.74, 'total_tokens': 48203359, 'epoch': 0.39}
+ 39%|████████████████████████████████████████████████████████████████████████████▎                                                                                                                     | 5900/15000 [4:11:18<5:56:44,  2.35s/it] 39%|████████████████████████████████████████████████████████████████████████████▎                                                                                                                     | 5901/15000 [4:11:20<5:57:02,  2.35s/it] 39%|████████████████████████████████████████████████████████████████████████████▎                                                                                                                     | 5902/15000 [4:11:22<5:56:50,  2.35s/it] 39%|████████████████████████████████████████████████████████████████████████████▎                                                                                                                     | 5903/15000 [4:11:25<5:57:01,  2.35s/it] 39%|████████████████████████████████████████████████████████████████████████████▎                                                                                                                     | 5904/15000 [4:11:27<5:56:56,  2.35s/it] 39%|████████████████████████████████████████████████████████████████████████████▎                                                                                                                     | 5905/15000 [4:11:29<5:56:25,  2.35s/it] 39%|████████████████████████████████████████████████████████████████████████████▍                                                                                                                     | 5906/15000 [4:11:32<5:56:21,  2.35s/it] 39%|█████████████████████��██████████████████████████████████████████████████████▍                                                                                                                     | 5907/15000 [4:11:34<5:56:22,  2.35s/it] 39%|████████████████████████████████████████████████████████████████████████████▍                                                                                                                     | 5908/15000 [4:11:37<5:56:24,  2.35s/it] 39%|████████████████████████████████████████████████████████████████████████████▍                                                                                                                     | 5909/15000 [4:11:39<5:56:20,  2.35s/it] 39%|████████████████████████████████████████████████████████████████████████████▍                                                                                                                     | 5910/15000 [4:11:41<5:56:26,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6981, 'grad_norm': 1.6875, 'learning_rate': 4.9038149212797006e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3480.45, 'total_tokens': 48285073, 'epoch': 0.39}
+ 39%|████████████████████████████████████████████████████████████████████████████▍                                                                                                                     | 5910/15000 [4:11:41<5:56:26,  2.35s/it] 39%|████████████████████████████████████████████████████████████████████████████▍                                                                                                                     | 5911/15000 [4:11:44<5:56:37,  2.35s/it] 39%|████████████████████████████████████████████████████████████████████████████▍                                                                                                                     | 5912/15000 [4:11:46<5:56:22,  2.35s/it] 39%|████████████████████████████████████████████████████████████████████████████▍                                                                                                                     | 5913/15000 [4:11:48<5:56:30,  2.35s/it] 39%|████████████████████████████████████████████████████████████████████████████▍                                                                                                                     | 5914/15000 [4:11:51<5:55:47,  2.35s/it] 39%|████████████████████████████████████████████████████████████████████████████▌                                                                                                                     | 5915/15000 [4:11:53<5:56:03,  2.35s/it] 39%|████████████████████████████████████████████████████████████████████████████▌                                                                                                                     | 5916/15000 [4:11:55<5:56:02,  2.35s/it] 39%|████████████████████████████████████████████████████████████████████████████▌                                                                                                                     | 5917/15000 [4:11:58<5:55:55,  2.35s/it] 39%|████████████████████████████████████████████████████████████████████████████▌                                                                                                                     | 5918/15000 [4:12:00<5:55:59,  2.35s/it] 39%|████████████████████████████████████████████████████████████████████████████▌                                                                                                                     | 5919/15000 [4:12:02<5:56:20,  2.35s/it] 39%|████████████████████████████████████████████████████████████████████████████▌                                                                                                                     | 5920/15000 [4:12:05<5:56:17,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.7592, 'grad_norm': 1.640625, 'learning_rate': 4.901701797497542e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3480.94, 'total_tokens': 48366786, 'epoch': 0.39}
+ 39%|████████████████████████████████████████████████████████████████████████████▌                                                                                                                     | 5920/15000 [4:12:05<5:56:17,  2.35s/it] 39%|████████████████████████████████████████████████████████████████████████████▌                                                                                                                     | 5921/15000 [4:12:07<5:56:08,  2.35s/it] 39%|████████████████████████████████████████████████████████████████████████████▌                                                                                                                     | 5922/15000 [4:12:09<5:56:14,  2.35s/it] 39%|████████████████████████████████████████████████████████████████████████████▌                                                                                                                     | 5923/15000 [4:12:12<5:56:02,  2.35s/it] 39%|████████████████████████████████████████████████████████████████████████████▌                                                                                                                     | 5924/15000 [4:12:14<5:56:05,  2.35s/it] 40%|████████████████████████████████████████████████████████████████████████████▋                                                                                                                     | 5925/15000 [4:12:17<5:56:15,  2.36s/it] 40%|████████████████████████████████████████████████████████████████████████████▋                                                                                                                     | 5926/15000 [4:12:19<5:55:59,  2.35s/it] 40%|████████████████████████████████████████████████████████████████████████████▋                                                                                                                     | 5927/15000 [4:12:21<5:55:55,  2.35s/it] 40%|█████████████████████████████████████████████████████████████████��██████████▋                                                                                                                     | 5928/15000 [4:12:24<5:55:38,  2.35s/it] 40%|████████████████████████████████████████████████████████████████████████████▋                                                                                                                     | 5929/15000 [4:12:26<5:55:47,  2.35s/it] 40%|████████████████████████████████████████████████████████████████████████████▋                                                                                                                     | 5930/15000 [4:12:28<5:56:03,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.8657, 'grad_norm': 1.8515625, 'learning_rate': 4.899566203587785e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3474.07, 'total_tokens': 48448529, 'epoch': 0.4}
+ 40%|████████████████████████████████████████████████████████████████████████████▋                                                                                                                     | 5930/15000 [4:12:28<5:56:03,  2.36s/it] 40%|████████████████████████████████████████████████████████████████████████████▋                                                                                                                     | 5931/15000 [4:12:31<5:56:18,  2.36s/it] 40%|████████████████████████████████████████████████████████████████████████████▋                                                                                                                     | 5932/15000 [4:12:33<5:56:18,  2.36s/it] 40%|████████████████████████████████████████████████████████████████████████████▋                                                                                                                     | 5933/15000 [4:12:35<5:56:26,  2.36s/it] 40%|████████████████████████████████████████████████████████████████████████████▋                                                                                                                     | 5934/15000 [4:12:38<5:56:17,  2.36s/it] 40%|████████████████████████████████████████████████████████████████████████████▊                                                                                                                     | 5935/15000 [4:12:40<5:56:23,  2.36s/it] 40%|████████████████████████████████████████████████████████████████████████████▊                                                                                                                     | 5936/15000 [4:12:42<5:55:37,  2.35s/it] 40%|████████████████████████████████████████████████████████████████████████████▊                                                                                                                     | 5937/15000 [4:12:45<5:55:43,  2.36s/it] 40%|████████████████████████████████████████████████████████████████████████████▊                                                                                                                     | 5938/15000 [4:12:47<5:55:40,  2.35s/it] 40%|█████████████████████��██████████████████████████████████████████████████████▊                                                                                                                     | 5939/15000 [4:12:49<5:55:58,  2.36s/it] 40%|████████████████████████████████████████████████████████████████████████████▊                                                                                                                     | 5940/15000 [4:12:52<5:55:49,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.8068, 'grad_norm': 1.9296875, 'learning_rate': 4.897408160627878e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3479.31, 'total_tokens': 48530215, 'epoch': 0.4}
+ 40%|████████████████████████████████████████████████████████████████████████████▊                                                                                                                     | 5940/15000 [4:12:52<5:55:49,  2.36s/it] 40%|████████████████████████████████████████████████████████████████████████████▊                                                                                                                     | 5941/15000 [4:12:54<5:55:49,  2.36s/it] 40%|████████████████████████████████████████████████████████████████████████████▊                                                                                                                     | 5942/15000 [4:12:57<5:55:36,  2.36s/it] 40%|████████████████████████████████████████████████████████████████████████████▊                                                                                                                     | 5943/15000 [4:12:59<5:55:09,  2.35s/it] 40%|████████████████████████████████████████████████████████████████████████████▉                                                                                                                     | 5944/15000 [4:13:01<5:55:07,  2.35s/it] 40%|████████████████████████████████████████████████████████████████████████████▉                                                                                                                     | 5945/15000 [4:13:04<5:54:56,  2.35s/it] 40%|████████████████████████████████████████████████████████████████████████████▉                                                                                                                     | 5946/15000 [4:13:06<5:54:48,  2.35s/it] 40%|████████████████████████████████████████████████████████████████████████████▉                                                                                                                     | 5947/15000 [4:13:08<5:54:56,  2.35s/it] 40%|████████████████████████████████████████████████████████████████████████████▉                                                                                                                     | 5948/15000 [4:13:11<5:55:20,  2.36s/it] 40%|████████████████████████████████████████████████████████████████████████████▉                                                                                                                     | 5949/15000 [4:13:13<5:54:59,  2.35s/it] 40%|████████████████████████████████████████████████████████████████████████████▉                                                                                                                     | 5950/15000 [4:13:15<5:55:00,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.7455, 'grad_norm': 1.6796875, 'learning_rate': 4.895227689916833e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3482.81, 'total_tokens': 48611968, 'epoch': 0.4}
+ 40%|████████████████████████████████████████████████████████████████████████████▉                                                                                                                     | 5950/15000 [4:13:15<5:55:00,  2.35s/it] 40%|████████████████████████████████████████████████████████████████████████████▉                                                                                                                     | 5951/15000 [4:13:18<5:55:02,  2.35s/it] 40%|████████████████████████████████████████████████████████████████████████████▉                                                                                                                     | 5952/15000 [4:13:20<5:55:21,  2.36s/it] 40%|████████████████████████████████████████████████████████████████████████████▉                                                                                                                     | 5953/15000 [4:13:22<5:55:04,  2.35s/it] 40%|█████████████████████████████████████████████████████████████████████████████                                                                                                                     | 5954/15000 [4:13:25<5:54:51,  2.35s/it] 40%|█████████████████████████████████████████████████████████████████████████████                                                                                                                     | 5955/15000 [4:13:27<5:54:45,  2.35s/it] 40%|█████████████████████████████████████████████████████████████████████████████                                                                                                                     | 5956/15000 [4:13:30<5:54:45,  2.35s/it] 40%|█████████████████████████████████████████████████████████████████████████████                                                                                                                     | 5957/15000 [4:13:32<5:54:50,  2.35s/it] 40%|█████████████████████████████████████████████████████████████████████████████                                                                                                                     | 5958/15000 [4:13:34<5:54:56,  2.36s/it] 40%|█████████████████████████████████████████████████████████████████████████████                                                                                                                     | 5959/15000 [4:13:37<5:54:40,  2.35s/it] 40%|█████████████████████████████████████████████████████████████████���███████████                                                                                                                     | 5960/15000 [4:13:39<5:54:56,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.8689, 'grad_norm': 1.6953125, 'learning_rate': 4.893024812975018e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3472.64, 'total_tokens': 48693707, 'epoch': 0.4}
+ 40%|█████████████████████████████████████████████████████████████████████████████                                                                                                                     | 5960/15000 [4:13:39<5:54:56,  2.36s/it] 40%|█████████████████████████████████████████████████████████████████████████████                                                                                                                     | 5961/15000 [4:13:41<5:54:49,  2.36s/it] 40%|█████████████████████████████████████████████████████████████████████████████                                                                                                                     | 5962/15000 [4:13:44<5:54:18,  2.35s/it] 40%|█████████████████████████████████████████████████████████████████████████████                                                                                                                     | 5963/15000 [4:13:46<5:54:31,  2.35s/it] 40%|█████████████████████████████████████████████████████████████████████████████▏                                                                                                                    | 5964/15000 [4:13:48<5:54:32,  2.35s/it] 40%|█████████████████████████████████████████████████████████████████████████████▏                                                                                                                    | 5965/15000 [4:13:51<5:54:31,  2.35s/it] 40%|█████████████████████████████████████████████████████████████████████████████▏                                                                                                                    | 5966/15000 [4:13:53<5:54:16,  2.35s/it] 40%|█████████████████████████████████████████████████████████████████████████████▏                                                                                                                    | 5967/15000 [4:13:55<5:54:28,  2.35s/it] 40%|█████████████████████████████████████████████████████████████████████████████▏                                                                                                                    | 5968/15000 [4:13:58<5:54:27,  2.35s/it] 40%|█████████████████████████████████████████████████████████████████████████████▏                                                                                                                    | 5969/15000 [4:14:00<5:54:15,  2.35s/it] 40%|█████████████████████████████████████████████████████████████████████████████▏                                                                                                                    | 5970/15000 [4:14:02<5:54:23,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.7686, 'grad_norm': 1.8984375, 'learning_rate': 4.890799551543936e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3476.73, 'total_tokens': 48775428, 'epoch': 0.4}
+ 40%|█████████████████████████████████████████████████████████████████████████████▏                                                                                                                    | 5970/15000 [4:14:02<5:54:23,  2.35s/it] 40%|█████████████████████████████████████████████████████████████████████████████▏                                                                                                                    | 5971/15000 [4:14:05<5:54:14,  2.35s/it] 40%|█████████████████████████████████████████████████████████████████████████████▏                                                                                                                    | 5972/15000 [4:14:07<5:54:22,  2.36s/it] 40%|█████████████████████████████████████████████████████████████████████████████▎                                                                                                                    | 5973/15000 [4:14:10<5:54:09,  2.35s/it] 40%|█████████████████████████████████████████████████████████████████████████████▎                                                                                                                    | 5974/15000 [4:14:12<5:54:31,  2.36s/it] 40%|█████████████████████████████████████████████████████████████████████████████▎                                                                                                                    | 5975/15000 [4:14:14<5:54:20,  2.36s/it] 40%|█████████████████████████████████████████████████████████████████████████████▎                                                                                                                    | 5976/15000 [4:14:17<5:54:12,  2.36s/it] 40%|█████████████████████████████████████████████████████████████████████████████▎                                                                                                                    | 5977/15000 [4:14:19<5:53:58,  2.35s/it] 40%|█████████████████████████████████████████████████████████████████████████████▎                                                                                                                    | 5978/15000 [4:14:21<5:53:51,  2.35s/it] 40%|█████████████████████████████████████████████████████████████████████████████▎                                                                                                                    | 5979/15000 [4:14:24<5:53:34,  2.35s/it] 40%|█████████████████████████████████████████████████████████████████████████████▎                                                                                                                    | 5980/15000 [4:14:26<5:53:11,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.7898, 'grad_norm': 1.765625, 'learning_rate': 4.8885519275860217e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3495.44, 'total_tokens': 48857122, 'epoch': 0.4}
+ 40%|█████████████████████████████████████████████████████████████████████████████▎                                                                                                                    | 5980/15000 [4:14:26<5:53:11,  2.35s/it] 40%|█████████████████████████████████████████████████████████████████████████████▎                                                                                                                    | 5981/15000 [4:14:28<5:53:27,  2.35s/it] 40%|█████████████████████████████████████████████████████████████████████████████▎                                                                                                                    | 5982/15000 [4:14:31<5:53:36,  2.35s/it] 40%|█████████████████████████████████████████████████████████████████████████████▍                                                                                                                    | 5983/15000 [4:14:33<5:53:48,  2.35s/it] 40%|█████████████████████████████████████████████████████████████████████████████▍                                                                                                                    | 5984/15000 [4:14:35<5:53:56,  2.36s/it] 40%|█████████████████████████████████████████████████████████████████████████████▍                                                                                                                    | 5985/15000 [4:14:38<5:53:55,  2.36s/it] 40%|█████████████████████████████████████████████████████████████████████████████▍                                                                                                                    | 5986/15000 [4:14:40<5:53:41,  2.35s/it] 40%|█████████████████████████████████████████████████████████████████████████████▍                                                                                                                    | 5987/15000 [4:14:42<5:53:31,  2.35s/it] 40%|█████████████████████████████████████████████████████████████████████████████▍                                                                                                                    | 5988/15000 [4:14:45<5:53:19,  2.35s/it] 40%|█████████████████████████████████████████████████████████████████████████████▍                                                                                                                    | 5989/15000 [4:14:47<5:53:14,  2.35s/it] 40%|█████████████████████████████████████████████████████████████████████████████▍                                                                                                                    | 5990/15000 [4:14:50<5:53:11,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.7952, 'grad_norm': 1.921875, 'learning_rate': 4.8862819632844154e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3481.02, 'total_tokens': 48938749, 'epoch': 0.4}
+ 40%|██████��██████████████████████████████████████████████████████████████████████▍                                                                                                                    | 5990/15000 [4:14:50<5:53:11,  2.35s/it] 40%|█████████████████████████████████████████████████████████████████████████████▍                                                                                                                    | 5991/15000 [4:14:52<5:53:31,  2.35s/it] 40%|█████████████████████████████████████████████████████████████████████████████▍                                                                                                                    | 5992/15000 [4:14:54<5:53:23,  2.35s/it] 40%|█████████████████████████████████████████████████████████████████████████████▌                                                                                                                    | 5993/15000 [4:14:57<5:53:23,  2.35s/it] 40%|█████████████████████████████████████████████████████████████████████████████▌                                                                                                                    | 5994/15000 [4:14:59<5:53:30,  2.36s/it] 40%|█████████████████████████████████████████████████████████████████████████████▌                                                                                                                    | 5995/15000 [4:15:01<5:53:23,  2.35s/it] 40%|█████████████████████████████████████████████████████████████████████████████▌                                                                                                                    | 5996/15000 [4:15:04<5:52:52,  2.35s/it] 40%|█████████████████████████████████████████████████████████████████████████████▌                                                                                                                    | 5997/15000 [4:15:06<5:52:40,  2.35s/it] 40%|█████████████████████████████████████████████████████████████████████████████▌                                                                                                                    | 5998/15000 [4:15:08<5:52:45,  2.35s/it] 40%|█████████████████████████████████████████████████████████████████████████████▌                                                                                                                    | 5999/15000 [4:15:11<5:52:42,  2.35s/it] 40%|█████████████████████████████████████████████████████████████████████████████▌                                                                                                                    | 6000/15000 [4:15:13<5:52:37,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.757, 'grad_norm': 1.7734375, 'learning_rate': 4.883989681042747e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3483.07, 'total_tokens': 49020365, 'epoch': 0.4}
+ 40%|█████████████████████████████████████████████████████████████████████████████▌                                                                                                                    | 6000/15000 [4:15:13<5:52:37,  2.35s/it] 40%|█████████████████████████████████████████████████████████████████████████████▌                                                                                                                    | 6001/15000 [4:15:15<5:52:47,  2.35s/it] 40%|█████████████████████████████████████████████████████████████████████████████▋                                                                                                                    | 6002/15000 [4:15:18<5:52:51,  2.35s/it] 40%|█████████████████████████████████████████████████████████████████████████████▋                                                                                                                    | 6003/15000 [4:15:20<5:53:00,  2.35s/it] 40%|█████████████████████████████████████████████████████████████████████████████▋                                                                                                                    | 6004/15000 [4:15:22<5:53:05,  2.35s/it] 40%|█████████████████████████████████████████████████████████████████████████████▋                                                                                                                    | 6005/15000 [4:15:25<5:53:33,  2.36s/it] 40%|█████████████████████████████████████████████████████████████████████████████▋                                                                                                                    | 6006/15000 [4:15:27<5:53:14,  2.36s/it] 40%|█████████████████████████████████████████████████████████████████████████████▋                                                                                                                    | 6007/15000 [4:15:30<5:53:08,  2.36s/it] 40%|█████████████████████████████████████████████████████████████████████████████▋                                                                                                                    | 6008/15000 [4:15:32<5:53:01,  2.36s/it] 40%|█████████████████████████████████████████████████████████████████████████████▋                                                                                                                    | 6009/15000 [4:15:34<5:52:45,  2.35s/it] 40%|█████████████████████████████████████████████████████████████████████████████▋                                                                                                                    | 6010/15000 [4:15:37<5:52:57,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.7889, 'grad_norm': 1.921875, 'learning_rate': 4.881675103484918e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3464.26, 'total_tokens': 49101845, 'epoch': 0.4}
+ 40%|█████████████████████████████████████████████████████████████████████████████▋                                                                                                                    | 6010/15000 [4:15:37<5:52:57,  2.36s/it] 40%|███████████████████████████████████��█████████████████████████████████████████▋                                                                                                                    | 6011/15000 [4:15:39<5:52:57,  2.36s/it] 40%|█████████████████████████████████████████████████████████████████████████████▊                                                                                                                    | 6012/15000 [4:15:41<5:52:25,  2.35s/it] 40%|█████████████████████████████████████████████████████████████████████████████▊                                                                                                                    | 6013/15000 [4:15:44<5:52:31,  2.35s/it] 40%|█████████████████████████████████████████████████████████████████████████████▊                                                                                                                    | 6014/15000 [4:15:46<5:52:30,  2.35s/it] 40%|█████████████████████████████████████████████████████████████████████████████▊                                                                                                                    | 6015/15000 [4:15:48<5:52:40,  2.36s/it] 40%|█████████████████████████████████████████████████████████████████████████████▊                                                                                                                    | 6016/15000 [4:15:51<5:52:46,  2.36s/it] 40%|█████████████████████████████████████████████████████████████████████████████▊                                                                                                                    | 6017/15000 [4:15:53<5:52:34,  2.36s/it] 40%|█████████████████████████████████████████████████████████████████████████████▊                                                                                                                    | 6018/15000 [4:15:55<5:52:34,  2.36s/it] 40%|█████████████████████████████████████████████████████████████████████████████▊                                                                                                                    | 6019/15000 [4:15:58<5:52:36,  2.36s/it] 40%|█████████████████████████████████████████████████████████████████████████████▊                                                                                                                    | 6020/15000 [4:16:00<5:52:19,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.7911, 'grad_norm': 2.0625, 'learning_rate': 4.8793382534548734e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3471.06, 'total_tokens': 49183184, 'epoch': 0.4}
+ 40%|█████████████████████████████████████████████████████████████████████████████▊                                                                                                                    | 6020/15000 [4:16:00<5:52:19,  2.35s/it] 40%|█████████████████████████████████████████████████████████████████████████████▊                                                                                                                    | 6021/15000 [4:16:03<5:52:05,  2.35s/it] 40%|█████████████████████████████████████████████████████████████████████████████▉                                                                                                                    | 6022/15000 [4:16:05<5:51:49,  2.35s/it] 40%|█████████████████████████████████████████████████████████████████████████████▉                                                                                                                    | 6023/15000 [4:16:07<5:52:00,  2.35s/it] 40%|█████████████████████████████████████████████████████████████████████████████▉                                                                                                                    | 6024/15000 [4:16:10<5:52:18,  2.35s/it] 40%|█████████████████████████████████████████████████████████████████████████████▉                                                                                                                    | 6025/15000 [4:16:12<5:52:08,  2.35s/it] 40%|█████████████████████████████████████████████████████████████████████████████▉                                                                                                                    | 6026/15000 [4:16:14<5:52:04,  2.35s/it] 40%|█████████████████████████████████████████████████████████████████████████████▉                                                                                                                    | 6027/15000 [4:16:17<5:52:04,  2.35s/it][2025-11-17 01:59:09,497] [INFO] [axolotl.utils.data.wrappers.get_dataset_wrapper:87] [PID:8163] Loading dataset: Goader/kobza-2m-jsonl with base_type: pretrain and prompt_style: None
+
+Tokenizing Prompts (num_proc=64):   0%|                                                                                                                                                                        | 0/10000 [00:00<?, ? examples/s][A
+Tokenizing Prompts (num_proc=64):   2%|██▍                                                                                                                                                           | 157/10000 [00:06<06:12, 26.40 examples/s][A
+Tokenizing Prompts (num_proc=64):   3%|████▉                                                                                                                                                         | 314/10000 [00:06<02:49, 57.26 examples/s][A
+Tokenizing Prompts (num_proc=64):   5%|███████▍                                                                                                                                                      | 471/10000 [00:07<01:48, 87.45 examples/s][A
+Tokenizing Prompts (num_proc=64):   6%|█████████▊                                                                                                                                                   | 628/10000 [00:07<01:20, 116.55 examples/s][A
+Tokenizing Prompts (num_proc=64):   8%|████████████▎                                                                                                                                                | 785/10000 [00:08<01:05, 140.92 examples/s][A
+Tokenizing Prompts (num_proc=64):   9%|██████████████▊                                                                                                                                              | 942/10000 [00:09<00:55, 163.55 examples/s][A
+Tokenizing Prompts (num_proc=64):  11%|█████████████████▏                                                                                                                                          | 1099/10000 [00:10<01:06, 134.14 examples/s][A
+Tokenizing Prompts (num_proc=64):  13%|███████████████████▌                                                                                                                                        | 1256/10000 [00:11<00:53, 163.57 examples/s][A
+Tokenizing Prompts (num_proc=64):  14%|██████████████████████                                                                                                                                      | 1413/10000 [00:11<00:39, 218.62 examples/s][A
+Tokenizing Prompts (num_proc=64):  16%|████████████████████████▍                                                                                                                                   | 1570/10000 [00:12<00:38, 221.56 examples/s][A
+Tokenizing Prompts (num_proc=64):  17%|██████████████████████████▉                                                                                                                                 | 1727/10000 [00:12<00:37, 221.21 examples/s][A
+Tokenizing Prompts (num_proc=64):  19%|█████████████████████████████▍                                                                                                                              | 1884/10000 [00:13<00:35, 225.68 examples/s][A
+Tokenizing Prompts (num_proc=64):  20%|███████████████████████████████▊                                                                                                                            | 2041/10000 [00:14<00:35, 225.74 examples/s][A
+Tokenizing Prompts (num_proc=64):  22%|██████████████████████████████████▎                                                                                                                         | 2198/10000 [00:14<00:33, 231.60 examples/s][A
+Tokenizing Prompts (num_proc=64):  24%|████████████████████████████████████▋                                                                                                                       | 2355/10000 [00:15<00:33, 229.59 examples/s][A
+Tokenizing Prompts (num_proc=64):  25%|███████████████████████████████████████▏                                                                                                                    | 2512/10000 [00:16<00:33, 226.10 examples/s][A
+Tokenizing Prompts (num_proc=64):  27%|█████████████████████████████████████████▌                                                                                                                  | 2668/10000 [00:16<00:32, 229.04 examples/s][A
+Tokenizing Prompts (num_proc=64):  28%|████████████████████████████████████████████                                                                                                                | 2824/10000 [00:18<00:37, 190.66 examples/s][A
+Tokenizing Prompts (num_proc=64):  30%|██████████████████████████████████████████████▍                                                                                                             | 2980/10000 [00:18<00:28, 242.84 examples/s][A
+Tokenizing Prompts (num_proc=64):  31%|████████████████████████████████████████████████▉                                                                                                           | 3136/10000 [00:19<00:34, 198.25 examples/s][A
+Tokenizing Prompts (num_proc=64):  33%|███████████████████████████████████████████████████▎                                                                                                        | 3292/10000 [00:20<00:32, 206.01 examples/s][A
+Tokenizing Prompts (num_proc=64):  34%|█████████████████████████████████████████████████████▊                                                                                                      | 3448/10000 [00:20<00:24, 268.42 examples/s][A
+Tokenizing Prompts (num_proc=64):  36%|████████████████████████████████████████████████████████▏                                                                                                   | 3604/10000 [00:20<00:25, 251.33 examples/s][A
+Tokenizing Prompts (num_proc=64):  38%|██████████████████████████████████████████████████████████▋                                                                                                 | 3760/10000 [00:21<00:25, 244.37 examples/s][A
+Tokenizing Prompts (num_proc=64):  39%|█████████████████████████████████████████████████████████████                                                                                               | 3916/10000 [00:22<00:25, 239.87 examples/s][A
+Tokenizing Prompts (num_proc=64):  41%|███████████████████████████████████████████████████████████████▌                                                                                            | 4072/10000 [00:22<00:24, 237.92 examples/s][A
+Tokenizing Prompts (num_proc=64):  42%|█████████████████████████████████████████████████████████████████▉                                                                                          | 4228/10000 [00:23<00:23, 241.79 examples/s][A
+Tokenizing Prompts (num_proc=64):  44%|████████████████████████████████████████████████████████████████████▍                                                                                       | 4384/10000 [00:24<00:24, 232.93 examples/s][A
+Tokenizing Prompts (num_proc=64):  45%|██████████████████████████████████████████████████████████████████████▊                                                                                     | 4540/10000 [00:25<00:24, 220.53 examples/s][A
+Tokenizing Prompts (num_proc=64):  47%|█████████████████████████████████████████████████████████████████████████▎                                                                                  | 4696/10000 [00:25<00:22, 238.30 examples/s][A
+Tokenizing Prompts (num_proc=64):  49%|███████████████████████████████████████████████████████████████████████████▋                                                                                | 4852/10000 [00:26<00:21, 234.41 examples/s][A
+Tokenizing Prompts (num_proc=64):  50%|██████████████████████████████████████████████████████████████████████████████                                                                              | 5008/10000 [00:27<00:22, 224.34 examples/s][A
+Tokenizing Prompts (num_proc=64):  52%|████████████████████████████████████████████████████████████████████████████████▌                                                                           | 5164/10000 [00:27<00:20, 239.42 examples/s][A
+Tokenizing Prompts (num_proc=64):  53%|██████████████████████████████████████████████████████████████████████████████████▉                                                                         | 5320/10000 [00:28<00:19, 235.80 examples/s][A
+Tokenizing Prompts (num_proc=64):  55%|█████████████████████████████████████████████████████████████████████████████████████▍                                                                      | 5476/10000 [00:29<00:19, 237.30 examples/s][A
+Tokenizing Prompts (num_proc=64):  56%|███████████████████████████████████████████████████████████████████████████████████████▊                                                                    | 5632/10000 [00:29<00:19, 228.35 examples/s][A
+Tokenizing Prompts (num_proc=64):  58%|██████████████████████████████████████████████████████████████████████████████████████████▎                                                                 | 5788/10000 [00:30<00:17, 236.14 examples/s][A
+Tokenizing Prompts (num_proc=64):  59%|████████████████████████████████████████████████████████████████████████████████████████████▋                                                               | 5944/10000 [00:31<00:17, 235.81 examples/s][A
+Tokenizing Prompts (num_proc=64):  61%|███████████████████████████████████████████████████████████████████████████████████████████████▏                                                            | 6100/10000 [00:31<00:16, 234.66 examples/s][A
+Tokenizing Prompts (num_proc=64):  63%|█████████████████████████████████████████████████████████████████████████████████████████████████▌                                                          | 6256/10000 [00:32<00:15, 240.25 examples/s][A
+Tokenizing Prompts (num_proc=64):  64%|████████████████████████████████████████████████████████████████████████████████████████████████████                                                        | 6412/10000 [00:33<00:15, 235.22 examples/s][A
+Tokenizing Prompts (num_proc=64):  66%|██████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                     | 6568/10000 [00:33<00:14, 230.30 examples/s][A
+Tokenizing Prompts (num_proc=64):  67%|████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                   | 6724/10000 [00:34<00:14, 231.79 examples/s][A
+Tokenizing Prompts (num_proc=64):  69%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                | 6880/10000 [00:35<00:13, 225.70 examples/s][A
+Tokenizing Prompts (num_proc=64):  70%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                              | 7036/10000 [00:35<00:12, 235.60 examples/s][A
+Tokenizing Prompts (num_proc=64):  72%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                           | 7192/10000 [00:36<00:12, 226.27 examples/s][A
+Tokenizing Prompts (num_proc=64):  73%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                         | 7348/10000 [00:37<00:13, 196.47 examples/s][A
+Tokenizing Prompts (num_proc=64):  75%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                       | 7504/10000 [00:37<00:09, 252.85 examples/s][A
+Tokenizing Prompts (num_proc=64):  77%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                    | 7660/10000 [00:38<00:09, 240.87 examples/s][A
+Tokenizing Prompts (num_proc=64):  78%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                  | 7816/10000 [00:39<00:09, 239.32 examples/s][A
+Tokenizing Prompts (num_proc=64):  80%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                               | 7972/10000 [00:39<00:08, 233.68 examples/s][A
+Tokenizing Prompts (num_proc=64):  81%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                             | 8128/10000 [00:40<00:07, 234.20 examples/s][A
+Tokenizing Prompts (num_proc=64):  83%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                          | 8284/10000 [00:41<00:07, 232.26 examples/s][A
+Tokenizing Prompts (num_proc=64):  84%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                        | 8440/10000 [00:42<00:07, 195.95 examples/s][A
+Tokenizing Prompts (num_proc=64):  86%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                      | 8596/10000 [00:42<00:05, 248.79 examples/s][A
+Tokenizing Prompts (num_proc=64):  88%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                   | 8752/10000 [00:43<00:05, 247.09 examples/s][A
+Tokenizing Prompts (num_proc=64):  89%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                 | 8908/10000 [00:43<00:04, 239.38 examples/s][A
+Tokenizing Prompts (num_proc=64):  91%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍              | 9064/10000 [00:44<00:03, 239.29 examples/s][A
+Tokenizing Prompts (num_proc=64):  92%|█████████████���█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊            | 9220/10000 [00:45<00:03, 225.40 examples/s][A
+Tokenizing Prompts (num_proc=64):  94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎         | 9376/10000 [00:45<00:02, 242.61 examples/s][A
+Tokenizing Prompts (num_proc=64):  95%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋       | 9532/10000 [00:46<00:01, 238.41 examples/s][A
+Tokenizing Prompts (num_proc=64):  97%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏    | 9688/10000 [00:47<00:01, 237.72 examples/s][A
+Tokenizing Prompts (num_proc=64):  98%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌  | 9844/10000 [00:47<00:00, 231.34 examples/s][A
+Tokenizing Prompts (num_proc=64): 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10000/10000 [00:48<00:00, 233.80 examples/s][ATokenizing Prompts (num_proc=64): 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10000/10000 [00:50<00:00, 197.61 examples/s]
+
+Dropping Long Sequences:   0%|                                                                                                                                                                                 | 0/10000 [00:00<?, ? examples/s][A
+Dropping Long Sequences:  10%|████████████████▌                                                                                                                                                    | 1000/10000 [00:01<00:12, 703.36 examples/s][A
+Dropping Long Sequences:  20%|████████████████████████████████▊                                                                                                                                   | 2000/10000 [00:01<00:05, 1358.75 examples/s][A
+Dropping Long Sequences:  30%|█████████████████████████████████████████████████▏                                                                                                                  | 3000/10000 [00:01<00:03, 1906.43 examples/s][A
+Dropping Long Sequences:  40%|███████████████████████████████████████████████████���█████████████▌                                                                                                  | 4000/10000 [00:02<00:02, 2387.37 examples/s][A
+Dropping Long Sequences:  50%|██████████████████████████████████████████████████████████████████████████████████                                                                                  | 5000/10000 [00:02<00:01, 2727.22 examples/s][A
+Dropping Long Sequences:  60%|██████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                 | 6000/10000 [00:02<00:01, 2997.52 examples/s][A
+Dropping Long Sequences:  70%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                 | 7000/10000 [00:03<00:00, 3236.88 examples/s][A
+Dropping Long Sequences:  80%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                | 8000/10000 [00:03<00:00, 3373.94 examples/s][A
+Dropping Long Sequences:  90%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                | 9000/10000 [00:03<00:00, 3465.70 examples/s][A
+Dropping Long Sequences: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10000/10000 [00:03<00:00, 3550.89 examples/s][ADropping Long Sequences: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10000/10000 [00:03<00:00, 2579.07 examples/s]
+
+Add position_id column (Pretraining Sample Packing):   0%|                                                                                                                                                      | 0/8703 [00:00<?, ? examples/s][A
+Add position_id column (Pretraining Sample Packing):  11%|███████████████▊                                                                                                                          | 1000/8703 [00:01<00:09, 787.25 examples/s][A
+Add position_id column (Pretraining Sample Packing):  23%|███████████████████████████████▍                                                                                                         | 2000/8703 [00:01<00:04, 1616.89 examples/s][A
+Add position_id column (Pretraining Sample Packing):  34%|███████████████████████████████████████████████▏                                                                                         | 3000/8703 [00:01<00:02, 2491.03 examples/s][A
+Add position_id column (Pretraining Sample Packing):  46%|████████████████████████████████████████████████████████���█████▉                                                                          | 4000/8703 [00:01<00:01, 3251.06 examples/s][A
+Add position_id column (Pretraining Sample Packing):  57%|██████████████████████████████████████████████████████████████████████████████▋                                                          | 5000/8703 [00:01<00:00, 4031.51 examples/s][A
+Add position_id column (Pretraining Sample Packing):  69%|██████████████████████████████████████████████████████████████████████████████████████████████▍                                          | 6000/8703 [00:02<00:00, 4667.31 examples/s][A
+Add position_id column (Pretraining Sample Packing):  80%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                          | 7000/8703 [00:02<00:00, 5196.66 examples/s][A
+Add position_id column (Pretraining Sample Packing):  92%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉           | 8000/8703 [00:02<00:00, 5437.36 examples/s][A
+Add position_id column (Pretraining Sample Packing): 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 8703/8703 [00:02<00:00, 5705.41 examples/s][AAdd position_id column (Pretraining Sample Packing): 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 8703/8703 [00:02<00:00, 3468.34 examples/s]
+[2025-11-17 02:00:08,070] [DEBUG] [axolotl.utils.samplers.multipack.pack_parallel:177] [PID:8163] Using single process for pack_parallel, running sequentially.
+ 40%|█████████████████████████████████████████████████████████████████████████████▌                                                                                                                   | 6028/15000 [4:17:23<53:24:00, 21.43s/it] 40%|█████████████████████████████████████████████████████████████████████████████▌                                                                                                                   | 6029/15000 [4:17:25<39:08:05, 15.70s/it] 40%|█████████████████████████████████████████████████████████████████████████████▌                                                                                                                   | 6030/15000 [4:17:27<29:08:55, 11.70s/it]                                                                                                                                                                                                                                                {'loss': 2.814, 'grad_norm': 2.53125, 'learning_rate': 4.876979154016382e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3437.68, 'total_tokens': 49263765, 'epoch': 0.4}
+ 40%|█████████████████████████████████████████████████████████████████████████████▌                                                                                                                   | 6030/15000 [4:17:27<29:08:55, 11.70s/it] 40%|█████████████████████████████████████████████████████████████████████████████▌                                                                                                                   | 6031/15000 [4:17:30<22:09:42,  8.90s/it] 40%|█████████████████████████████████████████████████████████████████████████████▌                                                                                                                   | 6032/15000 [4:17:32<17:16:02,  6.93s/it] 40%|█████████████████████████████████████████████████████████████████████████████▌                                                                                                                   | 6033/15000 [4:17:34<13:50:19,  5.56s/it] 40%|█████████████████████████████████████████████████████████████████████████████▋                                                                                                                   | 6034/15000 [4:17:37<11:26:52,  4.60s/it] 40%|██████████████████████████████████████████████████████████████████████████████                                                                                                                    | 6035/15000 [4:17:39<9:45:58,  3.92s/it] 40%|██████████████████████████████████████████████████████████████████████████████                                                                                                                    | 6036/15000 [4:17:41<8:35:20,  3.45s/it] 40%|██████████████████████████████████████████████████████████████████████████████                                                                                                                    | 6037/15000 [4:17:44<7:45:58,  3.12s/it] 40%|██████████████████████████████████████████████████████████████████████████████                                                                                                                    | 6038/15000 [4:17:46<7:11:15,  2.89s/it] 40%|██████████████████████████████████████████████████████████████████████████████                                                                                                                    | 6039/15000 [4:17:48<6:46:56,  2.72s/it] 40%|██████████████████████████████████████████████████████████████████████████████                                                                                                                    | 6040/15000 [4:17:51<6:29:55,  2.61s/it]                                                                                                                                                                                                                                                {'loss': 2.7968, 'grad_norm': 1.796875, 'learning_rate': 4.8745978284528007e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3499.48, 'total_tokens': 49345629, 'epoch': 0.4}
+ 40%|██████████████████████████████████████████████████████████████████████████████                                                                                                                    | 6040/15000 [4:17:51<6:29:55,  2.61s/it] 40%|█████████████████████████████████████���████████████████████████████████████████▏                                                                                                                   | 6041/15000 [4:17:53<6:17:58,  2.53s/it] 40%|██████████████████████████████████████████████████████████████████████████████▏                                                                                                                   | 6042/15000 [4:17:55<6:10:01,  2.48s/it] 40%|██████████████████████████████████████████████████████████████████████████████▏                                                                                                                   | 6043/15000 [4:17:58<6:04:26,  2.44s/it] 40%|██████████████████████████████████████████████████████████████████████████████▏                                                                                                                   | 6044/15000 [4:18:00<6:00:25,  2.41s/it] 40%|██████████████████████████████████████████████████████████████████████████████▏                                                                                                                   | 6045/15000 [4:18:03<5:57:53,  2.40s/it] 40%|██████████████████████████████████████████████████████████████████████████████▏                                                                                                                   | 6046/15000 [4:18:05<5:55:34,  2.38s/it] 40%|██████████████████████████████████████████████████████████████████████████████▏                                                                                                                   | 6047/15000 [4:18:07<5:54:38,  2.38s/it] 40%|██████████████████████████████████████████████████████████████████████████████▏                                                                                                                   | 6048/15000 [4:18:10<5:53:24,  2.37s/it] 40%|██████████████████████████████████████████████████████████████████████████████▏                                                                                                                   | 6049/15000 [4:18:12<5:52:33,  2.36s/it] 40%|██████████████████████████████████████████████████████████████████████████████▏                                                                                                                   | 6050/15000 [4:18:14<5:51:55,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.7982, 'grad_norm': 1.734375, 'learning_rate': 4.8721943002668516e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3494.98, 'total_tokens': 49427513, 'epoch': 0.4}
+ 40%|██████████████████████████████████████████████████████████████████████████████▏                                                                                                                   | 6050/15000 [4:18:14<5:51:55,  2.36s/it] 40%|██████████████████████████████████████████████████████████████████████████████▎                                                                                                                   | 6051/15000 [4:18:17<5:51:36,  2.36s/it] 40%|██████████████████████████████████████████████████████████████████████████████▎                                                                                                                   | 6052/15000 [4:18:19<5:51:25,  2.36s/it] 40%|██████████████████████████████████████████████████████████████████████████████▎                                                                                                                   | 6053/15000 [4:18:21<5:51:19,  2.36s/it] 40%|██████████████████████████████████████████████████████████████████████████████▎                                                                                                                   | 6054/15000 [4:18:24<5:50:52,  2.35s/it] 40%|██████████████████████████████████████████████████████████████████████████████▎                                                                                                                   | 6055/15000 [4:18:26<5:50:54,  2.35s/it] 40%|██████████████████████████████████████████████████████████████████████████████▎                                                                                                                   | 6056/15000 [4:18:28<5:50:25,  2.35s/it] 40%|██████████████████████████████████████████████████████████████████████████████▎                                                                                                                   | 6057/15000 [4:18:31<5:50:34,  2.35s/it] 40%|██████████████████████████████████████████████████████████████████████████████▎                                                                                                                   | 6058/15000 [4:18:33<5:50:32,  2.35s/it] 40%|██████████████████████████████████████████████████████████████████████████████▎                                                                                                                   | 6059/15000 [4:18:35<5:50:33,  2.35s/it] 40%|██████████████████████████████████████████████████████████████████████████████▍                                                                                                                   | 6060/15000 [4:18:38<5:50:34,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.7876, 'grad_norm': 1.7578125, 'learning_rate': 4.8697685931803874e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3487.74, 'total_tokens': 49509366, 'epoch': 0.4}
+ 40%|██████████████████████████████████████████████████████████████████████████████▍                                                                                                                   | 6060/15000 [4:18:38<5:50:34,  2.35s/it] 40%|██████████████████████████████████████████████████████████████████████████████▍                                                                                                                   | 6061/15000 [4:18:40<5:51:05,  2.36s/it] 40%|██████████████████████████████████████████████████████████████████████████████▍                                                                                                                   | 6062/15000 [4:18:43<5:50:47,  2.35s/it] 40%|██████████████████████████████████████████████████████████████████████████████▍                                                                                                                   | 6063/15000 [4:18:45<5:50:36,  2.35s/it] 40%|██████████████████████████████████████████████████████████████████████████████▍                                                                                                                   | 6064/15000 [4:18:47<5:50:24,  2.35s/it] 40%|██████████████████████████████████████████████████████████████████████████████▍                                                                                                                   | 6065/15000 [4:18:50<5:50:17,  2.35s/it] 40%|██████████████████████████████████████████████████████████████████████████████▍                                                                                                                   | 6066/15000 [4:18:52<5:50:06,  2.35s/it] 40%|██████████████████████████████████████████████████████████████████████████████▍                                                                                                                   | 6067/15000 [4:18:54<5:49:59,  2.35s/it] 40%|██████████████████████████████████████████████████████████████████████████████▍                                                                                                                   | 6068/15000 [4:18:57<5:50:12,  2.35s/it] 40%|██████████████████████████████████████████████████████████████████████████████▍                                                                                                                   | 6069/15000 [4:18:59<5:49:48,  2.35s/it] 40%|██████████████████████████████████████████████████████████████████████████████▌                                                                                                                   | 6070/15000 [4:19:01<5:49:42,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.8254, 'grad_norm': 1.984375, 'learning_rate': 4.867320731134159e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3493.79, 'total_tokens': 49591183, 'epoch': 0.4}
+ 40%|██████████████████████████████████████████████████████████████████████████████▌                                                                                                                   | 6070/15000 [4:19:01<5:49:42,  2.35s/it] 40%|██████████████████████████████████████████████████████████████████████████████▌                                                                                                                   | 6071/15000 [4:19:04<5:50:09,  2.35s/it] 40%|██████████████████████████████████████████████████████████████████████████████▌                                                                                                                   | 6072/15000 [4:19:06<5:50:23,  2.35s/it] 40%|██████████████████████████████████████████████████████████████████████████████▌                                                                                                                   | 6073/15000 [4:19:08<5:50:35,  2.36s/it] 40%|██████████████████████████████████████████████████████████████████████████████▌                                                                                                                   | 6074/15000 [4:19:11<5:50:11,  2.35s/it] 40%|██████████████████████████████████████████████████████████████████████████████▌                                                                                                                   | 6075/15000 [4:19:13<5:50:05,  2.35s/it] 41%|██████████████████████████████████████████████████████████████████████████████▌                                                                                                                   | 6076/15000 [4:19:15<5:50:21,  2.36s/it] 41%|██████████████████████████████████████████████████████████████████████████████▌                                                                                                                   | 6077/15000 [4:19:18<5:49:47,  2.35s/it] 41%|██████████████████████████████████████████████████████████████████████████████▌                                                                                                                   | 6078/15000 [4:19:20<5:49:44,  2.35s/it] 41%|██████████████████████████████████████████████████████████████████████████████▌                                                                                                                   | 6079/15000 [4:19:23<5:49:40,  2.35s/it] 41%|██████████████████████████████████████████████████████████████████████████████▋                                                                                                                   | 6080/15000 [4:19:25<5:49:27,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.7872, 'grad_norm': 1.8203125, 'learning_rate': 4.864850738287576e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3495.81, 'total_tokens': 49673002, 'epoch': 0.41}
+ 41%|██████████████████████████████████████████████████████████████████████████████▋                                                                                                                   | 6080/15000 [4:19:25<5:49:27,  2.35s/it] 41%|██████████████████████████████████████████████████████████████████████████████▋                                                                                                                   | 6081/15000 [4:19:27<5:49:26,  2.35s/it] 41%|██████████████████████████████████████████████████████████████████████████████▋                                                                                                                   | 6082/15000 [4:19:30<5:49:43,  2.35s/it] 41%|██████████████████████████████████████████████████████████████████████████████▋                                                                                                                   | 6083/15000 [4:19:32<5:49:19,  2.35s/it] 41%|██████████████████████████████████████████████████████████████████████████████▋                                                                                                                   | 6084/15000 [4:19:34<5:49:21,  2.35s/it] 41%|██████████████████████████████████████████████████████████████████████████████▋                                                                                                                   | 6085/15000 [4:19:37<5:49:14,  2.35s/it] 41%|██████████████████████████████████████████████████████████████████████████████▋                                                                                                                   | 6086/15000 [4:19:39<5:49:04,  2.35s/it] 41%|██████████████████████████████████████████████████████████████████████████████▋                                                                                                                   | 6087/15000 [4:19:41<5:49:04,  2.35s/it] 41%|██████████████████████████████████████████████████████████████████████████████▋                                                                                                                   | 6088/15000 [4:19:44<5:49:09,  2.35s/it] 41%|██████████████████████████████████████████████████████████████████████████████▊                                                                                                                   | 6089/15000 [4:19:46<5:49:02,  2.35s/it] 41%|██████████████████████████████████████████████████████████████████████████████▊                                                                                                                   | 6090/15000 [4:19:48<5:49:06,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.8625, 'grad_norm': 1.6875, 'learning_rate': 4.862358639018469e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3489.28, 'total_tokens': 49754850, 'epoch': 0.41}
+ 41%|██████████████████████████████████████████████████████████████████████████████▊                                                                                                                   | 6090/15000 [4:19:48<5:49:06,  2.35s/it] 41%|██████████████████████████████████████████████████████████████████████████████▊                                                                                                                   | 6091/15000 [4:19:51<5:49:17,  2.35s/it] 41%|██████████████████████████████████████████████████████████████████████████████▊                                                                                                                   | 6092/15000 [4:19:53<5:49:18,  2.35s/it] 41%|██████████████████████████████████████████████████████████████████████████████▊                                                                                                                   | 6093/15000 [4:19:55<5:49:21,  2.35s/it] 41%|███��██████████████████████████████████████████████████████████████████████████▊                                                                                                                   | 6094/15000 [4:19:58<5:49:14,  2.35s/it] 41%|██████████████████████████████████████████████████████████████████████████████▊                                                                                                                   | 6095/15000 [4:20:00<5:48:56,  2.35s/it] 41%|██████████████████████████████████████████████████████████████████████████████▊                                                                                                                   | 6096/15000 [4:20:02<5:48:57,  2.35s/it] 41%|██████████████████████████████████████████████████████████████████████████████▊                                                                                                                   | 6097/15000 [4:20:05<5:49:00,  2.35s/it] 41%|██████████████████████████████████████████████████████████████████████████████▊                                                                                                                   | 6098/15000 [4:20:07<5:48:58,  2.35s/it] 41%|██████████████████████████████████████████████████████████████████████████████▉                                                                                                                   | 6099/15000 [4:20:10<5:48:54,  2.35s/it] 41%|██████████████████████████████████████████████████████████████████████████████▉                                                                                                                   | 6100/15000 [4:20:12<5:48:46,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.771, 'grad_norm': 2.515625, 'learning_rate': 4.8598444579228545e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3491.32, 'total_tokens': 49836645, 'epoch': 0.41}
+ 41%|██████████████████████████████████████████████████████████████████████████████▉                                                                                                                   | 6100/15000 [4:20:12<5:48:46,  2.35s/it] 41%|██████████████████████████████████████████████████████████████████████████████▉                                                                                                                   | 6101/15000 [4:20:14<5:48:33,  2.35s/it] 41%|██████████████████████████████████████████████████████████████████████████████▉                                                                                                                   | 6102/15000 [4:20:17<5:48:43,  2.35s/it] 41%|██████████████████████████████████████████████████████████████████████████████▉                                                                                                                   | 6103/15000 [4:20:19<5:48:39,  2.35s/it] 41%|████████████████████████████████████████████████████████████████████████████��█▉                                                                                                                   | 6104/15000 [4:20:21<5:48:34,  2.35s/it] 41%|██████████████████████████████████████████████████████████████████████████████▉                                                                                                                   | 6105/15000 [4:20:24<5:48:48,  2.35s/it] 41%|██████████████████████████████████████████████████████████████████████████████▉                                                                                                                   | 6106/15000 [4:20:26<5:48:51,  2.35s/it] 41%|██████████████████████████████████████████████████████████████████████████████▉                                                                                                                   | 6107/15000 [4:20:28<5:48:28,  2.35s/it] 41%|██████████████████████████████████████████████████████████████████████████████▉                                                                                                                   | 6108/15000 [4:20:31<5:48:19,  2.35s/it] 41%|███████████████████████████████████████████████████████████████████████████████                                                                                                                   | 6109/15000 [4:20:33<5:48:29,  2.35s/it] 41%|███████████████████████████████████████████████████████████████████████████████                                                                                                                   | 6110/15000 [4:20:35<5:48:09,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.8182, 'grad_norm': 2.28125, 'learning_rate': 4.857308219814683e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3497.87, 'total_tokens': 49918438, 'epoch': 0.41}
+ 41%|███████████████████████████████████████████████████████████████████████████████                                                                                                                   | 6110/15000 [4:20:35<5:48:09,  2.35s/it] 41%|███████████████████████████████████████████████████████████████████████████████                                                                                                                   | 6111/15000 [4:20:38<5:48:50,  2.35s/it] 41%|███████████████████████████████████████████████████████████████████████████████                                                                                                                   | 6112/15000 [4:20:40<5:48:54,  2.36s/it] 41%|███████████████████████████████████████████████████████████████████████████████                                                                                                                   | 6113/15000 [4:20:42<5:48:51,  2.36s/it] 41%|███████████████████████████████████████████████████████████████████████████████                                                                                                                   | 6114/15000 [4:20:45<5:48:46,  2.36s/it] 41%|███████████████████████████████████████████████████████████████████████████████                                                                                                                   | 6115/15000 [4:20:47<5:48:41,  2.35s/it] 41%|███████████████████████████████████████████████████████████████████████████████                                                                                                                   | 6116/15000 [4:20:50<5:48:36,  2.35s/it] 41%|███████████████████████████████████████████████████████████████████████████████                                                                                                                   | 6117/15000 [4:20:52<5:48:36,  2.35s/it] 41%|███████████████████████████████████████████████████████████████████████████████▏                                                                                                                  | 6118/15000 [4:20:54<5:48:34,  2.35s/it] 41%|███████████████████████████████████████████████████████████████████████████████▏                                                                                                                  | 6119/15000 [4:20:57<5:48:22,  2.35s/it] 41%|███████████████████████████████████████████████████████████████████████████████▏                                                                                                                  | 6120/15000 [4:20:59<5:48:43,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.8462, 'grad_norm': 2.1875, 'learning_rate': 4.854749949725602e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3474.5, 'total_tokens': 50000276, 'epoch': 0.41}
+ 41%|███████████████████████████████████████████████████████████████████████████████▏                                                                                                                  | 6120/15000 [4:20:59<5:48:43,  2.36s/it] 41%|███████████████████████████████████████████████████████████████████████████████▏                                                                                                                  | 6121/15000 [4:21:01<5:48:43,  2.36s/it] 41%|███████████████████████████████████████████████████████████████████████████████▏                                                                                                                  | 6122/15000 [4:21:04<5:48:38,  2.36s/it] 41%|███████████████████████████████████████████████████████████████████████████████▏                                                                                                                  | 6123/15000 [4:21:06<5:48:18,  2.35s/it] 41%|███████████████████████████████████████████████████████████████████████████████▏                                                                                                                  | 6124/15000 [4:21:08<5:48:01,  2.35s/it] 41%|███████████████████████████████████████████████████████████████████████████████▏                                                                                                                  | 6125/15000 [4:21:11<5:47:53,  2.35s/it] 41%|███████████████████████████████████████████████████████████████████████████████▏                                                                                                                  | 6126/15000 [4:21:13<5:48:12,  2.35s/it] 41%|███████████████████████████████████████████████████████████████████████████████▏                                                                                                                  | 6127/15000 [4:21:15<5:48:23,  2.36s/it] 41%|███████████████████████████████████████████████████████████████████████████████▎                                                                                                                  | 6128/15000 [4:21:18<5:48:13,  2.36s/it] 41%|███████████████████████████████████████████████████████████████████████████████▎                                                                                                                  | 6129/15000 [4:21:20<5:48:01,  2.35s/it] 41%|███████████████████████████████████████████████████████████████████████████████▎                                                                                                                  | 6130/15000 [4:21:23<5:47:54,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.9086, 'grad_norm': 1.8984375, 'learning_rate': 4.852169672904703e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3487.11, 'total_tokens': 50082063, 'epoch': 0.41}
+ 41%|███████████████████████████████████████████████████████████████████████████████▎                                                                                                                  | 6130/15000 [4:21:23<5:47:54,  2.35s/it] 41%|███████████████████████████████████████████████████████████████████████████████▎                                                                                                                  | 6131/15000 [4:21:25<6:09:22,  2.50s/it] 41%|███████████████████████████████████████████████████████████████████████████████▎                                                                                                                  | 6132/15000 [4:21:28<6:02:33,  2.45s/it] 41%|███████████████████████████████████████████████████████████████████████████████▎                                                                                                                  | 6133/15000 [4:21:30<5:57:51,  2.42s/it] 41%|███████████████████████████████████████████████████████████████████████████████▎                                                                                                                  | 6134/15000 [4:21:32<5:54:43,  2.40s/it] 41%|███████████████████████████████████████████████████████████████████████████████▎                                                                                                                  | 6135/15000 [4:21:35<5:52:35,  2.39s/it] 41%|█████████████████���█████████████████████████████████████████████████████████████▎                                                                                                                  | 6136/15000 [4:21:37<5:51:02,  2.38s/it] 41%|███████████████████████████████████████████████████████████████████████████████▎                                                                                                                  | 6137/15000 [4:21:39<5:50:23,  2.37s/it] 41%|███████████████████████████████████████████████████████████████████████████████▍                                                                                                                  | 6138/15000 [4:21:42<5:49:38,  2.37s/it] 41%|███████████████████████████████████████████████████████████████████████████████▍                                                                                                                  | 6139/15000 [4:21:44<5:48:54,  2.36s/it] 41%|███████████████████████████████████████████████████████████████████████████████▍                                                                                                                  | 6140/15000 [4:21:47<5:48:45,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.7132, 'grad_norm': 1.6875, 'learning_rate': 4.849567414818277e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3474.84, 'total_tokens': 50163828, 'epoch': 0.41}
+ 41%|███████████████████████████████████████████████████████████████████████████████▍                                                                                                                  | 6140/15000 [4:21:47<5:48:45,  2.36s/it] 41%|███████████████████████████████████████████████████████████████████████████████▍                                                                                                                  | 6141/15000 [4:21:49<5:48:31,  2.36s/it] 41%|███████████████████████████████████████████████████████████████████████████████▍                                                                                                                  | 6142/15000 [4:21:51<5:48:06,  2.36s/it] 41%|███████████████████████████████████████████████████████████████████████████████▍                                                                                                                  | 6143/15000 [4:21:54<5:47:24,  2.35s/it] 41%|███████████████████████████████████████████████████████████████████████████████▍                                                                                                                  | 6144/15000 [4:21:56<5:47:16,  2.35s/it] 41%|███████████████████████████████████████████████████████████████████████████████▍                                                                                                                  | 6145/15000 [4:21:58<5:46:55,  2.35s/it] 41%|███████████████████████████████████████████████████████████████████████████████▍                                                                                                                  | 6146/15000 [4:22:01<5:47:02,  2.35s/it] 41%|███████████████████████████████████████████████████████████████████████████████▌                                                                                                                  | 6147/15000 [4:22:03<5:47:08,  2.35s/it] 41%|███████████████████████████████████████████████████████████████████████████████▌                                                                                                                  | 6148/15000 [4:22:05<5:47:02,  2.35s/it] 41%|███████████████████████████████████████████████████████████████████████████████▌                                                                                                                  | 6149/15000 [4:22:08<5:46:53,  2.35s/it] 41%|███████████████████████████████████████████████████████████████████████████████▌                                                                                                                  | 6150/15000 [4:22:10<5:47:10,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6713, 'grad_norm': 1.6484375, 'learning_rate': 4.8469432011495614e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3477.01, 'total_tokens': 50245601, 'epoch': 0.41}
+ 41%|███████████████████████████████████████████████████████████████████████████████▌                                                                                                                  | 6150/15000 [4:22:10<5:47:10,  2.35s/it] 41%|███████████████████████████████████████████████████████████████████████████████▌                                                                                                                  | 6151/15000 [4:22:12<5:47:01,  2.35s/it] 41%|███████████████████████████████████████████████████████████████████████████████▌                                                                                                                  | 6152/15000 [4:22:15<5:47:02,  2.35s/it] 41%|███████████████████████████████████████████████████████████████████████████████▌                                                                                                                  | 6153/15000 [4:22:17<5:46:51,  2.35s/it] 41%|███████████████████████████████████████████████████████████████████████████████▌                                                                                                                  | 6154/15000 [4:22:19<5:46:55,  2.35s/it] 41%|███████████████████████████████████████████████████████████████████████████████▌                                                                                                                  | 6155/15000 [4:22:22<5:46:48,  2.35s/it] 41%|███████████████████████████████████████████████████████████████████████████████▌                                                                                                                  | 6156/15000 [4:22:24<5:46:58,  2.35s/it] 41%|███████████████████████████████████████████████████████████████████████████████▋                                                                                                                  | 6157/15000 [4:22:27<5:46:18,  2.35s/it] 41%|███████████████████████████████████████████████████████████████████████████████▋                                                                                                                  | 6158/15000 [4:22:29<5:46:46,  2.35s/it] 41%|███████████████████████████████████████████████████████████████████████████████▋                                                                                                                  | 6159/15000 [4:22:31<5:46:58,  2.35s/it] 41%|███████████████████████████████████████████████████████████████████████████████▋                                                                                                                  | 6160/15000 [4:22:34<5:46:55,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.7302, 'grad_norm': 1.703125, 'learning_rate': 4.8442970577984846e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3484.85, 'total_tokens': 50327401, 'epoch': 0.41}
+ 41%|███████████████████████████████████████████████████████████████████████████████▋                                                                                                                  | 6160/15000 [4:22:34<5:46:55,  2.35s/it] 41%|███████████████████████████████████████████████████████████████████████████████▋                                                                                                                  | 6161/15000 [4:22:36<5:46:43,  2.35s/it] 41%|███████████████████████████████████████████████████████████████████████████████▋                                                                                                                  | 6162/15000 [4:22:38<5:46:50,  2.35s/it] 41%|███████████████████████████████████████████████████████████████████████████████▋                                                                                                                  | 6163/15000 [4:22:41<5:46:43,  2.35s/it] 41%|███████████████████████████████████████████████████████████████████████████████▋                                                                                                                  | 6164/15000 [4:22:43<5:46:46,  2.35s/it] 41%|███████████████████████████████████████████████████████████████████████████████▋                                                                                                                  | 6165/15000 [4:22:45<5:46:08,  2.35s/it] 41%|███████████████████████████████████████████████████████████████████████████████▋                                                                                                                  | 6166/15000 [4:22:48<5:46:17,  2.35s/it] 41%|███████████████████████████████████████████████████████████████████████████████▊                                                                                                                  | 6167/15000 [4:22:50<5:46:02,  2.35s/it] 41%|███████████████████████████████████████████████████████████████████████████████▊                                                                                                                  | 6168/15000 [4:22:52<5:46:26,  2.35s/it] 41%|███████████████████████████████████████████████████████████████████████████████▊                                                                                                                  | 6169/15000 [4:22:55<5:46:11,  2.35s/it] 41%|███████████████████████████████████████████████████████████████████████████████▊                                                                                                                  | 6170/15000 [4:22:57<5:46:22,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.8435, 'grad_norm': 1.75, 'learning_rate': 4.841629010881415e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3479.48, 'total_tokens': 50409172, 'epoch': 0.41}
+ 41%|███████████████████████████████████████████████████████████████████████████████▊                                                                                                                  | 6170/15000 [4:22:57<5:46:22,  2.35s/it] 41%|███████████████████████████████████████████████████████████████████████████████▊                                                                                                                  | 6171/15000 [4:22:59<5:46:16,  2.35s/it] 41%|███████████████████████████████████████████████████████████████████████████████▊                                                                                                                  | 6172/15000 [4:23:02<5:46:08,  2.35s/it] 41%|███████████████████████████████████████████████████████████████████████████████▊                                                                                                                  | 6173/15000 [4:23:04<5:46:12,  2.35s/it] 41%|███████████████████████████████████████████████████████████████████████████████▊                                                                                                                  | 6174/15000 [4:23:07<5:46:11,  2.35s/it] 41%|███████████████████████████████████████████████████████████████████████████████▊                                                                                                                  | 6175/15000 [4:23:09<5:46:15,  2.35s/it] 41%|███████████████████████████████████████████████████████████████████████████████▉                                                                                                                  | 6176/15000 [4:23:11<5:46:30,  2.36s/it] 41%|███████████████████████████████████████████████████████████████████████████████▉                                                                                                                  | 6177/15000 [4:23:14<5:46:37,  2.36s/it] 41%|█████████████��█████████████████████████████████████████████████████████████████▉                                                                                                                  | 6178/15000 [4:23:16<5:46:21,  2.36s/it] 41%|███████████████████████████████████████████████████████████████████████████████▉                                                                                                                  | 6179/15000 [4:23:18<5:46:20,  2.36s/it] 41%|███████████████████████████████████████████████████████████████████████████████▉                                                                                                                  | 6180/15000 [4:23:21<5:46:13,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.8166, 'grad_norm': 1.7109375, 'learning_rate': 4.838939086730896e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3484.69, 'total_tokens': 50490960, 'epoch': 0.41}
+ 41%|███████████████████████████████████████████████████████████████████████████████▉                                                                                                                  | 6180/15000 [4:23:21<5:46:13,  2.36s/it] 41%|███████████████████████████████████████████████████████████████████████████████▉                                                                                                                  | 6181/15000 [4:23:23<5:46:10,  2.36s/it] 41%|███████████████████████████████████████████████████████████████████████████████▉                                                                                                                  | 6182/15000 [4:23:25<5:46:31,  2.36s/it] 41%|███████████████████████████████████████████████████████████████████████████████▉                                                                                                                  | 6183/15000 [4:23:28<5:46:17,  2.36s/it] 41%|███████████████████████████████████████████████████████████████████████████████▉                                                                                                                  | 6184/15000 [4:23:30<5:46:01,  2.35s/it] 41%|███████████████████████████████████████████████████████████████████████████████▉                                                                                                                  | 6185/15000 [4:23:32<5:46:03,  2.36s/it] 41%|████████████████████████████████████████████████████████████████████████████████                                                                                                                  | 6186/15000 [4:23:35<5:46:15,  2.36s/it] 41%|████████████████████████████████████████████████████████████████████████████████                                                                                                                  | 6187/15000 [4:23:37<5:46:10,  2.36s/it] 41%|████████████████████████████████████████████████████████████████████████████████                                                                                                                  | 6188/15000 [4:23:40<5:46:00,  2.36s/it] 41%|████████████████████████████████████████████████████████████████████████████████                                                                                                                  | 6189/15000 [4:23:42<5:45:42,  2.35s/it] 41%|████████████████████████████████████████████████████████████████████████████████                                                                                                                  | 6190/15000 [4:23:44<5:45:23,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.7586, 'grad_norm': 2.015625, 'learning_rate': 4.836227311895395e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3493.9, 'total_tokens': 50572752, 'epoch': 0.41}
+ 41%|████████████████████████████████████████████████████████████████████████████████                                                                                                                  | 6190/15000 [4:23:44<5:45:23,  2.35s/it] 41%|████████████████████████████████████████████████████████████████████████████████                                                                                                                  | 6191/15000 [4:23:47<5:45:15,  2.35s/it] 41%|████████████████████████████████████████████████████████████████████████████████                                                                                                                  | 6192/15000 [4:23:49<5:45:39,  2.35s/it] 41%|████████████████████████████████████████████████████████████████████████████████                                                                                                                  | 6193/15000 [4:23:51<5:45:59,  2.36s/it] 41%|████████████████████████████████████████████████████████████████████████████████                                                                                                                  | 6194/15000 [4:23:54<5:45:27,  2.35s/it] 41%|████████████████████████████████████████████████████████████████████████████████                                                                                                                  | 6195/15000 [4:23:56<5:45:30,  2.35s/it] 41%|████████████████████████████████████████████████████████████████████████████████▏                                                                                                                 | 6196/15000 [4:23:58<5:45:36,  2.36s/it] 41%|████████████████████████████████████████████████████████████████████████████████▏                                                                                                                 | 6197/15000 [4:24:01<5:45:32,  2.36s/it] 41%|████████████████████████████████████████████████████████████████████████████████▏                                                                                                                 | 6198/15000 [4:24:03<5:45:31,  2.36s/it] 41%|█████████���██████████████████████████████████████████████████████████████████████▏                                                                                                                 | 6199/15000 [4:24:05<5:45:15,  2.35s/it] 41%|████████████████████████████████████████████████████████████████████████████████▏                                                                                                                 | 6200/15000 [4:24:08<5:45:21,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.8367, 'grad_norm': 1.84375, 'learning_rate': 4.833493713139034e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3483.4, 'total_tokens': 50654609, 'epoch': 0.41}
+ 41%|████████████████████████████████████████████████████████████████████████████████▏                                                                                                                 | 6200/15000 [4:24:08<5:45:21,  2.35s/it] 41%|████████████████████████████████████████████████████████████████████████████████▏                                                                                                                 | 6201/15000 [4:24:10<5:45:11,  2.35s/it] 41%|████████████████████████████████████████████████████████████████████████████████▏                                                                                                                 | 6202/15000 [4:24:12<5:44:53,  2.35s/it] 41%|████████████████████████████████████████████████████████████████████████████████▏                                                                                                                 | 6203/15000 [4:24:15<5:44:52,  2.35s/it] 41%|████████████████████████████████████████████████████████████████████████████████▏                                                                                                                 | 6204/15000 [4:24:17<5:44:47,  2.35s/it] 41%|████████████████████████████████████████████████████████████████████████████████▎                                                                                                                 | 6205/15000 [4:24:20<5:45:02,  2.35s/it] 41%|████████████████████████████████████████████████████████████████████████████████▎                                                                                                                 | 6206/15000 [4:24:22<5:45:20,  2.36s/it] 41%|████████████████████████████████████████████████████████████████████████████████▎                                                                                                                 | 6207/15000 [4:24:24<5:45:33,  2.36s/it] 41%|████████████████████████████████████████████████████████████████████████████████▎                                                                                                                 | 6208/15000 [4:24:27<5:45:15,  2.36s/it] 41%|████████████████████████████████████████████████████████████████████���███████████▎                                                                                                                 | 6209/15000 [4:24:29<5:45:16,  2.36s/it] 41%|████████████████████████████████████████████████████████████████████████████████▎                                                                                                                 | 6210/15000 [4:24:31<5:45:03,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.7952, 'grad_norm': 1.84375, 'learning_rate': 4.83073831744133e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3487.04, 'total_tokens': 50736394, 'epoch': 0.41}
+ 41%|████████████████████████████████████████████████████████████████████████████████▎                                                                                                                 | 6210/15000 [4:24:31<5:45:03,  2.36s/it] 41%|████████████████████████████████████████████████████████████████████████████████▎                                                                                                                 | 6211/15000 [4:24:34<5:45:01,  2.36s/it] 41%|████████████████████████████████████████████████████████████████████████████████▎                                                                                                                 | 6212/15000 [4:24:36<5:44:49,  2.35s/it] 41%|████████████████████████████████████████████████████████████████████████████████▎                                                                                                                 | 6213/15000 [4:24:38<5:44:38,  2.35s/it] 41%|████████████████████████████████████████████████████████████████████████████████▎                                                                                                                 | 6214/15000 [4:24:41<5:44:29,  2.35s/it] 41%|████████████████████████████████████████████████████████████████████████████████▍                                                                                                                 | 6215/15000 [4:24:43<5:44:21,  2.35s/it] 41%|████████████████████████████████████████████████████████████████████████████████▍                                                                                                                 | 6216/15000 [4:24:45<5:44:41,  2.35s/it] 41%|████████████████████████████████████████████████████████████████████████████████▍                                                                                                                 | 6217/15000 [4:24:48<5:44:14,  2.35s/it] 41%|████████████████████████████████████████████████████████████████████████████████▍                                                                                                                 | 6218/15000 [4:24:50<5:44:35,  2.35s/it] 41%|████████████████████████████████████████████████████████████████████████████████▍                                                                                                                 | 6219/15000 [4:24:52<5:44:23,  2.35s/it] 41%|████████████████████████████████████████████████████████████████████████████████▍                                                                                                                 | 6220/15000 [4:24:55<5:44:08,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.7814, 'grad_norm': 1.7578125, 'learning_rate': 4.8279611519969235e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3492.44, 'total_tokens': 50818158, 'epoch': 0.41}
+ 41%|████████████████████████████████████████████████████████████████████████████████▍                                                                                                                 | 6220/15000 [4:24:55<5:44:08,  2.35s/it] 41%|████████████████████████████████████████████████████████████████████████████████▍                                                                                                                 | 6221/15000 [4:24:57<5:44:21,  2.35s/it] 41%|████████████████████████████████████████████████████████████████████████████████▍                                                                                                                 | 6222/15000 [4:25:00<5:44:33,  2.36s/it] 41%|████████████████████████████████████████████████████████████████████████████████▍                                                                                                                 | 6223/15000 [4:25:02<5:44:38,  2.36s/it] 41%|████████████████████████████████████████████████████████████████████████████████▍                                                                                                                 | 6224/15000 [4:25:04<5:44:16,  2.35s/it] 42%|████████████████████████████████████████████████████████████████████████████████▌                                                                                                                 | 6225/15000 [4:25:07<5:44:23,  2.35s/it] 42%|████████████████████████████████████████████████████████████████████████████████▌                                                                                                                 | 6226/15000 [4:25:09<5:44:06,  2.35s/it] 42%|████████████████████████████████████████████████████████████████████████████████▌                                                                                                                 | 6227/15000 [4:25:11<5:43:43,  2.35s/it] 42%|████████████████████████████████████████████████████████████████████████████████▌                                                                                                                 | 6228/15000 [4:25:14<5:43:52,  2.35s/it] 42%|████████████████████████████████████████████████████████████████████████████████▌                                                                                                                 | 6229/15000 [4:25:16<5:43:53,  2.35s/it] 42%|██████████████████████████████████████████████████��█████████████████████████████▌                                                                                                                 | 6230/15000 [4:25:18<5:43:46,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.758, 'grad_norm': 1.78125, 'learning_rate': 4.82516224421532e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3486.69, 'total_tokens': 50899887, 'epoch': 0.42}
+ 42%|████████████████████████████████████████████████████████████████████████████████▌                                                                                                                 | 6230/15000 [4:25:18<5:43:46,  2.35s/it] 42%|████████████████████████████████████████████████████████████████████████████████▌                                                                                                                 | 6231/15000 [4:25:21<5:44:02,  2.35s/it] 42%|████████████████████████████████████████████████████████████████████████████████▌                                                                                                                 | 6232/15000 [4:25:23<5:43:57,  2.35s/it] 42%|████████████████████████████████████████████████████████████████████████████████▌                                                                                                                 | 6233/15000 [4:25:25<5:44:27,  2.36s/it] 42%|████████████████████████████████████████████████████████████████████████████████▋                                                                                                                 | 6234/15000 [4:25:28<5:44:32,  2.36s/it] 42%|████████████████████████████████████████████████████████████████████████████████▋                                                                                                                 | 6235/15000 [4:25:30<5:44:25,  2.36s/it] 42%|████████████████████████████████████████████████████████████████████████████████▋                                                                                                                 | 6236/15000 [4:25:33<5:44:08,  2.36s/it] 42%|████████████████████████████████████████████████████████████████████████████████▋                                                                                                                 | 6237/15000 [4:25:35<5:44:12,  2.36s/it] 42%|████████████████████████████████████████████████████████████████████████████████▋                                                                                                                 | 6238/15000 [4:25:37<5:44:03,  2.36s/it] 42%|████████████████████████████████████████████████████████████████████████████████▋                                                                                                                 | 6239/15000 [4:25:40<5:44:08,  2.36s/it] 42%|████████████████████████████████████████████████████████████████████████████████▋                                                                                                                 | 6240/15000 [4:25:42<5:43:58,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.8426, 'grad_norm': 1.875, 'learning_rate': 4.822341621720607e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3483.65, 'total_tokens': 50981643, 'epoch': 0.42}
+ 42%|████████████████████████████████████████████████████████████████████████████████▋                                                                                                                 | 6240/15000 [4:25:42<5:43:58,  2.36s/it] 42%|████████████████████████████████████████████████████████████████████████████████▋                                                                                                                 | 6241/15000 [4:25:44<5:44:12,  2.36s/it] 42%|████████████████████████████████████████████████████████████████████████████████▋                                                                                                                 | 6242/15000 [4:25:47<5:43:59,  2.36s/it] 42%|████████████████████████████████████████████████████████████████████████████████▋                                                                                                                 | 6243/15000 [4:25:49<5:43:47,  2.36s/it] 42%|████████████████████████████████████████████████████████████████████████████████▊                                                                                                                 | 6244/15000 [4:25:51<5:43:36,  2.35s/it] 42%|████████████████████████████████████████████████████████████████████████████████▊                                                                                                                 | 6245/15000 [4:25:54<5:43:35,  2.35s/it] 42%|████████████████████████████████████████████████████████████████████████████████▊                                                                                                                 | 6246/15000 [4:25:56<5:43:39,  2.36s/it] 42%|████████████████████████████████████████████████████████████████████████████████▊                                                                                                                 | 6247/15000 [4:25:58<5:43:53,  2.36s/it] 42%|████████████████████████████████████████████████████████████████████████████████▊                                                                                                                 | 6248/15000 [4:26:01<5:43:47,  2.36s/it] 42%|████████████████████████████████████████████████████████████████████████████████▊                                                                                                                 | 6249/15000 [4:26:03<5:43:36,  2.36s/it] 42%|████████████████████████████████████████████████████████████████████████████████▊                                                                                                                 | 6250/15000 [4:26:05<5:43:33,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.7453, 'grad_norm': 1.6875, 'learning_rate': 4.81949931235119e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3480.12, 'total_tokens': 51063373, 'epoch': 0.42}
+ 42%|████████████████████████████████████████████████████████████████████████████████▊                                                                                                                 | 6250/15000 [4:26:06<5:43:33,  2.36s/it] 42%|████████████████████████████████████████████████████████████████████████████████▊                                                                                                                 | 6251/15000 [4:26:08<5:43:38,  2.36s/it] 42%|████████████████████████████████████████████████████████████████████████████████▊                                                                                                                 | 6252/15000 [4:26:10<5:43:24,  2.36s/it] 42%|████████████████████████████████████████████████████████████████████████████████▊                                                                                                                 | 6253/15000 [4:26:13<5:43:32,  2.36s/it] 42%|████████████████████████████████████████████████████████████████████████████████▉                                                                                                                 | 6254/15000 [4:26:15<5:43:38,  2.36s/it] 42%|████████████████████████████████████████████████████████████████████████████████▉                                                                                                                 | 6255/15000 [4:26:17<5:43:27,  2.36s/it] 42%|████████████████████████████████████████████████████████████████████████████████▉                                                                                                                 | 6256/15000 [4:26:20<5:43:08,  2.35s/it] 42%|████████████████████████████████████████████████████████████████████████████████▉                                                                                                                 | 6257/15000 [4:26:22<5:42:44,  2.35s/it] 42%|████████████████████████████████████████████████████████████████████████████████▉                                                                                                                 | 6258/15000 [4:26:24<5:42:44,  2.35s/it] 42%|████████████████████████████████████████████████████████████████████████████████▉                                                                                                                 | 6259/15000 [4:26:27<5:42:32,  2.35s/it] 42%|████████████████████████████████████████████████████████████████████████████████▉                                                                                                                 | 6260/15000 [4:26:29<5:42:23,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.8221, 'grad_norm': 1.7265625, 'learning_rate': 4.816635344159516e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3489.2, 'total_tokens': 51145067, 'epoch': 0.42}
+ 42%|████████████████████████████████████████████████████████████████████████████████▉                                                                                                                 | 6260/15000 [4:26:29<5:42:23,  2.35s/it] 42%|████████████████████████████████████████████████████████████████████████████████▉                                                                                                                 | 6261/15000 [4:26:31<5:42:27,  2.35s/it] 42%|████████████████████████████████████████████████████████████████████████████████▉                                                                                                                 | 6262/15000 [4:26:34<5:42:18,  2.35s/it] 42%|█████████████████████████████████████████████████████████████████████████████████                                                                                                                 | 6263/15000 [4:26:36<5:42:06,  2.35s/it] 42%|█████████████████████████████████████████████████████████████████████████████████                                                                                                                 | 6264/15000 [4:26:38<5:42:06,  2.35s/it] 42%|█████████████████████████████████████████████████████████████████████████████████                                                                                                                 | 6265/15000 [4:26:41<5:42:18,  2.35s/it] 42%|█████████████████████████████████████████████████████████████████████████████████                                                                                                                 | 6266/15000 [4:26:43<5:42:24,  2.35s/it] 42%|█████████████████████████████████████████████████████████████████████████████████                                                                                                                 | 6267/15000 [4:26:45<5:42:34,  2.35s/it] 42%|█████████████████████████████████████████████████████████████████████████████████                                                                                                                 | 6268/15000 [4:26:48<5:42:47,  2.36s/it] 42%|█████████████████████████████████████████████████████████████████████████████████                                                                                                                 | 6269/15000 [4:26:50<5:42:46,  2.36s/it] 42%|█████████████████████████████████████████████████████████████████████████████████                                                                                                                 | 6270/15000 [4:26:53<5:42:43,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.7641, 'grad_norm': 1.9921875, 'learning_rate': 4.8137497454117934e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3478.11, 'total_tokens': 51226737, 'epoch': 0.42}
+ 42%|█████████████████████████████████████████████████████████████████████████████████                                                                                                                 | 6270/15000 [4:26:53<5:42:43,  2.36s/it] 42%|█████████████████████████████████████████████████████████████████████████████████                                                                                                                 | 6271/15000 [4:26:55<5:42:43,  2.36s/it] 42%|█████████████████████████████████████████████████████████████████████████████████                                                                                                                 | 6272/15000 [4:26:57<5:42:31,  2.35s/it] 42%|█████████████████████████████████████████████████████████████████████████████████▏                                                                                                                | 6273/15000 [4:27:00<5:42:27,  2.35s/it] 42%|█████████████████████████████████████████████████████████████████████████████████▏                                                                                                                | 6274/15000 [4:27:02<5:42:09,  2.35s/it] 42%|█████████████████████████████████████████████████████████████████████████████████▏                                                                                                                | 6275/15000 [4:27:04<5:42:17,  2.35s/it] 42%|█████████████████████████████████████████████████████████████████████████████████▏                                                                                                                | 6276/15000 [4:27:07<5:42:20,  2.35s/it] 42%|█████████████████████████████████████████████████████████████████████████████████▏                                                                                                                | 6277/15000 [4:27:09<5:42:24,  2.36s/it] 42%|█████████████████████████████████████████████████████████████████████████████████▏                                                                                                                | 6278/15000 [4:27:11<5:42:19,  2.35s/it] 42%|█████████████████████████████████████████████████████████████████████████████████▏                                                                                                                | 6279/15000 [4:27:14<5:42:16,  2.35s/it] 42%|█████████████████████████████████████████████████████████████████████████████████▏                                                                                                                | 6280/15000 [4:27:16<5:42:28,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.7434, 'grad_norm': 2.078125, 'learning_rate': 4.810842544587718e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3469.01, 'total_tokens': 51308378, 'epoch': 0.42}
+ 42%|██████████████████████████████████���██████████████████████████████████████████████▏                                                                                                                | 6280/15000 [4:27:16<5:42:28,  2.36s/it] 42%|█████████████████████████████████████████████████████████████████████████████████▏                                                                                                                | 6281/15000 [4:27:18<5:42:26,  2.36s/it] 42%|█████████████████████████████████████████████████████████████████████████████████▏                                                                                                                | 6282/15000 [4:27:21<5:42:16,  2.36s/it] 42%|█████████████████████████████████████████████████████████████████████████████████▎                                                                                                                | 6283/15000 [4:27:23<5:42:13,  2.36s/it] 42%|█████████████████████████████████████████████████████████████████████████████████▎                                                                                                                | 6284/15000 [4:27:26<5:42:16,  2.36s/it] 42%|█████████████████████████████████████████████████████████████████████████████████▎                                                                                                                | 6285/15000 [4:27:28<5:42:07,  2.36s/it] 42%|█████████████████████████████████████████████████████████████████████████████████▎                                                                                                                | 6286/15000 [4:27:30<5:41:54,  2.35s/it] 42%|█████████████████████████████████████████████████████████████████████████████████▎                                                                                                                | 6287/15000 [4:27:33<5:42:00,  2.36s/it] 42%|█████████████████████████████████████████████████████████████████████████████████▎                                                                                                                | 6288/15000 [4:27:35<5:41:41,  2.35s/it] 42%|█████████████████████████████████████████████████████████████████████████████████▎                                                                                                                | 6289/15000 [4:27:37<5:41:26,  2.35s/it] 42%|█████████████████████████████████████████████████████████████████████████████████▎                                                                                                                | 6290/15000 [4:27:40<5:41:18,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.7086, 'grad_norm': 1.625, 'learning_rate': 4.807913770380188e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3485.91, 'total_tokens': 51390035, 'epoch': 0.42}
+ 42%|█████████████████████████████████████████████████████████████████████████████████▎                                                                                                                | 6290/15000 [4:27:40<5:41:18,  2.35s/it] 42%|█████████████████████████████████████████████████████████████████████████████████▎                                                                                                                | 6291/15000 [4:27:42<5:41:40,  2.35s/it] 42%|█████████████████████████████████████████████████████████████████████████████████▍                                                                                                                | 6292/15000 [4:27:44<5:41:32,  2.35s/it] 42%|█████████████████████████████████████████████████████████████████████████████████▍                                                                                                                | 6293/15000 [4:27:47<5:41:32,  2.35s/it] 42%|█████████████████████████████████████████████████████████████████████████████████▍                                                                                                                | 6294/15000 [4:27:49<5:41:39,  2.35s/it] 42%|█████████████████████████████████████████████████████████████████████████████████▍                                                                                                                | 6295/15000 [4:27:51<5:41:44,  2.36s/it] 42%|█████████████████████████████████████████████████████████████████████████████████▍                                                                                                                | 6296/15000 [4:27:54<5:41:49,  2.36s/it] 42%|█████████████████████████████████████████████████████████████████████████████████▍                                                                                                                | 6297/15000 [4:27:56<5:42:05,  2.36s/it] 42%|█████████████████████████████████████████████████████████████████████████████████▍                                                                                                                | 6298/15000 [4:27:58<5:41:46,  2.36s/it] 42%|█████████████████████████████████████████████████████████████████████████████████▍                                                                                                                | 6299/15000 [4:28:01<5:41:45,  2.36s/it] 42%|█████████████████████████████████████████████████████████████████████████████████▍                                                                                                                | 6300/15000 [4:28:03<5:41:30,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.7675, 'grad_norm': 1.71875, 'learning_rate': 4.804963451695022e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3482.69, 'total_tokens': 51471695, 'epoch': 0.42}
+ 42%|█████████████████████████████████████████████████████████████████████████████████▍                                                                                                                | 6300/15000 [4:28:03<5:41:30,  2.36s/it] 42%|██��██████████████████████████████████████████████████████████████████████████████▍                                                                                                                | 6301/15000 [4:28:06<5:41:46,  2.36s/it] 42%|█████████████████████████████████████████████████████████████████████████████████▌                                                                                                                | 6302/15000 [4:28:08<5:41:37,  2.36s/it] 42%|█████████████████████████████████████████████████████████████████████████████████▌                                                                                                                | 6303/15000 [4:28:10<5:41:23,  2.36s/it] 42%|█████████████████████████████████████████████████████████████████████████████████▌                                                                                                                | 6304/15000 [4:28:13<5:41:30,  2.36s/it] 42%|█████████████████████████████████████████████████████████████████████████████████▌                                                                                                                | 6305/15000 [4:28:15<5:41:27,  2.36s/it] 42%|█████████████████████████████████████████████████████████████████████████████████▌                                                                                                                | 6306/15000 [4:28:17<5:41:14,  2.36s/it] 42%|█████████████████████████████████████████████████████████████████████████████████▌                                                                                                                | 6307/15000 [4:28:20<5:41:03,  2.35s/it] 42%|█████████████████████████████████████████████████████████████████████████████████▌                                                                                                                | 6308/15000 [4:28:22<5:41:05,  2.35s/it] 42%|█████████████████████████████████████████████████████████████████████████████████▌                                                                                                                | 6309/15000 [4:28:24<5:40:59,  2.35s/it] 42%|█████████████████████████████████████████████████████████████████████████████████▌                                                                                                                | 6310/15000 [4:28:27<5:40:59,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.7317, 'grad_norm': 1.734375, 'learning_rate': 4.801991617650675e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3479.7, 'total_tokens': 51553402, 'epoch': 0.42}
+ 42%|█████████████████████████████████████████████████████████████████████████████████▌                                                                                                                | 6310/15000 [4:28:27<5:40:59,  2.35s/it] 42%|█████████████████████████████████████████████████████████████████████████████████▌                                                                                                                | 6311/15000 [4:28:29<5:41:21,  2.36s/it] 42%|█████████████████████████████████████████████████████████████████████████████████▋                                                                                                                | 6312/15000 [4:28:31<5:40:58,  2.35s/it] 42%|█████████████████████████████████████████████████████████████████████████████████▋                                                                                                                | 6313/15000 [4:28:34<5:40:40,  2.35s/it] 42%|█████████████████████████████████████████████████████████████████████████████████▋                                                                                                                | 6314/15000 [4:28:36<5:40:34,  2.35s/it] 42%|█████████████████████████████████████████████████████████████████████████████████▋                                                                                                                | 6315/15000 [4:28:39<5:40:57,  2.36s/it] 42%|█████████████████████████████████████████████████████████████████████████████████▋                                                                                                                | 6316/15000 [4:28:41<5:40:52,  2.36s/it] 42%|█████████████████████████████████████████████████████████████████████████████████▋                                                                                                                | 6317/15000 [4:28:43<5:40:50,  2.36s/it] 42%|█████████████████████████████████████████████████████████████████████████████████▋                                                                                                                | 6318/15000 [4:28:46<5:41:15,  2.36s/it] 42%|█████████████████████████████████████████████████████████████████████████████████▋                                                                                                                | 6319/15000 [4:28:48<5:40:56,  2.36s/it] 42%|█████████████████████████████████████████████████████████████████████████████████▋                                                                                                                | 6320/15000 [4:28:50<5:40:57,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.742, 'grad_norm': 1.875, 'learning_rate': 4.7989982975779486e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3474.05, 'total_tokens': 51635064, 'epoch': 0.42}
+ 42%|█████████████████████████████████████████████████████████████████████████████████▋                                                                                                                | 6320/15000 [4:28:50<5:40:57,  2.36s/it] 42%|█████████████████████████████████████████████████████████████████████████████████▊                                                                                                                | 6321/15000 [4:28:53<5:40:45,  2.36s/it] 42%|█████████████████████████████████████████████████████████████████████████████████▊                                                                                                                | 6322/15000 [4:28:55<5:40:45,  2.36s/it] 42%|█████████████████████████████████████████████████████████████████████████████████▊                                                                                                                | 6323/15000 [4:28:57<5:40:54,  2.36s/it] 42%|█████████████████████████████████████████████████████████████████████████████████▊                                                                                                                | 6324/15000 [4:29:00<5:41:10,  2.36s/it] 42%|█████████████████████████████████████████████████████████████████████████████████▊                                                                                                                | 6325/15000 [4:29:02<5:41:00,  2.36s/it] 42%|█████████████████████████████████████████████████████████████████████████████████▊                                                                                                                | 6326/15000 [4:29:04<5:40:42,  2.36s/it] 42%|█████████████████████████████████████████████████████████████████████████████████▊                                                                                                                | 6327/15000 [4:29:07<5:40:34,  2.36s/it] 42%|█████████████████████████████████████████████████████████████████████████████████▊                                                                                                                | 6328/15000 [4:29:09<5:40:12,  2.35s/it] 42%|█████████████████████████████████████████████████████████████████████████████████▊                                                                                                                | 6329/15000 [4:29:12<5:39:54,  2.35s/it] 42%|█████████████████████████████████████████████████████████████████████████████████▊                                                                                                                | 6330/15000 [4:29:14<5:39:55,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.8167, 'grad_norm': 1.6875, 'learning_rate': 4.795983521019704e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3481.08, 'total_tokens': 51716737, 'epoch': 0.42}
+ 42%|█████████████████████████████████████████████████████████████████████████████████▊                                                                                                                | 6330/15000 [4:29:14<5:39:55,  2.35s/it] 42%|█████████████████████████████████████████████████████████████████████████████████▉                                                                                                                | 6331/15000 [4:29:16<5:40:21,  2.36s/it] 42%|██████████████████████��██████████████████████████████████████████████████████████▉                                                                                                                | 6332/15000 [4:29:19<5:39:46,  2.35s/it] 42%|█████████████████████████████████████████████████████████████████████████████████▉                                                                                                                | 6333/15000 [4:29:21<5:40:01,  2.35s/it] 42%|█████████████████████████████████████████████████████████████████████████████████▉                                                                                                                | 6334/15000 [4:29:23<5:39:59,  2.35s/it] 42%|█████████████████████████████████████████████████████████████████████████████████▉                                                                                                                | 6335/15000 [4:29:26<5:39:54,  2.35s/it] 42%|█████████████████████████████████████████████████████████████████████████████████▉                                                                                                                | 6336/15000 [4:29:28<5:39:58,  2.35s/it] 42%|█████████████████████████████████████████████████████████████████████████████████▉                                                                                                                | 6337/15000 [4:29:30<5:39:38,  2.35s/it] 42%|█████████████████████████████████████████████████████████████████████████████████▉                                                                                                                | 6338/15000 [4:29:33<5:39:52,  2.35s/it] 42%|█████████████████████████████████████████████████████████████████████████████████▉                                                                                                                | 6339/15000 [4:29:35<5:39:37,  2.35s/it] 42%|█████████████████████████████████████████████████████████████████████████████████▉                                                                                                                | 6340/15000 [4:29:37<5:39:42,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.7439, 'grad_norm': 1.7421875, 'learning_rate': 4.7929473177305675e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3475.52, 'total_tokens': 51798374, 'epoch': 0.42}
+ 42%|█████████████████████████████████████████████████████████████████████████████████▉                                                                                                                | 6340/15000 [4:29:37<5:39:42,  2.35s/it] 42%|██████████████████████████████████████████████████████████████████████████████████                                                                                                                | 6341/15000 [4:29:40<5:39:51,  2.35s/it] 42%|██████████████████████████████████████████████████████████████████████████████████                                                                                                                | 6342/15000 [4:29:42<5:39:25,  2.35s/it] 42%|██████████████████████████████████████████████████████████████████████████████████                                                                                                                | 6343/15000 [4:29:44<5:39:11,  2.35s/it] 42%|██████████████████████████████████████████████████████████████████████████████████                                                                                                                | 6344/15000 [4:29:47<5:39:30,  2.35s/it] 42%|██████████████████████████████████████████████████████████████████████████████████                                                                                                                | 6345/15000 [4:29:49<5:39:25,  2.35s/it] 42%|██████████████████████████████████████████████████████████████████████████████████                                                                                                                | 6346/15000 [4:29:52<5:39:37,  2.35s/it] 42%|██████████████████████████████████████████████████████████████████████████████████                                                                                                                | 6347/15000 [4:29:54<5:39:25,  2.35s/it] 42%|██████████████████████████████████████████████████████████████████████████████████                                                                                                                | 6348/15000 [4:29:56<5:39:23,  2.35s/it] 42%|██████████████████████████████████████████████████████████████████████████████████                                                                                                                | 6349/15000 [4:29:59<5:39:10,  2.35s/it] 42%|██████████████████████████████████████████████████████████████████████████████████▏                                                                                                               | 6350/15000 [4:30:01<5:39:30,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.7573, 'grad_norm': 1.796875, 'learning_rate': 4.789889717676641e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3469.35, 'total_tokens': 51880036, 'epoch': 0.42}
+ 42%|██████████████████████████████████████████████████████████████████████████████████▏                                                                                                               | 6350/15000 [4:30:01<5:39:30,  2.35s/it] 42%|██████████████████████████████████████████████████████████████████████████████████▏                                                                                                               | 6351/15000 [4:30:03<5:39:39,  2.36s/it] 42%|██████████████████████████████████████████████████████████████████████████████████▏                                                                                                               | 6352/15000 [4:30:06<5:39:06,  2.35s/it] 42%|██████████████████████████████████████████████████████████████████████████████████▏                                                                                                               | 6353/15000 [4:30:08<5:39:23,  2.36s/it] 42%|██████████████████████████████████████████████████████████████████████████████████▏                                                                                                               | 6354/15000 [4:30:10<5:39:05,  2.35s/it] 42%|██████████████████████████████████████████████████████████████████████████████████▏                                                                                                               | 6355/15000 [4:30:13<5:39:05,  2.35s/it] 42%|██████████████████████████████████████████████████████████████████████████████████▏                                                                                                               | 6356/15000 [4:30:15<5:39:31,  2.36s/it] 42%|██████████████████████████████████████████████████████████████████████████████████▏                                                                                                               | 6357/15000 [4:30:17<5:39:03,  2.35s/it] 42%|██████████████████████████████████████████████████████████████████████████████████▏                                                                                                               | 6358/15000 [4:30:20<5:39:20,  2.36s/it] 42%|██████████████████████████████████████████████████████████████████████████████████▏                                                                                                               | 6359/15000 [4:30:22<5:39:15,  2.36s/it] 42%|██████████████████████████████████████████████████████████████████████████████████▎                                                                                                               | 6360/15000 [4:30:24<5:38:45,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.7264, 'grad_norm': 1.7578125, 'learning_rate': 4.786810751035203e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3491.51, 'total_tokens': 51961659, 'epoch': 0.42}
+ 42%|██████████████████████████████████████████████████████████████████████████████████▎                                                                                                               | 6360/15000 [4:30:24<5:38:45,  2.35s/it] 42%|██████████████████████████████████████████████████████████████████████████████████▎                                                                                                               | 6361/15000 [4:30:27<5:38:51,  2.35s/it] 42%|██████████████████████████████████████████████████████████████████████████████████▎                                                                                                               | 6362/15000 [4:30:29<5:38:54,  2.35s/it] 42%|█████████████████████████████��████████████████████████████████████████████████████▎                                                                                                               | 6363/15000 [4:30:32<5:38:45,  2.35s/it] 42%|██████████████████████████████████████████████████████████████████████████████████▎                                                                                                               | 6364/15000 [4:30:34<5:38:29,  2.35s/it] 42%|██████████████████████████████████████████████████████████████████████████████████▎                                                                                                               | 6365/15000 [4:30:36<5:38:26,  2.35s/it] 42%|██████████████████████████████████████████████████████████████████████████████████▎                                                                                                               | 6366/15000 [4:30:39<5:38:41,  2.35s/it] 42%|██████████████████████████████████████████████████████████████████████████████████▎                                                                                                               | 6367/15000 [4:30:41<5:38:27,  2.35s/it] 42%|██████████████████████████████████████████████████████████████████████████████████▎                                                                                                               | 6368/15000 [4:30:43<5:38:24,  2.35s/it] 42%|██████████████████████████████████████████████████████████████████████████████████▎                                                                                                               | 6369/15000 [4:30:46<5:38:10,  2.35s/it] 42%|██████████████████████████████████████████████████████████████████████████████████▍                                                                                                               | 6370/15000 [4:30:48<5:38:30,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.7952, 'grad_norm': 1.796875, 'learning_rate': 4.783710448194411e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3460.58, 'total_tokens': 52043063, 'epoch': 0.42}
+ 42%|██████████████████████████████████████████████████████████████████████████████████▍                                                                                                               | 6370/15000 [4:30:48<5:38:30,  2.35s/it] 42%|██████████████████████████████████████████████████████████████████████████████████▍                                                                                                               | 6371/15000 [4:30:50<5:38:15,  2.35s/it] 42%|██████████████████████████████████████████████████████████████████████████████████▍                                                                                                               | 6372/15000 [4:30:53<5:38:26,  2.35s/it] 42%|█████████████████████████████████████████████████████████████████████████���████████▍                                                                                                               | 6373/15000 [4:30:55<5:38:32,  2.35s/it] 42%|██████████████████████████████████████████████████████████████████████████████████▍                                                                                                               | 6374/15000 [4:30:57<5:38:26,  2.35s/it] 42%|██████████████████████████████████████████████████████████████████████████████████▍                                                                                                               | 6375/15000 [4:31:00<5:38:35,  2.36s/it] 43%|██████████████████████████████████████████████████████████████████████████████████▍                                                                                                               | 6376/15000 [4:31:02<5:38:13,  2.35s/it] 43%|██████████████████████████████████████████████████████████████████████████████████▍                                                                                                               | 6377/15000 [4:31:04<5:38:09,  2.35s/it] 43%|██████████████████████████████████████████████████████████████████████████████████▍                                                                                                               | 6378/15000 [4:31:07<5:37:57,  2.35s/it] 43%|██████████████████████████████████████████████████████████████████████████████████▌                                                                                                               | 6379/15000 [4:31:09<5:38:04,  2.35s/it] 43%|██████████████████████████████████████████████████████████████████████████████████▌                                                                                                               | 6380/15000 [4:31:12<5:37:42,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.7388, 'grad_norm': 1.96875, 'learning_rate': 4.7805888397530014e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3484.88, 'total_tokens': 52124564, 'epoch': 0.43}
+ 43%|██████████████████████████████████████████████████████████████████████████████████▌                                                                                                               | 6380/15000 [4:31:12<5:37:42,  2.35s/it] 43%|██████████████████████████████████████████████████████████████████████████████████▌                                                                                                               | 6381/15000 [4:31:14<5:37:36,  2.35s/it] 43%|██████████████████████████████████████████████████████████████████████████████████▌                                                                                                               | 6382/15000 [4:31:16<5:38:01,  2.35s/it] 43%|██████████████████████████████████████████████████████████████████████████████████▌                                                                                                               | 6383/15000 [4:31:19<5:37:50,  2.35s/it][2025-11-17 02:14:13,185] [INFO] [axolotl.utils.data.wrappers.get_dataset_wrapper:87] [PID:8163] Loading dataset: Goader/kobza-2m-jsonl with base_type: pretrain and prompt_style: None
+
+Tokenizing Prompts (num_proc=64):   0%|                                                                                                                                                                        | 0/10000 [00:00<?, ? examples/s][A
+Tokenizing Prompts (num_proc=64):   2%|██▍                                                                                                                                                           | 157/10000 [00:06<06:33, 25.03 examples/s][A
+Tokenizing Prompts (num_proc=64):   3%|████▉                                                                                                                                                         | 314/10000 [00:06<02:48, 57.56 examples/s][A
+Tokenizing Prompts (num_proc=64):   5%|███████▍                                                                                                                                                      | 471/10000 [00:07<01:48, 87.80 examples/s][A
+Tokenizing Prompts (num_proc=64):   6%|█████████▊                                                                                                                                                   | 628/10000 [00:08<01:22, 113.90 examples/s][A
+Tokenizing Prompts (num_proc=64):   8%|████████████▎                                                                                                                                                | 785/10000 [00:08<01:04, 143.76 examples/s][A
+Tokenizing Prompts (num_proc=64):   9%|██████████████▊                                                                                                                                              | 942/10000 [00:09<00:55, 162.47 examples/s][A
+Tokenizing Prompts (num_proc=64):  11%|█████████████████▏                                                                                                                                          | 1099/10000 [00:09<00:48, 182.23 examples/s][A
+Tokenizing Prompts (num_proc=64):  13%|███████████████████▌                                                                                                                                        | 1256/10000 [00:10<00:44, 198.18 examples/s][A
+Tokenizing Prompts (num_proc=64):  14%|██████████████████████                                                                                                                                      | 1413/10000 [00:11<00:48, 175.51 examples/s][A
+Tokenizing Prompts (num_proc=64):  16%|████████████████████████▍                                                                                                                                   | 1570/10000 [00:12<00:44, 188.79 examples/s][A
+Tokenizing Prompts (num_proc=64):  17%|██████████████████████████▉                                                                                                                                 | 1727/10000 [00:12<00:34, 237.60 examples/s][A
+Tokenizing Prompts (num_proc=64):  19%|█████████████████████████████▍                                                                                                                              | 1884/10000 [00:13<00:33, 241.56 examples/s][A
+Tokenizing Prompts (num_proc=64):  20%|███████████████████████████████▊                                                                                                                            | 2041/10000 [00:14<00:35, 221.43 examples/s][A
+Tokenizing Prompts (num_proc=64):  22%|██████████████████████████████████▎                                                                                                                         | 2198/10000 [00:14<00:32, 240.18 examples/s][A
+Tokenizing Prompts (num_proc=64):  24%|████████████████████████████████████▋                                                                                                                       | 2355/10000 [00:15<00:31, 239.83 examples/s][A
+Tokenizing Prompts (num_proc=64):  25%|███████████████████████████████████████▏                                                                                                                    | 2512/10000 [00:16<00:32, 229.40 examples/s][A
+Tokenizing Prompts (num_proc=64):  27%|█████████████████████████████████████████▌                                                                                                                  | 2668/10000 [00:16<00:30, 238.11 examples/s][A
+Tokenizing Prompts (num_proc=64):  28%|████████████████████████████████████████████                                                                                                                | 2824/10000 [00:17<00:30, 238.45 examples/s][A
+Tokenizing Prompts (num_proc=64):  30%|██████████████████████████████████████████████▍                                                                                                             | 2980/10000 [00:17<00:30, 231.02 examples/s][A
+Tokenizing Prompts (num_proc=64):  31%|████████████████████████████████████████████████▉                                                                                                           | 3136/10000 [00:18<00:29, 229.14 examples/s][A
+Tokenizing Prompts (num_proc=64):  33%|███████████████████████████████████████████████████▎                                                                                                        | 3292/10000 [00:19<00:30, 219.64 examples/s][A
+Tokenizing Prompts (num_proc=64):  34%|█████████████████████████████████████████████████████▊                                                                                                      | 3448/10000 [00:20<00:29, 225.66 examples/s][A
+Tokenizing Prompts (num_proc=64):  36%|████████████████████████████████████████████████████████▏                                                                                                   | 3604/10000 [00:20<00:28, 227.04 examples/s][A
+Tokenizing Prompts (num_proc=64):  38%|██████████████████████████████████████████████████████████▋                                                                                                 | 3760/10000 [00:21<00:28, 222.37 examples/s][A
+Tokenizing Prompts (num_proc=64):  39%|█████████████████████████████████████████████████████████████                                                                                               | 3916/10000 [00:22<00:27, 220.26 examples/s][A
+Tokenizing Prompts (num_proc=64):  41%|███████████████████████████████████████████████████████████████▌                                                                                            | 4072/10000 [00:22<00:26, 223.42 examples/s][A
+Tokenizing Prompts (num_proc=64):  42%|█████████████████████████████████████████████████████████████████▉                                                                                          | 4228/10000 [00:23<00:25, 227.56 examples/s][A
+Tokenizing Prompts (num_proc=64):  44%|████████████████████████████████████████████████████████████████████▍                                                                                       | 4384/10000 [00:24<00:26, 213.14 examples/s][A
+Tokenizing Prompts (num_proc=64):  45%|██████████████████████████████████████████████████████████████████████▊                                                                                     | 4540/10000 [00:25<00:25, 218.03 examples/s][A
+Tokenizing Prompts (num_proc=64):  47%|█████████████████████████████████████████████████████████████████████████▎                                                                                  | 4696/10000 [00:25<00:23, 222.75 examples/s][A
+Tokenizing Prompts (num_proc=64):  49%|███████████████████████████████████████████████████████████████████████████▋                                                                                | 4852/10000 [00:26<00:23, 222.28 examples/s][A
+Tokenizing Prompts (num_proc=64):  50%|██████████████████████████████████████████████████████████████████████████████                                                                              | 5008/10000 [00:27<00:23, 211.37 examples/s][A
+Tokenizing Prompts (num_proc=64):  52%|████████████████████████████████████████████████████████████████████████████████▌                                                                           | 5164/10000 [00:27<00:21, 223.53 examples/s][A
+Tokenizing Prompts (num_proc=64):  53%|██████████████████████████████████████████████████████████████████████████████████▉                                                                         | 5320/10000 [00:29<00:25, 184.12 examples/s][A
+Tokenizing Prompts (num_proc=64):  55%|█████████████████████████████████████████████████████████████████████████████████████▍                                                                      | 5476/10000 [00:29<00:19, 234.61 examples/s][A
+Tokenizing Prompts (num_proc=64):  56%|███████████████████████████████████████████████████████████████████████████████████████▊                                                                    | 5632/10000 [00:30<00:18, 232.34 examples/s][A
+Tokenizing Prompts (num_proc=64):  58%|██████████████████████████████████████████████████████████████████████████████████████████▎                                                                 | 5788/10000 [00:30<00:18, 226.78 examples/s][A
+Tokenizing Prompts (num_proc=64):  59%|████████████████████████████████████████████████████████████████████████████████████████████▋                                                               | 5944/10000 [00:31<00:18, 214.75 examples/s][A
+Tokenizing Prompts (num_proc=64):  61%|███████████████████████████████████████████████████████████████████████████████████████████████▏                                                            | 6100/10000 [00:32<00:16, 231.01 examples/s][A
+Tokenizing Prompts (num_proc=64):  63%|█████████████████████████████████████████████████████████████████████████████████████████████████▌                                                          | 6256/10000 [00:32<00:16, 230.24 examples/s][A
+Tokenizing Prompts (num_proc=64):  64%|████████████████████████████████████████████████████████████████████████████████████████████████████                                                        | 6412/10000 [00:33<00:17, 208.96 examples/s][A
+Tokenizing Prompts (num_proc=64):  66%|██████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                     | 6568/10000 [00:34<00:14, 237.84 examples/s][A
+Tokenizing Prompts (num_proc=64):  67%|████████████████████���███████████████████████████████████████████████████████████████████████████████████▉                                                   | 6724/10000 [00:34<00:14, 232.95 examples/s][A
+Tokenizing Prompts (num_proc=64):  69%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                | 6880/10000 [00:35<00:13, 224.37 examples/s][A
+Tokenizing Prompts (num_proc=64):  70%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                              | 7036/10000 [00:36<00:12, 234.57 examples/s][A
+Tokenizing Prompts (num_proc=64):  72%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                           | 7192/10000 [00:36<00:11, 235.15 examples/s][A
+Tokenizing Prompts (num_proc=64):  73%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                         | 7348/10000 [00:38<00:12, 213.38 examples/s][A
+Tokenizing Prompts (num_proc=64):  75%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                       | 7504/10000 [00:38<00:10, 227.06 examples/s][A
+Tokenizing Prompts (num_proc=64):  77%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                    | 7660/10000 [00:39<00:12, 181.75 examples/s][A
+Tokenizing Prompts (num_proc=64):  78%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                  | 7816/10000 [00:40<00:12, 181.59 examples/s][A
+Tokenizing Prompts (num_proc=64):  81%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                             | 8128/10000 [00:41<00:07, 243.70 examples/s][A
+Tokenizing Prompts (num_proc=64):  83%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                          | 8284/10000 [00:41<00:06, 245.42 examples/s][A
+Tokenizing Prompts (num_proc=64):  84%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                        | 8440/10000 [00:42<00:06, 235.04 examples/s][A
+Tokenizing Prompts (num_proc=64):  86%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                      | 8596/10000 [00:43<00:07, 191.59 examples/s][A
+Tokenizing Prompts (num_proc=64):  88%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                   | 8752/10000 [00:44<00:05, 243.39 examples/s][A
+Tokenizing Prompts (num_proc=64):  89%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                 | 8908/10000 [00:44<00:04, 239.56 examples/s][A
+Tokenizing Prompts (num_proc=64):  91%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍              | 9064/10000 [00:45<00:04, 229.37 examples/s][A
+Tokenizing Prompts (num_proc=64):  92%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊            | 9220/10000 [00:46<00:03, 231.72 examples/s][A
+Tokenizing Prompts (num_proc=64):  94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎         | 9376/10000 [00:46<00:02, 218.01 examples/s][A
+Tokenizing Prompts (num_proc=64):  95%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋       | 9532/10000 [00:48<00:02, 187.38 examples/s][A
+Tokenizing Prompts (num_proc=64):  97%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏    | 9688/10000 [00:48<00:01, 228.33 examples/s][A
+Tokenizing Prompts (num_proc=64):  98%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌  | 9844/10000 [00:49<00:00, 208.24 examples/s][A
+Tokenizing Prompts (num_proc=64): 100%|██████████████████████████████████████████████████████████████���████████████████████████████████████████████████████████████████████████████████████████████| 10000/10000 [00:49<00:00, 244.66 examples/s][ATokenizing Prompts (num_proc=64): 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10000/10000 [00:51<00:00, 194.06 examples/s]
+
+Dropping Long Sequences:   0%|                                                                                                                                                                                 | 0/10002 [00:00<?, ? examples/s][A
+Dropping Long Sequences:  10%|████████████████▍                                                                                                                                                    | 1000/10002 [00:01<00:14, 624.64 examples/s][A
+Dropping Long Sequences:  20%|████████████████████████████████▊                                                                                                                                   | 2000/10002 [00:01<00:06, 1208.68 examples/s][A
+Dropping Long Sequences:  30%|█████████████████████████████████████████████████▏                                                                                                                  | 3000/10002 [00:02<00:03, 1753.99 examples/s][A
+Dropping Long Sequences:  40%|█████████████████████████████████████████████████████████████████▌                                                                                                  | 4000/10002 [00:02<00:02, 2254.42 examples/s][A
+Dropping Long Sequences:  50%|█████████████████████████████████████████████████████████████████████████████████▉                                                                                  | 5000/10002 [00:02<00:01, 2634.50 examples/s][A
+Dropping Long Sequences:  60%|██████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                 | 6000/10002 [00:02<00:01, 2872.27 examples/s][A
+Dropping Long Sequences:  70%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                 | 7000/10002 [00:03<00:00, 3099.83 examples/s][A
+Dropping Long Sequences:  80%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                | 8000/10002 [00:03<00:00, 3293.92 examples/s][A
+Dropping Long Sequences:  90%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                | 9000/10002 [00:03<00:00, 3449.98 examples/s][A
+Dropping Long Sequences: 100%|███████████████████████████████████████████████████████████████████████████████████████��██████████████████████████████████████████████████████████████████████████▉| 10000/10002 [00:04<00:00, 3409.29 examples/s][ADropping Long Sequences: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10002/10002 [00:04<00:00, 2427.12 examples/s]
+
+Add position_id column (Pretraining Sample Packing):   0%|                                                                                                                                                      | 0/8737 [00:00<?, ? examples/s][A
+Add position_id column (Pretraining Sample Packing):  11%|███████████████▊                                                                                                                          | 1000/8737 [00:01<00:10, 750.87 examples/s][A
+Add position_id column (Pretraining Sample Packing):  23%|███████████████████████████████▎                                                                                                         | 2000/8737 [00:01<00:04, 1565.53 examples/s][A
+Add position_id column (Pretraining Sample Packing):  34%|███████████████████████████████████████████████                                                                                          | 3000/8737 [00:01<00:02, 2406.09 examples/s][A
+Add position_id column (Pretraining Sample Packing):  46%|██████████████████████████████████████████████████████████████▋                                                                          | 4000/8737 [00:01<00:01, 3160.31 examples/s][A
+Add position_id column (Pretraining Sample Packing):  57%|██████████████████████████████████████████████████████████████████████████████▍                                                          | 5000/8737 [00:01<00:00, 3888.19 examples/s][A
+Add position_id column (Pretraining Sample Packing):  69%|██████████████████████████████████████████████████████████████████████████████████████████████                                           | 6000/8737 [00:02<00:00, 4459.42 examples/s][A
+Add position_id column (Pretraining Sample Packing):  80%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                           | 7000/8737 [00:02<00:00, 4992.23 examples/s][A
+Add position_id column (Pretraining Sample Packing):  92%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍           | 8000/8737 [00:02<00:00, 5262.26 examples/s][A
+Add position_id column (Pretraining Sample Packing): 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 8737/8737 [00:02<00:00, 5653.58 examples/s][AAdd position_id column (Pretraining Sample Packing): 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 8737/8737 [00:02<00:00, 3374.14 examples/s]
+[2025-11-17 02:15:13,149] [DEBUG] [axolotl.utils.samplers.multipack.pack_parallel:177] [PID:8163] Using single process for pack_parallel, running sequentially.
+ 43%|██████████████████████████████████████████████████████████████████████████████████▏                                                                                                              | 6384/15000 [4:32:27<53:24:31, 22.32s/it] 43%|██████████████████████████████████████████████████████████████████████████████████▏                                                                                                              | 6385/15000 [4:32:30<39:04:10, 16.33s/it] 43%|██████████████████████████████████████████████████████████████████████████████████▏                                                                                                              | 6386/15000 [4:32:32<29:01:47, 12.13s/it] 43%|██████████████████████████████████████████████████████████████████████████████████▏                                                                                                              | 6387/15000 [4:32:35<22:00:31,  9.20s/it] 43%|██████████████████████████████████████████████████████████████████████████████████▏                                                                                                              | 6388/15000 [4:32:37<17:05:47,  7.15s/it] 43%|██████████████████████████████████████████████████████████████████████████████████▏                                                                                                              | 6389/15000 [4:32:39<13:39:11,  5.71s/it] 43%|██████████████████████████████████████████████████████████████████████████████████▏                                                                                                              | 6390/15000 [4:32:42<11:15:10,  4.71s/it]                                                                                                                                                                                                                                                {'loss': 2.7316, 'grad_norm': 1.7109375, 'learning_rate': 4.7774459565199894e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3389.99, 'total_tokens': 52204492, 'epoch': 0.43}
+ 43%|██████████████████████████████████████████████████████████████████████████████████▏                                                                                                              | 6390/15000 [4:32:42<11:15:10,  4.71s/it] 43%|██████████████████████████████████████████████████████████████████████████████████▋                                                                                                               | 6391/15000 [4:32:44<9:33:41,  4.00s/it] 43%|██████████████████████████████████████████████████████████████████████████████████▋                                                                                                               | 6392/15000 [4:32:46<8:22:46,  3.50s/it] 43%|██████████████████████████████████████████████████████████████████████████████████▋                                                                                                               | 6393/15000 [4:32:49<7:32:51,  3.16s/it] 43%|██████████████████████████████████████████████████████████████████████████████████▋                                                                                                               | 6394/15000 [4:32:51<6:57:58,  2.91s/it] 43%|██████████████████████████████████████████████████████████████████████████████████▋                                                                                                               | 6395/15000 [4:32:53<6:33:50,  2.75s/it] 43%|██████████████████████████████████████████████████████████████████████████████████▋                                                                                                               | 6396/15000 [4:32:56<6:16:58,  2.63s/it] 43%|██████████████████████████████████████████████████████████████████████████████████▋                                                                                                               | 6397/15000 [4:32:58<6:05:00,  2.55s/it] 43%|██████████████████████████████████████████████████████████████████████████████████▋                                                                                                               | 6398/15000 [4:33:01<6:17:28,  2.63s/it] 43%|██████████████████████████████████████████████████████████████████████████████████▊                                                                                                               | 6399/15000 [4:33:03<6:05:08,  2.55s/it] 43%|██████████████████████████████████████████████████████████████████████████████████▊                                                                                                               | 6400/15000 [4:33:06<5:57:08,  2.49s/it]                                                                                                                                                                                                                                                {'loss': 2.7731, 'grad_norm': 1.640625, 'learning_rate': 4.7742818295143645e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3475.86, 'total_tokens': 52286353, 'epoch': 0.43}
+ 43%|██████████████████████████████████████████████████████████████████████████████████▊                                                                                                               | 6400/15000 [4:33:06<5:57:08,  2.49s/it] 43%|██████████████████████████████████████████████████████████████████████████████████▊                                                                                                               | 6401/15000 [4:33:08<5:50:48,  2.45s/it] 43%|██████████████████████████████████████████████████████████████████████████████████▊                                                                                                               | 6402/15000 [4:33:10<5:46:37,  2.42s/it] 43%|██████████████████████████████████████████████████████████████████████████████████▊                                                                                                               | 6403/15000 [4:33:13<5:43:45,  2.40s/it] 43%|██████████████████████████████████████████████████████████████████████████████████▊                                                                                                               | 6404/15000 [4:33:15<5:41:34,  2.38s/it] 43%|██████████████████████████████████████████████████████████████████████████████████▊                                                                                                               | 6405/15000 [4:33:17<5:40:27,  2.38s/it] 43%|██████████████████████████████████████████████████████████████████████████████████▊                                                                                                               | 6406/15000 [4:33:20<5:39:42,  2.37s/it] 43%|██████████████████████████████████████████████████████████████████████████████████▊                                                                                                               | 6407/15000 [4:33:22<5:38:47,  2.37s/it] 43%|██████████████████████████████████████████████████████████████████████████████████▉                                                                                                               | 6408/15000 [4:33:24<5:38:05,  2.36s/it] 43%|██████████████████████████████████████████████████████████████████████████████████▉                                                                                                               | 6409/15000 [4:33:27<5:38:05,  2.36s/it] 43%|██████████████████████████████████████████████████████████████████████████████████▉                                                                                                               | 6410/15000 [4:33:29<5:38:14,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.7838, 'grad_norm': 1.8046875, 'learning_rate': 4.771096489964783e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3469.92, 'total_tokens': 52368198, 'epoch': 0.43}
+ 43%|██████████████████████████████████████████████████████████████████████████████████▉                                                                                                               | 6410/15000 [4:33:29<5:38:14,  2.36s/it] 43%|██████████████████████████████████████████████████████████████████████████████████▉                                                                                                               | 6411/15000 [4:33:32<5:37:57,  2.36s/it] 43%|██████████████████████████████████████████████████████████████████████████████████▉                                                                                                               | 6412/15000 [4:33:34<5:37:58,  2.36s/it] 43%|██████████████████████████████████████████████████████████████████████████████████▉                                                                                                               | 6413/15000 [4:33:36<5:37:43,  2.36s/it] 43%|█████████████████████████████████████���████████████████████████████████████████████▉                                                                                                               | 6414/15000 [4:33:39<5:37:26,  2.36s/it] 43%|██████████████████████████████████████████████████████████████████████████████████▉                                                                                                               | 6415/15000 [4:33:41<5:37:24,  2.36s/it] 43%|██████████████████████████████████████████████████████████████████████████████████▉                                                                                                               | 6416/15000 [4:33:43<5:37:14,  2.36s/it] 43%|██████████████████████████████████████████████████████████████████████████████████▉                                                                                                               | 6417/15000 [4:33:46<5:36:57,  2.36s/it] 43%|███████████████████████████████████████████████████████████████████████████████████                                                                                                               | 6418/15000 [4:33:48<5:36:52,  2.36s/it] 43%|███████████████████████████████████████████████████████████████████████████████████                                                                                                               | 6419/15000 [4:33:50<5:36:39,  2.35s/it] 43%|███████████████████████████████████████████████████████████████████████████████████                                                                                                               | 6420/15000 [4:33:53<5:36:19,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.7822, 'grad_norm': 1.890625, 'learning_rate': 4.767889969309258e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3496.64, 'total_tokens': 52450022, 'epoch': 0.43}
+ 43%|███████████████████████████████████████████████████████████████████████████████████                                                                                                               | 6420/15000 [4:33:53<5:36:19,  2.35s/it] 43%|███████████████████████████████████████████████████████████████████████████████████                                                                                                               | 6421/15000 [4:33:55<5:36:34,  2.35s/it] 43%|███████████████████████████████████████████████████████████████████████████████████                                                                                                               | 6422/15000 [4:33:57<5:36:37,  2.35s/it] 43%|███████████████████████████████████████████████████████████████████████████████████                                                                                                               | 6423/15000 [4:34:00<5:36:41,  2.36s/it] 43%|███████████████████████████████████████████████████████████████████████████████████                                                                                                               | 6424/15000 [4:34:02<5:36:20,  2.35s/it] 43%|███████████████████████████████████████████████████████████████████████████████████                                                                                                               | 6425/15000 [4:34:04<5:36:18,  2.35s/it] 43%|███████████████████████████████████████████████████████████████████████████████████                                                                                                               | 6426/15000 [4:34:07<5:36:10,  2.35s/it] 43%|███████████████████████████████████████████████████████████████████████████████████                                                                                                               | 6427/15000 [4:34:09<5:36:23,  2.35s/it] 43%|███████████████████████████████████████████████████████████████████████████████████▏                                                                                                              | 6428/15000 [4:34:12<5:36:08,  2.35s/it] 43%|███████████████████████████████████████████████████████████████████████████████████▏                                                                                                              | 6429/15000 [4:34:14<5:36:20,  2.35s/it] 43%|███████████████████████████████████████████████████████████████████████████████████▏                                                                                                              | 6430/15000 [4:34:16<5:36:22,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.716, 'grad_norm': 1.7578125, 'learning_rate': 4.7646622991948574e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3483.7, 'total_tokens': 52531852, 'epoch': 0.43}
+ 43%|███████████████████████████████████████████████████████████████████████████████████▏                                                                                                              | 6430/15000 [4:34:16<5:36:22,  2.35s/it] 43%|███████████████████████████████████████████████████████████████████████████████████▏                                                                                                              | 6431/15000 [4:34:19<5:36:29,  2.36s/it] 43%|███████████████████████████████████████████████████████████████████████████████████▏                                                                                                              | 6432/15000 [4:34:21<5:36:14,  2.35s/it] 43%|███████████████████████████████████████████████████████████████████████████████████▏                                                                                                              | 6433/15000 [4:34:23<5:36:23,  2.36s/it] 43%|███████████████████████████████████████████████████████████████████████████████████▏                                                                                                              | 6434/15000 [4:34:26<5:36:04,  2.35s/it] 43%|███████████████████████████████████████████████████████████████████████████████████▏                                                                                                              | 6435/15000 [4:34:28<5:36:05,  2.35s/it] 43%|███████████████████████████████████████████████████████████████████████████████████▏                                                                                                              | 6436/15000 [4:34:30<5:35:53,  2.35s/it] 43%|███████████████████████████████████████████████████████████████████████████████████▎                                                                                                              | 6437/15000 [4:34:33<5:35:44,  2.35s/it] 43%|███████████████████████████████████████████████████████████████████████████████████▎                                                                                                              | 6438/15000 [4:34:35<5:35:28,  2.35s/it] 43%|███████████████████████████████████████████████████████████████████████████████████▎                                                                                                              | 6439/15000 [4:34:37<5:35:38,  2.35s/it] 43%|███████████████████████████████████████████████████████████████████████████████████▎                                                                                                              | 6440/15000 [4:34:40<5:35:40,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.744, 'grad_norm': 1.7421875, 'learning_rate': 4.7614135114773796e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3483.22, 'total_tokens': 52613609, 'epoch': 0.43}
+ 43%|███████████████████████████████████████████████████████████████████████████████████▎                                                                                                              | 6440/15000 [4:34:40<5:35:40,  2.35s/it] 43%|███████████████████████████████████████████████████████████████████████████████████▎                                                                                                              | 6441/15000 [4:34:42<5:36:01,  2.36s/it] 43%|███████████████████████████████████████████████████████████████████████████████████▎                                                                                                              | 6442/15000 [4:34:45<5:35:59,  2.36s/it] 43%|███████████████████████████████████████████████████████████████████████████████████▎                                                                                                              | 6443/15000 [4:34:47<5:36:01,  2.36s/it] 43%|███████████████████████████████████████████████████████████████████████████████████▎                                                                                                              | 6444/15000 [4:34:49<5:35:56,  2.36s/it] 43%|███████████████████��███████████████████████████████████████████████████████████████▎                                                                                                              | 6445/15000 [4:34:52<5:35:58,  2.36s/it] 43%|███████████████████████████████████████████████████████████████████████████████████▎                                                                                                              | 6446/15000 [4:34:54<5:35:54,  2.36s/it] 43%|███████████████████████████████████████████████████████████████████████████████████▍                                                                                                              | 6447/15000 [4:34:56<5:35:53,  2.36s/it] 43%|███████████████████████████████████████████████████████████████████████████████████▍                                                                                                              | 6448/15000 [4:34:59<5:35:43,  2.36s/it] 43%|███████████████████████████████████████████████████████████████████████████████████▍                                                                                                              | 6449/15000 [4:35:01<5:35:28,  2.35s/it] 43%|███████████████████████████████████████████████████████████████████████████████████▍                                                                                                              | 6450/15000 [4:35:03<5:35:25,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.7512, 'grad_norm': 1.7890625, 'learning_rate': 4.758143638221049e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3487.11, 'total_tokens': 52695427, 'epoch': 0.43}
+ 43%|███████████████████████████████████████████████████████████████████████████████████▍                                                                                                              | 6450/15000 [4:35:03<5:35:25,  2.35s/it] 43%|███████████████████████████████████████████████████████████████████████████████████▍                                                                                                              | 6451/15000 [4:35:06<5:35:16,  2.35s/it] 43%|███████████████████████████████████████████████████████████████████████████████████▍                                                                                                              | 6452/15000 [4:35:08<5:35:02,  2.35s/it] 43%|███████████████████████████████████████████████████████████████████████████████████▍                                                                                                              | 6453/15000 [4:35:10<5:35:05,  2.35s/it] 43%|███████████████████████████████████████████████████████████████████████████████████▍                                                                                                              | 6454/15000 [4:35:13<5:35:04,  2.35s/it] 43%|███████████████████████████████████████████████████████��███████████████████████████▍                                                                                                              | 6455/15000 [4:35:15<5:34:59,  2.35s/it] 43%|███████████████████████████████████████████████████████████████████████████████████▍                                                                                                              | 6456/15000 [4:35:17<5:35:14,  2.35s/it] 43%|███████████████████████████████████████████████████████████████████████████████████▌                                                                                                              | 6457/15000 [4:35:20<5:35:26,  2.36s/it] 43%|███████████████████████████████████████████████████████████████████████████████████▌                                                                                                              | 6458/15000 [4:35:22<5:35:13,  2.35s/it] 43%|███████████████████████████████████████████████████████████████████████████████████▌                                                                                                              | 6459/15000 [4:35:25<5:35:08,  2.35s/it] 43%|███████████████████████████████████████████████████████████████████████████████████▌                                                                                                              | 6460/15000 [4:35:27<5:35:06,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.8401, 'grad_norm': 1.65625, 'learning_rate': 4.754852711698193e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3485.05, 'total_tokens': 52777238, 'epoch': 0.43}
+ 43%|███████████████████████████████████████████████████████████████████████████████████▌                                                                                                              | 6460/15000 [4:35:27<5:35:06,  2.35s/it] 43%|███████████████████████████████████████████████████████████████████████████████████▌                                                                                                              | 6461/15000 [4:35:29<5:34:55,  2.35s/it] 43%|███████████████████████████████████████████████████████████████████████████████████▌                                                                                                              | 6462/15000 [4:35:32<5:34:51,  2.35s/it] 43%|███████████████████████████████████████████████████████████████████████████████████▌                                                                                                              | 6463/15000 [4:35:34<5:34:40,  2.35s/it] 43%|███████████████████████████████████████████████████████████████████████████████████▌                                                                                                              | 6464/15000 [4:35:36<5:34:46,  2.35s/it] 43%|███████████████████████████████████████████████████████████████████████████████████▌                                                                                                              | 6465/15000 [4:35:39<5:34:35,  2.35s/it] 43%|███████████████████████████████████████████████████████████████████████████████████▋                                                                                                              | 6466/15000 [4:35:41<5:34:57,  2.35s/it] 43%|███████████████████████████████████████████████████████████████████████████████████▋                                                                                                              | 6467/15000 [4:35:43<5:34:57,  2.36s/it] 43%|███████████████████████████████████████████████████████████████████████████████████▋                                                                                                              | 6468/15000 [4:35:46<5:35:20,  2.36s/it] 43%|███████████████████████████████████████████████████████████████████████████████████▋                                                                                                              | 6469/15000 [4:35:48<5:35:07,  2.36s/it] 43%|███████████████████████████████████████████████████████████████████████████████████▋                                                                                                              | 6470/15000 [4:35:50<5:34:48,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.8407, 'grad_norm': 1.78125, 'learning_rate': 4.75154076438893e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3489.55, 'total_tokens': 52859013, 'epoch': 0.43}
+ 43%|███████████████████████████████████████████████████████████████████████████████████▋                                                                                                              | 6470/15000 [4:35:50<5:34:48,  2.35s/it] 43%|███████████████████████████████████████████████████████████████████████████████████▋                                                                                                              | 6471/15000 [4:35:53<5:34:43,  2.35s/it] 43%|███████████████████████████████████████████████████████████████████████████████████▋                                                                                                              | 6472/15000 [4:35:55<5:34:28,  2.35s/it] 43%|███████████████████████████████████████████████████████████████████████████████████▋                                                                                                              | 6473/15000 [4:35:57<5:34:32,  2.35s/it] 43%|███████████████████████████████████████████████████████████████████████████████████▋                                                                                                              | 6474/15000 [4:36:00<5:34:34,  2.35s/it] 43%|███████████████████████████████████████████████████████████████████████████████████▋                                                                                                              | 6475/15000 [4:36:02<5:34:24,  2.35s/it] 43%|███████████████████████████████████████████████████████████████████████████████████▊                                                                                                              | 6476/15000 [4:36:05<5:34:25,  2.35s/it] 43%|███████████████████████████████████████████████████████████████████████████████████▊                                                                                                              | 6477/15000 [4:36:07<5:34:29,  2.35s/it] 43%|███████████████████████████████████████████████████████████████████████████████████▊                                                                                                              | 6478/15000 [4:36:09<5:34:30,  2.36s/it] 43%|███████████████████████████████████████████████████████████████████████████████████▊                                                                                                              | 6479/15000 [4:36:12<5:34:32,  2.36s/it] 43%|███████████████████████████████████████████████████████████████████████████████████▊                                                                                                              | 6480/15000 [4:36:14<5:34:30,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.8244, 'grad_norm': 1.78125, 'learning_rate': 4.748207828980842e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3481.29, 'total_tokens': 52940793, 'epoch': 0.43}
+ 43%|███████████████████████████████████████████████████████████████████████████████████▊                                                                                                              | 6480/15000 [4:36:14<5:34:30,  2.36s/it] 43%|███████████████████████████████████████████████████████████████████████████████████▊                                                                                                              | 6481/15000 [4:36:16<5:34:39,  2.36s/it] 43%|███████████████████████████████████████████████████████████████████████████████████▊                                                                                                              | 6482/15000 [4:36:19<5:34:24,  2.36s/it] 43%|███████████████████████████████████████████████████████████████████████████████████▊                                                                                                              | 6483/15000 [4:36:21<5:34:13,  2.35s/it] 43%|███████████████████████████████████████████████████████████████████████████████████▊                                                                                                              | 6484/15000 [4:36:23<5:34:18,  2.36s/it] 43%|███████████████████████████████████████████████████████████████████████████████████▊                                                                                                              | 6485/15000 [4:36:26<5:34:03,  2.35s/it] 43%|█████████████████████████████��█████████████████████████████████████████████████████▉                                                                                                              | 6486/15000 [4:36:28<5:33:34,  2.35s/it] 43%|███████████████████████████████████████████████████████████████████████████████████▉                                                                                                              | 6487/15000 [4:36:30<5:33:42,  2.35s/it] 43%|███████████████████████████████████████████████████████████████████████████████████▉                                                                                                              | 6488/15000 [4:36:33<5:33:34,  2.35s/it] 43%|███████████████████████████████████████████████████████████████████████████████████▉                                                                                                              | 6489/15000 [4:36:35<5:33:32,  2.35s/it] 43%|███████████████████████████████████████████████████████████████████████████████████▉                                                                                                              | 6490/15000 [4:36:38<5:33:35,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.7382, 'grad_norm': 2.15625, 'learning_rate': 4.744853938368654e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3485.97, 'total_tokens': 53022575, 'epoch': 0.43}
+ 43%|███████████████████████████████████████████████████████████████████████████████████▉                                                                                                              | 6490/15000 [4:36:38<5:33:35,  2.35s/it] 43%|███████████████████████████████████████████████████████████████████████████████████▉                                                                                                              | 6491/15000 [4:36:40<5:33:30,  2.35s/it] 43%|███████████████████████████████████████████████████████████████████████████████████▉                                                                                                              | 6492/15000 [4:36:42<5:33:32,  2.35s/it] 43%|███████████████████████████████████████████████████████████████████████████████████▉                                                                                                              | 6493/15000 [4:36:45<5:33:24,  2.35s/it] 43%|███████████████████████████████████████████████████████████████████████████████████▉                                                                                                              | 6494/15000 [4:36:47<5:33:22,  2.35s/it] 43%|████████████████████████████████████████████████████████████████████████████████████                                                                                                              | 6495/15000 [4:36:49<5:33:43,  2.35s/it] 43%|██████████████████████████████████████████████████████████████████���█████████████████                                                                                                              | 6496/15000 [4:36:52<5:33:34,  2.35s/it] 43%|████████████████████████████████████████████████████████████████████████████████████                                                                                                              | 6497/15000 [4:36:54<5:33:34,  2.35s/it] 43%|████████████████████████████████████████████████████████████████████████████████████                                                                                                              | 6498/15000 [4:36:56<5:33:33,  2.35s/it] 43%|████████████████████████████████████████████████████████████████████████████████████                                                                                                              | 6499/15000 [4:36:59<5:33:34,  2.35s/it] 43%|████████████████████████████████████████████████████████████████████████████████████                                                                                                              | 6500/15000 [4:37:01<5:33:25,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.7566, 'grad_norm': 1.75, 'learning_rate': 4.741479125653916e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3487.89, 'total_tokens': 53104362, 'epoch': 0.43}
+ 43%|████████████████████████████████████████████████████████████████████████████████████                                                                                                              | 6500/15000 [4:37:01<5:33:25,  2.35s/it] 43%|████████████████████████████████████████████████████████████████████████████████████                                                                                                              | 6501/15000 [4:37:03<5:33:35,  2.36s/it] 43%|████████████████████████████████████████████████████████████████████████████████████                                                                                                              | 6502/15000 [4:37:06<5:33:18,  2.35s/it] 43%|████████████████████████████████████████████████████████████████████████████████████                                                                                                              | 6503/15000 [4:37:08<5:33:13,  2.35s/it] 43%|████████████████████████████████████████████████████████████████████████████████████                                                                                                              | 6504/15000 [4:37:10<5:33:22,  2.35s/it] 43%|████████████████████████████████████████████████████████████████████████████████████▏                                                                                                             | 6505/15000 [4:37:13<5:33:09,  2.35s/it] 43%|████████████████████████████████████████████████████████████████████████████████████▏                                                                                                             | 6506/15000 [4:37:15<5:33:07,  2.35s/it] 43%|████████████████████████████████████████████████████████████████████████████████████▏                                                                                                             | 6507/15000 [4:37:18<5:33:07,  2.35s/it] 43%|████████████████████████████████████████████████████████████████████████████████████▏                                                                                                             | 6508/15000 [4:37:20<5:32:59,  2.35s/it] 43%|████████████████████████████████████████████████████████████████████████████████████▏                                                                                                             | 6509/15000 [4:37:22<5:32:59,  2.35s/it] 43%|████████████████████████████████████████████████████████████████████████████████████▏                                                                                                             | 6510/15000 [4:37:25<5:32:53,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.8479, 'grad_norm': 1.796875, 'learning_rate': 4.738083424144664e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3489.24, 'total_tokens': 53186154, 'epoch': 0.43}
+ 43%|████████████████████████████████████████████████████████████████████████████████████▏                                                                                                             | 6510/15000 [4:37:25<5:32:53,  2.35s/it] 43%|████████████████████████████████████████████████████████████████████████████████████▏                                                                                                             | 6511/15000 [4:37:27<5:33:02,  2.35s/it] 43%|████████████████████████████████████████████████████████████████████████████████████▏                                                                                                             | 6512/15000 [4:37:29<5:32:51,  2.35s/it] 43%|████████████████████████████████████████████████████████████████████████████████████▏                                                                                                             | 6513/15000 [4:37:32<5:32:45,  2.35s/it] 43%|████████████████████████████████████████████████████████████████████████████████████▏                                                                                                             | 6514/15000 [4:37:34<5:32:46,  2.35s/it] 43%|████████████████████████████████████████████████████████████████████████████████████▎                                                                                                             | 6515/15000 [4:37:36<5:32:50,  2.35s/it] 43%|████████████████████████████████████████████████████████████████████████████████████▎                                                                                                             | 6516/15000 [4:37:39<5:32:50,  2.35s/it] 43%|████████████████████████████████████████████████████████████████████████████████████▎                                                                                                             | 6517/15000 [4:37:41<5:32:43,  2.35s/it] 43%|████████████████████████████████████████████████████████████████████████████████████▎                                                                                                             | 6518/15000 [4:37:43<5:32:18,  2.35s/it] 43%|████████████████████████████████████████████████████████████████████████████████████▎                                                                                                             | 6519/15000 [4:37:46<5:32:19,  2.35s/it] 43%|████████████████████████████████████████████████████████████████████████████████████▎                                                                                                             | 6520/15000 [4:37:48<5:32:14,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6894, 'grad_norm': 1.8671875, 'learning_rate': 4.7346668673551016e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3489.14, 'total_tokens': 53267897, 'epoch': 0.43}
+ 43%|████████████████████████████████████████████████████████████████████████████████████▎                                                                                                             | 6520/15000 [4:37:48<5:32:14,  2.35s/it] 43%|████████████████████████████████████████████████████████████████████████████████████▎                                                                                                             | 6521/15000 [4:37:50<5:32:23,  2.35s/it] 43%|████████████████████████████████████████████████████████████████████████████████████▎                                                                                                             | 6522/15000 [4:37:53<5:32:25,  2.35s/it] 43%|████████████████████████████████████████████████████████████████████████████████████▎                                                                                                             | 6523/15000 [4:37:55<5:32:32,  2.35s/it] 43%|████████████████████████████████████████████████████████████████████████████████████▍                                                                                                             | 6524/15000 [4:37:58<5:32:28,  2.35s/it] 44%|████████████████████████████████████████████████████████████████████████████████████▍                                                                                                             | 6525/15000 [4:38:00<5:32:36,  2.35s/it] 44%|████████████████████████████████████████████████████████████████████████████████████▍                                                                                                             | 6526/15000 [4:38:02<5:32:45,  2.36s/it] 44%|███████████████████████��████████████████████████████████████████████████████████████▍                                                                                                             | 6527/15000 [4:38:05<5:32:36,  2.36s/it] 44%|████████████████████████████████████████████████████████████████████████████████████▍                                                                                                             | 6528/15000 [4:38:07<5:32:18,  2.35s/it] 44%|████████████████████████████████████████████████████████████████████████████████████▍                                                                                                             | 6529/15000 [4:38:09<5:32:18,  2.35s/it] 44%|████████████████████████████████████████████████████████████████████████████████████▍                                                                                                             | 6530/15000 [4:38:12<5:32:17,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6996, 'grad_norm': 1.71875, 'learning_rate': 4.7312294890052654e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3482.82, 'total_tokens': 53349650, 'epoch': 0.44}
+ 44%|████████████████████████████████████████████████████████████████████████████████████▍                                                                                                             | 6530/15000 [4:38:12<5:32:17,  2.35s/it] 44%|████████████████████████████████████████████████████████████████████████████████████▍                                                                                                             | 6531/15000 [4:38:14<5:32:17,  2.35s/it] 44%|████████████████████████████████████████████████████████████████████████████████████▍                                                                                                             | 6532/15000 [4:38:16<5:31:55,  2.35s/it] 44%|████████████████████████████████████████████████████████████████████████████████████▍                                                                                                             | 6533/15000 [4:38:19<5:31:55,  2.35s/it] 44%|████████████████████████████████████████████████████████████████████████████████████▌                                                                                                             | 6534/15000 [4:38:21<5:31:51,  2.35s/it] 44%|████████████████████████████████████████████████████████████████████████████████████▌                                                                                                             | 6535/15000 [4:38:23<5:31:59,  2.35s/it] 44%|████████████████████████████████████████████████████████████████████████████████████▌                                                                                                             | 6536/15000 [4:38:26<5:32:18,  2.36s/it] 44%|████████████████████████████████████████████████████��███████████████████████████████▌                                                                                                             | 6537/15000 [4:38:28<5:32:17,  2.36s/it] 44%|████████████████████████████████████████████████████████████████████████████████████▌                                                                                                             | 6538/15000 [4:38:30<5:32:40,  2.36s/it] 44%|████████████████████████████████████████████████████████████████████████████████████▌                                                                                                             | 6539/15000 [4:38:33<5:32:28,  2.36s/it] 44%|████████████████████████████████████████████████████████████████████████████████████▌                                                                                                             | 6540/15000 [4:38:35<5:32:22,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.7364, 'grad_norm': 1.7734375, 'learning_rate': 4.7277713230206925e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3480.82, 'total_tokens': 53431428, 'epoch': 0.44}
+ 44%|████████████████████████████████████████████████████████████████████████████████████▌                                                                                                             | 6540/15000 [4:38:35<5:32:22,  2.36s/it] 44%|████████████████████████████████████████████████████████████████████████████████████▌                                                                                                             | 6541/15000 [4:38:38<5:32:09,  2.36s/it] 44%|████████████████████████████████████████████████████████████████████████████████████▌                                                                                                             | 6542/15000 [4:38:40<5:31:58,  2.36s/it] 44%|████████████████████████████████████████████████████████████████████████████████████▌                                                                                                             | 6543/15000 [4:38:42<5:31:43,  2.35s/it] 44%|████████████████████████████████████████████████████████████████████████████████████▋                                                                                                             | 6544/15000 [4:38:45<5:31:52,  2.35s/it] 44%|████████████████████████████████████████████████████████████████████████████████████▋                                                                                                             | 6545/15000 [4:38:47<5:32:06,  2.36s/it] 44%|████████████████████████████████████████████████████████████████████████████████████▋                                                                                                             | 6546/15000 [4:38:49<5:31:58,  2.36s/it] 44%|████████████████████████████████████████████████████████████████████████████████████▋                                                                                                             | 6547/15000 [4:38:52<5:32:10,  2.36s/it] 44%|████████████████████████████████████████████████████████████████████████████████████▋                                                                                                             | 6548/15000 [4:38:54<5:32:00,  2.36s/it] 44%|████████████████████████████████████████████████████████████████████████████████████▋                                                                                                             | 6549/15000 [4:38:56<5:31:47,  2.36s/it] 44%|████████████████████████████████████████████████████████████████████████████████████▋                                                                                                             | 6550/15000 [4:38:59<5:31:47,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.8126, 'grad_norm': 1.7265625, 'learning_rate': 4.724292403532085e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3480.12, 'total_tokens': 53513191, 'epoch': 0.44}
+ 44%|████████████████████████████████████████████████████████████████████████████████████▋                                                                                                             | 6550/15000 [4:38:59<5:31:47,  2.36s/it] 44%|████████████████████████████████████████████████████████████████████████████████████▋                                                                                                             | 6551/15000 [4:39:01<5:31:34,  2.35s/it] 44%|████████████████████████████████████████████████████████████████████████████████████▋                                                                                                             | 6552/15000 [4:39:03<5:31:32,  2.35s/it] 44%|████████████████████████████████████████████████████████████████████████████████████▊                                                                                                             | 6553/15000 [4:39:06<5:31:11,  2.35s/it] 44%|████████████████████████████████████████████████████████████████████████████████████▊                                                                                                             | 6554/15000 [4:39:08<5:31:16,  2.35s/it] 44%|████████████████████████████████████████████████████████████████████████████████████▊                                                                                                             | 6555/15000 [4:39:11<5:31:21,  2.35s/it] 44%|████████████████████████████████████████████████████████████████████████████████████▊                                                                                                             | 6556/15000 [4:39:13<5:31:14,  2.35s/it] 44%|████████████████████████████████████████████████████████████████████████████████████▊                                                                                                             | 6557/15000 [4:39:15<5:31:34,  2.36s/it] 44%|████████████████████████████████████████████████████████████████████████████████████▊                                                                                                             | 6558/15000 [4:39:18<5:31:40,  2.36s/it] 44%|████████████████████████████████████████████████████████████████████████████████████▊                                                                                                             | 6559/15000 [4:39:20<5:31:30,  2.36s/it] 44%|████████████████████████████████████████████████████████████████████████████████████▊                                                                                                             | 6560/15000 [4:39:22<5:31:14,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.7505, 'grad_norm': 1.8046875, 'learning_rate': 4.720792764874972e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3489.05, 'total_tokens': 53594959, 'epoch': 0.44}
+ 44%|████████████████████████████████████████████████████████████████████████████████████▊                                                                                                             | 6560/15000 [4:39:22<5:31:14,  2.35s/it] 44%|████████████████████████████████████████████████████████████████████████████████████▊                                                                                                             | 6561/15000 [4:39:25<5:31:33,  2.36s/it] 44%|████████████████████████████████████████████████████████████████████████████████████▊                                                                                                             | 6562/15000 [4:39:27<5:31:43,  2.36s/it] 44%|████████████████████████████████████████████████████████████████████████████████████▉                                                                                                             | 6563/15000 [4:39:29<5:31:19,  2.36s/it] 44%|████████████████████████████████████████████████████████████████████████████████████▉                                                                                                             | 6564/15000 [4:39:32<5:31:17,  2.36s/it] 44%|████████████████████████████████████████████████████████████████████████████████████▉                                                                                                             | 6565/15000 [4:39:34<5:31:09,  2.36s/it] 44%|████████████████████████████████████████████████████████████████████████████████████▉                                                                                                             | 6566/15000 [4:39:36<5:30:56,  2.35s/it] 44%|████████████████████████████████████████████████████████████████████████████████████▉                                                                                                             | 6567/15000 [4:39:39<5:30:32,  2.35s/it] 44%|█���██████████████████████████████████████████████████████████████████████████████████▉                                                                                                             | 6568/15000 [4:39:41<5:30:34,  2.35s/it] 44%|████████████████████████████████████████████████████████████████████████████████████▉                                                                                                             | 6569/15000 [4:39:43<5:30:36,  2.35s/it] 44%|████████████████████████████████████████████████████████████████████████████████████▉                                                                                                             | 6570/15000 [4:39:46<5:30:40,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.8303, 'grad_norm': 1.75, 'learning_rate': 4.717272441589376e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3478.69, 'total_tokens': 53676648, 'epoch': 0.44}
+ 44%|████████████████████████████████████████████████████████████████████████████████████▉                                                                                                             | 6570/15000 [4:39:46<5:30:40,  2.35s/it] 44%|████████████████████████████████████████████████████████████████████████████████████▉                                                                                                             | 6571/15000 [4:39:48<5:30:43,  2.35s/it] 44%|████████████████████████████████████████████████████████████████████████████████████▉                                                                                                             | 6572/15000 [4:39:51<5:30:37,  2.35s/it] 44%|█████████████████████████████████████████████████████████████████████████████████████                                                                                                             | 6573/15000 [4:39:53<5:30:18,  2.35s/it] 44%|█████████████████████████████████████████████████████████████████████████████████████                                                                                                             | 6574/15000 [4:39:55<5:30:18,  2.35s/it] 44%|█████████████████████████████████████████████████████████████████████████████████████                                                                                                             | 6575/15000 [4:39:58<5:30:14,  2.35s/it] 44%|█████████████████████████████████████████████████████████████████████████████████████                                                                                                             | 6576/15000 [4:40:00<5:30:20,  2.35s/it] 44%|█████████████████████████████████████████████████████████████████████████████████████                                                                                                             | 6577/15000 [4:40:02<5:30:21,  2.35s/it] 44%|███████████████████████████████��█████████████████████████████████████████████████████                                                                                                             | 6578/15000 [4:40:05<5:30:23,  2.35s/it] 44%|█████████████████████████████████████████████████████████████████████████████████████                                                                                                             | 6579/15000 [4:40:07<5:30:33,  2.36s/it] 44%|█████████████████████████████████████████████████████████████████████████████████████                                                                                                             | 6580/15000 [4:40:09<5:30:33,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.7962, 'grad_norm': 1.7734375, 'learning_rate': 4.713731468419466e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3481.58, 'total_tokens': 53758425, 'epoch': 0.44}
+ 44%|█████████████████████████████████████████████████████████████████████████████████████                                                                                                             | 6580/15000 [4:40:09<5:30:33,  2.36s/it] 44%|█████████████████████████████████████████████████████████████████████████████████████                                                                                                             | 6581/15000 [4:40:12<5:30:30,  2.36s/it] 44%|█████████████████████████████████████████████████████████████████████████████████████▏                                                                                                            | 6582/15000 [4:40:14<5:30:25,  2.36s/it] 44%|█████████████████████████████████████████████████████████████████████████████████████▏                                                                                                            | 6583/15000 [4:40:16<5:30:19,  2.35s/it] 44%|█████████████████████████████████████████████████████████████████████████████████████▏                                                                                                            | 6584/15000 [4:40:19<5:30:24,  2.36s/it] 44%|█████████████████████████████████████████████████████████████████████████████████████▏                                                                                                            | 6585/15000 [4:40:21<5:30:12,  2.35s/it] 44%|█████████████████████████████████████████████████████████████████████████████████████▏                                                                                                            | 6586/15000 [4:40:24<5:30:10,  2.35s/it] 44%|█████████████████████████████████████████████████████████████████████████████████████▏                                                                                                            | 6587/15000 [4:40:26<5:29:54,  2.35s/it] 44%|████████████████████████████████████████████████████████���████████████████████████████▏                                                                                                            | 6588/15000 [4:40:28<5:29:55,  2.35s/it] 44%|█████████████████████████████████████████████████████████████████████████████████████▏                                                                                                            | 6589/15000 [4:40:31<5:29:53,  2.35s/it] 44%|█████████████████████████████████████████████████████████████████████████████████████▏                                                                                                            | 6590/15000 [4:40:33<5:29:56,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.7647, 'grad_norm': 1.828125, 'learning_rate': 4.710169880313218e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3483.11, 'total_tokens': 53840205, 'epoch': 0.44}
+ 44%|█████████████████████████████████████████████████████████████████████████████████████▏                                                                                                            | 6590/15000 [4:40:33<5:29:56,  2.35s/it] 44%|█████████████████████████████████████████████████████████████████████████████████████▏                                                                                                            | 6591/15000 [4:40:35<5:30:01,  2.35s/it] 44%|█████████████████████████████████████████████████████████████████████████████████████▎                                                                                                            | 6592/15000 [4:40:38<5:29:57,  2.35s/it] 44%|█████████████████████████████████████████████████████████████████████████████████████▎                                                                                                            | 6593/15000 [4:40:40<5:29:58,  2.36s/it] 44%|█████████████████████████████████████████████████████████████████████████████████████▎                                                                                                            | 6594/15000 [4:40:42<5:29:47,  2.35s/it] 44%|█████████████████████████████████████████████████████████████████████████████████████▎                                                                                                            | 6595/15000 [4:40:45<5:29:29,  2.35s/it] 44%|█████████████████████████████████████████████████████████████████████████████████████▎                                                                                                            | 6596/15000 [4:40:47<5:29:33,  2.35s/it] 44%|█████████████████████████████████████████████████████████████████████████████████████▎                                                                                                            | 6597/15000 [4:40:49<5:29:32,  2.35s/it] 44%|█████████████████████████████████████████████████████████████████████████████████████▎                                                                                                            | 6598/15000 [4:40:52<5:29:15,  2.35s/it] 44%|█████████████████████████████████████████████████████████████████████████████████████▎                                                                                                            | 6599/15000 [4:40:54<5:29:26,  2.35s/it] 44%|█████████████████████████████████████████████████████████████████████████████████████▎                                                                                                            | 6600/15000 [4:40:56<5:29:47,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.7783, 'grad_norm': 2.625, 'learning_rate': 4.7065877124220685e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3471.57, 'total_tokens': 53921956, 'epoch': 0.44}
+ 44%|█████████████████████████████████████████████████████████████████████████████████████▎                                                                                                            | 6600/15000 [4:40:56<5:29:47,  2.36s/it] 44%|█████████████████████████████████████████████████████████████████████████████████████▎                                                                                                            | 6601/15000 [4:40:59<5:29:23,  2.35s/it] 44%|█████████████████████████████████████████████████████████████████████████████████████▍                                                                                                            | 6602/15000 [4:41:01<5:29:29,  2.35s/it] 44%|█████████████████████████████████████████████████████████████████████████████████████▍                                                                                                            | 6603/15000 [4:41:04<5:29:28,  2.35s/it] 44%|█████████████████████████████████████████████████████████████████████████████████████▍                                                                                                            | 6604/15000 [4:41:06<5:29:14,  2.35s/it] 44%|█████████████████████████████████████████████████████████████████████████████████████▍                                                                                                            | 6605/15000 [4:41:08<5:29:06,  2.35s/it] 44%|█████████████████████████████████████████████████████████████████████████████████████▍                                                                                                            | 6606/15000 [4:41:11<5:29:30,  2.36s/it] 44%|█████████████████████████████████████████████████████████████████████████████████████▍                                                                                                            | 6607/15000 [4:41:13<5:29:15,  2.35s/it] 44%|█████████████████████████████████████████████████████████████████████████████████████▍                                                                                                            | 6608/15000 [4:41:15<5:29:05,  2.35s/it] 44%|█████████████████████████████████████████████████████████████████████████████████████▍                                                                                                            | 6609/15000 [4:41:18<5:28:57,  2.35s/it] 44%|█████████████████████████████████████████████████████████████████████████████████████▍                                                                                                            | 6610/15000 [4:41:20<5:28:54,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.7755, 'grad_norm': 1.765625, 'learning_rate': 4.702985000100568e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3486.61, 'total_tokens': 54003718, 'epoch': 0.44}
+ 44%|█████████████████████████████████████████████████████████████████████████████████████▍                                                                                                            | 6610/15000 [4:41:20<5:28:54,  2.35s/it] 44%|█████████████████████████████████████████████████████████████████████████████████████▌                                                                                                            | 6611/15000 [4:41:22<5:29:06,  2.35s/it] 44%|█████████████████████████████████████████████████████████████████████████████████████▌                                                                                                            | 6612/15000 [4:41:25<5:29:23,  2.36s/it] 44%|█████████████████████████████████████████████████████████████████████████████████████▌                                                                                                            | 6613/15000 [4:41:27<5:29:20,  2.36s/it] 44%|█████████████████████████████████████████████████████████████████████████████████████▌                                                                                                            | 6614/15000 [4:41:29<5:29:13,  2.36s/it] 44%|█████████████████████████████████████████████████████████████████████████████████████▌                                                                                                            | 6615/15000 [4:41:32<5:28:57,  2.35s/it] 44%|█████████████████████████████████████████████████████████████████████████████████████▌                                                                                                            | 6616/15000 [4:41:34<5:28:50,  2.35s/it] 44%|█████████████████████████████████████████████████████████████████████████████████████▌                                                                                                            | 6617/15000 [4:41:36<5:29:10,  2.36s/it] 44%|█████████████████████████████████████████████████████████████████████████████████████▌                                                                                                            | 6618/15000 [4:41:39<5:29:06,  2.36s/it] 44%|█████████████████████████████████████████████████████████████████████████████████████▌                                                                                                            | 6619/15000 [4:41:41<5:28:41,  2.35s/it] 44%|█████████████████████████████████████████████████████████████████████████████████████▌                                                                                                            | 6620/15000 [4:41:44<5:28:58,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.6931, 'grad_norm': 1.7734375, 'learning_rate': 4.699361778906033e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3474.41, 'total_tokens': 54085498, 'epoch': 0.44}
+ 44%|█████████████████████████████████████████████████████████████████████████████████████▌                                                                                                            | 6620/15000 [4:41:44<5:28:58,  2.36s/it] 44%|█████████████████████████████████████████████████████████████████████████████████████▋                                                                                                            | 6621/15000 [4:41:46<5:29:00,  2.36s/it] 44%|█████████████████████████████████████████████████████████████████████████████████████▋                                                                                                            | 6622/15000 [4:41:48<5:28:50,  2.36s/it] 44%|█████████████████████████████████████████████████████████████████████████████████████▋                                                                                                            | 6623/15000 [4:41:51<5:28:41,  2.35s/it] 44%|█████████████████████████████████████████████████████████████████████████████████████▋                                                                                                            | 6624/15000 [4:41:53<5:28:25,  2.35s/it] 44%|█████████████████████████████████████████████████████████████████████████████████████▋                                                                                                            | 6625/15000 [4:41:55<5:28:32,  2.35s/it] 44%|█████████████████████████████████████████████████████████████████████████████████████▋                                                                                                            | 6626/15000 [4:41:58<5:28:44,  2.36s/it] 44%|█████████████████████████████████████████████████████████████████████████████████████▋                                                                                                            | 6627/15000 [4:42:00<5:28:50,  2.36s/it] 44%|█████████████████████████████████████████████████████████████████████████████████████▋                                                                                                            | 6628/15000 [4:42:02<5:28:32,  2.35s/it] 44%|█████��███████████████████████████████████████████████████████████████████████████████▋                                                                                                            | 6629/15000 [4:42:05<5:28:08,  2.35s/it] 44%|█████████████████████████████████████████████████████████████████████████████████████▋                                                                                                            | 6630/15000 [4:42:07<5:28:20,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.7859, 'grad_norm': 1.859375, 'learning_rate': 4.695718084598194e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3477.95, 'total_tokens': 54167258, 'epoch': 0.44}
+ 44%|█████████████████████████████████████████████████████████████████████████████████████▋                                                                                                            | 6630/15000 [4:42:07<5:28:20,  2.35s/it] 44%|█████████████████████████████████████████████████████████████████████████████████████▊                                                                                                            | 6631/15000 [4:42:09<5:28:19,  2.35s/it] 44%|█████████████████████████████████████████████████████████████████████████████████████▊                                                                                                            | 6632/15000 [4:42:12<5:28:17,  2.35s/it] 44%|█████████████████████████████████████████████████████████████████████████████████████▊                                                                                                            | 6633/15000 [4:42:14<5:28:03,  2.35s/it] 44%|█████████████████████████████████████████████████████████████████████████████████████▊                                                                                                            | 6634/15000 [4:42:16<5:28:14,  2.35s/it] 44%|█████████████████████████████████████████████████████████████████████████████████████▊                                                                                                            | 6635/15000 [4:42:19<5:28:19,  2.36s/it] 44%|█████████████████████████████████████████████████████████████████████████████████████▊                                                                                                            | 6636/15000 [4:42:21<5:28:10,  2.35s/it] 44%|█████████████████████████████████████████████████████████████████████████████████████▊                                                                                                            | 6637/15000 [4:42:24<5:28:11,  2.35s/it] 44%|█████████████████████████████████████████████████████████████████████████████████████▊                                                                                                            | 6638/15000 [4:42:26<5:28:14,  2.36s/it] 44%|███████████████████████████���█████████████████████████████████████████████████████████▊                                                                                                            | 6639/15000 [4:42:28<5:27:51,  2.35s/it] 44%|█████████████████████████████████████████████████████████████████████████████████████▉                                                                                                            | 6640/15000 [4:42:31<5:27:43,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.7514, 'grad_norm': 1.796875, 'learning_rate': 4.692053953138842e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3487.6, 'total_tokens': 54248983, 'epoch': 0.44}
+ 44%|█████████████████████████████████████████████████████████████████████████████████████▉                                                                                                            | 6640/15000 [4:42:31<5:27:43,  2.35s/it] 44%|█████████████████████████████████████████████████████████████████████████████████████▉                                                                                                            | 6641/15000 [4:42:33<5:27:47,  2.35s/it] 44%|█████████████████████████████████████████████████████████████████████████████████████▉                                                                                                            | 6642/15000 [4:42:35<5:27:52,  2.35s/it] 44%|█████████████████████████████████████████████████████████████████████████████████████▉                                                                                                            | 6643/15000 [4:42:38<5:27:48,  2.35s/it] 44%|█████████████████████████████████████████████████████████████████████████████████████▉                                                                                                            | 6644/15000 [4:42:40<5:27:34,  2.35s/it] 44%|█████████████████████████████████████████████████████████████████████████████████████▉                                                                                                            | 6645/15000 [4:42:42<5:27:38,  2.35s/it] 44%|█████████████████████████████████████████████████████████████████████████████████████▉                                                                                                            | 6646/15000 [4:42:45<5:27:46,  2.35s/it] 44%|█████████████████████████████████████████████████████████████████████████████████████▉                                                                                                            | 6647/15000 [4:42:47<5:27:37,  2.35s/it] 44%|█████████████████████████████████████████████████████████████████████████████████████▉                                                                                                            | 6648/15000 [4:42:49<5:27:59,  2.36s/it] 44%|█████████████████████████████████████████████████���███████████████████████████████████▉                                                                                                            | 6649/15000 [4:42:52<5:27:40,  2.35s/it] 44%|██████████████████████████████████████████████████████████████████████████████████████                                                                                                            | 6650/15000 [4:42:54<5:27:58,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.6784, 'grad_norm': 1.9453125, 'learning_rate': 4.688369420691478e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3468.46, 'total_tokens': 54330680, 'epoch': 0.44}
+ 44%|██████████████████████████████████████████████████████████████████████████████████████                                                                                                            | 6650/15000 [4:42:54<5:27:58,  2.36s/it] 44%|██████████████████████████████████████████████████████████████████████████████████████                                                                                                            | 6651/15000 [4:42:57<5:27:53,  2.36s/it] 44%|██████████████████████████████████████████████████████████████████████████████████████                                                                                                            | 6652/15000 [4:42:59<5:27:38,  2.35s/it] 44%|██████████████████████████████████████████████████████████████████████████████████████                                                                                                            | 6653/15000 [4:43:01<5:27:28,  2.35s/it] 44%|██████████████████████████████████████████████████████████████████████████████████████                                                                                                            | 6654/15000 [4:43:04<5:27:31,  2.35s/it] 44%|██████████████████████████████████████████████████████████████████████████████████████                                                                                                            | 6655/15000 [4:43:06<5:27:27,  2.35s/it] 44%|██████████████████████████████████████████████████████████████████████████████████████                                                                                                            | 6656/15000 [4:43:08<5:26:57,  2.35s/it] 44%|██████████████████████████████████████████████████████████████████████████████████████                                                                                                            | 6657/15000 [4:43:11<5:27:02,  2.35s/it] 44%|██████████████████████████████████████████████████████████████████████████████████████                                                                                                            | 6658/15000 [4:43:13<5:47:02,  2.50s/it] 44%|██████████████████████████████████████████████████████████████████████��███████████████                                                                                                            | 6659/15000 [4:43:16<5:41:11,  2.45s/it] 44%|██████████████████████████████████████████████████████████████████████████████████████▏                                                                                                           | 6660/15000 [4:43:18<5:37:09,  2.43s/it]                                                                                                                                                                                                                                                {'loss': 2.7905, 'grad_norm': 1.78125, 'learning_rate': 4.684664523620946e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3474.93, 'total_tokens': 54412384, 'epoch': 0.44}
+ 44%|██████████████████████████████████████████████████████████████████████████████████████▏                                                                                                           | 6660/15000 [4:43:18<5:37:09,  2.43s/it] 44%|██████████████████████████████████████████████████████████████████████████████████████▏                                                                                                           | 6661/15000 [4:43:21<5:34:07,  2.40s/it] 44%|██████████████████████████████████████████████████████████████████████████████████████▏                                                                                                           | 6662/15000 [4:43:23<5:32:00,  2.39s/it] 44%|██████████████████████████████████████████████████████████████████████████████████████▏                                                                                                           | 6663/15000 [4:43:25<5:30:44,  2.38s/it] 44%|██████████████████████████████████████████████████████████████████████████████████████▏                                                                                                           | 6664/15000 [4:43:28<5:29:42,  2.37s/it] 44%|██████████████████████████████████████████████████████████████████████████████████████▏                                                                                                           | 6665/15000 [4:43:30<5:28:55,  2.37s/it] 44%|██████████████████████████████████████████████████████████████████████████████████████▏                                                                                                           | 6666/15000 [4:43:32<5:27:57,  2.36s/it] 44%|██████████████████████████████████████████████████████████████████████████████████████▏                                                                                                           | 6667/15000 [4:43:35<5:27:08,  2.36s/it] 44%|██████████████████████████████████████████████████████████████████████████████████████▏                                                                                                           | 6668/15000 [4:43:37<5:27:18,  2.36s/it] 44%|██████████████████████████████████████████████████████████████████████████████████████▎                                                                                                           | 6669/15000 [4:43:39<5:27:07,  2.36s/it] 44%|██████████████████████████████████████████████████████████████████████████████████████▎                                                                                                           | 6670/15000 [4:43:42<5:27:08,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.7518, 'grad_norm': 1.6953125, 'learning_rate': 4.6809392984930864e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3476.57, 'total_tokens': 54494090, 'epoch': 0.44}
+ 44%|██████████████████████████████████████████████████████████████████████████████████████▎                                                                                                           | 6670/15000 [4:43:42<5:27:08,  2.36s/it] 44%|██████████████████████████████████████████████████████████████████████████████████████▎                                                                                                           | 6671/15000 [4:43:44<5:27:13,  2.36s/it] 44%|██████████████████████████████████████████████████████████████████████████████████████▎                                                                                                           | 6672/15000 [4:43:46<5:27:02,  2.36s/it] 44%|██████████████████████████████████████████████████████████████████████████████████████▎                                                                                                           | 6673/15000 [4:43:49<5:26:53,  2.36s/it] 44%|██████████████████████████████████████████████████████████████████████████████████████▎                                                                                                           | 6674/15000 [4:43:51<5:26:33,  2.35s/it] 44%|██████████████████████████████████████████████████████████████████████████████████████▎                                                                                                           | 6675/15000 [4:43:53<5:26:15,  2.35s/it] 45%|██████████████████████████████████████████████████████████████████████████████████████▎                                                                                                           | 6676/15000 [4:43:56<5:26:20,  2.35s/it] 45%|██████████████████████████████████████████████████████████████████████████████████████▎                                                                                                           | 6677/15000 [4:43:58<5:26:43,  2.36s/it] 45%|██████████████████████████████████████████████████████████████████████████████████████▎                                                                                                           | 6678/15000 [4:44:01<5:26:39,  2.36s/it] 45%|██████████████████████████████████████████████████████████████████████████████████████▍                                                                                                           | 6679/15000 [4:44:03<5:26:04,  2.35s/it] 45%|██████████████████████████████████████████████████████████████████████████████████████▍                                                                                                           | 6680/15000 [4:44:05<5:26:09,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.7471, 'grad_norm': 1.7890625, 'learning_rate': 4.6771937820743674e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3480.67, 'total_tokens': 54575788, 'epoch': 0.45}
+ 45%|██████████████████████████████████████████████████████████████████████████████████████▍                                                                                                           | 6680/15000 [4:44:05<5:26:09,  2.35s/it] 45%|██████████████████████████████████████████████████████████████████████████████████████▍                                                                                                           | 6681/15000 [4:44:08<5:25:54,  2.35s/it] 45%|██████████████████████████████████████████████████████████████████████████████████████▍                                                                                                           | 6682/15000 [4:44:10<5:25:56,  2.35s/it] 45%|██████████████████████████████████████████████████████████████████████████████████████▍                                                                                                           | 6683/15000 [4:44:12<5:26:20,  2.35s/it] 45%|██████████████████████████████████████████████████████████████████████████████████████▍                                                                                                           | 6684/15000 [4:44:15<5:26:25,  2.36s/it] 45%|██████████████████████████████████████████████████████████████████████████████████████▍                                                                                                           | 6685/15000 [4:44:17<5:26:22,  2.36s/it] 45%|██████████████████████████████████████████████████████████████████████████████████████▍                                                                                                           | 6686/15000 [4:44:19<5:26:27,  2.36s/it] 45%|██████████████████████████████████████████████████████████████████████████████████████▍                                                                                                           | 6687/15000 [4:44:22<5:26:27,  2.36s/it] 45%|██████████████████████████████████████████████████████████████████████████████████████▍                                                                                                           | 6688/15000 [4:44:24<5:25:43,  2.35s/it] 45%|██████████████████████████████████████████████████████████████████████████████████████▌                                                                                                           | 6689/15000 [4:44:26<5:25:41,  2.35s/it] 45%|██████████████████████████████████████████████████████████████████████████████████████▌                                                                                                           | 6690/15000 [4:44:29<5:25:48,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.7376, 'grad_norm': 1.7265625, 'learning_rate': 4.6734280113315223e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3476.44, 'total_tokens': 54657409, 'epoch': 0.45}
+ 45%|██████████████████████████████████████████████████████████████████████████████████████▌                                                                                                           | 6690/15000 [4:44:29<5:25:48,  2.35s/it] 45%|██████████████████████████████████████████████████████████████████████████████████████▌                                                                                                           | 6691/15000 [4:44:31<5:26:09,  2.36s/it] 45%|██████████████████████████████████████████████████████████████████████████████████████▌                                                                                                           | 6692/15000 [4:44:33<5:25:57,  2.35s/it] 45%|██████████████████████████████████████████████████████████████████████████████████████▌                                                                                                           | 6693/15000 [4:44:36<5:26:16,  2.36s/it] 45%|██████████████████████████████████████████████████████████████████████████████████████▌                                                                                                           | 6694/15000 [4:44:38<5:26:15,  2.36s/it] 45%|██████████████████████████████████████████████████████████████████████████████████████▌                                                                                                           | 6695/15000 [4:44:41<5:26:15,  2.36s/it] 45%|██████████████████████████████████████████████████████████████████████████████████████▌                                                                                                           | 6696/15000 [4:44:43<5:26:00,  2.36s/it] 45%|██████████████████████████████████████████████████████████████████████████████████████▌                                                                                                           | 6697/15000 [4:44:45<5:25:52,  2.35s/it] 45%|██████████████████████████████████████████████████████████████████████████████████████▋                                                                                                           | 6698/15000 [4:44:48<5:25:47,  2.35s/it] 45%|██████████████████████████████████████████████████████████████████████████████████████▋                                                                                                           | 6699/15000 [4:44:50<5:25:51,  2.36s/it] 45%|██████████████████████████████████████████████████████████████████████████████████████▋                                                                                                           | 6700/15000 [4:44:52<5:25:42,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.7827, 'grad_norm': 1.78125, 'learning_rate': 4.66964202343119e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3480.19, 'total_tokens': 54739039, 'epoch': 0.45}
+ 45%|██████████████████████████████████████████████████████████████████████████████████████▋                                                                                                           | 6700/15000 [4:44:52<5:25:42,  2.35s/it] 45%|██████████████████████████████████████████████████████████████████████████████████████▋                                                                                                           | 6701/15000 [4:44:55<5:25:20,  2.35s/it] 45%|██████████████████████████████████████████████████████████████████████████████████████▋                                                                                                           | 6702/15000 [4:44:57<5:25:34,  2.35s/it] 45%|██████████████████████████████████████████████████████████████████████████████████████▋                                                                                                           | 6703/15000 [4:44:59<5:25:18,  2.35s/it] 45%|██████████████████████████████████████████████████████████████████████████████████████▋                                                                                                           | 6704/15000 [4:45:02<5:25:09,  2.35s/it] 45%|██████████████████████████████████████████████████████████████████████████████████████▋                                                                                                           | 6705/15000 [4:45:04<5:25:05,  2.35s/it] 45%|██████████████████████████████████████████████████████████████████████████████████████▋                                                                                                           | 6706/15000 [4:45:06<5:25:15,  2.35s/it] 45%|██████████████████████████████████████████████████████████████████████████████████████▋                                                                                                           | 6707/15000 [4:45:09<5:25:17,  2.35s/it] 45%|██████████████████████████████████████████████████████████████████████████████████████▊                                                                                                           | 6708/15000 [4:45:11<5:25:28,  2.36s/it] 45%|██████████████████████████████████████████████████████████████████████████████████████▊                                                                                                           | 6709/15000 [4:45:14<5:25:24,  2.35s/it] 45%|███��██████████████████████████████████████████████████████████████████████████████████▊                                                                                                           | 6710/15000 [4:45:16<5:25:17,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.7672, 'grad_norm': 1.953125, 'learning_rate': 4.6658358557395424e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3484.38, 'total_tokens': 54820777, 'epoch': 0.45}
+ 45%|██████████████████████████████████████████████████████████████████████████████████████▊                                                                                                           | 6710/15000 [4:45:16<5:25:17,  2.35s/it] 45%|██████████████████████████████████████████████████████████████████████████████████████▊                                                                                                           | 6711/15000 [4:45:18<5:25:14,  2.35s/it] 45%|██████████████████████████████████████████████████████████████████████████████████████▊                                                                                                           | 6712/15000 [4:45:21<5:25:29,  2.36s/it] 45%|██████████████████████████████████████████████████████████████████████████████████████▊                                                                                                           | 6713/15000 [4:45:23<5:25:17,  2.36s/it] 45%|██████████████████████████████████████████████████████████████████████████████████████▊                                                                                                           | 6714/15000 [4:45:25<5:25:06,  2.35s/it] 45%|██████████████████████████████████████████████████████████████████████████████████████▊                                                                                                           | 6715/15000 [4:45:28<5:24:52,  2.35s/it] 45%|██████████████████████████████████████████████████████████████████████████████████████▊                                                                                                           | 6716/15000 [4:45:30<5:24:42,  2.35s/it] 45%|██████████████████████████████████████████████████████████████████████████████████████▊                                                                                                           | 6717/15000 [4:45:32<5:24:41,  2.35s/it] 45%|██████████████████████████████████████████████████████████████████████████████████████▉                                                                                                           | 6718/15000 [4:45:35<5:24:35,  2.35s/it] 45%|██████████████████████████████████████████████████████████████████████████████████████▉                                                                                                           | 6719/15000 [4:45:37<5:24:22,  2.35s/it] 45%|█████████████████��████████████████████████████████████████████████████████████████████▉                                                                                                           | 6720/15000 [4:45:39<5:24:24,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.7486, 'grad_norm': 1.8359375, 'learning_rate': 4.6620095458219174e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3480.59, 'total_tokens': 54902396, 'epoch': 0.45}
+ 45%|██████████████████████████████████████████████████████████████████████████████████████▉                                                                                                           | 6720/15000 [4:45:39<5:24:24,  2.35s/it] 45%|██████████████████████████████████████████████████████████████████████████████████████▉                                                                                                           | 6721/15000 [4:45:42<5:24:22,  2.35s/it] 45%|██████████████████████████████████████████████████████████████████████████████████████▉                                                                                                           | 6722/15000 [4:45:44<5:24:13,  2.35s/it] 45%|██████████████████████████████████████████████████████████████████████████████████████▉                                                                                                           | 6723/15000 [4:45:46<5:24:06,  2.35s/it] 45%|██████████████████████████████████████████████████████████████████████████████████████▉                                                                                                           | 6724/15000 [4:45:49<5:24:05,  2.35s/it] 45%|██████████████████████████████████████████████████████████████████████████████████████▉                                                                                                           | 6725/15000 [4:45:51<5:24:16,  2.35s/it] 45%|██████████████████████████████████████████████████████████████████████████████████████▉                                                                                                           | 6726/15000 [4:45:54<5:24:32,  2.35s/it] 45%|███████████████████████████████████████████████████████████████████████████████████████                                                                                                           | 6727/15000 [4:45:56<5:24:27,  2.35s/it] 45%|███████████████████████████████████████████████████████████████████████████████████████                                                                                                           | 6728/15000 [4:45:58<5:24:36,  2.35s/it] 45%|███████████████████████████████████████████████████████████████████████████████████████                                                                                                           | 6729/15000 [4:46:01<5:24:34,  2.35s/it] 45%|███████████████████████████████���███████████████████████████████████████████████████████                                                                                                           | 6730/15000 [4:46:03<5:24:20,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6958, 'grad_norm': 1.703125, 'learning_rate': 4.658163131442448e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3481.38, 'total_tokens': 54983959, 'epoch': 0.45}
+ 45%|███████████████████████████████████████████████████████████████████████████████████████                                                                                                           | 6730/15000 [4:46:03<5:24:20,  2.35s/it] 45%|███████████████████████████████████████████████████████████████████████████████████████                                                                                                           | 6731/15000 [4:46:05<5:24:29,  2.35s/it] 45%|███████████████████████████████████████████████████████████████████████████████████████                                                                                                           | 6732/15000 [4:46:08<5:24:06,  2.35s/it] 45%|███████████████████████████████████████████████████████████████████████████████████████                                                                                                           | 6733/15000 [4:46:10<5:24:18,  2.35s/it] 45%|███████████████████████████████████████████████████████████████████████████████████████                                                                                                           | 6734/15000 [4:46:12<5:24:07,  2.35s/it] 45%|███████████████████████████████████████████████████████████████████████████████████████                                                                                                           | 6735/15000 [4:46:15<5:24:04,  2.35s/it] 45%|███████████████████████████████████████████████████████████████████████████████████████                                                                                                           | 6736/15000 [4:46:17<5:24:11,  2.35s/it] 45%|███████████████████████████████████████████████████████████████████████████████████████▏                                                                                                          | 6737/15000 [4:46:19<5:23:54,  2.35s/it] 45%|███████████████████████████████████████████████████████████████████████████████████████▏                                                                                                          | 6738/15000 [4:46:22<5:23:41,  2.35s/it] 45%|███████████████████████████████████████████████████████████████████████████████████████▏                                                                                                          | 6739/15000 [4:46:24<5:23:39,  2.35s/it] 45%|███████████████████████████████████████████��███████████████████████████████████████████▏                                                                                                          | 6740/15000 [4:46:26<5:23:44,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.7506, 'grad_norm': 1.6953125, 'learning_rate': 4.6542966505636926e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3466.8, 'total_tokens': 55065316, 'epoch': 0.45}
+ 45%|███████████████████████████████████████████████████████████████████████████████████████▏                                                                                                          | 6740/15000 [4:46:26<5:23:44,  2.35s/it] 45%|███████████████████████████████████████████████████████████████████████████████████████▏                                                                                                          | 6741/15000 [4:46:29<5:23:58,  2.35s/it][2025-11-17 02:29:21,705] [INFO] [axolotl.utils.data.wrappers.get_dataset_wrapper:87] [PID:8163] Loading dataset: Goader/kobza-2m-jsonl with base_type: pretrain and prompt_style: None
+
+Tokenizing Prompts (num_proc=64):   0%|                                                                                                                                                                        | 0/10000 [00:00<?, ? examples/s][A
+Tokenizing Prompts (num_proc=64):   2%|██▍                                                                                                                                                           | 157/10000 [00:05<06:10, 26.59 examples/s][A
+Tokenizing Prompts (num_proc=64):   3%|████▉                                                                                                                                                         | 314/10000 [00:06<02:55, 55.18 examples/s][A
+Tokenizing Prompts (num_proc=64):   5%|███████▍                                                                                                                                                      | 471/10000 [00:07<01:52, 84.49 examples/s][A
+Tokenizing Prompts (num_proc=64):   6%|█████████▉                                                                                                                                                    | 628/10000 [00:08<01:40, 93.00 examples/s][A
+Tokenizing Prompts (num_proc=64):   8%|████████████▎                                                                                                                                                | 785/10000 [00:09<01:19, 116.05 examples/s][A
+Tokenizing Prompts (num_proc=64):   9%|██████████████▊                                                                                                                                              | 942/10000 [00:09<01:01, 148.33 examples/s][A
+Tokenizing Prompts (num_proc=64):  11%|█████████████████▏                                                                                                                                          | 1099/10000 [00:10<00:44, 200.57 examples/s][A
+Tokenizing Prompts (num_proc=64):  13%|███████████████████▌                                                                                                                                        | 1256/10000 [00:11<00:44, 197.44 examples/s][A
+Tokenizing Prompts (num_proc=64):  14%|██████████████████████                                                                                                                                      | 1413/10000 [00:11<00:42, 203.47 examples/s][A
+Tokenizing Prompts (num_proc=64):  16%|████████████████████████▍                                                                                                                                   | 1570/10000 [00:12<00:38, 220.35 examples/s][A
+Tokenizing Prompts (num_proc=64):  17%|██████████████████████████▉                                                                                                                                 | 1727/10000 [00:13<00:38, 212.35 examples/s][A
+Tokenizing Prompts (num_proc=64):  19%|█████████████████████████████▍                                                                                                                              | 1884/10000 [00:14<00:42, 191.04 examples/s][A
+Tokenizing Prompts (num_proc=64):  20%|███████████████████████████████▊                                                                                                                            | 2041/10000 [00:14<00:32, 244.17 examples/s][A
+Tokenizing Prompts (num_proc=64):  22%|██████████████████████████████████▎                                                                                                                         | 2198/10000 [00:15<00:38, 200.43 examples/s][A
+Tokenizing Prompts (num_proc=64):  24%|████████████████████████████████████▋                                                                                                                       | 2355/10000 [00:16<00:31, 242.17 examples/s][A
+Tokenizing Prompts (num_proc=64):  25%|███████████████████████████████████████▏                                                                                                                    | 2512/10000 [00:16<00:32, 230.15 examples/s][A
+Tokenizing Prompts (num_proc=64):  27%|█████████████████████████████████████████▌                                                                                                                  | 2668/10000 [00:17<00:31, 236.48 examples/s][A
+Tokenizing Prompts (num_proc=64):  28%|████████████████████████████████████████████                                                                                                                | 2824/10000 [00:18<00:30, 234.72 examples/s][A
+Tokenizing Prompts (num_proc=64):  30%|██████████████████████████████████████████████▍                                                                                                             | 2980/10000 [00:18<00:34, 202.35 examples/s][A
+Tokenizing Prompts (num_proc=64):  31%|████████████████████████████████████████████████▉                                                                                                           | 3136/10000 [00:19<00:28, 237.46 examples/s][A
+Tokenizing Prompts (num_proc=64):  33%|███████████████████████████████████████████████████▎                                                                                                        | 3292/10000 [00:20<00:31, 211.49 examples/s][A
+Tokenizing Prompts (num_proc=64):  34%|█████████████████████████████████████████████████████▊                                                                                                      | 3448/10000 [00:20<00:24, 264.94 examples/s][A
+Tokenizing Prompts (num_proc=64):  36%|████████████████████████████████████████████████████████▏                                                                                                   | 3604/10000 [00:21<00:29, 213.75 examples/s][A
+Tokenizing Prompts (num_proc=64):  38%|██████████████████████████████████████████████████████████▋                                                                                                 | 3760/10000 [00:21<00:24, 256.73 examples/s][A
+Tokenizing Prompts (num_proc=64):  39%|█████████████████████████████████████████████████████████████                                                                                               | 3916/10000 [00:22<00:28, 215.93 examples/s][A
+Tokenizing Prompts (num_proc=64):  41%|███████████████████████████████████████████████████████████████▌                                                                                            | 4072/10000 [00:23<00:23, 252.98 examples/s][A
+Tokenizing Prompts (num_proc=64):  42%|█████████████████████████████████████████████████████████████████▉                                                                                          | 4228/10000 [00:24<00:22, 254.10 examples/s][A
+Tokenizing Prompts (num_proc=64):  44%|████████████████████████████████████████████████████████████████████▍                                                                                       | 4384/10000 [00:24<00:22, 249.46 examples/s][A
+Tokenizing Prompts (num_proc=64):  45%|██████████████████████████████████████████████████████████████████████▊                                                                                     | 4540/10000 [00:25<00:22, 246.95 examples/s][A
+Tokenizing Prompts (num_proc=64):  47%|█████████████████████████████████████████████████████████████████████████▎                                                                                  | 4696/10000 [00:25<00:21, 250.97 examples/s][A
+Tokenizing Prompts (num_proc=64):  49%|███████████████████████████████████████████████████████████████████████████▋                                                                                | 4852/10000 [00:26<00:21, 238.11 examples/s][A
+Tokenizing Prompts (num_proc=64):  50%|██████████████████████████████████████████████████████████████████████████████                                                                              | 5008/10000 [00:27<00:20, 243.84 examples/s][A
+Tokenizing Prompts (num_proc=64):  52%|████████████████████████████████████████████████████████████████████████████████▌                                                                           | 5164/10000 [00:27<00:19, 243.42 examples/s][A
+Tokenizing Prompts (num_proc=64):  53%|██████████████████████████████████████████████████████████████████████████████████▉                                                                         | 5320/10000 [00:28<00:19, 240.65 examples/s][A
+Tokenizing Prompts (num_proc=64):  55%|█████████████████████████████████████████████████████████████████████████████████████▍                                                                      | 5476/10000 [00:29<00:19, 226.38 examples/s][A
+Tokenizing Prompts (num_proc=64):  56%|███████████████████████████████████████████████████████████████████████████████████████▊                                                                    | 5632/10000 [00:30<00:21, 202.66 examples/s][A
+Tokenizing Prompts (num_proc=64):  58%|██████████████████████████████████████████████████████████████████████████████████████████▎                                                                 | 5788/10000 [00:30<00:19, 216.26 examples/s][A
+Tokenizing Prompts (num_proc=64):  59%|████████████████████████████████████████████████████████████████████████████████████████████▋                                                               | 5944/10000 [00:31<00:18, 222.40 examples/s][A
+Tokenizing Prompts (num_proc=64):  61%|███████████████████████████████████████████████████████████████████████████████████████���███████▏                                                            | 6100/10000 [00:31<00:17, 226.63 examples/s][A
+Tokenizing Prompts (num_proc=64):  63%|█████████████████████████████████████████████████████████████████████████████████████████████████▌                                                          | 6256/10000 [00:32<00:14, 260.69 examples/s][A
+Tokenizing Prompts (num_proc=64):  64%|████████████████████████████████████████████████████████████████████████████████████████████████████                                                        | 6412/10000 [00:33<00:14, 255.07 examples/s][A
+Tokenizing Prompts (num_proc=64):  66%|██████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                     | 6568/10000 [00:33<00:15, 221.37 examples/s][A
+Tokenizing Prompts (num_proc=64):  67%|████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                   | 6724/10000 [00:34<00:12, 257.09 examples/s][A
+Tokenizing Prompts (num_proc=64):  69%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                | 6880/10000 [00:34<00:11, 269.96 examples/s][A
+Tokenizing Prompts (num_proc=64):  70%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                              | 7036/10000 [00:35<00:11, 261.84 examples/s][A
+Tokenizing Prompts (num_proc=64):  72%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                           | 7192/10000 [00:36<00:11, 243.54 examples/s][A
+Tokenizing Prompts (num_proc=64):  73%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                         | 7348/10000 [00:36<00:10, 247.99 examples/s][A
+Tokenizing Prompts (num_proc=64):  75%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                       | 7504/10000 [00:37<00:10, 234.17 examples/s][A
+Tokenizing Prompts (num_proc=64):  77%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                    | 7660/10000 [00:38<00:09, 243.99 examples/s][A
+Tokenizing Prompts (num_proc=64):  78%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                  | 7816/10000 [00:39<00:09, 238.43 examples/s][A
+Tokenizing Prompts (num_proc=64):  80%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                               | 7972/10000 [00:39<00:08, 244.90 examples/s][A
+Tokenizing Prompts (num_proc=64):  81%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                             | 8128/10000 [00:40<00:07, 244.91 examples/s][A
+Tokenizing Prompts (num_proc=64):  83%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                          | 8284/10000 [00:40<00:07, 238.13 examples/s][A
+Tokenizing Prompts (num_proc=64):  84%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                        | 8440/10000 [00:41<00:06, 236.97 examples/s][A
+Tokenizing Prompts (num_proc=64):  86%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                      | 8596/10000 [00:42<00:07, 196.30 examples/s][A
+Tokenizing Prompts (num_proc=64):  88%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                   | 8752/10000 [00:42<00:04, 250.22 examples/s][A
+Tokenizing Prompts (num_proc=64):  89%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                 | 8908/10000 [00:43<00:04, 241.51 examples/s][A
+Tokenizing Prompts (num_proc=64):  91%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍              | 9064/10000 [00:44<00:04, 205.04 examples/s][A
+Tokenizing Prompts (num_proc=64):  92%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊            | 9220/10000 [00:45<00:03, 249.51 examples/s][A
+Tokenizing Prompts (num_proc=64):  94%|████████████████████████████████████████████████████████████████████████████████████████████████████��█████████████████████████████████████████████▎         | 9376/10000 [00:45<00:02, 235.97 examples/s][A
+Tokenizing Prompts (num_proc=64):  95%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋       | 9532/10000 [00:46<00:01, 256.63 examples/s][A
+Tokenizing Prompts (num_proc=64):  97%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏    | 9688/10000 [00:46<00:01, 248.96 examples/s][A
+Tokenizing Prompts (num_proc=64):  98%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌  | 9844/10000 [00:47<00:00, 211.86 examples/s][A
+Tokenizing Prompts (num_proc=64): 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10000/10000 [00:48<00:00, 214.71 examples/s][ATokenizing Prompts (num_proc=64): 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10000/10000 [00:50<00:00, 198.19 examples/s]
+
+Dropping Long Sequences:   0%|                                                                                                                                                                                 | 0/10000 [00:00<?, ? examples/s][A
+Dropping Long Sequences:  10%|████████████████▌                                                                                                                                                    | 1000/10000 [00:01<00:13, 674.32 examples/s][A
+Dropping Long Sequences:  20%|████████████████████████████████▊                                                                                                                                   | 2000/10000 [00:01<00:06, 1309.18 examples/s][A
+Dropping Long Sequences:  30%|█████████████████████████████████████████████████▏                                                                                                                  | 3000/10000 [00:01<00:03, 1887.58 examples/s][A
+Dropping Long Sequences:  40%|█████████████████████████████████████████████████████████████████▌                                                                                                  | 4000/10000 [00:02<00:02, 2378.59 examples/s][A
+Dropping Long Sequences:  50%|██████████████████████████████████████████████████████████████████████████████████                                                                                  | 5000/10000 [00:02<00:01, 2719.76 examples/s][A
+Dropping Long Sequences:  60%|██████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                 | 6000/10000 [00:02<00:01, 3050.34 examples/s][A
+Dropping Long Sequences:  70%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                 | 7000/10000 [00:03<00:00, 3302.77 examples/s][A
+Dropping Long Sequences:  80%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                | 8000/10000 [00:03<00:00, 3418.18 examples/s][A
+Dropping Long Sequences:  90%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                | 9000/10000 [00:03<00:00, 3426.25 examples/s][A
+Dropping Long Sequences: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10000/10000 [00:03<00:00, 3524.43 examples/s][ADropping Long Sequences: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10000/10000 [00:03<00:00, 2559.27 examples/s]
+
+Add position_id column (Pretraining Sample Packing):   0%|                                                                                                                                                      | 0/8723 [00:00<?, ? examples/s][A
+Add position_id column (Pretraining Sample Packing):  11%|███████████████▊                                                                                                                          | 1000/8723 [00:01<00:09, 789.87 examples/s][A
+Add position_id column (Pretraining Sample Packing):  23%|███████████████████████████████▍                                                                                                         | 2000/8723 [00:01<00:04, 1644.01 examples/s][A
+Add position_id column (Pretraining Sample Packing):  34%|███████████████████████████████████████████████                                                                                          | 3000/8723 [00:01<00:02, 2519.99 examples/s][A
+Add position_id column (Pretraining Sample Packing):  46%|██████████████████████████████████████████████████████████████▊                                                                          | 4000/8723 [00:01<00:01, 3295.65 examples/s][A
+Add position_id column (Pretraining Sample Packing):  57%|██████████████████████████████████████████████████████████████████████████████▌                                                          | 5000/8723 [00:01<00:00, 4061.87 examples/s][A
+Add position_id column (Pretraining Sample Packing):  69%|███████████████████████████████████████████████████████████████��██████████████████████████████▏                                          | 6000/8723 [00:02<00:00, 4714.60 examples/s][A
+Add position_id column (Pretraining Sample Packing):  80%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                           | 7000/8723 [00:02<00:00, 5334.23 examples/s][A
+Add position_id column (Pretraining Sample Packing):  92%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋           | 8000/8723 [00:02<00:00, 5495.15 examples/s][A
+Add position_id column (Pretraining Sample Packing): 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 8723/8723 [00:02<00:00, 5780.31 examples/s][AAdd position_id column (Pretraining Sample Packing): 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 8723/8723 [00:02<00:00, 3531.04 examples/s]
+[2025-11-17 02:30:20,218] [DEBUG] [axolotl.utils.samplers.multipack.pack_parallel:177] [PID:8163] Using single process for pack_parallel, running sequentially.
+ 45%|██████████████████████████████████████████████████████████████████████████████████████▋                                                                                                          | 6742/15000 [4:47:35<49:01:44, 21.37s/it] 45%|██████████████████████████████████████████████████████████████████████████████████████▊                                                                                                          | 6743/15000 [4:47:37<35:56:01, 15.67s/it] 45%|██████████████████████████████████████████████████████████████████████████████████████▊                                                                                                          | 6744/15000 [4:47:39<26:45:59, 11.67s/it] 45%|██████████████████████████████████████████████████████████████████████████████████████▊                                                                                                          | 6745/15000 [4:47:42<20:20:41,  8.87s/it] 45%|██████████████████████████████████████████████████████████████████████████████████████▊                                                                                                          | 6746/15000 [4:47:44<15:51:32,  6.92s/it] 45%|██████████████████████████████████████████████████████████████████████████████████████▊                                                                                                          | 6747/15000 [4:47:46<12:42:54,  5.55s/it] 45%|██████████████████████████████████████████████████████████████████████████████████████▊                                                                                                          | 6748/15000 [4:47:49<10:31:19,  4.59s/it] 45%|███████████████████████████████████████████████████████████████████████████████████████▎                                                                                                          | 6749/15000 [4:47:51<8:58:47,  3.92s/it] 45%|███████████████████████████████████████████████████████████████████████████████████████▎                                                                                                          | 6750/15000 [4:47:53<7:53:59,  3.45s/it]                                                                                                                                                                                                                                                {'loss': 2.7254, 'grad_norm': 1.921875, 'learning_rate': 4.650410141346257e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3381.65, 'total_tokens': 55144514, 'epoch': 0.45}
+ 45%|███████████████████████████████████████████████████████████████████████████████████████▎                                                                                                          | 6750/15000 [4:47:53<7:53:59,  3.45s/it] 45%|███████████████████████████████████████████████████████████████████████████████████████▎                                                                                                          | 6751/15000 [4:47:56<7:08:50,  3.12s/it] 45%|███████████████████████████████████████████████████████████████████████████████████████▎                                                                                                          | 6752/15000 [4:47:58<6:37:17,  2.89s/it] 45%|███████████████████████████████████████████████████████████████████████████████████████▎                                                                                                          | 6753/15000 [4:48:00<6:15:03,  2.73s/it] 45%|███████████████████████████████████████████████████████████████████████████████████████▎                                                                                                          | 6754/15000 [4:48:03<5:59:26,  2.62s/it] 45%|███████████████████████████████████████████████████████████████████████████████████████▎                                                                                                          | 6755/15000 [4:48:05<5:48:14,  2.53s/it] 45%|███████████████████████████████████████████████████████████████████████████████████████▍                                                                                                          | 6756/15000 [4:48:07<5:40:22,  2.48s/it] 45%|███████████████████████████████████████████████████████████████████████████████████████▍                                                                                                          | 6757/15000 [4:48:10<5:35:10,  2.44s/it] 45%|███████████████████████████████████████████████████████████████████████████████████████▍                                                                                                          | 6758/15000 [4:48:12<5:31:50,  2.42s/it] 45%|███████████████████████████████████████████████████████████████████████████████████████▍                                                                                                          | 6759/15000 [4:48:15<5:29:18,  2.40s/it] 45%|███████████████████████████████████████████████████████████████████████████████████████▍                                                                                                          | 6760/15000 [4:48:17<5:27:25,  2.38s/it]                                                                                                                                                                                                                                                {'loss': 2.7172, 'grad_norm': 1.7890625, 'learning_rate': 4.646503642148417e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3489.86, 'total_tokens': 55226382, 'epoch': 0.45}
+ 45%|███████████████████████████████████████████████████████████████████████████████████████▍                                                                                                          | 6760/15000 [4:48:17<5:27:25,  2.38s/it] 45%|███████████████████████████████████████████████████████████████████████████████████████▍                                                                                                          | 6761/15000 [4:48:19<5:26:32,  2.38s/it] 45%|███████████████████████████████████████████████████████████████████████████████████████▍                                                                                                          | 6762/15000 [4:48:22<5:25:48,  2.37s/it] 45%|███████████████████████████████████████████████████████████████████████████████████████▍                                                                                                          | 6763/15000 [4:48:24<5:24:55,  2.37s/it] 45%|███████████████████████████████████████████████████████████████████████████████████████▍                                                                                                          | 6764/15000 [4:48:26<5:24:26,  2.36s/it] 45%|███████████████████████████████████████████████████████████████████████████████████████▍                                                                                                          | 6765/15000 [4:48:29<5:24:12,  2.36s/it] 45%|███████████████████████████████████████████████████████████████████████████████████████▌                                                                                                          | 6766/15000 [4:48:31<5:23:51,  2.36s/it] 45%|███████████████████████████████████████████████████████████████████████████████████████▌                                                                                                          | 6767/15000 [4:48:33<5:23:34,  2.36s/it] 45%|███████████████████████████████████████████████████████████████████████████████████████▌                                                                                                          | 6768/15000 [4:48:36<5:23:30,  2.36s/it] 45%|███████████████████████████████████████████████████████████████████████████████████████▌                                                                                                          | 6769/15000 [4:48:38<5:23:25,  2.36s/it] 45%|███████████████████████████████████████████████████████████████████████████████████████▌                                                                                                          | 6770/15000 [4:48:40<5:23:24,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.7945, 'grad_norm': 1.765625, 'learning_rate': 4.642577191525744e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3479.22, 'total_tokens': 55308173, 'epoch': 0.45}
+ 45%|███████████████████████████████████████████████████████████████████████████████████████▌                                                                                                          | 6770/15000 [4:48:40<5:23:24,  2.36s/it] 45%|███████████████████████████████████████████████████████████████████████████████████████▌                                                                                                          | 6771/15000 [4:48:43<5:23:12,  2.36s/it] 45%|███████████████████████████████████████████████████████████████████████████████████████▌                                                                                                          | 6772/15000 [4:48:45<5:23:22,  2.36s/it] 45%|███████████████████████████████████████████████████████████████████████████████████████▌                                                                                                          | 6773/15000 [4:48:48<5:22:52,  2.35s/it] 45%|███████████████████████████████████████████████████████████████████████████████████████▌                                                                                                          | 6774/15000 [4:48:50<5:22:40,  2.35s/it] 45%|███████████████████████████████████████████████████████████████████████████████████████▌                                                                                                          | 6775/15000 [4:48:52<5:22:44,  2.35s/it] 45%|███████████████████████████████████████████████████████████████████████████████████████▋                                                                                                          | 6776/15000 [4:48:55<5:22:56,  2.36s/it] 45%|███████████████████████████████████████████████████████████████████████████████████████▋                                                                                                          | 6777/15000 [4:48:57<5:22:50,  2.36s/it] 45%|███████████████████████████████████████████████████████████████████████████████████████▋                                                                                                          | 6778/15000 [4:48:59<5:22:43,  2.36s/it] 45%|███████████████████████████████████████████████████████████████████████████████████████▋                                                                                                          | 6779/15000 [4:49:02<5:22:52,  2.36s/it] 45%|███████████████████████████████████████████████████████████████████████████████████████▋                                                                                                          | 6780/15000 [4:49:04<5:23:14,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.7542, 'grad_norm': 1.859375, 'learning_rate': 4.638630828230718e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3465.97, 'total_tokens': 55389950, 'epoch': 0.45}
+ 45%|███████████████████████████████████████████████████████████████████████████████████████▋                                                                                                          | 6780/15000 [4:49:04<5:23:14,  2.36s/it] 45%|███████████████████████████████████████████████████████████████████████████████████████▋                                                                                                          | 6781/15000 [4:49:06<5:23:18,  2.36s/it] 45%|███████████████████████████████████████████████████████████████████████████████████████▋                                                                                                          | 6782/15000 [4:49:09<5:23:05,  2.36s/it] 45%|███████████████████████████████████████████████████████████████████████████████████████▋                                                                                                          | 6783/15000 [4:49:11<5:22:51,  2.36s/it] 45%|███████████████████████████████████████████████████████████████████████████████████████▋                                                                                                          | 6784/15000 [4:49:13<5:22:50,  2.36s/it] 45%|███████████████████████████████████████████████████████████████████████████████████████▊                                                                                                          | 6785/15000 [4:49:16<5:22:31,  2.36s/it] 45%|███████████████████████████████████████████████████████████████████████████████████████▊                                                                                                          | 6786/15000 [4:49:18<5:22:55,  2.36s/it] 45%|███████████████████████████████████████████████████████████████████████████████████████▊                                                                                                          | 6787/15000 [4:49:21<5:22:14,  2.35s/it] 45%|███████████████████████████████████████████████████████████████████████████████████████▊                                                                                                          | 6788/15000 [4:49:23<5:22:23,  2.36s/it] 45%|███████████████████████████████████████████████████████████████████████████████████████▊                                                                                                          | 6789/15000 [4:49:25<5:22:05,  2.35s/it] 45%|███████████████████████████████████████████████████████████████████████████████████████▊                                                                                                          | 6790/15000 [4:49:28<5:22:12,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.8014, 'grad_norm': 1.7890625, 'learning_rate': 4.634664591212354e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3480.09, 'total_tokens': 55471742, 'epoch': 0.45}
+ 45%|███████████████████████████████████████████████████████████████████████████████████████▊                                                                                                          | 6790/15000 [4:49:28<5:22:12,  2.35s/it] 45%|███████████████████████████████████████████████████████████████████████████████████████▊                                                                                                          | 6791/15000 [4:49:30<5:21:54,  2.35s/it] 45%|███████████████████████████████████████████████████████████████████████████████████████▊                                                                                                          | 6792/15000 [4:49:32<5:21:42,  2.35s/it] 45%|███████████████████████████████████████████████████████████████████████████████████████▊                                                                                                          | 6793/15000 [4:49:35<5:21:37,  2.35s/it] 45%|███████████████████████████████████████████████████████████████████████████████████████▊                                                                                                          | 6794/15000 [4:49:37<5:21:48,  2.35s/it] 45%|███████████████████████████████████████████████████████████████████████████████████████▉                                                                                                          | 6795/15000 [4:49:39<5:21:49,  2.35s/it] 45%|███████████████████████████████████████████████████████████████████████████████████████▉                                                                                                          | 6796/15000 [4:49:42<5:21:52,  2.35s/it] 45%|███████████████████████████████████████████████████████████████████████████████████████▉                                                                                                          | 6797/15000 [4:49:44<5:21:40,  2.35s/it] 45%|███████████████████████████████████████████████████████████████████████████████████████▉                                                                                                          | 6798/15000 [4:49:46<5:21:31,  2.35s/it] 45%|███████████████████████████████████████████████████████████████████████████████████████▉                                                                                                          | 6799/15000 [4:49:49<5:21:49,  2.35s/it] 45%|███████████████████████████████████████████████████████████████████████████████████████▉                                                                                                          | 6800/15000 [4:49:51<5:21:42,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.7209, 'grad_norm': 1.765625, 'learning_rate': 4.630678519615809e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3486.41, 'total_tokens': 55553520, 'epoch': 0.45}
+ 45%|███████████████████████████████████████████████████████████████████████████████████████▉                                                                                                          | 6800/15000 [4:49:51<5:21:42,  2.35s/it] 45%|███████████████████████████████████████████████████████████████████████████████████████▉                                                                                                          | 6801/15000 [4:49:53<5:21:43,  2.35s/it] 45%|███████████████████████████████████████████████████████████████████████████████████████▉                                                                                                          | 6802/15000 [4:49:56<5:21:37,  2.35s/it] 45%|███████████████████████████████████████████████████████████████████████████████████████▉                                                                                                          | 6803/15000 [4:49:58<5:21:31,  2.35s/it] 45%|███████████████████████████████████████████████████████████████████████████████████████▉                                                                                                          | 6804/15000 [4:50:01<5:21:20,  2.35s/it] 45%|████████████████████████████████████████████████████████████████████████████████████████                                                                                                          | 6805/15000 [4:50:03<5:21:20,  2.35s/it] 45%|████████████████████████████████████████████████████████████████████████████████████████                                                                                                          | 6806/15000 [4:50:05<5:21:13,  2.35s/it] 45%|████████████████████████████████████████████████████████████████████████████████████████                                                                                                          | 6807/15000 [4:50:08<5:21:28,  2.35s/it] 45%|████████████████████████████████████████████████████████████████████████████████████████                                                                                                          | 6808/15000 [4:50:10<5:21:39,  2.36s/it] 45%|████████████████████████████████████████████████████████████████████████████████████████                                                                                                          | 6809/15000 [4:50:12<5:21:44,  2.36s/it] 45%|████████████████████████████████████████████████████████████████████████████████████████                                                                                                          | 6810/15000 [4:50:15<5:21:42,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.6635, 'grad_norm': 2.09375, 'learning_rate': 4.626672652782e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3482.26, 'total_tokens': 55635336, 'epoch': 0.45}
+ 45%|████████████████████████████████████████████████████████████████████████████████████████                                                                                                          | 6810/15000 [4:50:15<5:21:42,  2.36s/it] 45%|████████████████████████████████████████████████████████████████████████████████████████                                                                                                          | 6811/15000 [4:50:17<5:21:18,  2.35s/it] 45%|████████████████████████████████████████████████████████████████████████████████████████                                                                                                          | 6812/15000 [4:50:19<5:21:20,  2.35s/it] 45%|████████████████████████████████████████████████████████████████████████████████████████                                                                                                          | 6813/15000 [4:50:22<5:21:02,  2.35s/it] 45%|████████████████████████████████████████████████████████████████████████████████████████▏                                                                                                         | 6814/15000 [4:50:24<5:21:00,  2.35s/it] 45%|████████████████████████████████████████████████████████████████████████████████████████▏                                                                                                         | 6815/15000 [4:50:26<5:21:09,  2.35s/it] 45%|████████████████████████████████████████████████████████████████████████████████████████▏                                                                                                         | 6816/15000 [4:50:29<5:21:00,  2.35s/it] 45%|████████████████████████████████████████████████████████████████████████████████████████▏                                                                                                         | 6817/15000 [4:50:31<5:20:57,  2.35s/it] 45%|████████████████████████████████████████████████████████████████████████████████████████▏                                                                                                         | 6818/15000 [4:50:33<5:20:51,  2.35s/it] 45%|��███████████████████████████████████████████████████████████████████████████████████████▏                                                                                                         | 6819/15000 [4:50:36<5:20:32,  2.35s/it] 45%|████████████████████████████████████████████████████████████████████████████████████████▏                                                                                                         | 6820/15000 [4:50:38<5:20:10,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.7709, 'grad_norm': 1.6875, 'learning_rate': 4.622647030247217e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3499.43, 'total_tokens': 55717071, 'epoch': 0.45}
+ 45%|████████████████████████████████████████████████████████████████████████████████████████▏                                                                                                         | 6820/15000 [4:50:38<5:20:10,  2.35s/it] 45%|████████████████████████████████████████████████████████████████████████████████████████▏                                                                                                         | 6821/15000 [4:50:41<5:20:32,  2.35s/it] 45%|████████████████████████████████████████████████████████████████████████████████████████▏                                                                                                         | 6822/15000 [4:50:43<5:20:23,  2.35s/it] 45%|████████████████████████████████████████████████████████████████████████████████████████▏                                                                                                         | 6823/15000 [4:50:45<5:20:30,  2.35s/it] 45%|████████████████████████████████████████████████████████████████████████████████████████▎                                                                                                         | 6824/15000 [4:50:48<5:20:29,  2.35s/it] 46%|████████████████████████████████████████████████████████████████████████████████████████▎                                                                                                         | 6825/15000 [4:50:50<5:20:24,  2.35s/it] 46%|████████████████████████████████████████████████████████████████████████████████████████▎                                                                                                         | 6826/15000 [4:50:52<5:20:55,  2.36s/it] 46%|████████████████████████████████████████████████████████████████████████████████████████▎                                                                                                         | 6827/15000 [4:50:55<5:21:02,  2.36s/it] 46%|████████████████████████████████████████████████████████████████████████████████████████▎                                                                                                         | 6828/15000 [4:50:57<5:20:43,  2.35s/it] 46%|████████████████████████████████████████████████████████████████████████████████████████▎                                                                                                         | 6829/15000 [4:50:59<5:20:40,  2.35s/it] 46%|████████████████████████████████████████████████████████████████████████████████████████▎                                                                                                         | 6830/15000 [4:51:02<5:20:40,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.766, 'grad_norm': 1.78125, 'learning_rate': 4.618601691742727e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3482.06, 'total_tokens': 55798836, 'epoch': 0.46}
+ 46%|████████████████████████████████████████████████████████████████████████████████████████▎                                                                                                         | 6830/15000 [4:51:02<5:20:40,  2.35s/it] 46%|████████████████████████████████████████████████████████████████████████████████████████▎                                                                                                         | 6831/15000 [4:51:04<5:20:54,  2.36s/it] 46%|████████████████████████████████████████████████████████████████████████████████████████▎                                                                                                         | 6832/15000 [4:51:06<5:20:54,  2.36s/it] 46%|████████████████████████████████████████████████████████████████████████████████████████▎                                                                                                         | 6833/15000 [4:51:09<5:20:48,  2.36s/it] 46%|████████████████████████████████████████████████████████████████████████████████████████▍                                                                                                         | 6834/15000 [4:51:11<5:20:18,  2.35s/it] 46%|████████████████████████████████████████████████████████████████████████████████████████▍                                                                                                         | 6835/15000 [4:51:13<5:20:05,  2.35s/it] 46%|████████████████████████████████████████████████████████████████████████████████████████▍                                                                                                         | 6836/15000 [4:51:16<5:19:43,  2.35s/it] 46%|████████████████████████████████████████████████████████████████████████████████████████▍                                                                                                         | 6837/15000 [4:51:18<5:20:04,  2.35s/it] 46%|████████████████████████████████████████████████████████████████████████████████████████▍                                                                                                         | 6838/15000 [4:51:21<5:19:43,  2.35s/it] 46%|█���██████████████████████████████████████████████████████████████████████████████████████▍                                                                                                         | 6839/15000 [4:51:23<5:19:55,  2.35s/it] 46%|████████████████████████████████████████████████████████████████████████████████████████▍                                                                                                         | 6840/15000 [4:51:25<5:19:54,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.7898, 'grad_norm': 1.6953125, 'learning_rate': 4.61453667719439e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3487.29, 'total_tokens': 55880635, 'epoch': 0.46}
+ 46%|████████████████████████████████████████████████████████████████████████████████████████▍                                                                                                         | 6840/15000 [4:51:25<5:19:54,  2.35s/it] 46%|████████████████████████████████████████████████████████████████████████████████████████▍                                                                                                         | 6841/15000 [4:51:28<5:20:07,  2.35s/it] 46%|████████████████████████████████████████████████████████████████████████████████████████▍                                                                                                         | 6842/15000 [4:51:30<5:19:56,  2.35s/it] 46%|████████████████████████████████████████████████████████████████████████████████████████▌                                                                                                         | 6843/15000 [4:51:32<5:19:55,  2.35s/it] 46%|████████████████████████████████████████████████████████████████████████████████████████▌                                                                                                         | 6844/15000 [4:51:35<5:19:47,  2.35s/it] 46%|████████████████████████████████████████████████████████████████████████████████████████▌                                                                                                         | 6845/15000 [4:51:37<5:19:57,  2.35s/it] 46%|████████████████████████████████████████████████████████████████████████████████████████▌                                                                                                         | 6846/15000 [4:51:39<5:19:41,  2.35s/it] 46%|████████████████████████████████████████████████████████████████████████████████████████▌                                                                                                         | 6847/15000 [4:51:42<5:19:39,  2.35s/it] 46%|████████████████████████████████████████████████████████████████████████████████████████▌                                                                                                         | 6848/15000 [4:51:44<5:19:38,  2.35s/it] 46%|████████████████████████████████████████████████████████████████████████████████████████▌                                                                                                         | 6849/15000 [4:51:46<5:19:31,  2.35s/it] 46%|████████████████████████████████████████████████████████████████████████████████████████▌                                                                                                         | 6850/15000 [4:51:49<5:19:28,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.7035, 'grad_norm': 1.7734375, 'learning_rate': 4.610452026722257e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3488.6, 'total_tokens': 55962429, 'epoch': 0.46}
+ 46%|████████████████████████████████████████████████████████████████████████████████████████▌                                                                                                         | 6850/15000 [4:51:49<5:19:28,  2.35s/it] 46%|████████████████████████████████████████████████████████████████████████████████████████▌                                                                                                         | 6851/15000 [4:51:51<5:19:26,  2.35s/it] 46%|████████████████████████████████████████████████████████████████████████████████████████▌                                                                                                         | 6852/15000 [4:51:53<5:19:12,  2.35s/it] 46%|████████████████████████████████████████████████████████████████████████████████████████▋                                                                                                         | 6853/15000 [4:51:56<5:19:10,  2.35s/it] 46%|████████████████████████████████████████████████████████████████████████████████████████▋                                                                                                         | 6854/15000 [4:51:58<5:19:10,  2.35s/it] 46%|████████████████████████████████████████████████████████████████████████████████████████▋                                                                                                         | 6855/15000 [4:52:01<5:19:18,  2.35s/it] 46%|████████████████████████████████████████████████████████████████████████████████████████▋                                                                                                         | 6856/15000 [4:52:03<5:19:30,  2.35s/it] 46%|████████████████████████████████████████████████████████████████████████████████████████▋                                                                                                         | 6857/15000 [4:52:05<5:19:28,  2.35s/it] 46%|████████████████████████████████████████████████████████████████████████████████████████▋                                                                                                         | 6858/15000 [4:52:08<5:19:34,  2.36s/it] 46%|��███████████████████████████████████████████████████████████████████████████████████████▋                                                                                                         | 6859/15000 [4:52:10<5:19:32,  2.36s/it] 46%|████████████████████████████████████████████████████████████████████████████████████████▋                                                                                                         | 6860/15000 [4:52:12<5:19:28,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.7893, 'grad_norm': 1.78125, 'learning_rate': 4.60634778064018e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3484.34, 'total_tokens': 56044211, 'epoch': 0.46}
+ 46%|████████████████████████████████████████████████████████████████████████████████████████▋                                                                                                         | 6860/15000 [4:52:12<5:19:28,  2.35s/it] 46%|████████████████████████████████████████████████████████████████████████████████████████▋                                                                                                         | 6861/15000 [4:52:15<5:19:19,  2.35s/it] 46%|████████████████████████████████████████████████████████████████████████████████████████▋                                                                                                         | 6862/15000 [4:52:17<5:19:05,  2.35s/it] 46%|████████████████████████████████████████████████████████████████████████████████████████▊                                                                                                         | 6863/15000 [4:52:19<5:19:06,  2.35s/it] 46%|████████████████████████████████████████████████████████████████████████████████████████▊                                                                                                         | 6864/15000 [4:52:22<5:19:04,  2.35s/it] 46%|████████████████████████████████████████████████████████████████████████████████████████▊                                                                                                         | 6865/15000 [4:52:24<5:18:59,  2.35s/it] 46%|████████████████████████████████████████████████████████████████████████████████████████▊                                                                                                         | 6866/15000 [4:52:26<5:18:47,  2.35s/it] 46%|████████████████████████████████████████████████████████████████████████████████████████▊                                                                                                         | 6867/15000 [4:52:29<5:18:59,  2.35s/it] 46%|████████████████████████████████████████████████████████████████████████████████████████▊                                                                                                         | 6868/15000 [4:52:31<5:18:53,  2.35s/it] 46%|████████████████████████████████████████████████████████████████████████████████████████▊                                                                                                         | 6869/15000 [4:52:33<5:18:50,  2.35s/it] 46%|████████████████████████████████████████████████████████████████████████████████████████▊                                                                                                         | 6870/15000 [4:52:36<5:18:32,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.7134, 'grad_norm': 1.71875, 'learning_rate': 4.6022239794554114e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3494.32, 'total_tokens': 56125960, 'epoch': 0.46}
+ 46%|████████████████████████████████████████████████████████████████████████████████████████▊                                                                                                         | 6870/15000 [4:52:36<5:18:32,  2.35s/it] 46%|████████████████████████████████████████████████████████████████████████████████████████▊                                                                                                         | 6871/15000 [4:52:38<5:18:44,  2.35s/it] 46%|████████████████████████████████████████████████████████████████████████████████████████▉                                                                                                         | 6872/15000 [4:52:41<5:18:45,  2.35s/it] 46%|████████████████████████████████████████████████████████████████████████████████████████▉                                                                                                         | 6873/15000 [4:52:43<5:18:27,  2.35s/it] 46%|████████████████████████████████████████████████████████████████████████████████████████▉                                                                                                         | 6874/15000 [4:52:45<5:18:10,  2.35s/it] 46%|████████████████████████████████████████████████████████████████████████████████████████▉                                                                                                         | 6875/15000 [4:52:48<5:18:49,  2.35s/it] 46%|████████████████████████████████████████████████████████████████████████████████████████▉                                                                                                         | 6876/15000 [4:52:50<5:18:34,  2.35s/it] 46%|████████████████████████████████████████████████████████████████████████████████████████▉                                                                                                         | 6877/15000 [4:52:52<5:18:54,  2.36s/it] 46%|████████████████████████████████████████████████████████████████████████████████████████▉                                                                                                         | 6878/15000 [4:52:55<5:18:42,  2.35s/it] 46%|��███████████████████████████████████████████████████████████████████████████████████████▉                                                                                                         | 6879/15000 [4:52:57<5:18:51,  2.36s/it] 46%|████████████████████████████████████████████████████████████████████████████████████████▉                                                                                                         | 6880/15000 [4:52:59<5:18:59,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.7683, 'grad_norm': 1.921875, 'learning_rate': 4.5980806638682014e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3474.34, 'total_tokens': 56207712, 'epoch': 0.46}
+ 46%|████████████████████████████████████████████████████████████████████████████████████████▉                                                                                                         | 6880/15000 [4:52:59<5:18:59,  2.36s/it] 46%|████████████████████████████████████████████████████████████████████████████████████████▉                                                                                                         | 6881/15000 [4:53:02<5:18:50,  2.36s/it] 46%|█████████████████████████████████████████████████████████████████████████████████████████                                                                                                         | 6882/15000 [4:53:04<5:18:38,  2.36s/it] 46%|█████████████████████████████████████████████████████████████████████████████████████████                                                                                                         | 6883/15000 [4:53:06<5:18:20,  2.35s/it] 46%|█████████████████████████████████████████████████████████████████████████████████████████                                                                                                         | 6884/15000 [4:53:09<5:18:10,  2.35s/it] 46%|█████████████████████████████████████████████████████████████████████████████████████████                                                                                                         | 6885/15000 [4:53:11<5:18:18,  2.35s/it] 46%|█████████████████████████████████████████████████████████████████████████████████████████                                                                                                         | 6886/15000 [4:53:13<5:17:59,  2.35s/it] 46%|█████████████████████████████████████████████████████████████████████████████████████████                                                                                                         | 6887/15000 [4:53:16<5:17:53,  2.35s/it] 46%|█████████████████████████████████████████████████████████████████████████████████████████                                                                                                         | 6888/15000 [4:53:18<5:17:54,  2.35s/it] 46%|█████████████████████████████████████████████████████████████████████████████████████████                                                                                                         | 6889/15000 [4:53:21<5:17:46,  2.35s/it] 46%|█████████████████████████████████████████████████████████████████████████████████████████                                                                                                         | 6890/15000 [4:53:23<5:18:09,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6997, 'grad_norm': 1.78125, 'learning_rate': 4.5939178747714054e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3470.54, 'total_tokens': 56289407, 'epoch': 0.46}
+ 46%|█████████████████████████████████████████████████████████████████████████████████████████                                                                                                         | 6890/15000 [4:53:23<5:18:09,  2.35s/it] 46%|█████████████████████████████████████████████████████████████████████████████████████████                                                                                                         | 6891/15000 [4:53:25<5:18:21,  2.36s/it] 46%|█████████████████████████████████████████████████████████████████████████████████████████▏                                                                                                        | 6892/15000 [4:53:28<5:17:50,  2.35s/it] 46%|█████████████████████████████████████████████████████████████████████████████████████████▏                                                                                                        | 6893/15000 [4:53:30<5:17:29,  2.35s/it] 46%|█████████████████████████████████████████████████████████████████████████████████████████▏                                                                                                        | 6894/15000 [4:53:32<5:17:29,  2.35s/it] 46%|█████████████████████████████████████████████████████████████████████████████████████████▏                                                                                                        | 6895/15000 [4:53:35<5:17:38,  2.35s/it] 46%|█████████████████████████████████████████████████████████████████████████████████████████▏                                                                                                        | 6896/15000 [4:53:37<5:17:30,  2.35s/it] 46%|█████████████████████████████████████████████████████████████████████████████████████████▏                                                                                                        | 6897/15000 [4:53:39<5:17:31,  2.35s/it] 46%|█████████████████████████████████████████████████████████████████████████████████████████▏                                                                                                        | 6898/15000 [4:53:42<5:18:00,  2.36s/it] 46%|█████████████████████████████████████████████████████████████████████████████████████████▏                                                                                                        | 6899/15000 [4:53:44<5:18:01,  2.36s/it] 46%|█████████████████████████████████████████████████████████████████████████████████████████▏                                                                                                        | 6900/15000 [4:53:46<5:17:54,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.7459, 'grad_norm': 1.75, 'learning_rate': 4.589735653250069e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3484.82, 'total_tokens': 56371176, 'epoch': 0.46}
+ 46%|█████████████████████████████████████████████████████████████████████████████████████████▏                                                                                                        | 6900/15000 [4:53:46<5:17:54,  2.35s/it] 46%|█████████████████████████████████████████████████████████████████████████████████████████▎                                                                                                        | 6901/15000 [4:53:49<5:18:02,  2.36s/it] 46%|█████████████████████████████████████████████████████████████████████████████████████████▎                                                                                                        | 6902/15000 [4:53:51<5:17:48,  2.35s/it] 46%|█████████████████████████████████████████████████████████████████████████████████████████▎                                                                                                        | 6903/15000 [4:53:53<5:17:57,  2.36s/it] 46%|█████████████████████████████████████████████████████████████████████████████████████████▎                                                                                                        | 6904/15000 [4:53:56<5:18:08,  2.36s/it] 46%|█████████████████████████████████████████████████████████████████████████████████████████▎                                                                                                        | 6905/15000 [4:53:58<5:17:58,  2.36s/it] 46%|█████████████████████████████████████████████████████████████████████████████████████████▎                                                                                                        | 6906/15000 [4:54:01<5:17:54,  2.36s/it] 46%|█████████████████████████████████████████████████████████████████████████████████████████▎                                                                                                        | 6907/15000 [4:54:03<5:17:38,  2.35s/it] 46%|█████████████████████████████████████████████████████████████████████████████████████████▎                                                                                                        | 6908/15000 [4:54:05<5:17:54,  2.36s/it] 46%|█████████████████████████████████████████████████████████████████████████████████████████▎                                                                                                        | 6909/15000 [4:54:08<5:17:49,  2.36s/it] 46%|█████████████████████████████████████████████████████████████████████████████████████████▎                                                                                                        | 6910/15000 [4:54:10<5:17:34,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.7396, 'grad_norm': 1.9609375, 'learning_rate': 4.585534040581031e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3485.47, 'total_tokens': 56452899, 'epoch': 0.46}
+ 46%|█████████████████████████████████████████████████████████████████████████████████████████▎                                                                                                        | 6910/15000 [4:54:10<5:17:34,  2.36s/it] 46%|█████████████████████████████████████████████████████████████████████████████████████████▍                                                                                                        | 6911/15000 [4:54:12<5:17:42,  2.36s/it] 46%|█████████████████████████████████████████████████████████████████████████████████████████▍                                                                                                        | 6912/15000 [4:54:15<5:17:11,  2.35s/it] 46%|█████████████████████████████████████████████████████████████████████████████████████████▍                                                                                                        | 6913/15000 [4:54:17<5:17:05,  2.35s/it] 46%|█████████████████████████████████████████████████████████████████████████████████████████▍                                                                                                        | 6914/15000 [4:54:19<5:17:20,  2.35s/it] 46%|█████████████████████████████████████████████████████████████████████████████████████████▍                                                                                                        | 6915/15000 [4:54:22<5:17:10,  2.35s/it] 46%|█████████████████████████████████████████████████████████████████████████████████████████▍                                                                                                        | 6916/15000 [4:54:24<5:17:18,  2.36s/it] 46%|█████████████████████████████████████████████████████████████████████████████████████████▍                                                                                                        | 6917/15000 [4:54:27<5:36:40,  2.50s/it] 46%|█████████████████████████████████████████████████████████████████████████████████████████▍                                                                                                        | 6918/15000 [4:54:29<5:30:17,  2.45s/it] 46%|█████████████████████████████████████████████████████████████████████████████████████████▍                                                                                                        | 6919/15000 [4:54:32<5:26:15,  2.42s/it] 46%|█████████████████████████████████████████████████████████████████████████████████████████▍                                                                                                        | 6920/15000 [4:54:34<5:23:44,  2.40s/it]                                                                                                                                                                                                                                                {'loss': 2.7263, 'grad_norm': 1.78125, 'learning_rate': 4.581313078232512e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3471.5, 'total_tokens': 56534617, 'epoch': 0.46}
+ 46%|█████████████████████████████████████████████████████████████████████████████████████████▍                                                                                                        | 6920/15000 [4:54:34<5:23:44,  2.40s/it] 46%|█████████████████████████████████████████████████████████████████████████████████████████▌                                                                                                        | 6921/15000 [4:54:36<5:21:24,  2.39s/it] 46%|█████████████████████████████████████████████████████████████████████████████████████████▌                                                                                                        | 6922/15000 [4:54:39<5:20:05,  2.38s/it] 46%|█████████████████████████████████████████████████████████████████████████████████████████▌                                                                                                        | 6923/15000 [4:54:41<5:19:22,  2.37s/it] 46%|█████████████████████████████████████████████████████████████████████████████████████████▌                                                                                                        | 6924/15000 [4:54:43<5:18:44,  2.37s/it] 46%|█████████████████████████████████████████████████████████████████████████████████████████▌                                                                                                        | 6925/15000 [4:54:46<5:18:00,  2.36s/it] 46%|█████████████████████████████████████████████████████████████████████████████████████████▌                                                                                                        | 6926/15000 [4:54:48<5:17:39,  2.36s/it] 46%|█████████████████████████████████████████████████████████████████████████████████████████▌                                                                                                        | 6927/15000 [4:54:50<5:17:22,  2.36s/it] 46%|█████████████████████████████████████████████████████████████████████████████████████████▌                                                                                                        | 6928/15000 [4:54:53<5:17:05,  2.36s/it] 46%|█████████████████████████████████████████████████████████████████████████████████████████▌                                                                                                        | 6929/15000 [4:54:55<5:17:01,  2.36s/it] 46%|█████████████████████████████████████████████████████████████████████████████████████████▋                                                                                                        | 6930/15000 [4:54:58<5:17:07,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.6895, 'grad_norm': 1.8359375, 'learning_rate': 4.5770728078637064e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3475.19, 'total_tokens': 56616396, 'epoch': 0.46}
+ 46%|█████████████████████████████████████████████████████████████████████████████████████████▋                                                                                                        | 6930/15000 [4:54:58<5:17:07,  2.36s/it] 46%|█████████████████████████████████████████████████████████████████████████████████████████▋                                                                                                        | 6931/15000 [4:55:00<5:17:09,  2.36s/it] 46%|█████████████████████████████████████████████████████████████████████████████████████████▋                                                                                                        | 6932/15000 [4:55:02<5:17:02,  2.36s/it] 46%|█████████████████████████████████████████████████████████████████████████████████████████▋                                                                                                        | 6933/15000 [4:55:05<5:16:41,  2.36s/it] 46%|█████████████████████████████████████████████████████████████████████████████████████████▋                                                                                                        | 6934/15000 [4:55:07<5:16:35,  2.36s/it] 46%|█████████████████████████████████████████████████████████████████████████████████████████▋                                                                                                        | 6935/15000 [4:55:09<5:16:23,  2.35s/it] 46%|█████████████████████████████████████████████████████████████████████████████████████████▋                                                                                                        | 6936/15000 [4:55:12<5:16:26,  2.35s/it] 46%|█████████████████████████████████████████████████████████████████████████████████████████▋                                                                                                        | 6937/15000 [4:55:14<5:16:20,  2.35s/it] 46%|█████████████████████████████████████████████████████████████████████████████████████████▋                                                                                                        | 6938/15000 [4:55:16<5:16:25,  2.35s/it] 46%|█████████████████████████████████████████████████████████████████████████████████████████▋                                                                                                        | 6939/15000 [4:55:19<5:16:24,  2.36s/it] 46%|█████████████████████████████████████████████████████████████████████████████████████████▊                                                                                                        | 6940/15000 [4:55:21<5:16:25,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.7527, 'grad_norm': 1.796875, 'learning_rate': 4.572813271324371e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3481.42, 'total_tokens': 56698185, 'epoch': 0.46}
+ 46%|█████████████████████████████████████████████████████████████████████████████████████████▊                                                                                                        | 6940/15000 [4:55:21<5:16:25,  2.36s/it] 46%|█████████████████████████████████████████████████████████████████████████████████████████▊                                                                                                        | 6941/15000 [4:55:23<5:16:31,  2.36s/it] 46%|█████████████████████████████████████████████████████████████████████████████████████████▊                                                                                                        | 6942/15000 [4:55:26<5:16:23,  2.36s/it] 46%|█████████████████████████████████████████████████████████████████████████████████████████▊                                                                                                        | 6943/15000 [4:55:28<5:16:06,  2.35s/it] 46%|█████████████████████████████████████████████████████████████████████████████████████████▊                                                                                                        | 6944/15000 [4:55:31<5:15:59,  2.35s/it] 46%|█████████████████████████████████████████████████████████████████████████████████████████▊                                                                                                        | 6945/15000 [4:55:33<5:15:58,  2.35s/it] 46%|█████████████████████████████████████████████████████████████████████████████████████████▊                                                                                                        | 6946/15000 [4:55:35<5:15:44,  2.35s/it] 46%|█████████████████████████████████████████████████████████████████████████████████████████▊                                                                                                        | 6947/15000 [4:55:38<5:15:22,  2.35s/it] 46%|█████████████████████████████████████████████████████████████████████████████████████████▊                                                                                                        | 6948/15000 [4:55:40<5:15:34,  2.35s/it] 46%|█████████████████████████████████████████████████████████████████████████████████████████▊                                                                                                        | 6949/15000 [4:55:42<5:15:23,  2.35s/it] 46%|█████████████████████████████████████████████████████████████████████████████████████████▉                                                                                                        | 6950/15000 [4:55:45<5:15:34,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.7531, 'grad_norm': 1.9453125, 'learning_rate': 4.568534510654411e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3479.66, 'total_tokens': 56779911, 'epoch': 0.46}
+ 46%|█████████████████████████████████████████████████████████████████████████████████████████▉                                                                                                        | 6950/15000 [4:55:45<5:15:34,  2.35s/it] 46%|█████████████████████████████████████████████████████████████████████████████████████████▉                                                                                                        | 6951/15000 [4:55:47<5:15:58,  2.36s/it] 46%|█████████████████████████████████████████████████████████████████████████████████████████▉                                                                                                        | 6952/15000 [4:55:49<5:15:55,  2.36s/it] 46%|█████████████████████████████████████████████████████████████████████████████████████████▉                                                                                                        | 6953/15000 [4:55:52<5:15:40,  2.35s/it] 46%|█████████████████████████████████████████████████████████████████████████████████████████▉                                                                                                        | 6954/15000 [4:55:54<5:15:39,  2.35s/it] 46%|█████████████████████████████████████████████████████████████████████████████████████████▉                                                                                                        | 6955/15000 [4:55:56<5:15:05,  2.35s/it] 46%|█████████████████████████████████████████████████████████████████████████████████████████▉                                                                                                        | 6956/15000 [4:55:59<5:15:00,  2.35s/it] 46%|█████████████████████████████████████████████████████████████████████████████████████████▉                                                                                                        | 6957/15000 [4:56:01<5:15:06,  2.35s/it] 46%|█████████████████████████████████████████████████████████████████████████████████████████▉                                                                                                        | 6958/15000 [4:56:03<5:15:24,  2.35s/it] 46%|██████████████████████████████████████████████████████████████████████████████████████████                                                                                                        | 6959/15000 [4:56:06<5:15:13,  2.35s/it] 46%|██████████████████████████████████████████████████████████████████████████████████████████                                                                                                        | 6960/15000 [4:56:08<5:15:20,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.7143, 'grad_norm': 1.8125, 'learning_rate': 4.564236568083468e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3481.2, 'total_tokens': 56861684, 'epoch': 0.46}
+ 46%|██████████████████████████████████████████████████████████████████████████████████████████                                                                                                        | 6960/15000 [4:56:08<5:15:20,  2.35s/it] 46%|██████████████████████████████████████████████████████████████████████████████████████████                                                                                                        | 6961/15000 [4:56:11<5:15:34,  2.36s/it] 46%|██████████████████████████████████████████████████████████████████████████████████████████                                                                                                        | 6962/15000 [4:56:13<5:15:28,  2.35s/it] 46%|██████████████████████████████████████████████████████████████████████████████████████████                                                                                                        | 6963/15000 [4:56:15<5:15:27,  2.36s/it] 46%|██████████████████████████████████████████████████████████████████████████████████████████                                                                                                        | 6964/15000 [4:56:18<5:15:42,  2.36s/it] 46%|██████████████████████████████████████████████████████████████████████████████████████████                                                                                                        | 6965/15000 [4:56:20<5:15:35,  2.36s/it] 46%|██████████████████████████████████████████████████████████████████████████████████████████                                                                                                        | 6966/15000 [4:56:22<5:15:24,  2.36s/it] 46%|██████████████████████████████████████████████████████████████████████████████████████████                                                                                                        | 6967/15000 [4:56:25<5:15:13,  2.35s/it] 46%|███████████████████████████████████████████████████████████████████████████████████���██████                                                                                                        | 6968/15000 [4:56:27<5:15:10,  2.35s/it] 46%|██████████████████████████████████████████████████████████████████████████████████████████▏                                                                                                       | 6969/15000 [4:56:29<5:15:00,  2.35s/it] 46%|██████████████████████████████████████████████████████████████████████████████████████████▏                                                                                                       | 6970/15000 [4:56:32<5:14:53,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.7119, 'grad_norm': 1.703125, 'learning_rate': 4.5599194860305e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3485.62, 'total_tokens': 56943393, 'epoch': 0.46}
+ 46%|██████████████████████████████████████████████████████████████████████████████████████████▏                                                                                                       | 6970/15000 [4:56:32<5:14:53,  2.35s/it] 46%|██████████████████████████████████████████████████████████████████████████████████████████▏                                                                                                       | 6971/15000 [4:56:34<5:14:46,  2.35s/it] 46%|██████████████████████████████████████████████████████████████████████████████████████████▏                                                                                                       | 6972/15000 [4:56:36<5:14:52,  2.35s/it] 46%|██████████████████████████████████████████████████████████████████████████████████████████▏                                                                                                       | 6973/15000 [4:56:39<5:14:43,  2.35s/it] 46%|██████████████████████████████████████████████████████████████████████████████████████████▏                                                                                                       | 6974/15000 [4:56:41<5:14:47,  2.35s/it] 46%|██████████████████████████████████████████████████████████████████████████████████████████▏                                                                                                       | 6975/15000 [4:56:43<5:15:15,  2.36s/it] 47%|██████████████████████████████████████████████████████████████████████████████████████████▏                                                                                                       | 6976/15000 [4:56:46<5:14:59,  2.36s/it] 47%|██████████████████████████████████████████████████████████████████████████████████████████▏                                                                                                       | 6977/15000 [4:56:48<5:14:44,  2.35s/it] 47%|█████████████████████████████████████████████████████████████████████��████████████████████▏                                                                                                       | 6978/15000 [4:56:51<5:14:47,  2.35s/it] 47%|██████████████████████████████████████████████████████████████████████████████████████████▎                                                                                                       | 6979/15000 [4:56:53<5:14:51,  2.36s/it] 47%|██████████████████████████████████████████████████████████████████████████████████████████▎                                                                                                       | 6980/15000 [4:56:55<5:14:42,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.797, 'grad_norm': 1.7421875, 'learning_rate': 4.555583307103363e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3483.65, 'total_tokens': 57025094, 'epoch': 0.47}
+ 47%|██████████████████████████████████████████████████████████████████████████████████████████▎                                                                                                       | 6980/15000 [4:56:55<5:14:42,  2.35s/it] 47%|██████████████████████████████████████████████████████████████████████████████████████████▎                                                                                                       | 6981/15000 [4:56:58<5:14:54,  2.36s/it] 47%|██████████████████████████████████████████████████████████████████████████████████████████▎                                                                                                       | 6982/15000 [4:57:00<5:14:40,  2.35s/it] 47%|██████████████████████████████████████████████████████████████████████████████████████████▎                                                                                                       | 6983/15000 [4:57:02<5:14:26,  2.35s/it] 47%|██████████████████████████████████████████████████████████████████████████████████████████▎                                                                                                       | 6984/15000 [4:57:05<5:14:23,  2.35s/it] 47%|██████████████████████████████████████████████████████████████████████████████████████████▎                                                                                                       | 6985/15000 [4:57:07<5:14:11,  2.35s/it] 47%|██████████████████████████████████████████████████████████████████████████████████████████▎                                                                                                       | 6986/15000 [4:57:09<5:14:22,  2.35s/it] 47%|██████████████████████████████████████████████████████████████████████████████████████████▎                                                                                                       | 6987/15000 [4:57:12<5:14:10,  2.35s/it] 47%|██████████████████████████████████████████████████████��███████████████████████████████████▍                                                                                                       | 6988/15000 [4:57:14<5:13:54,  2.35s/it] 47%|██████████████████████████████████████████████████████████████████████████████████████████▍                                                                                                       | 6989/15000 [4:57:16<5:13:50,  2.35s/it] 47%|██████████████████████████████████████████████████████████████████████████████████████████▍                                                                                                       | 6990/15000 [4:57:19<5:13:53,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.7652, 'grad_norm': 1.6875, 'learning_rate': 4.551228074098393e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3484.35, 'total_tokens': 57106837, 'epoch': 0.47}
+ 47%|██████████████████████████████████████████████████████████████████████████████████████████▍                                                                                                       | 6990/15000 [4:57:19<5:13:53,  2.35s/it] 47%|██████████████████████████████████████████████████████████████████████████████████████████▍                                                                                                       | 6991/15000 [4:57:21<5:13:56,  2.35s/it] 47%|██████████████████████████████████████████████████████████████████████████████████████████▍                                                                                                       | 6992/15000 [4:57:23<5:13:39,  2.35s/it] 47%|██████████████████████████████████████████████████████████████████████████████████████████▍                                                                                                       | 6993/15000 [4:57:26<5:13:57,  2.35s/it] 47%|██████████████████████████████████████████████████████████████████████████████████████████▍                                                                                                       | 6994/15000 [4:57:28<5:14:03,  2.35s/it] 47%|██████████████████████████████████████████████████████████████████████████████████████████▍                                                                                                       | 6995/15000 [4:57:31<5:13:53,  2.35s/it] 47%|██████████████████████████████████████████████████████████████████████████████████████████▍                                                                                                       | 6996/15000 [4:57:33<5:14:02,  2.35s/it] 47%|██████████████████████████████████████████████████████████████████████████████████████████▍                                                                                                       | 6997/15000 [4:57:35<5:13:51,  2.35s/it] 47%|████████████████████████████████████████���█████████████████████████████████████████████████▌                                                                                                       | 6998/15000 [4:57:38<5:13:52,  2.35s/it] 47%|██████████████████████████████████████████████████████████████████████████████████████████▌                                                                                                       | 6999/15000 [4:57:40<5:13:38,  2.35s/it] 47%|██████████████████████████████████████████████████████████████████████████████████████████▌                                                                                                       | 7000/15000 [4:57:42<5:13:42,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.7799, 'grad_norm': 1.796875, 'learning_rate': 4.546853829999981e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3480.58, 'total_tokens': 57188539, 'epoch': 0.47}
+ 47%|██████████████████████████████████████████████████████████████████████████████████████████▌                                                                                                       | 7000/15000 [4:57:42<5:13:42,  2.35s/it] 47%|██████████████████████████████████████████████████████████████████████████████████████████▌                                                                                                       | 7001/15000 [4:57:45<5:13:35,  2.35s/it] 47%|██████████████████████████████████████████████████████████████████████████████████████████▌                                                                                                       | 7002/15000 [4:57:47<5:13:24,  2.35s/it] 47%|██████████████████████████████████████████████████████████████████████████████████████████▌                                                                                                       | 7003/15000 [4:57:49<5:13:24,  2.35s/it] 47%|██████████████████████████████████████████████████████████████████████████████████████████▌                                                                                                       | 7004/15000 [4:57:52<5:13:16,  2.35s/it] 47%|██████████████████████████████████████████████████████████████████████████████████████████▌                                                                                                       | 7005/15000 [4:57:54<5:13:29,  2.35s/it] 47%|██████████████████████████████████████████████████████████████████████████████████████████▌                                                                                                       | 7006/15000 [4:57:56<5:13:21,  2.35s/it] 47%|██████████████████████████████████████████████████████████████████████████████████████████▌                                                                                                       | 7007/15000 [4:57:59<5:13:42,  2.35s/it] 47%|█████████████████████████���████████████████████████████████████████████████████████████████▋                                                                                                       | 7008/15000 [4:58:01<5:13:17,  2.35s/it] 47%|██████████████████████████████████████████████████████████████████████████████████████████▋                                                                                                       | 7009/15000 [4:58:03<5:13:01,  2.35s/it] 47%|██████████████████████████████████████████████████████████████████████████████████████████▋                                                                                                       | 7010/15000 [4:58:06<5:13:12,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.7393, 'grad_norm': 4.1875, 'learning_rate': 4.542460617980151e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3474.1, 'total_tokens': 57270140, 'epoch': 0.47}
+ 47%|██████████████████████████████████████████████████████████████████████████████████████████▋                                                                                                       | 7010/15000 [4:58:06<5:13:12,  2.35s/it] 47%|██████████████████████████████████████████████████████████████████████████████████████████▋                                                                                                       | 7011/15000 [4:58:08<5:13:23,  2.35s/it] 47%|██████████████████████████████████████████████████████████████████████████████████████████▋                                                                                                       | 7012/15000 [4:58:11<5:13:32,  2.36s/it] 47%|██████████████████████████████████████████████████████████████████████████████████████████▋                                                                                                       | 7013/15000 [4:58:13<5:13:56,  2.36s/it] 47%|██████████████████████████████████████████████████████████████████████████████████████████▋                                                                                                       | 7014/15000 [4:58:15<5:13:50,  2.36s/it] 47%|██████████████████████████████████████████████████████████████████████████████████████████▋                                                                                                       | 7015/15000 [4:58:18<5:14:05,  2.36s/it] 47%|██████████████████████████████████████████████████████████████████████████████████████████▋                                                                                                       | 7016/15000 [4:58:20<5:13:47,  2.36s/it] 47%|██████████████████████████████████████████████████████████████████████████████████████████▊                                                                                                       | 7017/15000 [4:58:22<5:13:33,  2.36s/it] 47%|███████████���██████████████████████████████████████████████████████████████████████████████▊                                                                                                       | 7018/15000 [4:58:25<5:13:52,  2.36s/it] 47%|██████████████████████████████████████████████████████████████████████████████████████████▊                                                                                                       | 7019/15000 [4:58:27<5:13:34,  2.36s/it] 47%|██████████████████████████████████████████████████████████████████████████████████████████▊                                                                                                       | 7020/15000 [4:58:29<5:13:11,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.7665, 'grad_norm': 1.8203125, 'learning_rate': 4.5380484813981315e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3489.02, 'total_tokens': 57351843, 'epoch': 0.47}
+ 47%|██████████████████████████████████████████████████████████████████████████████████████████▊                                                                                                       | 7020/15000 [4:58:29<5:13:11,  2.35s/it] 47%|██████████████████████████████████████████████████████████████████████████████████████████▊                                                                                                       | 7021/15000 [4:58:32<5:13:27,  2.36s/it] 47%|██████████████████████████████████████████████████████████████████████████████████████████▊                                                                                                       | 7022/15000 [4:58:34<5:13:10,  2.36s/it] 47%|██████████████████████████████████████████████████████████████████████████████████████████▊                                                                                                       | 7023/15000 [4:58:36<5:13:01,  2.35s/it] 47%|██████████████████████████████████████████████████████████████████████████████████████████▊                                                                                                       | 7024/15000 [4:58:39<5:12:56,  2.35s/it] 47%|██████████████████████████████████████████████████████████████████████████████████████████▊                                                                                                       | 7025/15000 [4:58:41<5:12:50,  2.35s/it] 47%|██████████████████████████████████████████████████████████████████████████████████████████▊                                                                                                       | 7026/15000 [4:58:44<5:12:40,  2.35s/it] 47%|██████████████████████████████████████████████████████████████████████████████████████████▉                                                                                                       | 7027/15000 [4:58:46<5:12:36,  2.35s/it] 47%|██████████████████████████████████████████████████████████████████████████████████████████▉                                                                                                       | 7028/15000 [4:58:48<5:12:36,  2.35s/it] 47%|██████████████████████████████████████████████████████████████████████████████████████████▉                                                                                                       | 7029/15000 [4:58:51<5:12:37,  2.35s/it] 47%|██████████████████████████████████████████████████████████████████████████████████████████▉                                                                                                       | 7030/15000 [4:58:53<5:12:24,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.8042, 'grad_norm': 1.8359375, 'learning_rate': 4.5336174637999294e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3485.47, 'total_tokens': 57433482, 'epoch': 0.47}
+ 47%|██████████████████████████████████████████████████████████████████████████████████████████▉                                                                                                       | 7030/15000 [4:58:53<5:12:24,  2.35s/it] 47%|██████████████████████████████████████████████████████████████████████████████████████████▉                                                                                                       | 7031/15000 [4:58:55<5:12:33,  2.35s/it] 47%|██████████████████████████████████████████████████████████████████████████████████████████▉                                                                                                       | 7032/15000 [4:58:58<5:12:40,  2.35s/it] 47%|██████████████████████████████████████████████████████████████████████████████████████████▉                                                                                                       | 7033/15000 [4:59:00<5:12:32,  2.35s/it] 47%|██████████████████████████████████████████████████████████████████████████████████████████▉                                                                                                       | 7034/15000 [4:59:02<5:12:27,  2.35s/it] 47%|██████████████████████████████████████████████████████████████████████████████████████████▉                                                                                                       | 7035/15000 [4:59:05<5:12:24,  2.35s/it] 47%|██████████████████████████████████████████████████████████████████████████████████████████▉                                                                                                       | 7036/15000 [4:59:07<5:12:25,  2.35s/it] 47%|███████████████████████████████████████████████████████████████████████████████████████████                                                                                                       | 7037/15000 [4:59:09<5:12:12,  2.35s/it] 47%|███████████████████████████████████████████████████████████████████████████████████████████                                                                                                       | 7038/15000 [4:59:12<5:12:03,  2.35s/it] 47%|███████████████████████████████████████████████████████████████████████████████████████████                                                                                                       | 7039/15000 [4:59:14<5:12:02,  2.35s/it] 47%|███████████████████████████████████████████████████████████████████████████████████████████                                                                                                       | 7040/15000 [4:59:16<5:11:56,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.7875, 'grad_norm': 1.7578125, 'learning_rate': 4.5291676089179e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3488.63, 'total_tokens': 57515217, 'epoch': 0.47}
+ 47%|███████████████████████████████████████████████████████████████████████████████████████████                                                                                                       | 7040/15000 [4:59:16<5:11:56,  2.35s/it] 47%|███████████████████████████████████████████████████████████████████████████████████████████                                                                                                       | 7041/15000 [4:59:19<5:12:12,  2.35s/it] 47%|███████████████████████████████████████████████████████████████████████████████████████████                                                                                                       | 7042/15000 [4:59:21<5:12:13,  2.35s/it] 47%|███████████████████████████████████████████████████████████████████████████████████████████                                                                                                       | 7043/15000 [4:59:24<5:12:12,  2.35s/it] 47%|███████████████████████████████████████████████████████████████████████████████████████████                                                                                                       | 7044/15000 [4:59:26<5:12:06,  2.35s/it] 47%|███████████████████████████████████████████████████████████████████████████████████████████                                                                                                       | 7045/15000 [4:59:28<5:11:56,  2.35s/it] 47%|███████████████████████████████████████████████████████████████████████████████████████████▏                                                                                                      | 7046/15000 [4:59:31<5:12:07,  2.35s/it] 47%|███████████████████████████████████████████████████████████████████████████████████████████▏                                                                                                      | 7047/15000 [4:59:33<5:12:04,  2.35s/it] 47%|███████████████████████████████████████████████████████████████████████████████████████████▏                                                                                                      | 7048/15000 [4:59:35<5:11:53,  2.35s/it] 47%|███████████████████████████████████████████████████████████████████████████████████████████▏                                                                                                      | 7049/15000 [4:59:38<5:11:36,  2.35s/it] 47%|███████████████████████████████████████████████████████████████████████████████████████████▏                                                                                                      | 7050/15000 [4:59:40<5:11:42,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.7536, 'grad_norm': 1.71875, 'learning_rate': 4.524698960670315e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3477.52, 'total_tokens': 57596859, 'epoch': 0.47}
+ 47%|███████████████████████████████████████████████████████████████████████████████████████████▏                                                                                                      | 7050/15000 [4:59:40<5:11:42,  2.35s/it] 47%|███████████████████████████████████████████████████████████████████████████████████████████▏                                                                                                      | 7051/15000 [4:59:42<5:11:40,  2.35s/it] 47%|███████████████████████████████████████████████████████████████████████████████████████████▏                                                                                                      | 7052/15000 [4:59:45<5:11:36,  2.35s/it] 47%|███████████████████████████████████████████████████████████████████████████████████████████▏                                                                                                      | 7053/15000 [4:59:47<5:11:19,  2.35s/it] 47%|███████████████████████████████████████████████████████████████████████████████████████████▏                                                                                                      | 7054/15000 [4:59:49<5:11:25,  2.35s/it] 47%|███████████████████████████████████████████████████████████████████████████████████████████▏                                                                                                      | 7055/15000 [4:59:52<5:11:21,  2.35s/it] 47%|███████████████████████████████████████████████████████████████████████████████████████████▎                                                                                                      | 7056/15000 [4:59:54<5:11:26,  2.35s/it] 47%|███████████████████████████████████████████████████████████████████████████████████��███████▎                                                                                                      | 7057/15000 [4:59:56<5:11:30,  2.35s/it] 47%|███████████████████████████████████████████████████████████████████████████████████████████▎                                                                                                      | 7058/15000 [4:59:59<5:11:45,  2.36s/it] 47%|███████████████████████████████████████████████████████████████████████████████████████████▎                                                                                                      | 7059/15000 [5:00:01<5:11:38,  2.35s/it] 47%|███████████████████████████████████████████████████████████████████████████████████████████▎                                                                                                      | 7060/15000 [5:00:04<5:11:25,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.7654, 'grad_norm': 1.75, 'learning_rate': 4.520211563160926e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3487.38, 'total_tokens': 57678561, 'epoch': 0.47}
+ 47%|███████████████████████████████████████████████████████████████████████████████████████████▎                                                                                                      | 7060/15000 [5:00:04<5:11:25,  2.35s/it] 47%|███████████████████████████████████████████████████████████████████████████████████████████▎                                                                                                      | 7061/15000 [5:00:06<5:11:44,  2.36s/it] 47%|███████████████████████████████████████████████████████████████████████████████████████████▎                                                                                                      | 7062/15000 [5:00:08<5:11:24,  2.35s/it] 47%|███████████████████████████████████████████████████████████████████████████████████████████▎                                                                                                      | 7063/15000 [5:00:11<5:11:08,  2.35s/it] 47%|███████████████████████████████████████████████████████████████████████████████████████████▎                                                                                                      | 7064/15000 [5:00:13<5:10:51,  2.35s/it] 47%|███████████████████████████████████████████████████████████████████████████████████████████▎                                                                                                      | 7065/15000 [5:00:15<5:11:01,  2.35s/it] 47%|███████████████████████████████████████████████████████████████████████████████████████████▍                                                                                                      | 7066/15000 [5:00:18<5:11:02,  2.35s/it] 47%|██████████████████████████████████████████████████████████████��████████████████████████████▍                                                                                                      | 7067/15000 [5:00:20<5:11:13,  2.35s/it] 47%|███████████████████████████████████████████████████████████████████████████████████████████▍                                                                                                      | 7068/15000 [5:00:22<5:11:11,  2.35s/it] 47%|███████████████████████████████████████████████████████████████████████████████████████████▍                                                                                                      | 7069/15000 [5:00:25<5:10:53,  2.35s/it] 47%|███████████████████████████████████████████████████████████████████████████████████████████▍                                                                                                      | 7070/15000 [5:00:27<5:10:52,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.614, 'grad_norm': 1.7265625, 'learning_rate': 4.515705460678537e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3486.41, 'total_tokens': 57760334, 'epoch': 0.47}
+ 47%|███████████████████████████████████████████████████████████████████████████████████████████▍                                                                                                      | 7070/15000 [5:00:27<5:10:52,  2.35s/it] 47%|███████████████████████████████████████████████████████████████████████████████████████████▍                                                                                                      | 7071/15000 [5:00:29<5:11:10,  2.35s/it] 47%|███████████████████████████████████████████████████████████████████████████████████████████▍                                                                                                      | 7072/15000 [5:00:32<5:11:04,  2.35s/it] 47%|███████████████████████████████████████████████████████████████████████████████████████████▍                                                                                                      | 7073/15000 [5:00:34<5:11:08,  2.36s/it] 47%|███████████████████████████████████████████████████████████████████████████████████████████▍                                                                                                      | 7074/15000 [5:00:36<5:10:51,  2.35s/it] 47%|███████████████████████████████████████████████████████████████████████████████████████████▌                                                                                                      | 7075/15000 [5:00:39<5:10:46,  2.35s/it] 47%|███████████████████████████████████████████████████████████████████████████████████████████▌                                                                                                      | 7076/15000 [5:00:41<5:10:46,  2.35s/it] 47%|████████████████████████████████████████���██████████████████████████████████████████████████▌                                                                                                      | 7077/15000 [5:00:44<5:10:33,  2.35s/it] 47%|███████████████████████████████████████████████████████████████████████████████████████████▌                                                                                                      | 7078/15000 [5:00:46<5:10:49,  2.35s/it] 47%|███████████████████████████████████████████████████████████████████████████████████████████▌                                                                                                      | 7079/15000 [5:00:48<5:10:28,  2.35s/it] 47%|███████████████████████████████████████████████████████████████████████████████████████████▌                                                                                                      | 7080/15000 [5:00:51<5:10:19,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.7316, 'grad_norm': 1.765625, 'learning_rate': 4.5111806976965606e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3488.96, 'total_tokens': 57842049, 'epoch': 0.47}
+ 47%|███████████████████████████████████████████████████████████████████████████████████████████▌                                                                                                      | 7080/15000 [5:00:51<5:10:19,  2.35s/it] 47%|███████████████████████████████████████████████████████████████████████████████████████████▌                                                                                                      | 7081/15000 [5:00:53<5:10:46,  2.35s/it] 47%|███████████████████████████████████████████████████████████████████████████████████████████▌                                                                                                      | 7082/15000 [5:00:55<5:10:40,  2.35s/it] 47%|███████████████████████████████████████████████████████████████████████████████████████████▌                                                                                                      | 7083/15000 [5:00:58<5:10:26,  2.35s/it] 47%|███████████████████████████████████████████████████████████████████████████████████████████▌                                                                                                      | 7084/15000 [5:01:00<5:10:14,  2.35s/it] 47%|███████████████████████████████████████████████████████████████████████████████████████████▋                                                                                                      | 7085/15000 [5:01:02<5:10:03,  2.35s/it] 47%|███████████████████████████████████████████████████████████████████████████████████████████▋                                                                                                      | 7086/15000 [5:01:05<5:10:10,  2.35s/it] 47%|█████████████████��█████████████████████████████████████████████████████████████████████████▋                                                                                                      | 7087/15000 [5:01:07<5:10:25,  2.35s/it] 47%|███████████████████████████████████████████████████████████████████████████████████████████▋                                                                                                      | 7088/15000 [5:01:09<5:10:20,  2.35s/it] 47%|███████████████████████████████████████████████████████████████████████████████████████████▋                                                                                                      | 7089/15000 [5:01:12<5:10:02,  2.35s/it] 47%|███████████████████████████████████████████████████████████████████████████████████████████▋                                                                                                      | 7090/15000 [5:01:14<5:09:56,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.7154, 'grad_norm': 1.78125, 'learning_rate': 4.506637318872579e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3481.62, 'total_tokens': 57923613, 'epoch': 0.47}
+ 47%|███████████████████████████████████████████████████████████████████████████████████████████▋                                                                                                      | 7090/15000 [5:01:14<5:09:56,  2.35s/it] 47%|███████████████████████████████████████████████████████████████████████████████████████████▋                                                                                                      | 7091/15000 [5:01:16<5:10:14,  2.35s/it] 47%|███████████████████████████████████████████████████████████████████████████████████████████▋                                                                                                      | 7092/15000 [5:01:19<5:09:57,  2.35s/it] 47%|███████████████████████████████████████████████████████████████████████████████████████████▋                                                                                                      | 7093/15000 [5:01:21<5:10:02,  2.35s/it] 47%|███████████████████████████████████████████████████████████████████████████████████████████▋                                                                                                      | 7094/15000 [5:01:24<5:09:52,  2.35s/it] 47%|███████████████████████████████████████████████████████████████████████████████████████████▊                                                                                                      | 7095/15000 [5:01:26<5:10:07,  2.35s/it][2025-11-17 02:44:20,111] [INFO] [axolotl.utils.data.wrappers.get_dataset_wrapper:87] [PID:8163] Loading dataset: Goader/kobza-2m-jsonl with base_type: pretrain and prompt_style: None
+
+Tokenizing Prompts (num_proc=64):   0%|                                                                                                                                                                        | 0/10000 [00:00<?, ? examples/s][A
+Tokenizing Prompts (num_proc=64):   2%|██▍                                                                                                                                                           | 157/10000 [00:06<06:39, 24.62 examples/s][A
+Tokenizing Prompts (num_proc=64):   3%|████▉                                                                                                                                                         | 314/10000 [00:06<02:52, 56.31 examples/s][A
+Tokenizing Prompts (num_proc=64):   5%|███████▍                                                                                                                                                      | 471/10000 [00:07<01:50, 86.20 examples/s][A
+Tokenizing Prompts (num_proc=64):   6%|█████████▊                                                                                                                                                   | 628/10000 [00:08<01:22, 113.79 examples/s][A
+Tokenizing Prompts (num_proc=64):   8%|████████████▎                                                                                                                                                | 785/10000 [00:09<01:14, 124.30 examples/s][A
+Tokenizing Prompts (num_proc=64):   9%|██████████████▊                                                                                                                                              | 942/10000 [00:09<00:53, 169.60 examples/s][A
+Tokenizing Prompts (num_proc=64):  11%|█████████████████▏                                                                                                                                          | 1099/10000 [00:10<00:55, 161.71 examples/s][A
+Tokenizing Prompts (num_proc=64):  13%|███████████████████▌                                                                                                                                        | 1256/10000 [00:11<00:42, 204.18 examples/s][A
+Tokenizing Prompts (num_proc=64):  14%|██████████████████████                                                                                                                                      | 1413/10000 [00:11<00:39, 215.32 examples/s][A
+Tokenizing Prompts (num_proc=64):  16%|████████████████████████▍                                                                                                                                   | 1570/10000 [00:12<00:44, 191.44 examples/s][A
+Tokenizing Prompts (num_proc=64):  17%|██████████████████████████▉                                                                                                                                 | 1727/10000 [00:12<00:33, 243.73 examples/s][A
+Tokenizing Prompts (num_proc=64):  19%|█████████████████████████████▍                                                                                                                              | 1884/10000 [00:13<00:35, 230.26 examples/s][A
+Tokenizing Prompts (num_proc=64):  20%|███████████████████████████████▊                                                                                                                            | 2041/10000 [00:13<00:32, 242.85 examples/s][A
+Tokenizing Prompts (num_proc=64):  22%|██████████████████████████████████▎                                                                                                                         | 2198/10000 [00:15<00:34, 223.32 examples/s][A
+Tokenizing Prompts (num_proc=64):  24%|████████████████████████████████████▋                                                                                                                       | 2355/10000 [00:15<00:37, 202.65 examples/s][A
+Tokenizing Prompts (num_proc=64):  25%|███████████████████████████████████████▏                                                                                                                    | 2512/10000 [00:16<00:29, 255.85 examples/s][A
+Tokenizing Prompts (num_proc=64):  27%|█████████████████████████████████████████▌                                                                                                                  | 2668/10000 [00:17<00:40, 181.97 examples/s][A
+Tokenizing Prompts (num_proc=64):  28%|███████████████████████████████████████��████                                                                                                                | 2824/10000 [00:17<00:34, 209.90 examples/s][A
+Tokenizing Prompts (num_proc=64):  31%|████████████████████████████████████████████████▉                                                                                                           | 3136/10000 [00:18<00:25, 271.04 examples/s][A
+Tokenizing Prompts (num_proc=64):  33%|███████████████████████████████████████████████████▎                                                                                                        | 3292/10000 [00:19<00:26, 251.23 examples/s][A
+Tokenizing Prompts (num_proc=64):  34%|█████████████████████████████████████████████████████▊                                                                                                      | 3448/10000 [00:19<00:25, 259.04 examples/s][A
+Tokenizing Prompts (num_proc=64):  36%|████████████████████████████████████████████████████████▏                                                                                                   | 3604/10000 [00:20<00:26, 243.17 examples/s][A
+Tokenizing Prompts (num_proc=64):  38%|██████████████████████████████████████████████████████████▋                                                                                                 | 3760/10000 [00:21<00:25, 245.15 examples/s][A
+Tokenizing Prompts (num_proc=64):  39%|█████████████████████████████████████████████████████████████                                                                                               | 3916/10000 [00:22<00:29, 208.28 examples/s][A
+Tokenizing Prompts (num_proc=64):  41%|███████████████████████████████████████████████████████████████▌                                                                                            | 4072/10000 [00:23<00:27, 217.23 examples/s][A
+Tokenizing Prompts (num_proc=64):  42%|█████████████████████████████████████████████████████████████████▉                                                                                          | 4228/10000 [00:23<00:25, 223.97 examples/s][A
+Tokenizing Prompts (num_proc=64):  44%|████████████████████████████████████████████████████████████████████▍                                                                                       | 4384/10000 [00:23<00:20, 277.85 examples/s][A
+Tokenizing Prompts (num_proc=64):  45%|██████████████████████████████████████████████████████████████████████▊                                                                                     | 4540/10000 [00:24<00:22, 246.80 examples/s][A
+Tokenizing Prompts (num_proc=64):  47%|█████████████████████████████████████████████████████████████████████████▎                                                                                  | 4696/10000 [00:25<00:24, 218.32 examples/s][A
+Tokenizing Prompts (num_proc=64):  49%|███████████████████████████████████████████████████████████████████████████▋                                                                                | 4852/10000 [00:25<00:19, 268.82 examples/s][A
+Tokenizing Prompts (num_proc=64):  50%|██████████████████████████████████████████████████████████████████████████████                                                                              | 5008/10000 [00:26<00:22, 217.86 examples/s][A
+Tokenizing Prompts (num_proc=64):  52%|███████████████��████████████████████████████████████████████████████████████████▌                                                                           | 5164/10000 [00:27<00:21, 224.32 examples/s][A
+Tokenizing Prompts (num_proc=64):  53%|██████████████████████████████████████████████████████████████████████████████████▉                                                                         | 5320/10000 [00:27<00:17, 273.64 examples/s][A
+Tokenizing Prompts (num_proc=64):  55%|█████████████████████████████████████████████████████████████████████████████████████▍                                                                      | 5476/10000 [00:28<00:17, 253.86 examples/s][A
+Tokenizing Prompts (num_proc=64):  56%|███████████████████████████████████████████████████████████████████████████████████████▊                                                                    | 5632/10000 [00:29<00:16, 259.27 examples/s][A
+Tokenizing Prompts (num_proc=64):  58%|██████████████████████████████████████████████████████████████████████████████████████████▎                                                                 | 5788/10000 [00:30<00:17, 244.96 examples/s][A
+Tokenizing Prompts (num_proc=64):  59%|████████████████████████████████████████████████████████████████████████████████████████████▋                                                               | 5944/10000 [00:30<00:16, 243.64 examples/s][A
+Tokenizing Prompts (num_proc=64):  61%|███████████████████████████████████████████████████████████████████████████████████████████████▏                                                            | 6100/10000 [00:31<00:15, 253.94 examples/s][A
+Tokenizing Prompts (num_proc=64):  63%|█████████████████████████████████████████████████████████████████████████████████████████████████▌                                                          | 6256/10000 [00:31<00:14, 253.78 examples/s][A
+Tokenizing Prompts (num_proc=64):  64%|████████████████████████████████████████████████████████████████████████████████████████████████████                                                        | 6412/10000 [00:32<00:14, 250.27 examples/s][A
+Tokenizing Prompts (num_proc=64):  66%|██████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                     | 6568/10000 [00:33<00:14, 229.90 examples/s][A
+Tokenizing Prompts (num_proc=64):  67%|████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                   | 6724/10000 [00:34<00:15, 207.91 examples/s][A
+Tokenizing Prompts (num_proc=64):  69%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                | 6880/10000 [00:34<00:11, 262.05 examples/s][A
+Tokenizing Prompts (num_proc=64):  70%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                              | 7036/10000 [00:34<00:11, 253.89 examples/s][A
+Tokenizing Prompts (num_proc=64):  72%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                           | 7192/10000 [00:36<00:13, 207.02 examples/s][A
+Tokenizing Prompts (num_proc=64):  73%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                         | 7348/10000 [00:36<00:10, 262.36 examples/s][A
+Tokenizing Prompts (num_proc=64):  75%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                       | 7504/10000 [00:36<00:09, 256.98 examples/s][A
+Tokenizing Prompts (num_proc=64):  77%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                    | 7660/10000 [00:37<00:09, 239.99 examples/s][A
+Tokenizing Prompts (num_proc=64):  78%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                  | 7816/10000 [00:38<00:09, 232.19 examples/s][A
+Tokenizing Prompts (num_proc=64):  80%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                               | 7972/10000 [00:38<00:08, 248.96 examples/s][A
+Tokenizing Prompts (num_proc=64):  81%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                             | 8128/10000 [00:39<00:07, 237.03 examples/s][A
+Tokenizing Prompts (num_proc=64):  83%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                          | 8284/10000 [00:40<00:07, 235.40 examples/s][A
+Tokenizing Prompts (num_proc=64):  84%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                        | 8440/10000 [00:41<00:07, 207.82 examples/s][A
+Tokenizing Prompts (num_proc=64):  86%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                      | 8596/10000 [00:41<00:06, 218.19 examples/s][A
+Tokenizing Prompts (num_proc=64):  88%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                   | 8752/10000 [00:42<00:04, 256.96 examples/s][A
+Tokenizing Prompts (num_proc=64):  89%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                 | 8908/10000 [00:42<00:04, 263.98 examples/s][A
+Tokenizing Prompts (num_proc=64):  91%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍              | 9064/10000 [00:43<00:03, 250.47 examples/s][A
+Tokenizing Prompts (num_proc=64):  92%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊            | 9220/10000 [00:44<00:03, 236.21 examples/s][A
+Tokenizing Prompts (num_proc=64):  94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎         | 9376/10000 [00:45<00:02, 214.42 examples/s][A
+Tokenizing Prompts (num_proc=64):  95%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋       | 9532/10000 [00:45<00:01, 252.90 examples/s][A
+Tokenizing Prompts (num_proc=64):  97%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏    | 9688/10000 [00:46<00:01, 258.43 examples/s][A
+Tokenizing Prompts (num_proc=64):  98%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌  | 9844/10000 [00:46<00:00, 253.71 examples/s][A
+Tokenizing Prompts (num_proc=64): 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10000/10000 [00:47<00:00, 250.82 examples/s][ATokenizing Prompts (num_proc=64): 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10000/10000 [00:49<00:00, 202.49 examples/s]
+
+Dropping Long Sequences:   0%|                                                                                                                                                                                 | 0/10000 [00:00<?, ? examples/s][A
+Dropping Long Sequences:  10%|████████████████▌                                                                                                                                                    | 1000/10000 [00:01<00:13, 689.65 examples/s][A
+Dropping Long Sequences:  20%|████████████████████████████████▊                                                                                                                                   | 2000/10000 [00:01<00:05, 1336.90 examples/s][A
+Dropping Long Sequences:  30%|█████████████████████████████████████████████████▏                                                                                                                  | 3000/10000 [00:01<00:03, 1914.07 examples/s][A
+Dropping Long Sequences:  40%|█████████████████████████████████████████████████████████████████▌                                                                                                  | 4000/10000 [00:02<00:02, 2424.34 examples/s][A
+Dropping Long Sequences:  50%|██████████████████████████████████████████████████████████████████████████████████                                                                                  | 5000/10000 [00:02<00:01, 2861.90 examples/s][A
+Dropping Long Sequences:  60%|██████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                 | 6000/10000 [00:02<00:01, 3069.42 examples/s][A
+Dropping Long Sequences:  70%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                 | 7000/10000 [00:02<00:00, 3390.03 examples/s][A
+Dropping Long Sequences:  80%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                | 8000/10000 [00:03<00:00, 3615.97 examples/s][A
+Dropping Long Sequences:  90%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                | 9000/10000 [00:03<00:00, 3700.20 examples/s][A
+Dropping Long Sequences: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10000/10000 [00:03<00:00, 3767.91 examples/s][ADropping Long Sequences: 100%|█��█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10000/10000 [00:03<00:00, 2660.03 examples/s]
+
+Add position_id column (Pretraining Sample Packing):   0%|                                                                                                                                                      | 0/8733 [00:00<?, ? examples/s][A
+Add position_id column (Pretraining Sample Packing):  11%|███████████████▊                                                                                                                          | 1000/8733 [00:01<00:09, 788.61 examples/s][A
+Add position_id column (Pretraining Sample Packing):  23%|███████████████████████████████▍                                                                                                         | 2000/8733 [00:01<00:04, 1638.60 examples/s][A
+Add position_id column (Pretraining Sample Packing):  34%|███████████████████████████████████████████████                                                                                          | 3000/8733 [00:01<00:02, 2519.57 examples/s][A
+Add position_id column (Pretraining Sample Packing):  46%|██████████████████████████████████████████████████████████████▊                                                                          | 4000/8733 [00:01<00:01, 3323.18 examples/s][A
+Add position_id column (Pretraining Sample Packing):  57%|██████████████████████████████████████████████████████████████████████████████▍                                                          | 5000/8733 [00:01<00:00, 4103.01 examples/s][A
+Add position_id column (Pretraining Sample Packing):  69%|██████████████████████████████████████████████████████████████████████████████████████████████▏                                          | 6000/8733 [00:02<00:00, 4771.03 examples/s][A
+Add position_id column (Pretraining Sample Packing):  80%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                           | 7000/8733 [00:02<00:00, 5373.70 examples/s][A
+Add position_id column (Pretraining Sample Packing):  92%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌           | 8000/8733 [00:02<00:00, 5537.80 examples/s][A
+Add position_id column (Pretraining Sample Packing): 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 8733/8733 [00:02<00:00, 5875.15 examples/s][AAdd position_id column (Pretraining Sample Packing): 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 8733/8733 [00:02<00:00, 3551.50 examples/s]
+[2025-11-17 02:45:17,300] [DEBUG] [axolotl.utils.samplers.multipack.pack_parallel:177] [PID:8163] Using single process for pack_parallel, running sequentially.
+ 47%|███████████████████████████████████████████████████████████████████████████████████████████▎                                                                                                     | 7096/15000 [5:02:31<46:48:59, 21.32s/it] 47%|███████████████████████████████████████████████████████████████████████████████████████████▎                                                                                                     | 7097/15000 [5:02:34<34:18:56, 15.63s/it] 47%|███████████████████████████████████████████████████████████████████████████████████████████▎                                                                                                     | 7098/15000 [5:02:36<25:33:43, 11.65s/it] 47%|███████████████████████████████████████████████████████████████████████████████████████████▎                                                                                                     | 7099/15000 [5:02:38<19:26:29,  8.86s/it] 47%|███████████████████████████████████████████████████████████████████████████████████████████▎                                                                                                     | 7100/15000 [5:02:41<15:09:05,  6.90s/it]                                                                                                                                                                                                                                                {'loss': 2.7545, 'grad_norm': 1.71875, 'learning_rate': 4.5020753690479086e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3408.48, 'total_tokens': 58003310, 'epoch': 0.47}
+ 47%|███████████████████████████████████████████████████████████████████████████████████████████▎                                                                                                     | 7100/15000 [5:02:41<15:09:05,  6.90s/it] 47%|███████████████████████████████████████████████████████████████████████████████████████████▎                                                                                                     | 7101/15000 [5:02:43<12:09:11,  5.54s/it] 47%|███████████████████████████████████████████████████████████████████████████████████████████▍                                                                                                     | 7102/15000 [5:02:46<10:03:13,  4.58s/it] 47%|███████████████████████████████████████████████████████████████████████████████████████████▊                                                                                                      | 7103/15000 [5:02:48<8:35:07,  3.91s/it] 47%|███████████████████████████████████████████████████████████████████████████████████████████▉                                                                                                      | 7104/15000 [5:02:50<7:33:29,  3.45s/it] 47%|███████████████████████████████████████████████████████████████████████████████████████████▉                                                                                                      | 7105/15000 [5:02:53<6:50:18,  3.12s/it] 47%|███████████████████████████████████████████████████████████████████████████████████████████▉                                                                                                      | 7106/15000 [5:02:55<6:19:49,  2.89s/it] 47%|███████████████████████████████████████████████████████████████████████████████████████████▉                                                                                                      | 7107/15000 [5:02:57<5:58:51,  2.73s/it] 47%|███████████████████████████████████████████████████████████████████████████████████████████▉                                                                                                      | 7108/15000 [5:03:00<5:44:16,  2.62s/it] 47%|███████████████████████████████████████████████████████████████████████████████████████████▉                                                                                                      | 7109/15000 [5:03:02<5:33:44,  2.54s/it] 47%|███████████████████████████████████████████████████████████████████████████████████████████▉                                                                                                      | 7110/15000 [5:03:04<5:26:23,  2.48s/it]                                                                                                                                                                                                                                                {'loss': 2.6718, 'grad_norm': 1.7734375, 'learning_rate': 4.497494893247151e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3490.52, 'total_tokens': 58085168, 'epoch': 0.47}
+ 47%|███████████████████████████████████████████████████████████████████████████████████████████▉                                                                                                      | 7110/15000 [5:03:04<5:26:23,  2.48s/it] 47%|███████████████████████████████████████████████████████████████████████████████████████████▉                                                                                                      | 7111/15000 [5:03:07<5:21:03,  2.44s/it] 47%|███████████████████████████████████████████████████████████████████████████████████████████▉                                                                                                      | 7112/15000 [5:03:09<5:17:19,  2.41s/it] 47%|███████████████████████████████████████████████████████████████████████████████████████████▉                                                                                                      | 7113/15000 [5:03:11<5:14:30,  2.39s/it] 47%|████████████████████████████████████████████████████████████████████████████████████████████                                                                                                      | 7114/15000 [5:03:14<5:12:37,  2.38s/it] 47%|████████████████████████████████████████████████████████████████████████████████████████████                                                                                                      | 7115/15000 [5:03:16<5:11:40,  2.37s/it] 47%|████████████████████████████████████████████████████████████████████████████████████████████                                                                                                      | 7116/15000 [5:03:18<5:11:02,  2.37s/it] 47%|████████████████████████████████████████████████████████████████████████████████████████████                                                                                                      | 7117/15000 [5:03:21<5:09:58,  2.36s/it] 47%|████████████████████████████████████████████████████████████████████████████████████████████                                                                                                      | 7118/15000 [5:03:23<5:09:22,  2.36s/it] 47%|████████████████████████████████████████████████████████████████████████████████████████████                                                                                                      | 7119/15000 [5:03:26<5:09:06,  2.35s/it] 47%|████████████████████████████████████████████████████████████████████████████████████████████                                                                                                      | 7120/15000 [5:03:28<5:09:00,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.7388, 'grad_norm': 1.796875, 'learning_rate': 4.4928959366777535e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3490.72, 'total_tokens': 58167029, 'epoch': 0.47}
+ 47%|████████████████████████████████████████████████████████████████████████████████████████████                                                                                                      | 7120/15000 [5:03:28<5:09:00,  2.35s/it] 47%|████████████████████████████████████████████████████████████████████████████████████████████                                                                                                      | 7121/15000 [5:03:30<5:08:55,  2.35s/it] 47%|████████████████████████████████████████████████████████████████████████████████████████████                                                                                                      | 7122/15000 [5:03:33<5:08:42,  2.35s/it] 47%|████████████████████████████████████████████████████████████████████████████████████████████                                                                                                      | 7123/15000 [5:03:35<5:08:51,  2.35s/it] 47%|████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                                     | 7124/15000 [5:03:37<5:08:25,  2.35s/it] 48%|████████████████████████████████████████████████████████████████████████████████████���███████▏                                                                                                     | 7125/15000 [5:03:40<5:08:30,  2.35s/it] 48%|████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                                     | 7126/15000 [5:03:42<5:08:15,  2.35s/it] 48%|████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                                     | 7127/15000 [5:03:44<5:08:34,  2.35s/it] 48%|████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                                     | 7128/15000 [5:03:47<5:08:36,  2.35s/it] 48%|████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                                     | 7129/15000 [5:03:49<5:08:29,  2.35s/it] 48%|████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                                     | 7130/15000 [5:03:51<5:08:20,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6871, 'grad_norm': 1.6328125, 'learning_rate': 4.488278544729562e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3493.43, 'total_tokens': 58248844, 'epoch': 0.48}
+ 48%|████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                                     | 7130/15000 [5:03:51<5:08:20,  2.35s/it] 48%|████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                                     | 7131/15000 [5:03:54<5:08:37,  2.35s/it] 48%|████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                                     | 7132/15000 [5:03:56<5:08:18,  2.35s/it] 48%|████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                                     | 7133/15000 [5:03:58<5:08:15,  2.35s/it] 48%|████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                                     | 7134/15000 [5:04:01<5:08:26,  2.35s/it] 48%|██████████████████████████████████████████████████████���█████████████████████████████████████▎                                                                                                     | 7135/15000 [5:04:03<5:08:18,  2.35s/it] 48%|████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                                     | 7136/15000 [5:04:05<5:08:25,  2.35s/it] 48%|████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                                     | 7137/15000 [5:04:08<5:08:18,  2.35s/it] 48%|████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                                     | 7138/15000 [5:04:10<5:08:16,  2.35s/it] 48%|████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                                     | 7139/15000 [5:04:13<5:07:37,  2.35s/it] 48%|████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                                     | 7140/15000 [5:04:15<5:07:29,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6733, 'grad_norm': 1.7265625, 'learning_rate': 4.483642762974369e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3498.93, 'total_tokens': 58330665, 'epoch': 0.48}
+ 48%|████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                                     | 7140/15000 [5:04:15<5:07:29,  2.35s/it] 48%|████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                                     | 7141/15000 [5:04:17<5:07:45,  2.35s/it] 48%|████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                                     | 7142/15000 [5:04:20<5:08:03,  2.35s/it] 48%|████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                                     | 7143/15000 [5:04:22<5:07:44,  2.35s/it] 48%|████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                                     | 7144/15000 [5:04:24<5:08:06,  2.35s/it] 48%|████████████████████████���███████████████████████████████████████████████████████████████████▍                                                                                                     | 7145/15000 [5:04:27<5:08:12,  2.35s/it] 48%|████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                                     | 7146/15000 [5:04:29<5:08:00,  2.35s/it] 48%|████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                                     | 7147/15000 [5:04:31<5:08:00,  2.35s/it] 48%|████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                                     | 7148/15000 [5:04:34<5:08:03,  2.35s/it] 48%|████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                                     | 7149/15000 [5:04:36<5:07:54,  2.35s/it] 48%|████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                                     | 7150/15000 [5:04:38<5:07:25,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.7645, 'grad_norm': 1.6953125, 'learning_rate': 4.4789886371654704e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3504.32, 'total_tokens': 58412497, 'epoch': 0.48}
+ 48%|████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                                     | 7150/15000 [5:04:38<5:07:25,  2.35s/it] 48%|████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                                     | 7151/15000 [5:04:41<5:07:35,  2.35s/it] 48%|████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                                     | 7152/15000 [5:04:43<5:07:40,  2.35s/it] 48%|████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                                     | 7153/15000 [5:04:45<5:07:28,  2.35s/it] 48%|████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                                     | 7154/15000 [5:04:48<5:07:09,  2.35s/it] 48%|████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                                     | 7155/15000 [5:04:50<5:07:38,  2.35s/it] 48%|████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                                     | 7156/15000 [5:04:53<5:07:39,  2.35s/it] 48%|████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                                     | 7157/15000 [5:04:55<5:07:39,  2.35s/it] 48%|████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                                     | 7158/15000 [5:04:57<5:07:36,  2.35s/it] 48%|████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                                     | 7159/15000 [5:05:00<5:07:50,  2.36s/it] 48%|████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                                     | 7160/15000 [5:05:02<5:08:01,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.7648, 'grad_norm': 1.796875, 'learning_rate': 4.474316213237209e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3475.82, 'total_tokens': 58494331, 'epoch': 0.48}
+ 48%|████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                                     | 7160/15000 [5:05:02<5:08:01,  2.36s/it] 48%|████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                                     | 7161/15000 [5:05:04<5:08:03,  2.36s/it] 48%|████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                                     | 7162/15000 [5:05:07<5:07:55,  2.36s/it] 48%|████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                                     | 7163/15000 [5:05:09<5:07:17,  2.35s/it] 48%|████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                                     | 7164/15000 [5:05:11<5:07:30,  2.35s/it] 48%|████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                                     | 7165/15000 [5:05:14<5:07:27,  2.35s/it] 48%|████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                                     | 7166/15000 [5:05:16<5:07:20,  2.35s/it] 48%|████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                                     | 7167/15000 [5:05:18<5:07:14,  2.35s/it] 48%|████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                                     | 7168/15000 [5:05:21<5:07:14,  2.35s/it] 48%|████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                                     | 7169/15000 [5:05:23<5:07:12,  2.35s/it] 48%|████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                                     | 7170/15000 [5:05:25<5:07:24,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.7085, 'grad_norm': 1.6875, 'learning_rate': 4.4696255373045214e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3477.4, 'total_tokens': 58576141, 'epoch': 0.48}
+ 48%|████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                                     | 7170/15000 [5:05:26<5:07:24,  2.36s/it] 48%|████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                                     | 7171/15000 [5:05:28<5:07:40,  2.36s/it] 48%|████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                                     | 7172/15000 [5:05:31<5:25:50,  2.50s/it] 48%|████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                                     | 7173/15000 [5:05:33<5:20:05,  2.45s/it] 48%|█████████████████████████████████████████████████████████████████████████████��██████████████▊                                                                                                     | 7174/15000 [5:05:35<5:16:27,  2.43s/it] 48%|████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                                     | 7175/15000 [5:05:38<5:13:20,  2.40s/it] 48%|████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                                     | 7176/15000 [5:05:40<5:11:23,  2.39s/it] 48%|████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                                     | 7177/15000 [5:05:42<5:09:22,  2.37s/it] 48%|████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                                     | 7178/15000 [5:05:45<5:08:39,  2.37s/it] 48%|████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                                     | 7179/15000 [5:05:47<5:08:25,  2.37s/it] 48%|████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                                     | 7180/15000 [5:05:50<5:07:53,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.7082, 'grad_norm': 1.7265625, 'learning_rate': 4.464916655662486e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3486.3, 'total_tokens': 58657957, 'epoch': 0.48}
+ 48%|████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                                     | 7180/15000 [5:05:50<5:07:53,  2.36s/it] 48%|████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                                     | 7181/15000 [5:05:52<5:07:52,  2.36s/it] 48%|████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                                     | 7182/15000 [5:05:54<5:07:32,  2.36s/it] 48%|████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                                     | 7183/15000 [5:05:57<5:07:33,  2.36s/it] 48%|████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                                     | 7184/15000 [5:05:59<5:07:20,  2.36s/it] 48%|████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                                     | 7185/15000 [5:06:01<5:06:54,  2.36s/it] 48%|████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                                     | 7186/15000 [5:06:04<5:06:40,  2.35s/it] 48%|████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                                     | 7187/15000 [5:06:06<5:06:37,  2.35s/it] 48%|████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                                     | 7188/15000 [5:06:08<5:06:25,  2.35s/it] 48%|████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                                     | 7189/15000 [5:06:11<5:06:35,  2.36s/it] 48%|████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                                     | 7190/15000 [5:06:13<5:06:31,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.7561, 'grad_norm': 1.7578125, 'learning_rate': 4.460189614785865e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3486.29, 'total_tokens': 58739797, 'epoch': 0.48}
+ 48%|████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                                     | 7190/15000 [5:06:13<5:06:31,  2.35s/it] 48%|█████████████████████████████████████████████████████████████████████████████████████████████                                                                                                     | 7191/15000 [5:06:15<5:06:26,  2.35s/it] 48%|█████████████████████████████████████████████████████████████████████████████████████████████                                                                                                     | 7192/15000 [5:06:18<5:06:21,  2.35s/it] 48%|█████████████████████████████████████████████████████████████████████████████████████████████                                                                                                     | 7193/15000 [5:06:20<5:06:15,  2.35s/it] 48%|█████████████████████████████████████████████████████████████████████████████████████████████                                                                                                     | 7194/15000 [5:06:22<5:06:01,  2.35s/it] 48%|█████████████████████████████████████████████████████████████████████████████████████████████                                                                                                     | 7195/15000 [5:06:25<5:05:50,  2.35s/it] 48%|█████████████████████████████████████████████████████████████████████████████████████████████                                                                                                     | 7196/15000 [5:06:27<5:05:58,  2.35s/it] 48%|█████████████████████████████████████████████████████████████████████████████████████████████                                                                                                     | 7197/15000 [5:06:30<5:05:46,  2.35s/it] 48%|█████████████████████████████████████████████████████████████████████████████████████████████                                                                                                     | 7198/15000 [5:06:32<5:05:58,  2.35s/it] 48%|█████████████████████████████████████████████████████████████████████████████████████████████                                                                                                     | 7199/15000 [5:06:34<5:06:02,  2.35s/it] 48%|█████████████████████████████████████████████████████████████████████████████████████████████                                                                                                     | 7200/15000 [5:06:37<5:06:07,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.784, 'grad_norm': 1.7734375, 'learning_rate': 4.455444461328641e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3483.51, 'total_tokens': 58821654, 'epoch': 0.48}
+ 48%|█████████████████████████████████████████████████████████████████████████████████████████████                                                                                                     | 7200/15000 [5:06:37<5:06:07,  2.35s/it] 48%|█████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                                    | 7201/15000 [5:06:39<5:06:13,  2.36s/it] 48%|█████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                                    | 7202/15000 [5:06:41<5:06:14,  2.36s/it] 48%|█████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                                    | 7203/15000 [5:06:44<5:06:04,  2.36s/it] 48%|█████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                                    | 7204/15000 [5:06:46<5:06:03,  2.36s/it] 48%|█████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                                    | 7205/15000 [5:06:48<5:06:07,  2.36s/it] 48%|█████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                                    | 7206/15000 [5:06:51<5:06:05,  2.36s/it] 48%|█████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                                    | 7207/15000 [5:06:53<5:05:56,  2.36s/it] 48%|█████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                                    | 7208/15000 [5:06:55<5:05:52,  2.36s/it] 48%|█████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                                    | 7209/15000 [5:06:58<5:05:42,  2.35s/it] 48%|█████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                                    | 7210/15000 [5:07:00<5:05:39,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.7181, 'grad_norm': 1.7421875, 'learning_rate': 4.4506812421235636e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3485.96, 'total_tokens': 58903464, 'epoch': 0.48}
+ 48%|█████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                                    | 7210/15000 [5:07:00<5:05:39,  2.35s/it] 48%|█████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                                    | 7211/15000 [5:07:03<5:05:49,  2.36s/it] 48%|█████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                                    | 7212/15000 [5:07:05<5:05:37,  2.35s/it] 48%|███████████████████████████████████████████████████████████████████████████████████████████��█▎                                                                                                    | 7213/15000 [5:07:07<5:05:29,  2.35s/it] 48%|█████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                                    | 7214/15000 [5:07:10<5:05:23,  2.35s/it] 48%|█████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                                    | 7215/15000 [5:07:12<5:05:09,  2.35s/it] 48%|█████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                                    | 7216/15000 [5:07:14<5:05:17,  2.35s/it] 48%|█████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                                    | 7217/15000 [5:07:17<5:04:54,  2.35s/it] 48%|█████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                                    | 7218/15000 [5:07:19<5:05:07,  2.35s/it] 48%|█████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                                    | 7219/15000 [5:07:21<5:05:04,  2.35s/it] 48%|█████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                                    | 7220/15000 [5:07:24<5:04:44,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6812, 'grad_norm': 1.84375, 'learning_rate': 4.445900004181684e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3497.75, 'total_tokens': 58985239, 'epoch': 0.48}
+ 48%|█████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                                    | 7220/15000 [5:07:24<5:04:44,  2.35s/it] 48%|█████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                                    | 7221/15000 [5:07:26<5:04:55,  2.35s/it] 48%|█████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                                    | 7222/15000 [5:07:28<5:05:02,  2.35s/it] 48%|█████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                                    | 7223/15000 [5:07:31<5:04:53,  2.35s/it] 48%|█████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                                    | 7224/15000 [5:07:33<5:04:33,  2.35s/it] 48%|█████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                                    | 7225/15000 [5:07:35<5:04:32,  2.35s/it] 48%|█████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                                    | 7226/15000 [5:07:38<5:04:55,  2.35s/it] 48%|█████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                                    | 7227/15000 [5:07:40<5:04:29,  2.35s/it] 48%|█████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                                    | 7228/15000 [5:07:42<5:04:45,  2.35s/it] 48%|█████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                                    | 7229/15000 [5:07:45<5:04:19,  2.35s/it] 48%|█████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                                    | 7230/15000 [5:07:47<5:04:28,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6967, 'grad_norm': 1.6875, 'learning_rate': 4.4411007946918906e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3483.83, 'total_tokens': 59067030, 'epoch': 0.48}
+ 48%|█████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                                    | 7230/15000 [5:07:47<5:04:28,  2.35s/it] 48%|█████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                                    | 7231/15000 [5:07:50<5:04:33,  2.35s/it] 48%|█████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                                    | 7232/15000 [5:07:52<5:04:31,  2.35s/it] 48%|██████████████████���██████████████████████████████████████████████████████████████████████████▌                                                                                                    | 7233/15000 [5:07:54<5:04:26,  2.35s/it] 48%|█████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                                    | 7234/15000 [5:07:57<5:04:13,  2.35s/it] 48%|█████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                                    | 7235/15000 [5:07:59<5:04:15,  2.35s/it] 48%|█████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                                    | 7236/15000 [5:08:01<5:04:14,  2.35s/it] 48%|█████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                                    | 7237/15000 [5:08:04<5:04:16,  2.35s/it] 48%|█████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                                    | 7238/15000 [5:08:06<5:03:54,  2.35s/it] 48%|█████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                                    | 7239/15000 [5:08:08<5:04:00,  2.35s/it] 48%|█████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                                    | 7240/15000 [5:08:11<5:04:00,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6983, 'grad_norm': 1.7890625, 'learning_rate': 4.4362836610204426e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3489.65, 'total_tokens': 59148842, 'epoch': 0.48}
+ 48%|█████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                                    | 7240/15000 [5:08:11<5:04:00,  2.35s/it] 48%|█████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                                    | 7241/15000 [5:08:13<5:04:13,  2.35s/it] 48%|█████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                                    | 7242/15000 [5:08:15<5:04:22,  2.35s/it] 48%|█████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                                    | 7243/15000 [5:08:18<5:04:19,  2.35s/it] 48%|█████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                                    | 7244/15000 [5:08:20<5:04:05,  2.35s/it] 48%|█████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                                    | 7245/15000 [5:08:22<5:04:00,  2.35s/it] 48%|█████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                                    | 7246/15000 [5:08:25<5:04:20,  2.36s/it] 48%|█████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                                    | 7247/15000 [5:08:27<5:04:02,  2.35s/it] 48%|█████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                                    | 7248/15000 [5:08:30<5:04:06,  2.35s/it] 48%|█████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                                    | 7249/15000 [5:08:32<5:03:44,  2.35s/it] 48%|█████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                                    | 7250/15000 [5:08:34<5:03:49,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.7932, 'grad_norm': 1.71875, 'learning_rate': 4.4314486507105065e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3484.9, 'total_tokens': 59230642, 'epoch': 0.48}
+ 48%|█████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                                    | 7250/15000 [5:08:34<5:03:49,  2.35s/it] 48%|█████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                                    | 7251/15000 [5:08:37<5:03:55,  2.35s/it] 48%|█████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                                    | 7252/15000 [5:08:39<5:03:48,  2.35s/it] 48%|█████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                                    | 7253/15000 [5:08:41<5:03:55,  2.35s/it] 48%|█████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                                    | 7254/15000 [5:08:44<5:03:55,  2.35s/it] 48%|█████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                                    | 7255/15000 [5:08:46<5:04:03,  2.36s/it] 48%|█████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                                    | 7256/15000 [5:08:48<5:03:48,  2.35s/it] 48%|█████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                                    | 7257/15000 [5:08:51<5:03:42,  2.35s/it] 48%|█████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                                    | 7258/15000 [5:08:53<5:03:37,  2.35s/it] 48%|█████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                                    | 7259/15000 [5:08:55<5:03:42,  2.35s/it] 48%|█████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                                    | 7260/15000 [5:08:58<5:03:57,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.7948, 'grad_norm': 1.7734375, 'learning_rate': 4.426595811481679e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3475.66, 'total_tokens': 59312473, 'epoch': 0.48}
+ 48%|█████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                                    | 7260/15000 [5:08:58<5:03:57,  2.36s/it] 48%|█████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                                    | 7261/15000 [5:09:00<5:03:32,  2.35s/it] 48%|█████████████████████████████████████████████████��███████████████████████████████████████████▉                                                                                                    | 7262/15000 [5:09:02<5:03:31,  2.35s/it] 48%|█████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                                    | 7263/15000 [5:09:05<5:03:42,  2.36s/it] 48%|█████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                                    | 7264/15000 [5:09:07<5:03:40,  2.36s/it] 48%|█████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                                    | 7265/15000 [5:09:10<5:03:02,  2.35s/it] 48%|█████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                                    | 7266/15000 [5:09:12<5:03:14,  2.35s/it] 48%|█████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                                    | 7267/15000 [5:09:14<5:03:08,  2.35s/it] 48%|█████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                                    | 7268/15000 [5:09:17<5:02:53,  2.35s/it] 48%|██████████████████████████████████████████████████████████████████████████████████████████████                                                                                                    | 7269/15000 [5:09:19<5:02:53,  2.35s/it] 48%|██████████████████████████████████████████████████████████████████████████████████████████████                                                                                                    | 7270/15000 [5:09:21<5:02:51,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6953, 'grad_norm': 1.703125, 'learning_rate': 4.4217251912295264e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3485.57, 'total_tokens': 59394174, 'epoch': 0.48}
+ 48%|██████████████████████████████████████████████████████████████████████████████████████████████                                                                                                    | 7270/15000 [5:09:21<5:02:51,  2.35s/it] 48%|██████████████████████████████████████████████████████████████████████████████████████████████                                                                                                    | 7271/15000 [5:09:24<5:02:50,  2.35s/it] 48%|████████████���█████████████████████████████████████████████████████████████████████████████████                                                                                                    | 7272/15000 [5:09:26<5:02:59,  2.35s/it] 48%|██████████████████████████████████████████████████████████████████████████████████████████████                                                                                                    | 7273/15000 [5:09:28<5:02:53,  2.35s/it] 48%|██████████████████████████████████████████████████████████████████████████████████████████████                                                                                                    | 7274/15000 [5:09:31<5:02:53,  2.35s/it] 48%|██████████████████████████████████████████████████████████████████████████████████████████████                                                                                                    | 7275/15000 [5:09:33<5:02:53,  2.35s/it] 49%|██████████████████████████████████████████████████████████████████████████████████████████████                                                                                                    | 7276/15000 [5:09:35<5:02:55,  2.35s/it] 49%|██████████████████████████████████████████████████████████████████████████████████████████████                                                                                                    | 7277/15000 [5:09:38<5:02:43,  2.35s/it] 49%|██████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                                   | 7278/15000 [5:09:40<5:02:25,  2.35s/it] 49%|██████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                                   | 7279/15000 [5:09:42<5:02:15,  2.35s/it] 49%|██████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                                   | 7280/15000 [5:09:45<5:02:20,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.8113, 'grad_norm': 1.671875, 'learning_rate': 4.4168368380251035e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3487.89, 'total_tokens': 59475970, 'epoch': 0.49}
+ 49%|██████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                                   | 7280/15000 [5:09:45<5:02:20,  2.35s/it] 49%|██████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                                   | 7281/15000 [5:09:47<5:02:25,  2.35s/it] 49%|██████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                                   | 7282/15000 [5:09:50<5:02:31,  2.35s/it] 49%|██████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                                   | 7283/15000 [5:09:52<5:02:28,  2.35s/it] 49%|██████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                                   | 7284/15000 [5:09:54<5:02:41,  2.35s/it] 49%|██████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                                   | 7285/15000 [5:09:57<5:02:34,  2.35s/it] 49%|██████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                                   | 7286/15000 [5:09:59<5:02:35,  2.35s/it] 49%|██████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                                   | 7287/15000 [5:10:01<5:02:18,  2.35s/it] 49%|██████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                                   | 7288/15000 [5:10:04<5:02:07,  2.35s/it] 49%|██████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                                   | 7289/15000 [5:10:06<5:02:06,  2.35s/it] 49%|██████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                                   | 7290/15000 [5:10:08<5:02:10,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.7113, 'grad_norm': 1.7890625, 'learning_rate': 4.411930800114484e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3483.84, 'total_tokens': 59557707, 'epoch': 0.49}
+ 49%|██████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                                   | 7290/15000 [5:10:08<5:02:10,  2.35s/it] 49%|██████████████████████████████████████████████████████████████████████��███████████████████████▎                                                                                                   | 7291/15000 [5:10:11<5:02:14,  2.35s/it] 49%|██████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                                   | 7292/15000 [5:10:13<5:02:09,  2.35s/it] 49%|██████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                                   | 7293/15000 [5:10:15<5:01:55,  2.35s/it] 49%|██████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                                   | 7294/15000 [5:10:18<5:01:45,  2.35s/it] 49%|██████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                                   | 7295/15000 [5:10:20<5:02:08,  2.35s/it] 49%|██████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                                   | 7296/15000 [5:10:22<5:02:02,  2.35s/it] 49%|██████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                                   | 7297/15000 [5:10:25<5:01:54,  2.35s/it] 49%|██████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                                   | 7298/15000 [5:10:27<5:01:18,  2.35s/it] 49%|██████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                                   | 7299/15000 [5:10:29<5:01:50,  2.35s/it] 49%|██████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                                   | 7300/15000 [5:10:32<5:01:42,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.7205, 'grad_norm': 1.7265625, 'learning_rate': 4.4070071259182796e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3491.7, 'total_tokens': 59639493, 'epoch': 0.49}
+ 49%|██████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                                   | 7300/15000 [5:10:32<5:01:42,  2.35s/it] 49%|██████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                                   | 7301/15000 [5:10:34<5:01:37,  2.35s/it] 49%|██████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                                   | 7302/15000 [5:10:37<5:01:19,  2.35s/it] 49%|██████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                                   | 7303/15000 [5:10:39<5:01:16,  2.35s/it] 49%|██████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                                   | 7304/15000 [5:10:41<5:01:33,  2.35s/it] 49%|██████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                                   | 7305/15000 [5:10:44<5:01:43,  2.35s/it] 49%|██████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                                   | 7306/15000 [5:10:46<5:01:54,  2.35s/it] 49%|██████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                                   | 7307/15000 [5:10:48<5:01:57,  2.36s/it] 49%|██████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                                   | 7308/15000 [5:10:51<5:02:02,  2.36s/it] 49%|██████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                                   | 7309/15000 [5:10:53<5:01:49,  2.35s/it] 49%|██████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                                   | 7310/15000 [5:10:55<5:02:04,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.7795, 'grad_norm': 1.84375, 'learning_rate': 4.402065864031168e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3472.99, 'total_tokens': 59721288, 'epoch': 0.49}
+ 49%|██████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                                   | 7310/15000 [5:10:55<5:02:04,  2.36s/it] 49%|██████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                                   | 7311/15000 [5:10:58<5:02:00,  2.36s/it] 49%|██████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                                   | 7312/15000 [5:11:00<5:01:49,  2.36s/it] 49%|██████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                                   | 7313/15000 [5:11:02<5:01:37,  2.35s/it] 49%|██████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                                   | 7314/15000 [5:11:05<5:01:23,  2.35s/it] 49%|██████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                                   | 7315/15000 [5:11:07<5:01:15,  2.35s/it] 49%|██████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                                   | 7316/15000 [5:11:09<5:01:36,  2.36s/it] 49%|██████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                                   | 7317/15000 [5:11:12<5:01:45,  2.36s/it] 49%|██████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                                   | 7318/15000 [5:11:14<5:01:44,  2.36s/it] 49%|██████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                                   | 7319/15000 [5:11:17<5:01:32,  2.36s/it] 49%|██████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                                   | 7320/15000 [5:11:19<5:01:40,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.7046, 'grad_norm': 1.71875, 'learning_rate': 4.397107063221409e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3478.54, 'total_tokens': 59803133, 'epoch': 0.49}
+ 49%|█████████████████████████████████████████████████████████████████████████████████��████████████▋                                                                                                   | 7320/15000 [5:11:19<5:01:40,  2.36s/it] 49%|██████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                                   | 7321/15000 [5:11:21<5:01:48,  2.36s/it] 49%|██████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                                   | 7322/15000 [5:11:24<5:01:23,  2.36s/it] 49%|██████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                                   | 7323/15000 [5:11:26<5:01:31,  2.36s/it] 49%|██████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                                   | 7324/15000 [5:11:28<5:00:51,  2.35s/it] 49%|██████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                                   | 7325/15000 [5:11:31<5:00:39,  2.35s/it] 49%|██████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                                   | 7326/15000 [5:11:33<5:00:35,  2.35s/it] 49%|██████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                                   | 7327/15000 [5:11:35<5:00:31,  2.35s/it] 49%|██████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                                   | 7328/15000 [5:11:38<5:00:27,  2.35s/it] 49%|██████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                                   | 7329/15000 [5:11:40<5:00:49,  2.35s/it] 49%|██████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                                   | 7330/15000 [5:11:42<5:00:36,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.7368, 'grad_norm': 1.90625, 'learning_rate': 4.392130772430365e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3493.28, 'total_tokens': 59884912, 'epoch': 0.49}
+ 49%|█████████████████████████████████████��████████████████████████████████████████████████████████▊                                                                                                   | 7330/15000 [5:11:42<5:00:36,  2.35s/it] 49%|██████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                                   | 7331/15000 [5:11:45<5:00:52,  2.35s/it] 49%|██████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                                   | 7332/15000 [5:11:47<5:00:51,  2.35s/it] 49%|██████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                                   | 7333/15000 [5:11:50<5:00:57,  2.36s/it] 49%|██████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                                   | 7334/15000 [5:11:52<5:01:02,  2.36s/it] 49%|██████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                                   | 7335/15000 [5:11:54<5:00:37,  2.35s/it] 49%|██████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                                   | 7336/15000 [5:11:57<5:00:42,  2.35s/it] 49%|██████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                                   | 7337/15000 [5:11:59<5:00:29,  2.35s/it] 49%|██████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                                   | 7338/15000 [5:12:01<5:00:27,  2.35s/it] 49%|██████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                                   | 7339/15000 [5:12:04<4:59:53,  2.35s/it] 49%|██████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                                   | 7340/15000 [5:12:06<5:00:13,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.7365, 'grad_norm': 1.8515625, 'learning_rate': 4.3871370407720156e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3475.41, 'total_tokens': 59966636, 'epoch': 0.49}
+ 49%|██████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                                   | 7340/15000 [5:12:06<5:00:13,  2.35s/it] 49%|██████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                                   | 7341/15000 [5:12:08<5:00:10,  2.35s/it] 49%|██████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                                   | 7342/15000 [5:12:11<5:00:04,  2.35s/it] 49%|██████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                                   | 7343/15000 [5:12:13<5:00:07,  2.35s/it] 49%|██████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                                   | 7344/15000 [5:12:15<4:59:58,  2.35s/it] 49%|██████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                                   | 7345/15000 [5:12:18<4:59:47,  2.35s/it] 49%|███████████████████████████████████████████████████████████████████████████████████████████████                                                                                                   | 7346/15000 [5:12:20<4:59:52,  2.35s/it] 49%|███████████████████████████████████████████████████████████████████████████████████████████████                                                                                                   | 7347/15000 [5:12:22<4:59:52,  2.35s/it] 49%|███████████████████████████████████████████████████████████████████████████████████████████████                                                                                                   | 7348/15000 [5:12:25<5:00:12,  2.35s/it] 49%|███████████████████████████████████████████████████████████████████████████████████████████████                                                                                                   | 7349/15000 [5:12:27<4:59:42,  2.35s/it] 49%|███████████████████████████████████████████████████████████████████████████████████████████████                                                                                                   | 7350/15000 [5:12:29<4:59:39,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6827, 'grad_norm': 1.765625, 'learning_rate': 4.3821259175324776e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3491.2, 'total_tokens': 60048430, 'epoch': 0.49}
+ 49%|███████████████████████████████████████████████████████████████████████████████████████████████                                                                                                   | 7350/15000 [5:12:29<4:59:39,  2.35s/it] 49%|███████████████████████████████████████████████████████████████████████████████████████████████                                                                                                   | 7351/15000 [5:12:32<4:59:30,  2.35s/it] 49%|███████████████████████████████████████████████████████████████████████████████████████████████                                                                                                   | 7352/15000 [5:12:34<4:59:52,  2.35s/it] 49%|███████████████████████████████████████████████████████████████████████████████████████████████                                                                                                   | 7353/15000 [5:12:37<4:59:46,  2.35s/it] 49%|███████████████████████████████████████████████████████████████████████████████████████████████                                                                                                   | 7354/15000 [5:12:39<4:59:43,  2.35s/it] 49%|███████████████████████████████████████████████████████████████████████████████████████████████                                                                                                   | 7355/15000 [5:12:41<4:59:13,  2.35s/it] 49%|███████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                                  | 7356/15000 [5:12:44<4:59:43,  2.35s/it] 49%|███████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                                  | 7357/15000 [5:12:46<4:59:22,  2.35s/it] 49%|███████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                                  | 7358/15000 [5:12:48<4:59:14,  2.35s/it] 49%|███████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                                  | 7359/15000 [5:12:51<4:59:15,  2.35s/it] 49%|███████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                                  | 7360/15000 [5:12:53<4:59:24,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.763, 'grad_norm': 1.7734375, 'learning_rate': 4.377097452169515e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3482.96, 'total_tokens': 60130207, 'epoch': 0.49}
+ 49%|███████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                                  | 7360/15000 [5:12:53<4:59:24,  2.35s/it] 49%|███████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                                  | 7361/15000 [5:12:55<4:59:11,  2.35s/it] 49%|███████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                                  | 7362/15000 [5:12:58<4:59:14,  2.35s/it] 49%|███████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                                  | 7363/15000 [5:13:00<4:59:18,  2.35s/it] 49%|███████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                                  | 7364/15000 [5:13:02<4:59:34,  2.35s/it] 49%|███████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                                  | 7365/15000 [5:13:05<4:59:39,  2.35s/it] 49%|███████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                                  | 7366/15000 [5:13:07<4:59:44,  2.36s/it] 49%|███████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                                  | 7367/15000 [5:13:09<4:59:19,  2.35s/it] 49%|███████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                                  | 7368/15000 [5:13:12<4:59:04,  2.35s/it] 49%|███████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                                  | 7369/15000 [5:13:14<4:59:22,  2.35s/it] 49%|███████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                                  | 7370/15000 [5:13:17<4:59:21,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.741, 'grad_norm': 1.90625, 'learning_rate': 4.3720516943120486e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3480.19, 'total_tokens': 60211913, 'epoch': 0.49}
+ 49%|███████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                                  | 7370/15000 [5:13:17<4:59:21,  2.35s/it] 49%|███████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                                  | 7371/15000 [5:13:19<4:59:25,  2.35s/it] 49%|███████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                                  | 7372/15000 [5:13:21<4:59:05,  2.35s/it] 49%|███████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                                  | 7373/15000 [5:13:24<4:59:20,  2.35s/it] 49%|███████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                                  | 7374/15000 [5:13:26<4:58:34,  2.35s/it] 49%|███████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                                  | 7375/15000 [5:13:28<4:58:43,  2.35s/it] 49%|███████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                                  | 7376/15000 [5:13:31<4:58:32,  2.35s/it] 49%|███████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                                  | 7377/15000 [5:13:33<4:59:03,  2.35s/it] 49%|███████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                                  | 7378/15000 [5:13:35<4:58:50,  2.35s/it] 49%|███████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                                  | 7379/15000 [5:13:38<4:58:56,  2.35s/it] 49%|███████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                                  | 7380/15000 [5:13:40<4:59:13,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.7528, 'grad_norm': 1.765625, 'learning_rate': 4.366988693759673e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3471.34, 'total_tokens': 60293670, 'epoch': 0.49}
+ 49%|███████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                                  | 7380/15000 [5:13:40<4:59:13,  2.36s/it] 49%|███████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                                  | 7381/15000 [5:13:42<4:58:58,  2.35s/it] 49%|███████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                                  | 7382/15000 [5:13:45<4:58:56,  2.35s/it] 49%|███████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                                  | 7383/15000 [5:13:47<4:58:45,  2.35s/it] 49%|███████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                                  | 7384/15000 [5:13:49<4:58:32,  2.35s/it] 49%|███████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                                  | 7385/15000 [5:13:52<4:58:33,  2.35s/it] 49%|███████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                                  | 7386/15000 [5:13:54<4:58:55,  2.36s/it] 49%|███████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                                  | 7387/15000 [5:13:57<4:58:44,  2.35s/it] 49%|███████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                                  | 7388/15000 [5:13:59<4:58:23,  2.35s/it] 49%|███████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                                  | 7389/15000 [5:14:01<4:57:55,  2.35s/it] 49%|███████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                                  | 7390/15000 [5:14:04<4:58:05,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.7442, 'grad_norm': 1.796875, 'learning_rate': 4.36190850048216e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3481.02, 'total_tokens': 60375373, 'epoch': 0.49}
+ 49%|███████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                                  | 7390/15000 [5:14:04<4:58:05,  2.35s/it] 49%|███████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                                  | 7391/15000 [5:14:06<4:58:10,  2.35s/it] 49%|███████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                                  | 7392/15000 [5:14:08<4:58:18,  2.35s/it] 49%|███████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                                  | 7393/15000 [5:14:11<4:58:08,  2.35s/it] 49%|███████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                                  | 7394/15000 [5:14:13<4:58:18,  2.35s/it] 49%|███████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                                  | 7395/15000 [5:14:15<4:58:05,  2.35s/it] 49%|███████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                                  | 7396/15000 [5:14:18<4:58:11,  2.35s/it] 49%|███████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                                  | 7397/15000 [5:14:20<4:57:58,  2.35s/it] 49%|███████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                                  | 7398/15000 [5:14:22<4:57:51,  2.35s/it] 49%|███████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                                  | 7399/15000 [5:14:25<4:57:51,  2.35s/it] 49%|█████████��█████████████████████████████████████████████████████████████████████████████████████▋                                                                                                  | 7400/15000 [5:14:27<4:57:48,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6669, 'grad_norm': 1.75, 'learning_rate': 4.356811164618965e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3488.15, 'total_tokens': 60457127, 'epoch': 0.49}
+ 49%|███████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                                  | 7400/15000 [5:14:27<4:57:48,  2.35s/it] 49%|███████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                                  | 7401/15000 [5:14:29<4:57:48,  2.35s/it] 49%|███████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                                  | 7402/15000 [5:14:32<4:57:39,  2.35s/it] 49%|███████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                                  | 7403/15000 [5:14:34<4:57:44,  2.35s/it] 49%|███████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                                  | 7404/15000 [5:14:36<4:57:47,  2.35s/it] 49%|███████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                                  | 7405/15000 [5:14:39<4:57:58,  2.35s/it] 49%|███████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                                  | 7406/15000 [5:14:41<4:57:46,  2.35s/it] 49%|███████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                                  | 7407/15000 [5:14:44<4:57:42,  2.35s/it] 49%|███████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                                  | 7408/15000 [5:14:46<4:57:40,  2.35s/it] 49%|███████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                                  | 7409/15000 [5:14:48<4:57:40,  2.35s/it] 49%|███████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                                  | 7410/15000 [5:14:51<4:57:37,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.7298, 'grad_norm': 1.7109375, 'learning_rate': 4.3516967364787356e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3483.8, 'total_tokens': 60538840, 'epoch': 0.49}
+ 49%|███████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                                  | 7410/15000 [5:14:51<4:57:37,  2.35s/it] 49%|███████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                                  | 7411/15000 [5:14:53<4:57:06,  2.35s/it] 49%|███████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                                  | 7412/15000 [5:14:55<4:57:07,  2.35s/it] 49%|███████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                                  | 7413/15000 [5:14:58<4:57:09,  2.35s/it] 49%|███████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                                  | 7414/15000 [5:15:00<4:57:17,  2.35s/it] 49%|███████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                                  | 7415/15000 [5:15:02<4:57:19,  2.35s/it] 49%|███████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                                  | 7416/15000 [5:15:05<4:57:16,  2.35s/it] 49%|███████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                                  | 7417/15000 [5:15:07<4:57:11,  2.35s/it] 49%|███████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                                  | 7418/15000 [5:15:09<4:57:05,  2.35s/it] 49%|███████████████████████████████████████████████████��███████████████████████████████████████████▉                                                                                                  | 7419/15000 [5:15:12<4:57:26,  2.35s/it] 49%|███████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                                  | 7420/15000 [5:15:14<4:57:35,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.7691, 'grad_norm': 1.78125, 'learning_rate': 4.346565266538812e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3472.22, 'total_tokens': 60620504, 'epoch': 0.49}
+ 49%|███████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                                  | 7420/15000 [5:15:14<4:57:35,  2.36s/it] 49%|███████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                                  | 7421/15000 [5:15:16<4:57:24,  2.35s/it] 49%|███████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                                  | 7422/15000 [5:15:19<4:57:12,  2.35s/it] 49%|████████████████████████████████████████████████████████████████████████████████████████████████                                                                                                  | 7423/15000 [5:15:21<4:57:04,  2.35s/it] 49%|████████████████████████████████████████████████████████████████████████████████████████████████                                                                                                  | 7424/15000 [5:15:24<4:57:11,  2.35s/it] 50%|████████████████████████████████████████████████████████████████████████████████████████████████                                                                                                  | 7425/15000 [5:15:26<4:56:51,  2.35s/it] 50%|████████████████████████████████████████████████████████████████████████████████████████████████                                                                                                  | 7426/15000 [5:15:28<4:56:52,  2.35s/it] 50%|████████████████████████████████████████████████████████████████████████████████████████████████                                                                                                  | 7427/15000 [5:15:31<4:56:57,  2.35s/it] 50%|████████████████████████████████████████████████████████████████████████████████████████████████                                                                                                  | 7428/15000 [5:15:33<4:56:57,  2.35s/it] 50%|���███████████████████████████████████████████████████████████████████████████████████████████████                                                                                                  | 7429/15000 [5:15:35<4:56:48,  2.35s/it] 50%|████████████████████████████████████████████████████████████████████████████████████████████████                                                                                                  | 7430/15000 [5:15:38<4:56:41,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.7242, 'grad_norm': 1.796875, 'learning_rate': 4.341416805444733e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3481.69, 'total_tokens': 60702085, 'epoch': 0.5}
+ 50%|████████████████████████████████████████████████████████████████████████████████████████████████                                                                                                  | 7430/15000 [5:15:38<4:56:41,  2.35s/it] 50%|████████████████████████████████████████████████████████████████████████████████████████████████                                                                                                  | 7431/15000 [5:15:40<5:14:54,  2.50s/it] 50%|████████████████████████████████████████████████████████████████████████████████████████████████                                                                                                  | 7432/15000 [5:15:43<5:09:12,  2.45s/it] 50%|████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                                 | 7433/15000 [5:15:45<5:05:41,  2.42s/it] 50%|████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                                 | 7434/15000 [5:15:48<5:02:49,  2.40s/it] 50%|████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                                 | 7435/15000 [5:15:50<5:00:41,  2.38s/it] 50%|████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                                 | 7436/15000 [5:15:52<4:59:32,  2.38s/it] 50%|████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                                 | 7437/15000 [5:15:55<4:58:24,  2.37s/it] 50%|████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                                 | 7438/15000 [5:15:57<4:57:49,  2.36s/it] 50%|████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                                 | 7439/15000 [5:15:59<4:57:34,  2.36s/it] 50%|████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                                 | 7440/15000 [5:16:02<4:57:04,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.8016, 'grad_norm': 1.78125, 'learning_rate': 4.3362514040097295e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3482.29, 'total_tokens': 60783645, 'epoch': 0.5}
+ 50%|████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                                 | 7440/15000 [5:16:02<4:57:04,  2.36s/it] 50%|████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                                 | 7441/15000 [5:16:04<4:56:50,  2.36s/it] 50%|████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                                 | 7442/15000 [5:16:06<4:56:37,  2.35s/it] 50%|████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                                 | 7443/15000 [5:16:09<4:56:22,  2.35s/it] 50%|████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                                 | 7444/15000 [5:16:11<4:55:55,  2.35s/it] 50%|████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                                 | 7445/15000 [5:16:13<4:55:54,  2.35s/it][2025-11-17 02:59:08,313] [INFO] [axolotl.utils.data.wrappers.get_dataset_wrapper:87] [PID:8163] Loading dataset: Goader/kobza-2m-jsonl with base_type: pretrain and prompt_style: None
+
+Tokenizing Prompts (num_proc=64):   0%|                                                                                                                                                                        | 0/10000 [00:00<?, ? examples/s][A
+Tokenizing Prompts (num_proc=64):   2%|██▍                                                                                                                                                           | 157/10000 [00:06<06:39, 24.62 examples/s][A
+Tokenizing Prompts (num_proc=64):   3%|████▉                                                                                                                                                         | 314/10000 [00:06<02:51, 56.42 examples/s][A
+Tokenizing Prompts (num_proc=64):   5%|███████▍                                                                                                                                                      | 471/10000 [00:07<01:50, 86.56 examples/s][A
+Tokenizing Prompts (num_proc=64):   6%|█████████▊                                                                                                                                                   | 628/10000 [00:08<01:22, 113.28 examples/s][A
+Tokenizing Prompts (num_proc=64):   8%|████████████▎                                                                                                                                                | 785/10000 [00:09<01:16, 121.10 examples/s][A
+Tokenizing Prompts (num_proc=64):   9%|██████████████▊                                                                                                                                              | 942/10000 [00:09<00:53, 167.80 examples/s][A
+Tokenizing Prompts (num_proc=64):  11%|█████████████████▏                                                                                                                                          | 1099/10000 [00:10<01:01, 144.83 examples/s][A
+Tokenizing Prompts (num_proc=64):  13%|███████████████████▌                                                                                                                                        | 1256/10000 [00:11<00:49, 176.39 examples/s][A
+Tokenizing Prompts (num_proc=64):  14%|██████████████████████                                                                                                                                      | 1413/10000 [00:11<00:37, 232.02 examples/s][A
+Tokenizing Prompts (num_proc=64):  16%|████████████████████████▍                                                                                                                                   | 1570/10000 [00:12<00:36, 228.00 examples/s][A
+Tokenizing Prompts (num_proc=64):  17%|██████████████████████████▉                                                                                                                                 | 1727/10000 [00:13<00:40, 205.42 examples/s][A
+Tokenizing Prompts (num_proc=64):  19%|█████████████████████████████▍                                                                                                                              | 1884/10000 [00:14<00:44, 182.73 examples/s][A
+Tokenizing Prompts (num_proc=64):  20%|███████████████████████████████▊                                                                                                                            | 2041/10000 [00:14<00:38, 204.20 examples/s][A
+Tokenizing Prompts (num_proc=64):  22%|██████████████████████████████████▎                                                                                                                         | 2198/10000 [00:15<00:37, 210.15 examples/s][A
+Tokenizing Prompts (num_proc=64):  24%|████████████████████████████████████▋                                                                                                                       | 2355/10000 [00:16<00:34, 218.79 examples/s][A
+Tokenizing Prompts (num_proc=64):  25%|███████████████████████████████████████▏                                                                                                                    | 2512/10000 [00:16<00:34, 216.58 examples/s][A
+Tokenizing Prompts (num_proc=64):  27%|█████████████████████████████████████████▌                                                                                                                  | 2668/10000 [00:17<00:33, 220.19 examples/s][A
+Tokenizing Prompts (num_proc=64):  28%|████████████████████████████████████████████                                                                                                                | 2824/10000 [00:18<00:32, 223.03 examples/s][A
+Tokenizing Prompts (num_proc=64):  30%|██████████████████████████████████████████████▍                                                                                                             | 2980/10000 [00:18<00:31, 223.74 examples/s][A
+Tokenizing Prompts (num_proc=64):  31%|████████████████████████████████████████████████▉                                                                                                           | 3136/10000 [00:19<00:30, 223.60 examples/s][A
+Tokenizing Prompts (num_proc=64):  33%|███████████████████████████████████████████████████▎                                                                                                        | 3292/10000 [00:20<00:29, 225.25 examples/s][A
+Tokenizing Prompts (num_proc=64):  34%|█████████████████████████████████████████████████████▊                                                                                                      | 3448/10000 [00:20<00:28, 228.55 examples/s][A
+Tokenizing Prompts (num_proc=64):  36%|████████████████████████████████████████████████████████▏                                                                                                   | 3604/10000 [00:22<00:33, 190.67 examples/s][A
+Tokenizing Prompts (num_proc=64):  38%|██████████████████████████████████████████████████████████▋                                                                                                 | 3760/10000 [00:22<00:25, 248.83 examples/s][A
+Tokenizing Prompts (num_proc=64):  39%|█████████████████████████████████████████████████████████████                                                                                               | 3916/10000 [00:22<00:25, 239.78 examples/s][A
+Tokenizing Prompts (num_proc=64):  41%|███████████████████████████████████████████████████████████████▌                                                                                            | 4072/10000 [00:23<00:25, 236.38 examples/s][A
+Tokenizing Prompts (num_proc=64):  42%|█████████████████████████████████████████████████████████████████▉                                                                                          | 4228/10000 [00:24<00:25, 224.88 examples/s][A
+Tokenizing Prompts (num_proc=64):  44%|████████████████████████████████████████████████████████████████████▍                                                                                       | 4384/10000 [00:24<00:23, 237.63 examples/s][A
+Tokenizing Prompts (num_proc=64):  45%|██████████████████████████████████████████████████████████████████████▊                                                                                     | 4540/10000 [00:25<00:23, 236.08 examples/s][A
+Tokenizing Prompts (num_proc=64):  47%|█████████████████████████████████████████████████████████████████████████▎                                                                                  | 4696/10000 [00:26<00:22, 231.00 examples/s][A
+Tokenizing Prompts (num_proc=64):  49%|███████████████████████████████████████████████████████████████████████████▋                                                                                | 4852/10000 [00:27<00:22, 232.76 examples/s][A
+Tokenizing Prompts (num_proc=64):  50%|██████████████████████████████████████████████████████████████████████████████                                                                              | 5008/10000 [00:27<00:21, 233.99 examples/s][A
+Tokenizing Prompts (num_proc=64):  52%|████████████████████████████████████████████████████████████████████████████████▌                                                                           | 5164/10000 [00:28<00:20, 233.24 examples/s][A
+Tokenizing Prompts (num_proc=64):  53%|██████████████████████████████████████████████████████████████████████████████████▉                                                                         | 5320/10000 [00:29<00:20, 230.37 examples/s][A
+Tokenizing Prompts (num_proc=64):  55%|█████████████████████████████████████████████████████████████████████████████████████▍                                                                      | 5476/10000 [00:29<00:18, 238.14 examples/s][A
+Tokenizing Prompts (num_proc=64):  56%|███████████████████████████████████████████████████████████████████████████████████████▊                                                                    | 5632/10000 [00:30<00:19, 227.48 examples/s][A
+Tokenizing Prompts (num_proc=64):  58%|██████████████████████████████████████████████████████████████████████████████████████████▎                                                                 | 5788/10000 [00:31<00:17, 234.83 examples/s][A
+Tokenizing Prompts (num_proc=64):  59%|████████████████████████████████████████████████████████████████████████████████████████████▋                                                               | 5944/10000 [00:32<00:21, 187.94 examples/s][A
+Tokenizing Prompts (num_proc=64):  61%|███████████████████████████████████████████████████████████████████████████████████████████████▏                                                            | 6100/10000 [00:32<00:16, 242.50 examples/s][A
+Tokenizing Prompts (num_proc=64):  63%|█████████████████████████████████████████████████████████████████████████████████████████████████▌                                                          | 6256/10000 [00:33<00:17, 214.48 examples/s][A
+Tokenizing Prompts (num_proc=64):  64%|████████████████████████████████████████████████████████████████████████████████████████████████████                                                        | 6412/10000 [00:34<00:16, 221.48 examples/s][A
+Tokenizing Prompts (num_proc=64):  66%|██████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                     | 6568/10000 [00:34<00:14, 238.56 examples/s][A
+Tokenizing Prompts (num_proc=64):  67%|████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                   | 6724/10000 [00:35<00:13, 243.26 examples/s][A
+Tokenizing Prompts (num_proc=64):  69%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                | 6880/10000 [00:36<00:14, 217.29 examples/s][A
+Tokenizing Prompts (num_proc=64):  70%|██████████████████████████████████████████████████████���██████████████████████████████████████████████████████▊                                              | 7036/10000 [00:36<00:12, 239.93 examples/s][A
+Tokenizing Prompts (num_proc=64):  72%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                           | 7192/10000 [00:37<00:11, 235.70 examples/s][A
+Tokenizing Prompts (num_proc=64):  73%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                         | 7348/10000 [00:37<00:11, 239.70 examples/s][A
+Tokenizing Prompts (num_proc=64):  75%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                       | 7504/10000 [00:38<00:10, 230.42 examples/s][A
+Tokenizing Prompts (num_proc=64):  77%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                    | 7660/10000 [00:39<00:10, 233.18 examples/s][A
+Tokenizing Prompts (num_proc=64):  78%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                  | 7816/10000 [00:40<00:10, 216.89 examples/s][A
+Tokenizing Prompts (num_proc=64):  80%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                               | 7972/10000 [00:41<00:08, 226.51 examples/s][A
+Tokenizing Prompts (num_proc=64):  81%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                             | 8128/10000 [00:41<00:07, 237.86 examples/s][A
+Tokenizing Prompts (num_proc=64):  83%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                          | 8284/10000 [00:41<00:07, 236.57 examples/s][A
+Tokenizing Prompts (num_proc=64):  84%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                        | 8440/10000 [00:42<00:06, 227.19 examples/s][A
+Tokenizing Prompts (num_proc=64):  86%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████��                      | 8596/10000 [00:43<00:05, 242.59 examples/s][A
+Tokenizing Prompts (num_proc=64):  88%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                   | 8752/10000 [00:44<00:05, 229.78 examples/s][A
+Tokenizing Prompts (num_proc=64):  89%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                 | 8908/10000 [00:44<00:04, 237.31 examples/s][A
+Tokenizing Prompts (num_proc=64):  91%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍              | 9064/10000 [00:45<00:03, 236.20 examples/s][A
+Tokenizing Prompts (num_proc=64):  92%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊            | 9220/10000 [00:45<00:03, 240.33 examples/s][A
+Tokenizing Prompts (num_proc=64):  94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎         | 9376/10000 [00:46<00:02, 230.58 examples/s][A
+Tokenizing Prompts (num_proc=64):  95%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋       | 9532/10000 [00:47<00:02, 231.88 examples/s][A
+Tokenizing Prompts (num_proc=64):  97%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏    | 9688/10000 [00:48<00:01, 231.83 examples/s][A
+Tokenizing Prompts (num_proc=64):  98%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌  | 9844/10000 [00:48<00:00, 229.66 examples/s][A
+Tokenizing Prompts (num_proc=64): 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10000/10000 [00:49<00:00, 234.87 examples/s][ATokenizing Prompts (num_proc=64): 100%|████████████████████████████████████████████████████���██████████████████████████████████████████████████████████████████████████████████████████████████████| 10000/10000 [00:51<00:00, 194.28 examples/s]
+
+Dropping Long Sequences:   0%|                                                                                                                                                                                 | 0/10000 [00:00<?, ? examples/s][A
+Dropping Long Sequences:  10%|████████████████▌                                                                                                                                                    | 1000/10000 [00:01<00:13, 661.21 examples/s][A
+Dropping Long Sequences:  20%|████████████████████████████████▊                                                                                                                                   | 2000/10000 [00:01<00:06, 1265.03 examples/s][A
+Dropping Long Sequences:  30%|█████████████████████████████████████████████████▏                                                                                                                  | 3000/10000 [00:02<00:03, 1825.19 examples/s][A
+Dropping Long Sequences:  40%|█████████████████████████████████████████████████████████████████▌                                                                                                  | 4000/10000 [00:02<00:02, 2326.40 examples/s][A
+Dropping Long Sequences:  50%|██████████████████████████████████████████████████████████████████████████████████                                                                                  | 5000/10000 [00:02<00:01, 2716.20 examples/s][A
+Dropping Long Sequences:  60%|██████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                 | 6000/10000 [00:02<00:01, 3079.38 examples/s][A
+Dropping Long Sequences:  70%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                 | 7000/10000 [00:03<00:00, 3342.99 examples/s][A
+Dropping Long Sequences:  80%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                | 8000/10000 [00:03<00:00, 3537.04 examples/s][A
+Dropping Long Sequences:  90%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                | 9000/10000 [00:03<00:00, 3578.72 examples/s][A
+Dropping Long Sequences: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10000/10000 [00:03<00:00, 3716.65 examples/s][ADropping Long Sequences: 100%|████████████████████████████████████████████████████████████████████████���██████████████████████████████████████████████████████████████████████████████████████████| 10000/10000 [00:03<00:00, 2573.48 examples/s]
+
+Add position_id column (Pretraining Sample Packing):   0%|                                                                                                                                                      | 0/8737 [00:00<?, ? examples/s][A
+Add position_id column (Pretraining Sample Packing):  11%|███████████████▊                                                                                                                          | 1000/8737 [00:01<00:10, 760.45 examples/s][A
+Add position_id column (Pretraining Sample Packing):  23%|███████████████████████████████▎                                                                                                         | 2000/8737 [00:01<00:04, 1574.60 examples/s][A
+Add position_id column (Pretraining Sample Packing):  34%|███████████████████████████████████████████████                                                                                          | 3000/8737 [00:01<00:02, 2437.86 examples/s][A
+Add position_id column (Pretraining Sample Packing):  46%|██████████████████████████████████████████████████████████████▋                                                                          | 4000/8737 [00:01<00:01, 3225.67 examples/s][A
+Add position_id column (Pretraining Sample Packing):  57%|██████████████████████████████████████████████████████████████████████████████▍                                                          | 5000/8737 [00:01<00:00, 4031.47 examples/s][A
+Add position_id column (Pretraining Sample Packing):  69%|██████████████████████████████████████████████████████████████████████████████████████████████                                           | 6000/8737 [00:02<00:00, 4674.77 examples/s][A
+Add position_id column (Pretraining Sample Packing):  80%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                           | 7000/8737 [00:02<00:00, 5256.30 examples/s][A
+Add position_id column (Pretraining Sample Packing):  92%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍           | 8000/8737 [00:02<00:00, 5469.51 examples/s][A
+Add position_id column (Pretraining Sample Packing): 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 8737/8737 [00:02<00:00, 5789.43 examples/s][AAdd position_id column (Pretraining Sample Packing): 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 8737/8737 [00:02<00:00, 3451.98 examples/s]
+[2025-11-17 03:00:07,914] [DEBUG] [axolotl.utils.samplers.multipack.pack_parallel:177] [PID:8163] Using single process for pack_parallel, running sequentially.
+ 50%|██████████████████████████████████████████████████████████████████████████████████���████████████▊                                                                                                 | 7446/15000 [5:17:22<46:50:52, 22.33s/it] 50%|███████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                                 | 7447/15000 [5:17:25<34:16:18, 16.34s/it] 50%|███████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                                 | 7448/15000 [5:17:27<25:28:05, 12.14s/it] 50%|███████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                                 | 7449/15000 [5:17:29<19:18:23,  9.20s/it] 50%|███████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                                 | 7450/15000 [5:17:32<14:59:39,  7.15s/it]                                                                                                                                                                                                                                                {'loss': 2.7677, 'grad_norm': 2.0, 'learning_rate': 4.331069113214229e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3375.95, 'total_tokens': 60862913, 'epoch': 0.5}
+ 50%|███████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                                 | 7450/15000 [5:17:32<14:59:39,  7.15s/it] 50%|███████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                                 | 7451/15000 [5:17:34<11:58:15,  5.71s/it] 50%|████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                                 | 7452/15000 [5:17:36<9:51:30,  4.70s/it] 50%|████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                                 | 7453/15000 [5:17:39<8:22:48,  4.00s/it] 50%|████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                                 | 7454/15000 [5:17:41<7:20:46,  3.50s/it] 50%|████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                                 | 7455/15000 [5:17:44<6:36:58,  3.16s/it] 50%|████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                                 | 7456/15000 [5:17:46<6:06:43,  2.92s/it] 50%|████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                                 | 7457/15000 [5:17:48<5:45:07,  2.75s/it] 50%|████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                                 | 7458/15000 [5:17:51<5:30:19,  2.63s/it] 50%|████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                                 | 7459/15000 [5:17:53<5:20:15,  2.55s/it] 50%|████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                                 | 7460/15000 [5:17:55<5:12:43,  2.49s/it]                                                                                                                                                                                                                                                {'loss': 2.766, 'grad_norm': 1.7109375, 'learning_rate': 4.325869984205348e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3493.97, 'total_tokens': 60944747, 'epoch': 0.5}
+ 50%|████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                                 | 7460/15000 [5:17:55<5:12:43,  2.49s/it] 50%|████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                                 | 7461/15000 [5:17:58<5:07:44,  2.45s/it] 50%|████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                                 | 7462/15000 [5:18:00<5:04:02,  2.42s/it] 50%|████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                                 | 7463/15000 [5:18:02<5:01:38,  2.40s/it] 50%|████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                                 | 7464/15000 [5:18:05<5:00:03,  2.39s/it] 50%|████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                                 | 7465/15000 [5:18:07<4:58:49,  2.38s/it] 50%|████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                                 | 7466/15000 [5:18:09<4:57:56,  2.37s/it] 50%|████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                                 | 7467/15000 [5:18:12<4:56:55,  2.37s/it] 50%|████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                                 | 7468/15000 [5:18:14<4:56:18,  2.36s/it] 50%|████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                                 | 7469/15000 [5:18:16<4:55:55,  2.36s/it] 50%|████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                                 | 7470/15000 [5:18:19<4:55:49,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.7204, 'grad_norm': 1.8125, 'learning_rate': 4.320654068296392e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3484.73, 'total_tokens': 61026604, 'epoch': 0.5}
+ 50%|████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                                 | 7470/15000 [5:18:19<4:55:49,  2.36s/it] 50%|████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                                 | 7471/15000 [5:18:21<4:55:52,  2.36s/it] 50%|████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                                 | 7472/15000 [5:18:24<4:55:34,  2.36s/it] 50%|████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                                 | 7473/15000 [5:18:26<4:55:35,  2.36s/it] 50%|████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                                 | 7474/15000 [5:18:28<4:55:23,  2.35s/it] 50%|██████████████████████████████████████████████████████████���█████████████████████████████████████▋                                                                                                 | 7475/15000 [5:18:31<4:55:09,  2.35s/it] 50%|████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                                 | 7476/15000 [5:18:33<4:55:00,  2.35s/it] 50%|████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                                 | 7477/15000 [5:18:35<4:55:16,  2.35s/it] 50%|████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                                 | 7478/15000 [5:18:38<4:55:21,  2.36s/it] 50%|████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                                 | 7479/15000 [5:18:40<4:55:21,  2.36s/it] 50%|████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                                 | 7480/15000 [5:18:42<4:55:15,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.6614, 'grad_norm': 1.8125, 'learning_rate': 4.3154214169663457e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3486.93, 'total_tokens': 61108463, 'epoch': 0.5}
+ 50%|████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                                 | 7480/15000 [5:18:42<4:55:15,  2.36s/it] 50%|████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                                 | 7481/15000 [5:18:45<4:55:28,  2.36s/it] 50%|████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                                 | 7482/15000 [5:18:47<4:54:59,  2.35s/it] 50%|████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                                 | 7483/15000 [5:18:49<4:55:10,  2.36s/it] 50%|████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                                 | 7484/15000 [5:18:52<4:55:03,  2.36s/it] 50%|████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                                 | 7485/15000 [5:18:54<4:54:58,  2.36s/it] 50%|████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                                 | 7486/15000 [5:18:57<4:54:49,  2.35s/it] 50%|████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                                 | 7487/15000 [5:18:59<4:54:41,  2.35s/it] 50%|████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                                 | 7488/15000 [5:19:01<4:54:46,  2.35s/it] 50%|████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                                 | 7489/15000 [5:19:04<4:54:40,  2.35s/it] 50%|████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                                 | 7490/15000 [5:19:06<4:54:20,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.7424, 'grad_norm': 1.7734375, 'learning_rate': 4.310172081859364e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3498.24, 'total_tokens': 61190287, 'epoch': 0.5}
+ 50%|████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                                 | 7490/15000 [5:19:06<4:54:20,  2.35s/it] 50%|████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                                 | 7491/15000 [5:19:08<4:54:42,  2.35s/it] 50%|████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                                 | 7492/15000 [5:19:11<4:54:42,  2.36s/it] 50%|████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                                 | 7493/15000 [5:19:13<4:54:37,  2.35s/it] 50%|████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                                 | 7494/15000 [5:19:15<4:54:45,  2.36s/it] 50%|████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                                 | 7495/15000 [5:19:18<4:54:41,  2.36s/it] 50%|████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                                 | 7496/15000 [5:19:20<4:54:41,  2.36s/it] 50%|████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                                 | 7497/15000 [5:19:22<4:54:52,  2.36s/it] 50%|████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                                 | 7498/15000 [5:19:25<4:54:43,  2.36s/it] 50%|████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                                 | 7499/15000 [5:19:27<4:54:27,  2.36s/it] 50%|█████████████████████████████████████████████████████████████████████████████████████████████████                                                                                                 | 7500/15000 [5:19:29<4:54:22,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.775, 'grad_norm': 1.78125, 'learning_rate': 4.304906114784267e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3485.09, 'total_tokens': 61272085, 'epoch': 0.5}
+ 50%|█████████████████████████████████████████████████████████████████████████████████████████████████                                                                                                 | 7500/15000 [5:19:29<4:54:22,  2.36s/it] 50%|█████████████████████████████████████████████████████████████████████████████████████████████████                                                                                                 | 7501/15000 [5:19:32<4:54:25,  2.36s/it] 50%|█████████████████████████████████████████████████████████████████████████████████████████████████                                                                                                 | 7502/15000 [5:19:34<4:54:24,  2.36s/it] 50%|█████████████████████████████████████████████████████████████████████████████████████████████████                                                                                                 | 7503/15000 [5:19:37<4:54:13,  2.35s/it] 50%|█████████████████████████████████████████████████████████████████████████████████████████████████                                                                                                 | 7504/15000 [5:19:39<4:54:15,  2.36s/it] 50%|█████████████████████████████████████████████████████████████████████████████████████████████████                                                                                                 | 7505/15000 [5:19:41<4:54:25,  2.36s/it] 50%|█████████████████████████████████████████████████████████████████████████████████████████████████                                                                                                 | 7506/15000 [5:19:44<4:54:15,  2.36s/it] 50%|█████████████████████████████████████████████████████████████████████████████████████████████████                                                                                                 | 7507/15000 [5:19:46<4:54:06,  2.36s/it] 50%|█████████████████████████████████████████████████████████████████████████████████████████████████                                                                                                 | 7508/15000 [5:19:48<4:53:51,  2.35s/it] 50%|█████████████████████████████████████████████████████████████████████████████████████████████████                                                                                                 | 7509/15000 [5:19:51<4:54:20,  2.36s/it] 50%|█████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                                | 7510/15000 [5:19:53<4:54:17,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.8201, 'grad_norm': 1.828125, 'learning_rate': 4.299623567714021e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3482.76, 'total_tokens': 61353935, 'epoch': 0.5}
+ 50%|█████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                                | 7510/15000 [5:19:53<4:54:17,  2.36s/it] 50%|█████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                                | 7511/15000 [5:19:55<4:54:28,  2.36s/it] 50%|█████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                                | 7512/15000 [5:19:58<4:54:10,  2.36s/it] 50%|█████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                                | 7513/15000 [5:20:00<4:53:57,  2.36s/it] 50%|█████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                                | 7514/15000 [5:20:02<4:54:01,  2.36s/it] 50%|█████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                                | 7515/15000 [5:20:05<4:53:41,  2.35s/it] 50%|█████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                                | 7516/15000 [5:20:07<4:53:28,  2.35s/it] 50%|█████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                                | 7517/15000 [5:20:10<4:53:41,  2.35s/it] 50%|█████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                                | 7518/15000 [5:20:12<4:53:26,  2.35s/it] 50%|█████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                                | 7519/15000 [5:20:14<4:53:38,  2.36s/it] 50%|█████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                                | 7520/15000 [5:20:17<4:53:23,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6906, 'grad_norm': 1.734375, 'learning_rate': 4.294324492785236e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3492.18, 'total_tokens': 61435737, 'epoch': 0.5}
+ 50%|█████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                                | 7520/15000 [5:20:17<4:53:23,  2.35s/it] 50%|█████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                                | 7521/15000 [5:20:19<4:53:16,  2.35s/it] 50%|█████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                                | 7522/15000 [5:20:21<4:53:30,  2.35s/it] 50%|█████████████████████████████████████████████��███████████████████████████████████████████████████▎                                                                                                | 7523/15000 [5:20:24<4:53:41,  2.36s/it] 50%|█████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                                | 7524/15000 [5:20:26<4:53:32,  2.36s/it] 50%|█████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                                | 7525/15000 [5:20:28<4:53:39,  2.36s/it] 50%|█████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                                | 7526/15000 [5:20:31<4:53:40,  2.36s/it] 50%|█████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                                | 7527/15000 [5:20:33<4:53:27,  2.36s/it] 50%|█████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                                | 7528/15000 [5:20:35<4:53:30,  2.36s/it] 50%|█████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                                | 7529/15000 [5:20:38<4:53:08,  2.35s/it] 50%|█████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                                | 7530/15000 [5:20:40<4:53:02,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6931, 'grad_norm': 1.78125, 'learning_rate': 4.2890089422976407e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3488.23, 'total_tokens': 61517554, 'epoch': 0.5}
+ 50%|█████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                                | 7530/15000 [5:20:40<4:53:02,  2.35s/it] 50%|█████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                                | 7531/15000 [5:20:42<4:52:50,  2.35s/it] 50%|█████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                                | 7532/15000 [5:20:45<4:52:49,  2.35s/it] 50%|█████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                                | 7533/15000 [5:20:47<4:53:07,  2.36s/it] 50%|█████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                                | 7534/15000 [5:20:50<4:53:11,  2.36s/it] 50%|█████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                                | 7535/15000 [5:20:52<4:52:57,  2.35s/it] 50%|█████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                                | 7536/15000 [5:20:54<4:53:01,  2.36s/it] 50%|█████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                                | 7537/15000 [5:20:57<4:53:02,  2.36s/it] 50%|█████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                                | 7538/15000 [5:20:59<4:52:55,  2.36s/it] 50%|█████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                                | 7539/15000 [5:21:01<4:52:48,  2.35s/it] 50%|█████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                                | 7540/15000 [5:21:04<4:52:52,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.7326, 'grad_norm': 1.8359375, 'learning_rate': 4.283676968713572e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3477.62, 'total_tokens': 61599301, 'epoch': 0.5}
+ 50%|█████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                                | 7540/15000 [5:21:04<4:52:52,  2.36s/it] 50%|█████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                                | 7541/15000 [5:21:06<4:52:57,  2.36s/it] 50%|█████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                                | 7542/15000 [5:21:08<4:52:31,  2.35s/it] 50%|█████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                                | 7543/15000 [5:21:11<4:52:44,  2.36s/it] 50%|█████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                                | 7544/15000 [5:21:13<4:52:45,  2.36s/it] 50%|█████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                                | 7545/15000 [5:21:15<4:52:44,  2.36s/it] 50%|█████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                                | 7546/15000 [5:21:18<4:52:21,  2.35s/it] 50%|█████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                                | 7547/15000 [5:21:20<4:52:28,  2.35s/it] 50%|█████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                                | 7548/15000 [5:21:23<4:52:34,  2.36s/it] 50%|█████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                                | 7549/15000 [5:21:25<4:52:09,  2.35s/it] 50%|█████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                                | 7550/15000 [5:21:27<4:52:02,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.7338, 'grad_norm': 1.75, 'learning_rate': 4.278328624657456e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3490.9, 'total_tokens': 61681116, 'epoch': 0.5}
+ 50%|█████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                                | 7550/15000 [5:21:27<4:52:02,  2.35s/it] 50%|█████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                                | 7551/15000 [5:21:30<4:52:17,  2.35s/it] 50%|█████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                                | 7552/15000 [5:21:32<4:52:27,  2.36s/it] 50%|█████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                                | 7553/15000 [5:21:34<4:52:13,  2.35s/it] 50%|█████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                                | 7554/15000 [5:21:37<4:52:25,  2.36s/it] 50%|█████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                                | 7555/15000 [5:21:39<4:52:33,  2.36s/it] 50%|█████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                                | 7556/15000 [5:21:41<4:52:17,  2.36s/it] 50%|█████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                                | 7557/15000 [5:21:44<4:52:18,  2.36s/it] 50%|█████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                                | 7558/15000 [5:21:46<4:52:07,  2.36s/it] 50%|█████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                                | 7559/15000 [5:21:48<4:52:33,  2.36s/it] 50%|█████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                                | 7560/15000 [5:21:51<4:52:19,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.6388, 'grad_norm': 1.6171875, 'learning_rate': 4.2729639629152924e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3485.27, 'total_tokens': 61762893, 'epoch': 0.5}
+ 50%|█████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                                | 7560/15000 [5:21:51<4:52:19,  2.36s/it] 50%|█████████████████████████████████████████████████████████████████████████��███████████████████████▊                                                                                                | 7561/15000 [5:21:53<4:52:00,  2.36s/it] 50%|█████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                                | 7562/15000 [5:21:56<4:51:54,  2.35s/it] 50%|█████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                                | 7563/15000 [5:21:58<4:51:42,  2.35s/it] 50%|█████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                                | 7564/15000 [5:22:00<4:51:56,  2.36s/it] 50%|█████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                                | 7565/15000 [5:22:03<4:51:52,  2.36s/it] 50%|█████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                                | 7566/15000 [5:22:05<4:51:52,  2.36s/it] 50%|█████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                                | 7567/15000 [5:22:07<4:51:42,  2.35s/it] 50%|█████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                                | 7568/15000 [5:22:10<4:51:44,  2.36s/it] 50%|█████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                                | 7569/15000 [5:22:12<4:51:31,  2.35s/it] 50%|█████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                                | 7570/15000 [5:22:14<4:51:43,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.7323, 'grad_norm': 1.71875, 'learning_rate': 4.267583036434123e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3477.39, 'total_tokens': 61844702, 'epoch': 0.5}
+ 50%|█████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                                | 7570/15000 [5:22:14<4:51:43,  2.36s/it] 50%|█████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                                | 7571/15000 [5:22:17<4:51:39,  2.36s/it] 50%|█████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                                | 7572/15000 [5:22:19<4:51:34,  2.36s/it] 50%|█████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                                | 7573/15000 [5:22:21<4:51:39,  2.36s/it] 50%|█████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                                | 7574/15000 [5:22:24<4:51:20,  2.35s/it] 50%|█████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                                | 7575/15000 [5:22:26<4:51:18,  2.35s/it] 51%|█████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                                | 7576/15000 [5:22:28<4:51:09,  2.35s/it] 51%|█████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                                | 7577/15000 [5:22:31<4:51:07,  2.35s/it] 51%|██████████████████████████████████████████████████████████████████████████████████████████████████                                                                                                | 7578/15000 [5:22:33<4:51:09,  2.35s/it] 51%|██████████████████████████████████████████████████████████████████████████████████████████████████                                                                                                | 7579/15000 [5:22:36<4:51:05,  2.35s/it] 51%|██████████████████████████████████████████████████████████████████████████████████████████████████                                                                                                | 7580/15000 [5:22:38<4:51:06,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6901, 'grad_norm': 1.953125, 'learning_rate': 4.2621858983215236e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3483.13, 'total_tokens': 61926496, 'epoch': 0.51}
+ 51%|██████████████████████████████████████████████████████████████████████████████████████████████████                                                                                                | 7580/15000 [5:22:38<4:51:06,  2.35s/it] 51%|██████████████████████████████████████████████████████████████████████████████████████████████████                                                                                                | 7581/15000 [5:22:40<4:51:03,  2.35s/it] 51%|██████████████████████████████████████████████████████████████████████████████████████████████████                                                                                                | 7582/15000 [5:22:43<4:51:11,  2.36s/it] 51%|██████████████████████████████████████████████████████████████████████████████████████████████████                                                                                                | 7583/15000 [5:22:45<4:51:09,  2.36s/it] 51%|██████████████████████████████████████████████████████████████████████████████████████████████████                                                                                                | 7584/15000 [5:22:47<4:51:00,  2.35s/it] 51%|██████████████████████████████████████████████████████████████████████████████████████████████████                                                                                                | 7585/15000 [5:22:50<4:50:59,  2.35s/it] 51%|██████████████████████████████████████████████████████████████████████████████████████████████████                                                                                                | 7586/15000 [5:22:52<4:50:55,  2.35s/it] 51%|██████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                               | 7587/15000 [5:22:54<4:50:43,  2.35s/it] 51%|██████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                               | 7588/15000 [5:22:57<4:50:58,  2.36s/it] 51%|██████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                               | 7589/15000 [5:22:59<4:50:58,  2.36s/it] 51%|██████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                               | 7590/15000 [5:23:01<4:50:37,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6469, 'grad_norm': 1.75, 'learning_rate': 4.256772601845065e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3497.24, 'total_tokens': 62008336, 'epoch': 0.51}
+ 51%|███████████████████���██████████████████████████████████████████████████████████████████████████████▏                                                                                               | 7590/15000 [5:23:01<4:50:37,  2.35s/it] 51%|██████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                               | 7591/15000 [5:23:04<4:51:00,  2.36s/it] 51%|██████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                               | 7592/15000 [5:23:06<4:51:05,  2.36s/it] 51%|██████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                               | 7593/15000 [5:23:09<4:50:48,  2.36s/it] 51%|██████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                               | 7594/15000 [5:23:11<4:50:50,  2.36s/it] 51%|██████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                               | 7595/15000 [5:23:13<4:50:52,  2.36s/it] 51%|██████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                               | 7596/15000 [5:23:16<4:50:42,  2.36s/it] 51%|██████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                               | 7597/15000 [5:23:18<4:50:30,  2.35s/it] 51%|██████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                               | 7598/15000 [5:23:20<4:50:15,  2.35s/it] 51%|██████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                               | 7599/15000 [5:23:23<4:49:38,  2.35s/it] 51%|██████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                               | 7600/15000 [5:23:25<4:49:44,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.723, 'grad_norm': 1.78125, 'learning_rate': 4.251343200431799e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3489.47, 'total_tokens': 62090155, 'epoch': 0.51}
+ 51%|██████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                               | 7600/15000 [5:23:25<4:49:44,  2.35s/it] 51%|██████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                               | 7601/15000 [5:23:27<4:49:47,  2.35s/it] 51%|██████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                               | 7602/15000 [5:23:30<4:49:46,  2.35s/it] 51%|██████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                               | 7603/15000 [5:23:32<4:49:37,  2.35s/it] 51%|██████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                               | 7604/15000 [5:23:34<4:49:38,  2.35s/it] 51%|██████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                               | 7605/15000 [5:23:37<4:49:46,  2.35s/it] 51%|██████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                               | 7606/15000 [5:23:39<4:49:27,  2.35s/it] 51%|██████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                               | 7607/15000 [5:23:41<4:49:37,  2.35s/it] 51%|██████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                               | 7608/15000 [5:23:44<4:49:30,  2.35s/it] 51%|██████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                               | 7609/15000 [5:23:46<4:49:35,  2.35s/it] 51%|██████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                               | 7610/15000 [5:23:48<4:49:34,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.7745, 'grad_norm': 1.859375, 'learning_rate': 4.2458977476677276e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3487.82, 'total_tokens': 62171920, 'epoch': 0.51}
+ 51%|██████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                               | 7610/15000 [5:23:48<4:49:34,  2.35s/it] 51%|██████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                               | 7611/15000 [5:23:51<4:49:50,  2.35s/it] 51%|██████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                               | 7612/15000 [5:23:53<4:49:23,  2.35s/it] 51%|██████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                               | 7613/15000 [5:23:56<4:49:35,  2.35s/it] 51%|██████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                               | 7614/15000 [5:23:58<4:49:36,  2.35s/it] 51%|██████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                               | 7615/15000 [5:24:00<4:49:42,  2.35s/it] 51%|██████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                               | 7616/15000 [5:24:03<4:49:41,  2.35s/it] 51%|██████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                               | 7617/15000 [5:24:05<4:49:44,  2.35s/it] 51%|██████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                               | 7618/15000 [5:24:07<4:49:27,  2.35s/it] 51%|██████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                               | 7619/15000 [5:24:10<4:49:18,  2.35s/it] 51%|██████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                               | 7620/15000 [5:24:12<4:49:30,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6758, 'grad_norm': 1.6640625, 'learning_rate': 4.240436297297269e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3478.23, 'total_tokens': 62253696, 'epoch': 0.51}
+ 51%|██████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                               | 7620/15000 [5:24:12<4:49:30,  2.35s/it] 51%|██████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                               | 7621/15000 [5:24:14<4:49:44,  2.36s/it] 51%|██████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                               | 7622/15000 [5:24:17<4:49:53,  2.36s/it] 51%|██████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                               | 7623/15000 [5:24:19<4:49:38,  2.36s/it] 51%|██████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                               | 7624/15000 [5:24:21<4:49:23,  2.35s/it] 51%|██████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                               | 7625/15000 [5:24:24<4:49:11,  2.35s/it] 51%|██████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                               | 7626/15000 [5:24:26<4:49:08,  2.35s/it] 51%|██████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                               | 7627/15000 [5:24:28<4:48:53,  2.35s/it] 51%|██████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                               | 7628/15000 [5:24:31<4:49:10,  2.35s/it] 51%|██████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                               | 7629/15000 [5:24:33<4:49:02,  2.35s/it] 51%|█████████████████████████████████████████��████████████████████████████████████████████████████████▋                                                                                               | 7630/15000 [5:24:36<4:49:09,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.7186, 'grad_norm': 1.734375, 'learning_rate': 4.2349589032227335e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3480.2, 'total_tokens': 62335482, 'epoch': 0.51}
+ 51%|██████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                               | 7630/15000 [5:24:36<4:49:09,  2.35s/it] 51%|██████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                               | 7631/15000 [5:24:38<4:49:05,  2.35s/it] 51%|██████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                               | 7632/15000 [5:24:40<4:49:23,  2.36s/it] 51%|██████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                               | 7633/15000 [5:24:43<4:49:30,  2.36s/it] 51%|██████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                               | 7634/15000 [5:24:45<4:49:19,  2.36s/it] 51%|██████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                               | 7635/15000 [5:24:47<4:49:21,  2.36s/it] 51%|██████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                               | 7636/15000 [5:24:50<4:49:12,  2.36s/it] 51%|██████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                               | 7637/15000 [5:24:52<4:48:57,  2.35s/it] 51%|██████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                               | 7638/15000 [5:24:54<4:49:04,  2.36s/it] 51%|██████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                               | 7639/15000 [5:24:57<4:48:47,  2.35s/it] 51%|██████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                               | 7640/15000 [5:24:59<4:48:35,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.7337, 'grad_norm': 1.75, 'learning_rate': 4.22946561950379e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3490.32, 'total_tokens': 62417250, 'epoch': 0.51}
+ 51%|██████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                               | 7640/15000 [5:24:59<4:48:35,  2.35s/it] 51%|██████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                               | 7641/15000 [5:25:01<4:48:53,  2.36s/it] 51%|██████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                               | 7642/15000 [5:25:04<4:49:06,  2.36s/it] 51%|██████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                               | 7643/15000 [5:25:06<4:48:30,  2.35s/it] 51%|██████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                               | 7644/15000 [5:25:09<4:48:24,  2.35s/it] 51%|██████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                               | 7645/15000 [5:25:11<4:48:22,  2.35s/it] 51%|██████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                               | 7646/15000 [5:25:13<4:48:32,  2.35s/it] 51%|██████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                               | 7647/15000 [5:25:16<4:48:35,  2.35s/it] 51%|██████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                               | 7648/15000 [5:25:18<4:48:40,  2.36s/it] 51%|██████████████████████████████████████████���███████████████████████████████████████████████████████▉                                                                                               | 7649/15000 [5:25:20<4:48:52,  2.36s/it] 51%|██████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                               | 7650/15000 [5:25:23<4:48:46,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.749, 'grad_norm': 1.7890625, 'learning_rate': 4.223956500356932e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3482.18, 'total_tokens': 62499063, 'epoch': 0.51}
+ 51%|██████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                               | 7650/15000 [5:25:23<4:48:46,  2.36s/it] 51%|██████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                               | 7651/15000 [5:25:25<4:48:56,  2.36s/it] 51%|██████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                               | 7652/15000 [5:25:27<4:48:51,  2.36s/it] 51%|██████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                               | 7653/15000 [5:25:30<4:48:51,  2.36s/it] 51%|██████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                               | 7654/15000 [5:25:32<4:48:33,  2.36s/it] 51%|███████████████████████████████████████████████████████████████████████████████████████████████████                                                                                               | 7655/15000 [5:25:34<4:48:26,  2.36s/it] 51%|███████████████████████████████████████████████████████████████████████████████████████████████████                                                                                               | 7656/15000 [5:25:37<4:48:14,  2.35s/it] 51%|███████████████████████████████████████████████████████████████████████████████████████████████████                                                                                               | 7657/15000 [5:25:39<4:48:06,  2.35s/it] 51%|███████████████████████████████████████████████████████████████████████████████████████████████████                                                                                               | 7658/15000 [5:25:42<4:47:56,  2.35s/it] 51%|███████████████████████████████████████████████████████████████████████████████████████████████████                                                                                               | 7659/15000 [5:25:44<4:47:49,  2.35s/it] 51%|███████████████████████████████████████████████████████████████████████████████████████████████████                                                                                               | 7660/15000 [5:25:46<4:48:05,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.7525, 'grad_norm': 1.8125, 'learning_rate': 4.21843160015494e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3471.9, 'total_tokens': 62580776, 'epoch': 0.51}
+ 51%|███████████████████████████████████████████████████████████████████████████████████████████████████                                                                                               | 7660/15000 [5:25:46<4:48:05,  2.35s/it] 51%|███████████████████████████████████████████████████████████████████████████████████████████████████                                                                                               | 7661/15000 [5:25:49<4:48:04,  2.36s/it] 51%|███████████████████████████████████████████████████████████████████████████████████████████████████                                                                                               | 7662/15000 [5:25:51<4:48:02,  2.36s/it] 51%|███████████████████████████████████████████████████████████████████████████████████████████████████                                                                                               | 7663/15000 [5:25:53<4:48:02,  2.36s/it] 51%|███████████████████████████████████████████████████████████████████████████████████████████████████                                                                                               | 7664/15000 [5:25:56<4:48:17,  2.36s/it] 51%|███████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                              | 7665/15000 [5:25:58<4:47:58,  2.36s/it] 51%|███████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                              | 7666/15000 [5:26:00<4:48:15,  2.36s/it] 51%|███████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                              | 7667/15000 [5:26:03<4:48:08,  2.36s/it] 51%|████████████████████████████████████████��██████████████████████████████████████████████████████████▏                                                                                              | 7668/15000 [5:26:05<4:48:00,  2.36s/it] 51%|███████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                              | 7669/15000 [5:26:07<4:47:53,  2.36s/it] 51%|███████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                              | 7670/15000 [5:26:10<4:47:35,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.744, 'grad_norm': 1.8046875, 'learning_rate': 4.212890973426348e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3490.9, 'total_tokens': 62662540, 'epoch': 0.51}
+ 51%|███████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                              | 7670/15000 [5:26:10<4:47:35,  2.35s/it] 51%|███████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                              | 7671/15000 [5:26:12<4:47:37,  2.35s/it] 51%|███████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                              | 7672/15000 [5:26:14<4:47:33,  2.35s/it] 51%|███████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                              | 7673/15000 [5:26:17<4:47:35,  2.36s/it] 51%|███████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                              | 7674/15000 [5:26:19<4:47:38,  2.36s/it] 51%|███████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                              | 7675/15000 [5:26:22<4:47:14,  2.35s/it] 51%|███████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                              | 7676/15000 [5:26:24<4:47:20,  2.35s/it] 51%|███████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                              | 7677/15000 [5:26:26<4:47:24,  2.35s/it] 51%|███████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                              | 7678/15000 [5:26:29<4:47:26,  2.36s/it] 51%|███████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                              | 7679/15000 [5:26:31<4:47:26,  2.36s/it] 51%|███████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                              | 7680/15000 [5:26:33<4:47:24,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.7038, 'grad_norm': 1.8515625, 'learning_rate': 4.207334674854906e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3478.96, 'total_tokens': 62744249, 'epoch': 0.51}
+ 51%|███████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                              | 7680/15000 [5:26:33<4:47:24,  2.36s/it] 51%|███████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                              | 7681/15000 [5:26:36<4:47:31,  2.36s/it] 51%|███████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                              | 7682/15000 [5:26:38<4:47:18,  2.36s/it] 51%|███████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                              | 7683/15000 [5:26:40<4:47:02,  2.35s/it] 51%|███████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                              | 7684/15000 [5:26:43<4:46:48,  2.35s/it] 51%|███████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                              | 7685/15000 [5:26:45<4:46:37,  2.35s/it] 51%|███████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                              | 7686/15000 [5:26:47<4:46:43,  2.35s/it] 51%|█████████████████████████��█████████████████████████████████████████████████████████████████████████▍                                                                                              | 7687/15000 [5:26:50<5:04:16,  2.50s/it] 51%|███████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                              | 7688/15000 [5:26:53<4:58:56,  2.45s/it] 51%|███████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                              | 7689/15000 [5:26:55<4:55:34,  2.43s/it] 51%|███████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                              | 7690/15000 [5:26:57<4:53:09,  2.41s/it]                                                                                                                                                                                                                                                {'loss': 2.7178, 'grad_norm': 1.84375, 'learning_rate': 4.201762759279038e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3473.32, 'total_tokens': 62826012, 'epoch': 0.51}
+ 51%|███████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                              | 7690/15000 [5:26:57<4:53:09,  2.41s/it] 51%|███████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                              | 7691/15000 [5:27:00<4:51:20,  2.39s/it] 51%|███████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                              | 7692/15000 [5:27:02<4:50:07,  2.38s/it] 51%|███████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                              | 7693/15000 [5:27:04<4:48:59,  2.37s/it] 51%|███████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                              | 7694/15000 [5:27:07<4:48:16,  2.37s/it] 51%|███████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                              | 7695/15000 [5:27:09<4:47:35,  2.36s/it] 51%|███████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                              | 7696/15000 [5:27:11<4:47:08,  2.36s/it] 51%|███████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                              | 7697/15000 [5:27:14<4:46:59,  2.36s/it] 51%|███████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                              | 7698/15000 [5:27:16<4:46:50,  2.36s/it] 51%|███████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                              | 7699/15000 [5:27:19<4:46:28,  2.35s/it] 51%|███████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                              | 7700/15000 [5:27:21<4:46:16,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.7257, 'grad_norm': 1.75, 'learning_rate': 4.196175281691301e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3490.6, 'total_tokens': 62907793, 'epoch': 0.51}
+ 51%|███████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                              | 7700/15000 [5:27:21<4:46:16,  2.35s/it] 51%|███████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                              | 7701/15000 [5:27:23<4:46:21,  2.35s/it] 51%|███████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                              | 7702/15000 [5:27:26<4:46:29,  2.36s/it] 51%|███████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                              | 7703/15000 [5:27:28<4:46:42,  2.36s/it] 51%|███████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                              | 7704/15000 [5:27:30<4:46:21,  2.35s/it] 51%|███████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                              | 7705/15000 [5:27:33<4:46:35,  2.36s/it] 51%|████████████��██████████████████████████████████████████████████████████████████████████████████████▋                                                                                              | 7706/15000 [5:27:35<4:46:26,  2.36s/it] 51%|███████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                              | 7707/15000 [5:27:37<4:46:27,  2.36s/it] 51%|███████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                              | 7708/15000 [5:27:40<4:46:20,  2.36s/it] 51%|███████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                              | 7709/15000 [5:27:42<4:46:21,  2.36s/it] 51%|███████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                              | 7710/15000 [5:27:44<4:46:19,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.6911, 'grad_norm': 1.96875, 'learning_rate': 4.190572297237842e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3477.93, 'total_tokens': 62989517, 'epoch': 0.51}
+ 51%|███████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                              | 7710/15000 [5:27:44<4:46:19,  2.36s/it] 51%|███████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                              | 7711/15000 [5:27:47<4:46:14,  2.36s/it] 51%|███████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                              | 7712/15000 [5:27:49<4:46:16,  2.36s/it] 51%|███████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                              | 7713/15000 [5:27:52<4:46:06,  2.36s/it] 51%|███████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                              | 7714/15000 [5:27:54<4:46:07,  2.36s/it] 51%|███████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                              | 7715/15000 [5:27:56<4:46:04,  2.36s/it] 51%|███████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                              | 7716/15000 [5:27:59<4:45:55,  2.36s/it] 51%|███████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                              | 7717/15000 [5:28:01<4:45:57,  2.36s/it] 51%|███████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                              | 7718/15000 [5:28:03<4:45:42,  2.35s/it] 51%|███████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                              | 7719/15000 [5:28:06<4:45:55,  2.36s/it] 51%|███████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                              | 7720/15000 [5:28:08<4:45:40,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.7651, 'grad_norm': 1.7109375, 'learning_rate': 4.1849538612178565e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3483.75, 'total_tokens': 63071161, 'epoch': 0.51}
+ 51%|███████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                              | 7720/15000 [5:28:08<4:45:40,  2.35s/it] 51%|███████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                              | 7721/15000 [5:28:10<4:45:25,  2.35s/it] 51%|███████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                              | 7722/15000 [5:28:13<4:45:23,  2.35s/it] 51%|███████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                              | 7723/15000 [5:28:15<4:45:20,  2.35s/it] 51%|███████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                              | 7724/15000 [5:28:17<4:45:34,  2.35s/it] 52%|███████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                              | 7725/15000 [5:28:20<4:45:42,  2.36s/it] 52%|███████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                              | 7726/15000 [5:28:22<4:45:48,  2.36s/it] 52%|███████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                              | 7727/15000 [5:28:24<4:45:26,  2.35s/it] 52%|███████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                              | 7728/15000 [5:28:27<4:45:00,  2.35s/it] 52%|███████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                              | 7729/15000 [5:28:29<4:45:10,  2.35s/it] 52%|███████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                              | 7730/15000 [5:28:32<4:44:50,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.7094, 'grad_norm': 1.734375, 'learning_rate': 4.179320029083041e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3495.12, 'total_tokens': 63152866, 'epoch': 0.52}
+ 52%|███████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                              | 7730/15000 [5:28:32<4:44:50,  2.35s/it] 52%|███████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                              | 7731/15000 [5:28:34<4:45:00,  2.35s/it] 52%|████████████████████████████████████████████████████████████████████████████████████████████████████                                                                                              | 7732/15000 [5:28:36<4:44:57,  2.35s/it] 52%|████████████████████████████████████████████████████████████████████████████████████████████████████                                                                                              | 7733/15000 [5:28:39<4:45:07,  2.35s/it] 52%|███████████████████████████████████████████████████████████████���████████████████████████████████████                                                                                              | 7734/15000 [5:28:41<4:45:02,  2.35s/it] 52%|████████████████████████████████████████████████████████████████████████████████████████████████████                                                                                              | 7735/15000 [5:28:43<4:45:00,  2.35s/it] 52%|████████████████████████████████████████████████████████████████████████████████████████████████████                                                                                              | 7736/15000 [5:28:46<4:44:53,  2.35s/it] 52%|████████████████████████████████████████████████████████████████████████████████████████████████████                                                                                              | 7737/15000 [5:28:48<4:45:17,  2.36s/it] 52%|████████████████████████████████████████████████████████████████████████████████████████████████████                                                                                              | 7738/15000 [5:28:50<4:45:06,  2.36s/it] 52%|████████████████████████████████████████████████████████████████████████████████████████████████████                                                                                              | 7739/15000 [5:28:53<4:44:55,  2.35s/it] 52%|████████████████████████████████████████████████████████████████████████████████████████████████████                                                                                              | 7740/15000 [5:28:55<4:45:00,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.6771, 'grad_norm': 1.734375, 'learning_rate': 4.1736708564370414e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3477.35, 'total_tokens': 63234608, 'epoch': 0.52}
+ 52%|████████████████████████████████████████████████████████████████████████████████████████████████████                                                                                              | 7740/15000 [5:28:55<4:45:00,  2.36s/it] 52%|████████████████████████████████████████████████████████████████████████████████████████████████████                                                                                              | 7741/15000 [5:28:57<4:45:07,  2.36s/it] 52%|████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                             | 7742/15000 [5:29:00<4:44:49,  2.35s/it] 52%|████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                             | 7743/15000 [5:29:02<4:44:45,  2.35s/it] 52%|████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                             | 7744/15000 [5:29:05<4:44:39,  2.35s/it] 52%|████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                             | 7745/15000 [5:29:07<4:44:45,  2.36s/it] 52%|████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                             | 7746/15000 [5:29:09<4:44:46,  2.36s/it] 52%|████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                             | 7747/15000 [5:29:12<4:44:44,  2.36s/it] 52%|████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                             | 7748/15000 [5:29:14<4:44:38,  2.35s/it] 52%|████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                             | 7749/15000 [5:29:16<4:44:34,  2.35s/it] 52%|████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                             | 7750/15000 [5:29:19<4:44:42,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.6916, 'grad_norm': 1.703125, 'learning_rate': 4.168006399034913e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3473.5, 'total_tokens': 63316317, 'epoch': 0.52}
+ 52%|████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                             | 7750/15000 [5:29:19<4:44:42,  2.36s/it] 52%|████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                             | 7751/15000 [5:29:21<4:44:46,  2.36s/it] 52%|████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                             | 7752/15000 [5:29:23<4:44:34,  2.36s/it] 52%|████████████████████████████████████████���███████████████████████████████████████████████████████████▎                                                                                             | 7753/15000 [5:29:26<4:44:33,  2.36s/it] 52%|████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                             | 7754/15000 [5:29:28<4:44:14,  2.35s/it] 52%|████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                             | 7755/15000 [5:29:30<4:44:17,  2.35s/it] 52%|████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                             | 7756/15000 [5:29:33<4:44:23,  2.36s/it] 52%|████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                             | 7757/15000 [5:29:35<4:44:24,  2.36s/it] 52%|████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                             | 7758/15000 [5:29:37<4:44:39,  2.36s/it] 52%|████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                             | 7759/15000 [5:29:40<4:44:26,  2.36s/it] 52%|████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                             | 7760/15000 [5:29:42<4:44:25,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.6983, 'grad_norm': 2.171875, 'learning_rate': 4.1623267127825635e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3475.95, 'total_tokens': 63398022, 'epoch': 0.52}
+ 52%|████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                             | 7760/15000 [5:29:42<4:44:25,  2.36s/it] 52%|████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                             | 7761/15000 [5:29:45<4:44:24,  2.36s/it] 52%|███████████████████████████████████████████████████████████████████████████████████████████████████���▍                                                                                             | 7762/15000 [5:29:47<4:44:28,  2.36s/it] 52%|████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                             | 7763/15000 [5:29:49<4:44:07,  2.36s/it] 52%|████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                             | 7764/15000 [5:29:52<4:44:17,  2.36s/it] 52%|████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                             | 7765/15000 [5:29:54<4:44:12,  2.36s/it] 52%|████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                             | 7766/15000 [5:29:56<4:43:49,  2.35s/it] 52%|████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                             | 7767/15000 [5:29:59<4:43:51,  2.35s/it] 52%|████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                             | 7768/15000 [5:30:01<4:43:43,  2.35s/it] 52%|████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                             | 7769/15000 [5:30:03<4:43:30,  2.35s/it] 52%|████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                             | 7770/15000 [5:30:06<4:43:36,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.736, 'grad_norm': 1.6640625, 'learning_rate': 4.1566318537362016e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3476.5, 'total_tokens': 63479691, 'epoch': 0.52}
+ 52%|████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                             | 7770/15000 [5:30:06<4:43:36,  2.35s/it] 52%|████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                             | 7771/15000 [5:30:08<4:43:43,  2.35s/it] 52%|████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                             | 7772/15000 [5:30:10<4:43:49,  2.36s/it] 52%|████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                             | 7773/15000 [5:30:13<4:43:53,  2.36s/it] 52%|████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                             | 7774/15000 [5:30:15<4:43:43,  2.36s/it] 52%|████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                             | 7775/15000 [5:30:18<4:43:51,  2.36s/it] 52%|████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                             | 7776/15000 [5:30:20<4:43:39,  2.36s/it] 52%|████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                             | 7777/15000 [5:30:22<4:43:34,  2.36s/it] 52%|████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                             | 7778/15000 [5:30:25<4:43:19,  2.35s/it] 52%|████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                             | 7779/15000 [5:30:27<4:43:14,  2.35s/it] 52%|████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                             | 7780/15000 [5:30:29<4:43:12,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.7625, 'grad_norm': 1.7578125, 'learning_rate': 4.1509218781017884e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3481.69, 'total_tokens': 63561393, 'epoch': 0.52}
+ 52%|████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                             | 7780/15000 [5:30:29<4:43:12,  2.35s/it] 52%|█████████████████████████████████████████████████████████████████████��██████████████████████████████▋                                                                                             | 7781/15000 [5:30:32<4:43:31,  2.36s/it] 52%|████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                             | 7782/15000 [5:30:34<4:43:34,  2.36s/it] 52%|████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                             | 7783/15000 [5:30:36<4:43:21,  2.36s/it] 52%|████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                             | 7784/15000 [5:30:39<4:43:02,  2.35s/it] 52%|████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                             | 7785/15000 [5:30:41<4:43:01,  2.35s/it] 52%|████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                             | 7786/15000 [5:30:43<4:43:05,  2.35s/it] 52%|████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                             | 7787/15000 [5:30:46<4:42:48,  2.35s/it] 52%|████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                             | 7788/15000 [5:30:48<4:43:07,  2.36s/it] 52%|████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                             | 7789/15000 [5:30:50<4:43:01,  2.35s/it] 52%|████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                             | 7790/15000 [5:30:53<4:42:49,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.615, 'grad_norm': 1.625, 'learning_rate': 4.145196842234478e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3484.16, 'total_tokens': 63643036, 'epoch': 0.52}
+ 52%|████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                             | 7790/15000 [5:30:53<4:42:49,  2.35s/it] 52%|████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                             | 7791/15000 [5:30:55<4:43:12,  2.36s/it] 52%|████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                             | 7792/15000 [5:30:58<4:42:57,  2.36s/it] 52%|████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                             | 7793/15000 [5:31:00<4:42:31,  2.35s/it] 52%|████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                             | 7794/15000 [5:31:02<4:42:37,  2.35s/it] 52%|████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                             | 7795/15000 [5:31:05<4:42:37,  2.35s/it] 52%|████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                             | 7796/15000 [5:31:07<4:42:36,  2.35s/it] 52%|████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                             | 7797/15000 [5:31:09<4:42:26,  2.35s/it] 52%|████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                             | 7798/15000 [5:31:12<4:42:28,  2.35s/it] 52%|████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                             | 7799/15000 [5:31:14<4:42:23,  2.35s/it] 52%|████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                             | 7800/15000 [5:31:16<4:42:13,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.7669, 'grad_norm': 1.734375, 'learning_rate': 4.139456802638063e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3479.97, 'total_tokens': 63724548, 'epoch': 0.52}
+ 52%|████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                             | 7800/15000 [5:31:16<4:42:13,  2.35s/it][2025-11-17 03:14:11,145] [INFO] [axolotl.utils.data.wrappers.get_dataset_wrapper:87] [PID:8163] Loading dataset: Goader/kobza-2m-jsonl with base_type: pretrain and prompt_style: None
+
+Tokenizing Prompts (num_proc=64):   0%|                                                                                                                                                                        | 0/10000 [00:00<?, ? examples/s][A
+Tokenizing Prompts (num_proc=64):   2%|██▍                                                                                                                                                           | 157/10000 [00:06<06:19, 25.94 examples/s][A
+Tokenizing Prompts (num_proc=64):   3%|████▉                                                                                                                                                         | 314/10000 [00:07<03:31, 45.80 examples/s][A
+Tokenizing Prompts (num_proc=64):   5%|███████▍                                                                                                                                                      | 471/10000 [00:08<01:58, 80.37 examples/s][A
+Tokenizing Prompts (num_proc=64):   6%|█████████▊                                                                                                                                                   | 628/10000 [00:08<01:22, 114.01 examples/s][A
+Tokenizing Prompts (num_proc=64):   8%|████████████▎                                                                                                                                                | 785/10000 [00:09<01:07, 137.11 examples/s][A
+Tokenizing Prompts (num_proc=64):   9%|██████████████▊                                                                                                                                              | 942/10000 [00:10<00:58, 154.39 examples/s][A
+Tokenizing Prompts (num_proc=64):  11%|█████████████████▏                                                                                                                                          | 1099/10000 [00:10<00:50, 178.02 examples/s][A
+Tokenizing Prompts (num_proc=64):  13%|███████████████████▌                                                                                                                                        | 1256/10000 [00:11<00:53, 162.36 examples/s][A
+Tokenizing Prompts (num_proc=64):  14%|██████████████████████                                                                                                                                      | 1413/10000 [00:12<00:48, 178.36 examples/s][A
+Tokenizing Prompts (num_proc=64):  16%|████████████████████████▍                                                                                                                                   | 1570/10000 [00:12<00:36, 233.31 examples/s][A
+Tokenizing Prompts (num_proc=64):  17%|██████████████████████████▉                                                                                                                                 | 1727/10000 [00:13<00:43, 188.69 examples/s][A
+Tokenizing Prompts (num_proc=64):  19%|█████████████████████████████▍                                                                                                                              | 1884/10000 [00:13<00:32, 246.62 examples/s][A
+Tokenizing Prompts (num_proc=64):  20%|███████████████████████████████▊                                                                                                                            | 2041/10000 [00:14<00:35, 224.59 examples/s][A
+Tokenizing Prompts (num_proc=64):  22%|██████████████████████████████████▎                                                                                                                         | 2198/10000 [00:15<00:32, 236.56 examples/s][A
+Tokenizing Prompts (num_proc=64):  24%|████████████████████████████████████▋                                                                                                                       | 2355/10000 [00:16<00:33, 231.05 examples/s][A
+Tokenizing Prompts (num_proc=64):  25%|███████████████���███████████████████████▏                                                                                                                    | 2512/10000 [00:16<00:34, 219.33 examples/s][A
+Tokenizing Prompts (num_proc=64):  27%|█████████████████████████████████████████▌                                                                                                                  | 2668/10000 [00:17<00:30, 239.48 examples/s][A
+Tokenizing Prompts (num_proc=64):  28%|████████████████████████████████████████████                                                                                                                | 2824/10000 [00:18<00:31, 230.93 examples/s][A
+Tokenizing Prompts (num_proc=64):  30%|██████████████████████████████████████████████▍                                                                                                             | 2980/10000 [00:18<00:31, 224.77 examples/s][A
+Tokenizing Prompts (num_proc=64):  31%|████████████████████████████████████████████████▉                                                                                                           | 3136/10000 [00:19<00:36, 187.29 examples/s][A
+Tokenizing Prompts (num_proc=64):  33%|███████████████████████████████████████████████████▎                                                                                                        | 3292/10000 [00:20<00:31, 213.56 examples/s][A
+Tokenizing Prompts (num_proc=64):  34%|█████████████████████████████████████████████████████▊                                                                                                      | 3448/10000 [00:21<00:36, 178.27 examples/s][A
+Tokenizing Prompts (num_proc=64):  36%|████████████████████████████████████████████████████████▏                                                                                                   | 3604/10000 [00:22<00:29, 217.27 examples/s][A
+Tokenizing Prompts (num_proc=64):  38%|██████████████████████████████████████████████████████████▋                                                                                                 | 3760/10000 [00:23<00:41, 150.22 examples/s][A
+Tokenizing Prompts (num_proc=64):  41%|███████████████████████████████████████████████████████████████▌                                                                                            | 4072/10000 [00:24<00:24, 242.73 examples/s][A
+Tokenizing Prompts (num_proc=64):  42%|█████████████████████████████████████████████████████████████████▉                                                                                          | 4228/10000 [00:25<00:25, 225.92 examples/s][A
+Tokenizing Prompts (num_proc=64):  44%|████████████████████████████████████████████████████████████████████▍                                                                                       | 4384/10000 [00:25<00:23, 242.25 examples/s][A
+Tokenizing Prompts (num_proc=64):  45%|██████████████████████████████████████████████████████████████████████▊                                                                                     | 4540/10000 [00:26<00:28, 193.73 examples/s][A
+Tokenizing Prompts (num_proc=64):  47%|█████████████████████████████████████████████████████████████████████████▎                                                                                  | 4696/10000 [00:27<00:23, 224.78 examples/s][A
+Tokenizing Prompts (num_proc=64):  49%|████████████████████████████████████████████████��██████████████████████████▋                                                                                | 4852/10000 [00:27<00:21, 244.83 examples/s][A
+Tokenizing Prompts (num_proc=64):  50%|██████████████████████████████████████████████████████████████████████████████                                                                              | 5008/10000 [00:28<00:22, 219.54 examples/s][A
+Tokenizing Prompts (num_proc=64):  52%|████████████████████████████████████████████████████████████████████████████████▌                                                                           | 5164/10000 [00:29<00:20, 235.40 examples/s][A
+Tokenizing Prompts (num_proc=64):  53%|██████████████████████████████████████████████████████████████████████████████████▉                                                                         | 5320/10000 [00:29<00:20, 233.76 examples/s][A
+Tokenizing Prompts (num_proc=64):  55%|█████████████████████████████████████████████████████████████████████████████████████▍                                                                      | 5476/10000 [00:30<00:19, 232.52 examples/s][A
+Tokenizing Prompts (num_proc=64):  56%|███████████████████████████████████████████████████████████████████████████████████████▊                                                                    | 5632/10000 [00:31<00:18, 234.91 examples/s][A
+Tokenizing Prompts (num_proc=64):  58%|██████████████████████████████████████████████████████████████████████████████████████████▎                                                                 | 5788/10000 [00:31<00:18, 232.02 examples/s][A
+Tokenizing Prompts (num_proc=64):  59%|████████████████████████████████████████████████████████████████████████████████████████████▋                                                               | 5944/10000 [00:32<00:17, 233.11 examples/s][A
+Tokenizing Prompts (num_proc=64):  61%|███████████████████████████████████████████████████████████████████████████████████████████████▏                                                            | 6100/10000 [00:33<00:17, 228.47 examples/s][A
+Tokenizing Prompts (num_proc=64):  63%|█████████████████████████████████████████████████████████████████████████████████████████████████▌                                                          | 6256/10000 [00:33<00:16, 222.74 examples/s][A
+Tokenizing Prompts (num_proc=64):  64%|████████████████████████████████████████████████████████████████████████████████████████████████████                                                        | 6412/10000 [00:34<00:15, 234.07 examples/s][A
+Tokenizing Prompts (num_proc=64):  66%|██████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                     | 6568/10000 [00:35<00:18, 189.59 examples/s][A
+Tokenizing Prompts (num_proc=64):  67%|████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                   | 6724/10000 [00:35<00:13, 245.52 examples/s][A
+Tokenizing Prompts (num_proc=64):  69%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                | 6880/10000 [00:36<00:12, 240.38 examples/s][A
+Tokenizing Prompts (num_proc=64):  70%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                              | 7036/10000 [00:37<00:12, 237.83 examples/s][A
+Tokenizing Prompts (num_proc=64):  72%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                           | 7192/10000 [00:38<00:12, 223.31 examples/s][A
+Tokenizing Prompts (num_proc=64):  73%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                         | 7348/10000 [00:38<00:11, 228.65 examples/s][A
+Tokenizing Prompts (num_proc=64):  75%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                       | 7504/10000 [00:39<00:12, 201.93 examples/s][A
+Tokenizing Prompts (num_proc=64):  77%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                    | 7660/10000 [00:40<00:12, 184.52 examples/s][A
+Tokenizing Prompts (num_proc=64):  78%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                  | 7816/10000 [00:41<00:11, 184.84 examples/s][A
+Tokenizing Prompts (num_proc=64):  80%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                               | 7972/10000 [00:42<00:11, 178.62 examples/s][A
+Tokenizing Prompts (num_proc=64):  81%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                             | 8128/10000 [00:43<00:10, 181.07 examples/s][A
+Tokenizing Prompts (num_proc=64):  83%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                          | 8284/10000 [00:44<00:09, 178.03 examples/s][A
+Tokenizing Prompts (num_proc=64):  84%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                        | 8440/10000 [00:45<00:09, 171.04 examples/s][A
+Tokenizing Prompts (num_proc=64):  86%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                      | 8596/10000 [00:46<00:09, 146.04 examples/s][A
+Tokenizing Prompts (num_proc=64):  88%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                   | 8752/10000 [00:47<00:07, 156.08 examples/s][A
+Tokenizing Prompts (num_proc=64):  89%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                 | 8908/10000 [00:48<00:06, 163.28 examples/s][A
+Tokenizing Prompts (num_proc=64):  91%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍              | 9064/10000 [00:49<00:05, 169.50 examples/s][A
+Tokenizing Prompts (num_proc=64):  94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎         | 9376/10000 [00:50<00:03, 203.26 examples/s][A
+Tokenizing Prompts (num_proc=64):  95%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋       | 9532/10000 [00:50<00:02, 217.27 examples/s][A
+Tokenizing Prompts (num_proc=64):  97%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏    | 9688/10000 [00:51<00:01, 191.30 examples/s][A
+Tokenizing Prompts (num_proc=64):  98%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌  | 9844/10000 [00:52<00:00, 194.14 examples/s][A
+Tokenizing Prompts (num_proc=64): 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████��████████████████████████████████████████████| 10000/10000 [00:53<00:00, 208.79 examples/s][ATokenizing Prompts (num_proc=64): 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10000/10000 [00:55<00:00, 180.98 examples/s]
+
+Dropping Long Sequences:   0%|                                                                                                                                                                                 | 0/10001 [00:00<?, ? examples/s][A
+Dropping Long Sequences:  10%|████████████████▍                                                                                                                                                    | 1000/10001 [00:01<00:13, 643.84 examples/s][A
+Dropping Long Sequences:  20%|████████████████████████████████▊                                                                                                                                   | 2000/10001 [00:01<00:06, 1264.27 examples/s][A
+Dropping Long Sequences:  30%|█████████████████████████████████████████████████▏                                                                                                                  | 3000/10001 [00:02<00:03, 1841.22 examples/s][A
+Dropping Long Sequences:  40%|█████████████████████████████████████████████████████████████████▌                                                                                                  | 4000/10001 [00:02<00:02, 2192.72 examples/s][A
+Dropping Long Sequences:  50%|█████████████████████████████████████████████████████████████████████████████████▉                                                                                  | 5000/10001 [00:02<00:01, 2628.53 examples/s][A
+Dropping Long Sequences:  60%|██████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                 | 6000/10001 [00:02<00:01, 2973.00 examples/s][A
+Dropping Long Sequences:  70%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                 | 7000/10001 [00:03<00:00, 3151.31 examples/s][A
+Dropping Long Sequences:  80%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                | 8000/10001 [00:03<00:00, 3408.64 examples/s][A
+Dropping Long Sequences:  90%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                | 9000/10001 [00:03<00:00, 3515.07 examples/s][A
+Dropping Long Sequences: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉| 10000/10001 [00:03<00:00, 3605.88 examples/s][ADropping Long Sequences: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10001/10001 [00:03<00:00, 2507.52 examples/s]
+
+Add position_id column (Pretraining Sample Packing):   0%|                                                                                                                                                      | 0/8790 [00:00<?, ? examples/s][A
+Add position_id column (Pretraining Sample Packing):  11%|███████████████▋                                                                                                                          | 1000/8790 [00:01<00:10, 774.51 examples/s][A
+Add position_id column (Pretraining Sample Packing):  23%|███████████████████████████████▏                                                                                                         | 2000/8790 [00:01<00:04, 1613.00 examples/s][A
+Add position_id column (Pretraining Sample Packing):  34%|██████████████████████████████████████████████▊                                                                                          | 3000/8790 [00:01<00:02, 2471.73 examples/s][A
+Add position_id column (Pretraining Sample Packing):  46%|██████████████████████████████████████████████████████████████▎                                                                          | 4000/8790 [00:01<00:01, 3264.56 examples/s][A
+Add position_id column (Pretraining Sample Packing):  57%|█████████████████████████████████████████████████████████████████████████████▉                                                           | 5000/8790 [00:01<00:00, 4049.17 examples/s][A
+Add position_id column (Pretraining Sample Packing):  68%|█████████████████████████████████████████████████████████████████████████████████████████████▌                                           | 6000/8790 [00:02<00:00, 4601.91 examples/s][A
+Add position_id column (Pretraining Sample Packing):  80%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████                            | 7000/8790 [00:02<00:00, 5134.72 examples/s][A
+Add position_id column (Pretraining Sample Packing):  91%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋            | 8000/8790 [00:02<00:00, 5374.49 examples/s][A
+Add position_id column (Pretraining Sample Packing): 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 8790/8790 [00:02<00:00, 5688.70 examples/s][AAdd position_id column (Pretraining Sample Packing): 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 8790/8790 [00:02<00:00, 3462.79 examples/s]
+[2025-11-17 03:15:14,670] [DEBUG] [axolotl.utils.samplers.multipack.pack_parallel:177] [PID:8163] Using single process for pack_parallel, running sequentially.
+ 52%|████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                            | 7801/15000 [5:32:29<47:01:02, 23.51s/it] 52%|████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                            | 7802/15000 [5:32:32<34:19:12, 17.16s/it] 52%|████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                            | 7803/15000 [5:32:34<25:26:00, 12.72s/it] 52%|████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                            | 7804/15000 [5:32:36<19:12:46,  9.61s/it] 52%|████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                            | 7805/15000 [5:32:39<14:51:12,  7.43s/it] 52%|████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                            | 7806/15000 [5:32:41<11:48:21,  5.91s/it] 52%|████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                             | 7807/15000 [5:32:43<9:40:07,  4.84s/it] 52%|████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                             | 7808/15000 [5:32:46<8:10:32,  4.09s/it] 52%|████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                             | 7809/15000 [5:32:48<7:07:45,  3.57s/it] 52%|█████████████████████████████████████████████████████████████████████████████████████████████████████                                                                                             | 7810/15000 [5:32:50<6:23:54,  3.20s/it]                                                                                                                                                                                                                                                {'loss': 2.6952, 'grad_norm': 1.9453125, 'learning_rate': 4.133701815964417e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3379.35, 'total_tokens': 63803766, 'epoch': 0.52}
+ 52%|█████████████████████████████████████████████████████████████████████████████████████████████████████                                                                                             | 7810/15000 [5:32:50<6:23:54,  3.20s/it] 52%|█████████████████████████████████████████████████████████████████████████████████████████████████████                                                                                             | 7811/15000 [5:32:53<5:53:19,  2.95s/it] 52%|█████████████████████████████████████████████████████████████████████████████████████████████████████                                                                                             | 7812/15000 [5:32:55<5:31:59,  2.77s/it] 52%|█████████████████████████████████████████████████████████████████████████████████████████████████████                                                                                             | 7813/15000 [5:32:57<5:16:46,  2.64s/it] 52%|█████████████████████████████████████████████████████████████████████████████████████████████████████                                                                                             | 7814/15000 [5:33:00<5:06:26,  2.56s/it] 52%|█████████████████████████████████████████████████████████████████████████████████████████████████████                                                                                             | 7815/15000 [5:33:02<4:59:04,  2.50s/it] 52%|█████████████████████████████████████████████████████████████████████████████████████████████████████                                                                                             | 7816/15000 [5:33:05<4:53:48,  2.45s/it] 52%|█████████████████████████████████████████████████████████████████████████████████████████████████████                                                                                             | 7817/15000 [5:33:07<4:50:13,  2.42s/it] 52%|█████████████████████████████████████████████████████████████████████████████████████████████████████                                                                                             | 7818/15000 [5:33:09<4:47:39,  2.40s/it] 52%|█████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                            | 7819/15000 [5:33:12<4:45:43,  2.39s/it] 52%|█████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                            | 7820/15000 [5:33:14<4:44:47,  2.38s/it]                                                                                                                                                                                                                                                {'loss': 2.7709, 'grad_norm': 1.7578125, 'learning_rate': 4.127931939012936e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3473.32, 'total_tokens': 63885589, 'epoch': 0.52}
+ 52%|█████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                            | 7820/15000 [5:33:14<4:44:47,  2.38s/it] 52%|█████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                            | 7821/15000 [5:33:16<4:43:50,  2.37s/it] 52%|█████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                            | 7822/15000 [5:33:19<4:43:15,  2.37s/it] 52%|█████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                            | 7823/15000 [5:33:21<4:42:32,  2.36s/it] 52%|█████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                            | 7824/15000 [5:33:23<4:42:07,  2.36s/it] 52%|█████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                            | 7825/15000 [5:33:26<4:42:04,  2.36s/it] 52%|█████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                            | 7826/15000 [5:33:28<4:41:43,  2.36s/it] 52%|█████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                            | 7827/15000 [5:33:30<4:41:43,  2.36s/it] 52%|█████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                            | 7828/15000 [5:33:33<4:41:10,  2.35s/it] 52%|█████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                            | 7829/15000 [5:33:35<4:41:30,  2.36s/it] 52%|█████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                            | 7830/15000 [5:33:38<4:41:18,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.7034, 'grad_norm': 1.78125, 'learning_rate': 4.122147228729974e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3490.69, 'total_tokens': 63967400, 'epoch': 0.52}
+ 52%|█████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                            | 7830/15000 [5:33:38<4:41:18,  2.35s/it] 52%|█████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                            | 7831/15000 [5:33:40<4:41:16,  2.35s/it] 52%|█████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                            | 7832/15000 [5:33:42<4:41:08,  2.35s/it] 52%|█████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                            | 7833/15000 [5:33:45<4:41:06,  2.35s/it] 52%|█████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                            | 7834/15000 [5:33:47<4:41:01,  2.35s/it] 52%|█████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                            | 7835/15000 [5:33:49<4:41:20,  2.36s/it] 52%|█████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                            | 7836/15000 [5:33:52<4:41:29,  2.36s/it] 52%|█████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                            | 7837/15000 [5:33:54<4:41:13,  2.36s/it] 52%|█████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                            | 7838/15000 [5:33:56<4:41:21,  2.36s/it] 52%|█████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                            | 7839/15000 [5:33:59<4:41:17,  2.36s/it] 52%|█████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                            | 7840/15000 [5:34:01<4:41:14,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.7103, 'grad_norm': 1.7421875, 'learning_rate': 4.116347742208288e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3483.23, 'total_tokens': 64049248, 'epoch': 0.52}
+ 52%|█████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                            | 7840/15000 [5:34:01<4:41:14,  2.36s/it] 52%|█████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                            | 7841/15000 [5:34:03<4:41:08,  2.36s/it] 52%|█████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                            | 7842/15000 [5:34:06<4:41:03,  2.36s/it] 52%|█████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                            | 7843/15000 [5:34:08<4:41:04,  2.36s/it] 52%|█████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                            | 7844/15000 [5:34:10<4:41:07,  2.36s/it] 52%|█████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                            | 7845/15000 [5:34:13<4:40:50,  2.36s/it] 52%|█████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                            | 7846/15000 [5:34:15<4:40:51,  2.36s/it] 52%|█████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                            | 7847/15000 [5:34:18<4:40:57,  2.36s/it] 52%|█████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                            | 7848/15000 [5:34:20<4:40:48,  2.36s/it] 52%|█████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                            | 7849/15000 [5:34:22<4:40:50,  2.36s/it] 52%|█████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                            | 7850/15000 [5:34:25<4:40:48,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.7494, 'grad_norm': 1.703125, 'learning_rate': 4.1105335366864664e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3483.05, 'total_tokens': 64131087, 'epoch': 0.52}
+ 52%|█████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                            | 7850/15000 [5:34:25<4:40:48,  2.36s/it] 52%|█████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                            | 7851/15000 [5:34:27<4:40:50,  2.36s/it] 52%|█████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                            | 7852/15000 [5:34:29<4:40:34,  2.36s/it] 52%|█████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                            | 7853/15000 [5:34:32<4:40:24,  2.35s/it] 52%|█████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                            | 7854/15000 [5:34:34<4:40:40,  2.36s/it] 52%|█████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                            | 7855/15000 [5:34:36<4:40:27,  2.36s/it] 52%|█████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                            | 7856/15000 [5:34:39<4:40:35,  2.36s/it] 52%|█████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                            | 7857/15000 [5:34:41<4:40:30,  2.36s/it] 52%|█████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                            | 7858/15000 [5:34:43<4:40:07,  2.35s/it] 52%|███████████���█████████████████████████████████████████████████████████████████████████████████████████▋                                                                                            | 7859/15000 [5:34:46<4:40:04,  2.35s/it] 52%|█████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                            | 7860/15000 [5:34:48<4:39:57,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6664, 'grad_norm': 1.78125, 'learning_rate': 4.1047046695483724e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3490.62, 'total_tokens': 64212899, 'epoch': 0.52}
+ 52%|█████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                            | 7860/15000 [5:34:48<4:39:57,  2.35s/it] 52%|█████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                            | 7861/15000 [5:34:51<4:39:59,  2.35s/it] 52%|█████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                            | 7862/15000 [5:34:53<4:39:58,  2.35s/it] 52%|█████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                            | 7863/15000 [5:34:55<4:40:05,  2.35s/it] 52%|█████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                            | 7864/15000 [5:34:58<4:39:57,  2.35s/it] 52%|█████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                            | 7865/15000 [5:35:00<4:39:53,  2.35s/it] 52%|█████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                            | 7866/15000 [5:35:02<4:40:04,  2.36s/it] 52%|█████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                            | 7867/15000 [5:35:05<4:40:08,  2.36s/it] 52%|█████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                            | 7868/15000 [5:35:07<4:40:16,  2.36s/it] 52%|█████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                            | 7869/15000 [5:35:09<4:39:55,  2.36s/it] 52%|█████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                            | 7870/15000 [5:35:12<4:39:26,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.7592, 'grad_norm': 1.65625, 'learning_rate': 4.0988611983225714e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3503.04, 'total_tokens': 64294724, 'epoch': 0.52}
+ 52%|█████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                            | 7870/15000 [5:35:12<4:39:26,  2.35s/it] 52%|█████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                            | 7871/15000 [5:35:14<4:39:26,  2.35s/it] 52%|█████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                            | 7872/15000 [5:35:16<4:39:25,  2.35s/it] 52%|█████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                            | 7873/15000 [5:35:19<4:39:24,  2.35s/it] 52%|█████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                            | 7874/15000 [5:35:21<4:39:29,  2.35s/it] 52%|█████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                            | 7875/15000 [5:35:23<4:39:11,  2.35s/it] 53%|█████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                            | 7876/15000 [5:35:26<4:39:22,  2.35s/it] 53%|█████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                            | 7877/15000 [5:35:28<4:39:29,  2.35s/it] 53%|█████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                            | 7878/15000 [5:35:31<4:39:36,  2.36s/it] 53%|█████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                            | 7879/15000 [5:35:33<4:39:30,  2.36s/it] 53%|█████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                            | 7880/15000 [5:35:35<4:39:27,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.7565, 'grad_norm': 1.8125, 'learning_rate': 4.093003180681765e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3485.82, 'total_tokens': 64376557, 'epoch': 0.53}
+ 53%|█████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                            | 7880/15000 [5:35:35<4:39:27,  2.35s/it] 53%|█████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                            | 7881/15000 [5:35:38<4:39:15,  2.35s/it] 53%|█████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                            | 7882/15000 [5:35:40<4:39:11,  2.35s/it] 53%|█████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                            | 7883/15000 [5:35:42<4:39:13,  2.35s/it] 53%|█████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                            | 7884/15000 [5:35:45<4:39:22,  2.36s/it] 53%|█████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                            | 7885/15000 [5:35:47<4:39:14,  2.35s/it] 53%|█████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                            | 7886/15000 [5:35:49<4:39:08,  2.35s/it] 53%|█████████████████████��████████████████████████████████████████████████████████████████████████████████                                                                                            | 7887/15000 [5:35:52<4:39:08,  2.35s/it] 53%|██████████████████████████████████████████████████████████████████████████████████████████████████████                                                                                            | 7888/15000 [5:35:54<4:39:07,  2.35s/it] 53%|██████████████████████████████████████████████████████████████████████████████████████████████████████                                                                                            | 7889/15000 [5:35:56<4:38:57,  2.35s/it] 53%|██████████████████████████████████████████████████████████████████████████████████████████████████████                                                                                            | 7890/15000 [5:35:59<4:39:07,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.7282, 'grad_norm': 1.9140625, 'learning_rate': 4.0871306744422217e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3479.32, 'total_tokens': 64458400, 'epoch': 0.53}
+ 53%|██████████████████████████████████████████████████████████████████████████████████████████████████████                                                                                            | 7890/15000 [5:35:59<4:39:07,  2.36s/it] 53%|██████████████████████████████████████████████████████████████████████████████████████████████████████                                                                                            | 7891/15000 [5:36:01<4:39:01,  2.35s/it] 53%|██████████████████████████████████████████████████████████████████████████████████████████████████████                                                                                            | 7892/15000 [5:36:04<4:38:57,  2.35s/it] 53%|██████████████████████████████████████████████████████████████████████████████████████████████████████                                                                                            | 7893/15000 [5:36:06<4:38:49,  2.35s/it] 53%|██████████████████████████████████████████████████████████████████████████████████████████████████████                                                                                            | 7894/15000 [5:36:08<4:38:45,  2.35s/it] 53%|██████████████████████████████████████████████████████████████████████████████████████████████████████                                                                                            | 7895/15000 [5:36:11<4:38:39,  2.35s/it] 53%|█████████████████████████████████████████████████████████████████████████��████████████████████████████                                                                                            | 7896/15000 [5:36:13<4:38:47,  2.35s/it] 53%|██████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                           | 7897/15000 [5:36:15<4:38:46,  2.35s/it] 53%|██████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                           | 7898/15000 [5:36:18<4:38:51,  2.36s/it] 53%|██████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                           | 7899/15000 [5:36:20<4:38:36,  2.35s/it] 53%|██████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                           | 7900/15000 [5:36:22<4:38:33,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.7756, 'grad_norm': 1.765625, 'learning_rate': 4.081243737563207e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3486.69, 'total_tokens': 64540228, 'epoch': 0.53}
+ 53%|██████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                           | 7900/15000 [5:36:22<4:38:33,  2.35s/it] 53%|██████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                           | 7901/15000 [5:36:25<4:38:31,  2.35s/it] 53%|██████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                           | 7902/15000 [5:36:27<4:38:47,  2.36s/it] 53%|██████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                           | 7903/15000 [5:36:29<4:38:58,  2.36s/it] 53%|██████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                           | 7904/15000 [5:36:32<4:38:35,  2.36s/it] 53%|██████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                           | 7905/15000 [5:36:34<4:38:21,  2.35s/it] 53%|██████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                           | 7906/15000 [5:36:36<4:38:25,  2.35s/it] 53%|██████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                           | 7907/15000 [5:36:39<4:38:16,  2.35s/it] 53%|██████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                           | 7908/15000 [5:36:41<4:38:09,  2.35s/it] 53%|██████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                           | 7909/15000 [5:36:44<4:38:12,  2.35s/it] 53%|██████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                           | 7910/15000 [5:36:46<4:38:13,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.7767, 'grad_norm': 1.859375, 'learning_rate': 4.075342428146413e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3483.16, 'total_tokens': 64622028, 'epoch': 0.53}
+ 53%|██████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                           | 7910/15000 [5:36:46<4:38:13,  2.35s/it] 53%|██████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                           | 7911/15000 [5:36:48<4:38:26,  2.36s/it] 53%|██████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                           | 7912/15000 [5:36:51<4:38:19,  2.36s/it] 53%|██████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                           | 7913/15000 [5:36:53<4:38:25,  2.36s/it] 53%|██████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                           | 7914/15000 [5:36:55<4:38:06,  2.35s/it] 53%|█████████████████���████████████████████████████████████████████████████████████████████████████████████▎                                                                                           | 7915/15000 [5:36:58<4:37:56,  2.35s/it] 53%|██████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                           | 7916/15000 [5:37:00<4:38:09,  2.36s/it] 53%|██████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                           | 7917/15000 [5:37:02<4:38:11,  2.36s/it] 53%|██████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                           | 7918/15000 [5:37:05<4:37:56,  2.35s/it] 53%|██████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                           | 7919/15000 [5:37:07<4:37:43,  2.35s/it] 53%|██████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                           | 7920/15000 [5:37:09<4:37:43,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6855, 'grad_norm': 1.796875, 'learning_rate': 4.06942680443538e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3486.03, 'total_tokens': 64703853, 'epoch': 0.53}
+ 53%|██████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                           | 7920/15000 [5:37:09<4:37:43,  2.35s/it] 53%|██████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                           | 7921/15000 [5:37:12<4:37:43,  2.35s/it] 53%|██████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                           | 7922/15000 [5:37:14<4:37:49,  2.36s/it] 53%|██████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                           | 7923/15000 [5:37:17<4:37:38,  2.35s/it] 53%|███████████████████████████████████████████████████████████████��██████████████████████████████████████▍                                                                                           | 7924/15000 [5:37:19<4:37:29,  2.35s/it] 53%|██████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                           | 7925/15000 [5:37:21<4:37:27,  2.35s/it] 53%|██████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                           | 7926/15000 [5:37:24<4:37:41,  2.36s/it] 53%|██████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                           | 7927/15000 [5:37:26<4:37:37,  2.36s/it] 53%|██████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                           | 7928/15000 [5:37:28<4:37:26,  2.35s/it] 53%|██████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                           | 7929/15000 [5:37:31<4:37:13,  2.35s/it] 53%|██████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                           | 7930/15000 [5:37:33<4:37:23,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.732, 'grad_norm': 1.7734375, 'learning_rate': 4.0634969248149254e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3475.72, 'total_tokens': 64785573, 'epoch': 0.53}
+ 53%|██████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                           | 7930/15000 [5:37:33<4:37:23,  2.35s/it] 53%|██████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                           | 7931/15000 [5:37:35<4:37:28,  2.36s/it] 53%|██████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                           | 7932/15000 [5:37:38<4:37:21,  2.35s/it] 53%|██████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                           | 7933/15000 [5:37:40<4:37:25,  2.36s/it] 53%|██████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                           | 7934/15000 [5:37:42<4:36:57,  2.35s/it] 53%|██████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                           | 7935/15000 [5:37:45<4:54:01,  2.50s/it] 53%|██████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                           | 7936/15000 [5:37:48<4:49:11,  2.46s/it] 53%|██████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                           | 7937/15000 [5:37:50<4:45:46,  2.43s/it] 53%|██████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                           | 7938/15000 [5:37:52<4:42:58,  2.40s/it] 53%|██████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                           | 7939/15000 [5:37:55<4:41:10,  2.39s/it] 53%|██████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                           | 7940/15000 [5:37:57<4:39:36,  2.38s/it]                                                                                                                                                                                                                                                {'loss': 2.7387, 'grad_norm': 1.734375, 'learning_rate': 4.057552847810568e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3494.3, 'total_tokens': 64867314, 'epoch': 0.53}
+ 53%|██████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                           | 7940/15000 [5:37:57<4:39:36,  2.38s/it] 53%|██████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                           | 7941/15000 [5:37:59<4:38:45,  2.37s/it] 53%|██████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                           | 7942/15000 [5:38:02<4:38:20,  2.37s/it] 53%|██████��███████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                           | 7943/15000 [5:38:04<4:38:08,  2.36s/it] 53%|██████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                           | 7944/15000 [5:38:06<4:37:52,  2.36s/it] 53%|██████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                           | 7945/15000 [5:38:09<4:37:30,  2.36s/it] 53%|██████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                           | 7946/15000 [5:38:11<4:37:14,  2.36s/it] 53%|██████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                           | 7947/15000 [5:38:13<4:37:11,  2.36s/it] 53%|██████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                           | 7948/15000 [5:38:16<4:36:52,  2.36s/it] 53%|██████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                           | 7949/15000 [5:38:18<4:36:37,  2.35s/it] 53%|██████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                           | 7950/15000 [5:38:21<4:36:32,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6475, 'grad_norm': 1.796875, 'learning_rate': 4.051594632087948e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3487.26, 'total_tokens': 64949105, 'epoch': 0.53}
+ 53%|██████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                           | 7950/15000 [5:38:21<4:36:32,  2.35s/it] 53%|██████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                           | 7951/15000 [5:38:23<4:36:46,  2.36s/it] 53%|████████████████████████████████████████████████████��█████████████████████████████████████████████████▊                                                                                           | 7952/15000 [5:38:25<4:36:25,  2.35s/it] 53%|██████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                           | 7953/15000 [5:38:28<4:36:30,  2.35s/it] 53%|██████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                           | 7954/15000 [5:38:30<4:36:21,  2.35s/it] 53%|██████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                           | 7955/15000 [5:38:32<4:36:28,  2.35s/it] 53%|██████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                           | 7956/15000 [5:38:35<4:36:28,  2.35s/it] 53%|██████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                           | 7957/15000 [5:38:37<4:36:36,  2.36s/it] 53%|██████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                           | 7958/15000 [5:38:39<4:36:37,  2.36s/it] 53%|██████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                           | 7959/15000 [5:38:42<4:36:42,  2.36s/it] 53%|██████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                           | 7960/15000 [5:38:44<4:36:35,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.7314, 'grad_norm': 1.8125, 'learning_rate': 4.045622336452248e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3482.21, 'total_tokens': 65030891, 'epoch': 0.53}
+ 53%|██████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                           | 7960/15000 [5:38:44<4:36:35,  2.36s/it] 53%|███████████████████████████████████████████████████████████████████████████████████████████████████���██▉                                                                                           | 7961/15000 [5:38:46<4:36:37,  2.36s/it] 53%|██████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                           | 7962/15000 [5:38:49<4:36:34,  2.36s/it] 53%|██████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                           | 7963/15000 [5:38:51<4:36:23,  2.36s/it] 53%|███████████████████████████████████████████████████████████████████████████████████████████████████████                                                                                           | 7964/15000 [5:38:54<4:36:24,  2.36s/it] 53%|███████████████████████████████████████████████████████████████████████████████████████████████████████                                                                                           | 7965/15000 [5:38:56<4:36:19,  2.36s/it] 53%|███████████████████████████████████████████████████████████████████████████████████████████████████████                                                                                           | 7966/15000 [5:38:58<4:36:17,  2.36s/it] 53%|███████████████████████████████████████████████████████████████████████████████████████████████████████                                                                                           | 7967/15000 [5:39:01<4:36:33,  2.36s/it] 53%|███████████████████████████████████████████████████████████████████████████████████████████████████████                                                                                           | 7968/15000 [5:39:03<4:36:25,  2.36s/it] 53%|███████████████████████████████████████████████████████████████████████████████████████████████████████                                                                                           | 7969/15000 [5:39:05<4:36:27,  2.36s/it] 53%|███████████████████████████████████████████████████████████████████████████████████████████████████████                                                                                           | 7970/15000 [5:39:08<4:36:16,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.7629, 'grad_norm': 1.90625, 'learning_rate': 4.0396360198476166e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3483.63, 'total_tokens': 65112695, 'epoch': 0.53}
+ 53%|███████████████████████████████████████████████████████████████████████████████████████████████████████                                                                                           | 7970/15000 [5:39:08<4:36:16,  2.36s/it] 53%|███████████████████████████████████████████████████████████████████████████████████████████████████████                                                                                           | 7971/15000 [5:39:10<4:36:15,  2.36s/it] 53%|███████████████████████████████████████████████████████████████████████████████████████████████████████                                                                                           | 7972/15000 [5:39:12<4:36:13,  2.36s/it] 53%|███████████████████████████████████████████████████████████████████████████████████████████████████████                                                                                           | 7973/15000 [5:39:15<4:36:08,  2.36s/it] 53%|███████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                          | 7974/15000 [5:39:17<4:36:15,  2.36s/it] 53%|███████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                          | 7975/15000 [5:39:19<4:35:45,  2.36s/it] 53%|███████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                          | 7976/15000 [5:39:22<4:35:48,  2.36s/it] 53%|███████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                          | 7977/15000 [5:39:24<4:35:52,  2.36s/it] 53%|███████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                          | 7978/15000 [5:39:27<4:35:41,  2.36s/it] 53%|███████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                          | 7979/15000 [5:39:29<4:35:22,  2.35s/it] 53%|███████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                          | 7980/15000 [5:39:31<4:35:22,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6957, 'grad_norm': 1.9140625, 'learning_rate': 4.033635741356579e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3484.59, 'total_tokens': 65194486, 'epoch': 0.53}
+ 53%|█████████████████████████████████████���█████████████████████████████████████████████████████████████████▏                                                                                          | 7980/15000 [5:39:31<4:35:22,  2.35s/it] 53%|███████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                          | 7981/15000 [5:39:34<4:35:28,  2.35s/it] 53%|███████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                          | 7982/15000 [5:39:36<4:35:19,  2.35s/it] 53%|███████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                          | 7983/15000 [5:39:38<4:35:10,  2.35s/it] 53%|███████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                          | 7984/15000 [5:39:41<4:35:20,  2.35s/it] 53%|███████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                          | 7985/15000 [5:39:43<4:35:13,  2.35s/it] 53%|███████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                          | 7986/15000 [5:39:45<4:35:02,  2.35s/it] 53%|███████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                          | 7987/15000 [5:39:48<4:35:03,  2.35s/it] 53%|███████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                          | 7988/15000 [5:39:50<4:34:55,  2.35s/it] 53%|███████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                          | 7989/15000 [5:39:52<4:34:52,  2.35s/it] 53%|███████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                          | 7990/15000 [5:39:55<4:35:02,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6749, 'grad_norm': 1.71875, 'learning_rate': 4.027621560199466e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3476.76, 'total_tokens': 65276241, 'epoch': 0.53}
+ 53%|███████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                          | 7990/15000 [5:39:55<4:35:02,  2.35s/it] 53%|███████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                          | 7991/15000 [5:39:57<4:34:49,  2.35s/it] 53%|███████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                          | 7992/15000 [5:39:59<4:34:56,  2.35s/it] 53%|███████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                          | 7993/15000 [5:40:02<4:34:54,  2.35s/it] 53%|███████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                          | 7994/15000 [5:40:04<4:34:55,  2.35s/it] 53%|███████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                          | 7995/15000 [5:40:07<4:35:01,  2.36s/it] 53%|███████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                          | 7996/15000 [5:40:09<4:35:00,  2.36s/it] 53%|███████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                          | 7997/15000 [5:40:11<4:34:56,  2.36s/it] 53%|███████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                          | 7998/15000 [5:40:14<4:34:58,  2.36s/it] 53%|███████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                          | 7999/15000 [5:40:16<4:34:50,  2.36s/it] 53%|███████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                          | 8000/15000 [5:40:18<4:34:33,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.7533, 'grad_norm': 1.859375, 'learning_rate': 4.021593535733813e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3490.62, 'total_tokens': 65357979, 'epoch': 0.53}
+ 53%|███████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                          | 8000/15000 [5:40:18<4:34:33,  2.35s/it] 53%|███████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                          | 8001/15000 [5:40:21<4:34:37,  2.35s/it] 53%|███████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                          | 8002/15000 [5:40:23<4:34:43,  2.36s/it] 53%|███████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                          | 8003/15000 [5:40:25<4:34:43,  2.36s/it] 53%|███████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                          | 8004/15000 [5:40:28<4:34:33,  2.35s/it] 53%|███████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                          | 8005/15000 [5:40:30<4:34:37,  2.36s/it] 53%|███████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                          | 8006/15000 [5:40:32<4:34:17,  2.35s/it] 53%|███████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                          | 8007/15000 [5:40:35<4:34:22,  2.35s/it] 53%|███████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                          | 8008/15000 [5:40:37<4:34:31,  2.36s/it] 53%|███████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                          | 8009/15000 [5:40:40<4:34:30,  2.36s/it] 53%|███████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                          | 8010/15000 [5:40:42<4:34:11,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.7163, 'grad_norm': 1.7265625, 'learning_rate': 4.015551727453792e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3491.96, 'total_tokens': 65439732, 'epoch': 0.53}
+ 53%|███████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                          | 8010/15000 [5:40:42<4:34:11,  2.35s/it] 53%|███████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                          | 8011/15000 [5:40:44<4:33:59,  2.35s/it] 53%|███████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                          | 8012/15000 [5:40:47<4:33:52,  2.35s/it] 53%|███████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                          | 8013/15000 [5:40:49<4:33:52,  2.35s/it] 53%|███████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                          | 8014/15000 [5:40:51<4:33:51,  2.35s/it] 53%|███████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                          | 8015/15000 [5:40:54<4:34:14,  2.36s/it] 53%|███████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                          | 8016/15000 [5:40:56<4:34:19,  2.36s/it] 53%|███████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                          | 8017/15000 [5:40:58<4:34:27,  2.36s/it] 53%|███████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                          | 8018/15000 [5:41:01<4:34:29,  2.36s/it] 53%|███████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                          | 8019/15000 [5:41:03<4:34:18,  2.36s/it] 53%|███████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                          | 8020/15000 [5:41:05<4:33:38,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6959, 'grad_norm': 1.796875, 'learning_rate': 4.009496194989608e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3505.03, 'total_tokens': 65521492, 'epoch': 0.53}
+ 53%|███████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                          | 8020/15000 [5:41:05<4:33:38,  2.35s/it] 53%|███████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                          | 8021/15000 [5:41:08<4:33:42,  2.35s/it] 53%|███████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                          | 8022/15000 [5:41:10<4:33:40,  2.35s/it] 53%|███████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                          | 8023/15000 [5:41:12<4:33:31,  2.35s/it] 53%|███████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                          | 8024/15000 [5:41:15<4:33:20,  2.35s/it] 54%|███████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                          | 8025/15000 [5:41:17<4:33:26,  2.35s/it] 54%|███████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                          | 8026/15000 [5:41:20<4:33:43,  2.35s/it] 54%|███████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                          | 8027/15000 [5:41:22<4:33:36,  2.35s/it] 54%|███████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                          | 8028/15000 [5:41:24<4:33:41,  2.36s/it] 54%|███████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                          | 8029/15000 [5:41:27<4:33:38,  2.36s/it] 54%|███████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                          | 8030/15000 [5:41:29<4:33:38,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.6842, 'grad_norm': 1.75, 'learning_rate': 4.0034269981069236e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3478.82, 'total_tokens': 65603233, 'epoch': 0.54}
+ 54%|███████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                          | 8030/15000 [5:41:29<4:33:38,  2.36s/it] 54%|███████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                          | 8031/15000 [5:41:31<4:33:51,  2.36s/it] 54%|███████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                          | 8032/15000 [5:41:34<4:33:49,  2.36s/it] 54%|███████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                          | 8033/15000 [5:41:36<4:33:44,  2.36s/it] 54%|███████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                          | 8034/15000 [5:41:38<4:33:34,  2.36s/it] 54%|███████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                          | 8035/15000 [5:41:41<4:33:34,  2.36s/it] 54%|███████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                          | 8036/15000 [5:41:43<4:33:30,  2.36s/it] 54%|███████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                          | 8037/15000 [5:41:45<4:33:23,  2.36s/it] 54%|███████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                          | 8038/15000 [5:41:48<4:33:34,  2.36s/it] 54%|███████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                          | 8039/15000 [5:41:50<4:33:23,  2.36s/it] 54%|███████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                          | 8040/15000 [5:41:53<4:33:25,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.6934, 'grad_norm': 1.75, 'learning_rate': 3.9973441967062616e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3476.59, 'total_tokens': 65684986, 'epoch': 0.54}
+ 54%|███████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                          | 8040/15000 [5:41:53<4:33:25,  2.36s/it] 54%|███████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                          | 8041/15000 [5:41:55<4:33:16,  2.36s/it] 54%|████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                                          | 8042/15000 [5:41:57<4:33:27,  2.36s/it] 54%|████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                                          | 8043/15000 [5:42:00<4:33:14,  2.36s/it] 54%|████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                                          | 8044/15000 [5:42:02<4:33:02,  2.36s/it] 54%|████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                                          | 8045/15000 [5:42:04<4:32:41,  2.35s/it] 54%|████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                                          | 8046/15000 [5:42:07<4:32:33,  2.35s/it] 54%|████████████████████████████████████���███████████████████████████████████████████████████████████████████                                                                                          | 8047/15000 [5:42:09<4:32:33,  2.35s/it] 54%|████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                                          | 8048/15000 [5:42:11<4:32:51,  2.35s/it] 54%|████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                                          | 8049/15000 [5:42:14<4:32:45,  2.35s/it] 54%|████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                                          | 8050/15000 [5:42:16<4:32:46,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.7097, 'grad_norm': 1.6796875, 'learning_rate': 3.9912478508224154e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3479.15, 'total_tokens': 65766710, 'epoch': 0.54}
+ 54%|████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                                          | 8050/15000 [5:42:16<4:32:46,  2.35s/it] 54%|████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                         | 8051/15000 [5:42:18<4:32:46,  2.36s/it] 54%|████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                         | 8052/15000 [5:42:21<4:32:42,  2.35s/it] 54%|████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                         | 8053/15000 [5:42:23<4:32:28,  2.35s/it] 54%|████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                         | 8054/15000 [5:42:25<4:32:33,  2.35s/it] 54%|████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                         | 8055/15000 [5:42:28<4:32:29,  2.35s/it] 54%|███████████████████████████████████████████████████████████████████████��████████████████████████████████▏                                                                                         | 8056/15000 [5:42:30<4:32:36,  2.36s/it] 54%|████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                         | 8057/15000 [5:42:33<4:32:29,  2.35s/it] 54%|████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                         | 8058/15000 [5:42:35<4:32:14,  2.35s/it] 54%|████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                         | 8059/15000 [5:42:37<4:31:59,  2.35s/it] 54%|████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                         | 8060/15000 [5:42:40<4:31:57,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.7381, 'grad_norm': 1.84375, 'learning_rate': 3.985138020623858e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3486.83, 'total_tokens': 65848451, 'epoch': 0.54}
+ 54%|████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                         | 8060/15000 [5:42:40<4:31:57,  2.35s/it] 54%|████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                         | 8061/15000 [5:42:42<4:32:05,  2.35s/it] 54%|████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                         | 8062/15000 [5:42:44<4:32:05,  2.35s/it] 54%|████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                         | 8063/15000 [5:42:47<4:32:04,  2.35s/it] 54%|████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                         | 8064/15000 [5:42:49<4:32:00,  2.35s/it] 54%|████████████████████████████████████████████████████████████████████████████████████████████████████████��                                                                                         | 8065/15000 [5:42:51<4:31:46,  2.35s/it] 54%|████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                         | 8066/15000 [5:42:54<4:31:59,  2.35s/it] 54%|████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                         | 8067/15000 [5:42:56<4:31:42,  2.35s/it] 54%|████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                         | 8068/15000 [5:42:58<4:31:54,  2.35s/it] 54%|████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                         | 8069/15000 [5:43:01<4:32:07,  2.36s/it] 54%|████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                         | 8070/15000 [5:43:03<4:32:00,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.7017, 'grad_norm': 1.7578125, 'learning_rate': 3.9790147664121474e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3483.2, 'total_tokens': 65930176, 'epoch': 0.54}
+ 54%|████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                         | 8070/15000 [5:43:03<4:32:00,  2.36s/it] 54%|████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                         | 8071/15000 [5:43:06<4:31:59,  2.36s/it] 54%|████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                         | 8072/15000 [5:43:08<4:32:12,  2.36s/it] 54%|████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                         | 8073/15000 [5:43:10<4:32:14,  2.36s/it] 54%|████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                         | 8074/15000 [5:43:13<4:32:05,  2.36s/it] 54%|████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                         | 8075/15000 [5:43:15<4:31:53,  2.36s/it] 54%|████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                         | 8076/15000 [5:43:17<4:31:30,  2.35s/it] 54%|████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                         | 8077/15000 [5:43:20<4:31:29,  2.35s/it] 54%|████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                         | 8078/15000 [5:43:22<4:31:12,  2.35s/it] 54%|████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                         | 8079/15000 [5:43:24<4:31:22,  2.35s/it] 54%|████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                         | 8080/15000 [5:43:27<4:31:20,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6865, 'grad_norm': 1.6953125, 'learning_rate': 3.97287814862133e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3485.37, 'total_tokens': 66011941, 'epoch': 0.54}
+ 54%|████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                         | 8080/15000 [5:43:27<4:31:20,  2.35s/it] 54%|████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                         | 8081/15000 [5:43:29<4:31:21,  2.35s/it] 54%|████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                         | 8082/15000 [5:43:31<4:31:11,  2.35s/it] 54%|████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                         | 8083/15000 [5:43:34<4:31:06,  2.35s/it] 54%|███████████████████���████████████████████████████████████████████████████████████████████████████████████▌                                                                                         | 8084/15000 [5:43:36<4:31:16,  2.35s/it] 54%|████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                         | 8085/15000 [5:43:38<4:31:21,  2.35s/it] 54%|████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                         | 8086/15000 [5:43:41<4:31:19,  2.35s/it] 54%|████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                         | 8087/15000 [5:43:43<4:31:10,  2.35s/it] 54%|████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                         | 8088/15000 [5:43:46<4:31:22,  2.36s/it] 54%|████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                         | 8089/15000 [5:43:48<4:31:15,  2.36s/it] 54%|████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                         | 8090/15000 [5:43:50<4:31:29,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.6892, 'grad_norm': 1.875, 'learning_rate': 3.966728227817346e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3470.24, 'total_tokens': 66093699, 'epoch': 0.54}
+ 54%|████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                         | 8090/15000 [5:43:50<4:31:29,  2.36s/it] 54%|████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                         | 8091/15000 [5:43:53<4:31:23,  2.36s/it] 54%|████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                         | 8092/15000 [5:43:55<4:31:15,  2.36s/it] 54%|████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                         | 8093/15000 [5:43:57<4:31:09,  2.36s/it] 54%|████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                         | 8094/15000 [5:44:00<4:31:06,  2.36s/it] 54%|████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                         | 8095/15000 [5:44:02<4:30:51,  2.35s/it] 54%|████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                         | 8096/15000 [5:44:04<4:30:44,  2.35s/it] 54%|████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                         | 8097/15000 [5:44:07<4:30:53,  2.35s/it] 54%|████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                         | 8098/15000 [5:44:09<4:30:38,  2.35s/it] 54%|████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                         | 8099/15000 [5:44:11<4:30:26,  2.35s/it] 54%|████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                         | 8100/15000 [5:44:14<4:30:27,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6653, 'grad_norm': 1.78125, 'learning_rate': 3.960565064697432e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3485.76, 'total_tokens': 66175473, 'epoch': 0.54}
+ 54%|████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                         | 8100/15000 [5:44:14<4:30:27,  2.35s/it] 54%|████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                         | 8101/15000 [5:44:16<4:30:26,  2.35s/it] 54%|████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                         | 8102/15000 [5:44:18<4:30:32,  2.35s/it] 54%|████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                         | 8103/15000 [5:44:21<4:30:31,  2.35s/it] 54%|████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                         | 8104/15000 [5:44:23<4:30:14,  2.35s/it] 54%|████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                         | 8105/15000 [5:44:26<4:30:22,  2.35s/it] 54%|████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                         | 8106/15000 [5:44:28<4:30:17,  2.35s/it] 54%|████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                         | 8107/15000 [5:44:30<4:30:41,  2.36s/it] 54%|████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                         | 8108/15000 [5:44:33<4:30:50,  2.36s/it] 54%|████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                         | 8109/15000 [5:44:35<4:30:44,  2.36s/it] 54%|████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                         | 8110/15000 [5:44:37<4:30:52,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.7531, 'grad_norm': 1.71875, 'learning_rate': 3.954388720089518e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3472.19, 'total_tokens': 66257255, 'epoch': 0.54}
+ 54%|████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                         | 8110/15000 [5:44:37<4:30:52,  2.36s/it] 54%|████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                         | 8111/15000 [5:44:40<4:30:55,  2.36s/it] 54%|████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                         | 8112/15000 [5:44:42<4:30:46,  2.36s/it] 54%|████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                         | 8113/15000 [5:44:44<4:30:26,  2.36s/it] 54%|████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                         | 8114/15000 [5:44:47<4:30:35,  2.36s/it] 54%|████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                         | 8115/15000 [5:44:49<4:30:16,  2.36s/it] 54%|████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                         | 8116/15000 [5:44:51<4:30:06,  2.35s/it] 54%|████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                         | 8117/15000 [5:44:54<4:30:01,  2.35s/it] 54%|████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                         | 8118/15000 [5:44:56<4:29:49,  2.35s/it] 54%|█████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                                         | 8119/15000 [5:44:59<4:29:58,  2.35s/it] 54%|█████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                                         | 8120/15000 [5:45:01<4:29:51,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6799, 'grad_norm': 1.8046875, 'learning_rate': 3.948199254951633e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3484.4, 'total_tokens': 66338966, 'epoch': 0.54}
+ 54%|█████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                                         | 8120/15000 [5:45:01<4:29:51,  2.35s/it] 54%|█���███████████████████████████████████████████████████████████████████████████████████████████████████████                                                                                         | 8121/15000 [5:45:03<4:29:43,  2.35s/it] 54%|█████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                                         | 8122/15000 [5:45:06<4:29:36,  2.35s/it] 54%|█████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                                         | 8123/15000 [5:45:08<4:29:48,  2.35s/it] 54%|█████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                                         | 8124/15000 [5:45:10<4:29:48,  2.35s/it] 54%|█████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                                         | 8125/15000 [5:45:13<4:29:39,  2.35s/it] 54%|█████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                                         | 8126/15000 [5:45:15<4:29:28,  2.35s/it] 54%|█████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                                         | 8127/15000 [5:45:17<4:29:30,  2.35s/it] 54%|█████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                                         | 8128/15000 [5:45:20<4:29:29,  2.35s/it] 54%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                        | 8129/15000 [5:45:22<4:29:14,  2.35s/it] 54%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                        | 8130/15000 [5:45:24<4:29:20,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.7085, 'grad_norm': 1.734375, 'learning_rate': 3.941996730371298e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3480.72, 'total_tokens': 66420698, 'epoch': 0.54}
+ 54%|████████████████████████████████��████████████████████████████████████████████████████████████████████████▏                                                                                        | 8130/15000 [5:45:24<4:29:20,  2.35s/it] 54%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                        | 8131/15000 [5:45:27<4:29:39,  2.36s/it] 54%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                        | 8132/15000 [5:45:29<4:29:37,  2.36s/it] 54%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                        | 8133/15000 [5:45:31<4:29:31,  2.35s/it] 54%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                        | 8134/15000 [5:45:34<4:29:09,  2.35s/it] 54%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                        | 8135/15000 [5:45:36<4:29:25,  2.35s/it] 54%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                        | 8136/15000 [5:45:39<4:29:21,  2.35s/it] 54%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                        | 8137/15000 [5:45:41<4:29:42,  2.36s/it] 54%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                        | 8138/15000 [5:45:43<4:29:32,  2.36s/it] 54%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                        | 8139/15000 [5:45:46<4:29:39,  2.36s/it] 54%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                        | 8140/15000 [5:45:48<4:29:23,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.7027, 'grad_norm': 1.6875, 'learning_rate': 3.935781207564928e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3483.28, 'total_tokens': 66502367, 'epoch': 0.54}
+ 54%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                        | 8140/15000 [5:45:48<4:29:23,  2.36s/it] 54%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                        | 8141/15000 [5:45:50<4:29:21,  2.36s/it] 54%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                        | 8142/15000 [5:45:53<4:29:10,  2.35s/it] 54%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                        | 8143/15000 [5:45:55<4:29:17,  2.36s/it] 54%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                        | 8144/15000 [5:45:57<4:29:10,  2.36s/it] 54%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                        | 8145/15000 [5:46:00<4:28:47,  2.35s/it] 54%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                        | 8146/15000 [5:46:02<4:28:28,  2.35s/it] 54%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                        | 8147/15000 [5:46:04<4:28:52,  2.35s/it] 54%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                        | 8148/15000 [5:46:07<4:28:47,  2.35s/it] 54%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                        | 8149/15000 [5:46:09<4:28:51,  2.35s/it] 54%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                        | 8150/15000 [5:46:12<4:28:57,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.726, 'grad_norm': 1.75, 'learning_rate': 3.929552747877223e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3469.77, 'total_tokens': 66583964, 'epoch': 0.54}
+ 54%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                        | 8150/15000 [5:46:12<4:28:57,  2.36s/it] 54%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                        | 8151/15000 [5:46:14<4:28:32,  2.35s/it] 54%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                        | 8152/15000 [5:46:16<4:28:35,  2.35s/it] 54%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                        | 8153/15000 [5:46:19<4:28:32,  2.35s/it] 54%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                        | 8154/15000 [5:46:21<4:28:25,  2.35s/it] 54%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                        | 8155/15000 [5:46:23<4:28:24,  2.35s/it][2025-11-17 03:29:16,207] [INFO] [axolotl.utils.data.wrappers.get_dataset_wrapper:87] [PID:8163] Loading dataset: Goader/kobza-2m-jsonl with base_type: pretrain and prompt_style: None
+
+Tokenizing Prompts (num_proc=64):   0%|                                                                                                                                                                        | 0/10000 [00:00<?, ? examples/s][A
+Tokenizing Prompts (num_proc=64):   2%|██▍                                                                                                                                                           | 157/10000 [00:06<06:59, 23.48 examples/s][A
+Tokenizing Prompts (num_proc=64):   3%|████▉                                                                                                                                                         | 314/10000 [00:07<03:13, 50.00 examples/s][A
+Tokenizing Prompts (num_proc=64):   5%|███████▍                                                                                                                                                      | 471/10000 [00:08<02:03, 77.44 examples/s][A
+Tokenizing Prompts (num_proc=64):   6%|█████████▊                                                                                                                                                   | 628/10000 [00:08<01:29, 105.27 examples/s][A
+Tokenizing Prompts (num_proc=64):   8%|████████████▎                                                                                                                                                | 785/10000 [00:09<01:04, 142.27 examples/s][A
+Tokenizing Prompts (num_proc=64):   9%|██████████████▊                                                                                                                                              | 942/10000 [00:09<00:52, 173.87 examples/s][A
+Tokenizing Prompts (num_proc=64):  11%|█████████████████▏                                                                                                                                          | 1099/10000 [00:10<00:46, 191.37 examples/s][A
+Tokenizing Prompts (num_proc=64):  13%|███████████████████▌                                                                                                                                        | 1256/10000 [00:10<00:43, 203.22 examples/s][A
+Tokenizing Prompts (num_proc=64):  14%|██████████████████████                                                                                                                                      | 1413/10000 [00:11<00:41, 209.40 examples/s][A
+Tokenizing Prompts (num_proc=64):  16%|████████████████████████▍                                                                                                                                   | 1570/10000 [00:12<00:40, 208.85 examples/s][A
+Tokenizing Prompts (num_proc=64):  17%|██████████████████████████▉                                                                                                                                 | 1727/10000 [00:13<00:36, 223.92 examples/s][A
+Tokenizing Prompts (num_proc=64):  19%|█████████████████████████████▍                                                                                                                              | 1884/10000 [00:13<00:37, 218.22 examples/s][A
+Tokenizing Prompts (num_proc=64):  20%|███████████████████████████████▊                                                                                                                            | 2041/10000 [00:14<00:41, 190.78 examples/s][A
+Tokenizing Prompts (num_proc=64):  22%|██████████████████████████████████▎                                                                                                                         | 2198/10000 [00:15<00:33, 236.15 examples/s][A
+Tokenizing Prompts (num_proc=64):  24%|████████████████████████████████████▋                                                                                                                       | 2355/10000 [00:15<00:31, 239.99 examples/s][A
+Tokenizing Prompts (num_proc=64):  25%|███████████████████████████████████████▏                                                                                                                    | 2512/10000 [00:16<00:31, 241.50 examples/s][A
+Tokenizing Prompts (num_proc=64):  27%|█████████████████████████████████████████▌                                                                                                                  | 2668/10000 [00:17<00:31, 234.98 examples/s][A
+Tokenizing Prompts (num_proc=64):  28%|████████████████████████████████████████████                                                                                                                | 2824/10000 [00:17<00:31, 231.10 examples/s][A
+Tokenizing Prompts (num_proc=64):  30%|██████████████████████████████████████████████▍                                                                                                             | 2980/10000 [00:18<00:30, 228.40 examples/s][A
+Tokenizing Prompts (num_proc=64):  31%|████████████████████████████████████████████████▉                                                                                                           | 3136/10000 [00:19<00:29, 233.53 examples/s][A
+Tokenizing Prompts (num_proc=64):  33%|███████████████████████████████████████████████████▎                                                                                                        | 3292/10000 [00:19<00:29, 229.87 examples/s][A
+Tokenizing Prompts (num_proc=64):  34%|█████████████████████████████████████████████████████▊                                                                                                      | 3448/10000 [00:20<00:28, 233.39 examples/s][A
+Tokenizing Prompts (num_proc=64):  36%|████████████████████████████████████████████████████████▏                                                                                                   | 3604/10000 [00:21<00:32, 194.16 examples/s][A
+Tokenizing Prompts (num_proc=64):  38%|██████████████████████████████████████████████████████████▋                                                                                                 | 3760/10000 [00:21<00:25, 244.98 examples/s][A
+Tokenizing Prompts (num_proc=64):  39%|█████████████████████████████████████████████████████████████                                                                                               | 3916/10000 [00:22<00:24, 244.73 examples/s][A
+Tokenizing Prompts (num_proc=64):  41%|███████████████████████████████████████████████████████████████▌                                                                                            | 4072/10000 [00:23<00:24, 240.15 examples/s][A
+Tokenizing Prompts (num_proc=64):  42%|█████████████████████████████████████████████████████████████████▉                                                                                          | 4228/10000 [00:24<00:29, 196.26 examples/s][A
+Tokenizing Prompts (num_proc=64):  44%|████████████████████████████████████████████████████████████████████▍                                                                                       | 4384/10000 [00:24<00:22, 250.13 examples/s][A
+Tokenizing Prompts (num_proc=64):  45%|██████████████████████████████████████████████████████████████████████▊                                                                                     | 4540/10000 [00:25<00:22, 242.42 examples/s][A
+Tokenizing Prompts (num_proc=64):  47%|█████████████████████████████████████████████████████████████████████████▎                                                                                  | 4696/10000 [00:25<00:22, 241.08 examples/s][A
+Tokenizing Prompts (num_proc=64):  49%|███████████████████████████████████████████████████████████████████████████▋                                                                                | 4852/10000 [00:27<00:26, 195.32 examples/s][A
+Tokenizing Prompts (num_proc=64):  50%|██████████████████████████████████████████████████████████████████████████████                                                                              | 5008/10000 [00:27<00:20, 245.92 examples/s][A
+Tokenizing Prompts (num_proc=64):  52%|████████████████████████████████████████████████████████████████████████████████▌                                                                           | 5164/10000 [00:28<00:23, 203.33 examples/s][A
+Tokenizing Prompts (num_proc=64):  53%|██████████████████████████████████████████████████████████████████████████████████▉                                                                         | 5320/10000 [00:28<00:17, 260.73 examples/s][A
+Tokenizing Prompts (num_proc=64):  55%|█████████████████████████████████████████████████████████████████████████████���███████▍                                                                      | 5476/10000 [00:29<00:18, 251.11 examples/s][A
+Tokenizing Prompts (num_proc=64):  56%|███████████████████████████████████████████████████████████████████████████████████████▊                                                                    | 5632/10000 [00:30<00:22, 197.33 examples/s][A
+Tokenizing Prompts (num_proc=64):  58%|██████████████████████████████████████████████████████████████████████████████████████████▎                                                                 | 5788/10000 [00:31<00:17, 235.78 examples/s][A
+Tokenizing Prompts (num_proc=64):  59%|████████████████████████████████████████████████████████████████████████████████████████████▋                                                               | 5944/10000 [00:31<00:16, 240.57 examples/s][A
+Tokenizing Prompts (num_proc=64):  61%|███████████████████████████████████████████████████████████████████████████████████████████████▏                                                            | 6100/10000 [00:32<00:20, 194.92 examples/s][A
+Tokenizing Prompts (num_proc=64):  63%|█████████████████████████████████████████████████████████████████████████████████████████████████▌                                                          | 6256/10000 [00:32<00:14, 262.15 examples/s][A
+Tokenizing Prompts (num_proc=64):  64%|████████████████████████████████████████████████████████████████████████████████████████████████████                                                        | 6412/10000 [00:33<00:14, 245.04 examples/s][A
+Tokenizing Prompts (num_proc=64):  66%|██████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                     | 6568/10000 [00:34<00:18, 183.84 examples/s][A
+Tokenizing Prompts (num_proc=64):  67%|████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                   | 6724/10000 [00:34<00:13, 238.55 examples/s][A
+Tokenizing Prompts (num_proc=64):  69%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                | 6880/10000 [00:35<00:12, 243.66 examples/s][A
+Tokenizing Prompts (num_proc=64):  70%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                              | 7036/10000 [00:36<00:15, 196.59 examples/s][A
+Tokenizing Prompts (num_proc=64):  72%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                           | 7192/10000 [00:36<00:11, 249.73 examples/s][A
+Tokenizing Prompts (num_proc=64):  73%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                         | 7348/10000 [00:38<00:13, 196.94 examples/s][A
+Tokenizing Prompts (num_proc=64):  75%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                       | 7504/10000 [00:38<00:09, 259.37 examples/s][A
+Tokenizing Prompts (num_proc=64):  77%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                    | 7660/10000 [00:39<00:11, 200.00 examples/s][A
+Tokenizing Prompts (num_proc=64):  78%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                  | 7816/10000 [00:40<00:09, 235.66 examples/s][A
+Tokenizing Prompts (num_proc=64):  80%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                               | 7972/10000 [00:40<00:08, 242.36 examples/s][A
+Tokenizing Prompts (num_proc=64):  81%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                             | 8128/10000 [00:41<00:07, 240.34 examples/s][A
+Tokenizing Prompts (num_proc=64):  83%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                          | 8284/10000 [00:42<00:08, 211.64 examples/s][A
+Tokenizing Prompts (num_proc=64):  84%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                        | 8440/10000 [00:43<00:07, 195.63 examples/s][A
+Tokenizing Prompts (num_proc=64):  86%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                      | 8596/10000 [00:43<00:06, 212.78 examples/s][A
+Tokenizing Prompts (num_proc=64):  88%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                   | 8752/10000 [00:44<00:06, 178.89 examples/s][A
+Tokenizing Prompts (num_proc=64):  89%|█████████████████████████████████████████████████████���████████████████████████████████████████████████████████████████████████████████████▉                 | 8908/10000 [00:44<00:04, 233.64 examples/s][A
+Tokenizing Prompts (num_proc=64):  91%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍              | 9064/10000 [00:46<00:04, 187.70 examples/s][A
+Tokenizing Prompts (num_proc=64):  92%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊            | 9220/10000 [00:46<00:03, 240.11 examples/s][A
+Tokenizing Prompts (num_proc=64):  94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎         | 9376/10000 [00:47<00:02, 237.42 examples/s][A
+Tokenizing Prompts (num_proc=64):  95%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋       | 9532/10000 [00:47<00:01, 242.51 examples/s][A
+Tokenizing Prompts (num_proc=64):  97%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏    | 9688/10000 [00:48<00:01, 241.20 examples/s][A
+Tokenizing Prompts (num_proc=64):  98%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌  | 9844/10000 [00:49<00:00, 225.56 examples/s][A
+Tokenizing Prompts (num_proc=64): 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10000/10000 [00:49<00:00, 211.77 examples/s][ATokenizing Prompts (num_proc=64): 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10000/10000 [00:51<00:00, 192.58 examples/s]
+
+Dropping Long Sequences:   0%|                                                                                                                                                                                 | 0/10002 [00:00<?, ? examples/s][A
+Dropping Long Sequences:  10%|████████████████▍                                                                                                                                                    | 1000/10002 [00:01<00:14, 640.34 examples/s][A
+Dropping Long Sequences:  20%|████████████████████████████████▊                                                                                                                                   | 2000/10002 [00:01<00:06, 1248.60 examples/s][A
+Dropping Long Sequences:  30%|█████████████████████████████████████████████████▏                                                                                                                  | 3000/10002 [00:02<00:03, 1836.87 examples/s][A
+Dropping Long Sequences:  40%|█████████████████████████████████████████████████████████████████▌                                                                                                  | 4000/10002 [00:02<00:02, 2238.92 examples/s][A
+Dropping Long Sequences:  50%|█████████████████████████████████████████████████████████████████████████████████▉                                                                                  | 5000/10002 [00:02<00:01, 2651.52 examples/s][A
+Dropping Long Sequences:  60%|██████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                 | 6000/10002 [00:02<00:01, 2973.50 examples/s][A
+Dropping Long Sequences:  70%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                 | 7000/10002 [00:03<00:00, 3309.50 examples/s][A
+Dropping Long Sequences:  80%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                | 8000/10002 [00:03<00:00, 3411.89 examples/s][A
+Dropping Long Sequences:  90%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                | 9000/10002 [00:03<00:00, 3542.91 examples/s][A
+Dropping Long Sequences: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉| 10000/10002 [00:03<00:00, 3710.26 examples/s][ADropping Long Sequences: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10002/10002 [00:03<00:00, 2528.47 examples/s]
+
+Add position_id column (Pretraining Sample Packing):   0%|                                                                                                                                                      | 0/8710 [00:00<?, ? examples/s][A
+Add position_id column (Pretraining Sample Packing):  11%|███████████████▊                                                                                                                          | 1000/8710 [00:01<00:10, 764.55 examples/s][A
+Add position_id column (Pretraining Sample Packing):  23%|███████████████████████████████▍                                                                                                         | 2000/8710 [00:01<00:04, 1587.05 examples/s][A
+Add position_id column (Pretraining Sample Packing):  34%|███████████████████████████████████████████████▏                                                                                         | 3000/8710 [00:01<00:02, 2455.70 examples/s][A
+Add position_id column (Pretraining Sample Packing):  46%|██████████████████████████████████████████████████████████████▉                                                                          | 4000/8710 [00:01<00:01, 3238.06 examples/s][A
+Add position_id column (Pretraining Sample Packing):  57%|██████████████████████████████████████████████████████████████████████████████▋                                                          | 5000/8710 [00:01<00:00, 4018.18 examples/s][A
+Add position_id column (Pretraining Sample Packing):  69%|██████████████████████████████████████████████████████████████████████████████████████████████▎                                          | 6000/8710 [00:02<00:00, 4664.65 examples/s][A
+Add position_id column (Pretraining Sample Packing):  80%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████                           | 7000/8710 [00:02<00:00, 5209.07 examples/s][A
+Add position_id column (Pretraining Sample Packing):  92%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊           | 8000/8710 [00:02<00:00, 5483.05 examples/s][A
+Add position_id column (Pretraining Sample Packing): 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 8710/8710 [00:02<00:00, 5682.50 examples/s][AAdd position_id column (Pretraining Sample Packing): 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 8710/8710 [00:02<00:00, 3453.32 examples/s]
+[2025-11-17 03:30:16,392] [DEBUG] [axolotl.utils.samplers.multipack.pack_parallel:177] [PID:8163] Using single process for pack_parallel, running sequentially.
+ 54%|████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                        | 8156/15000 [5:47:31<41:35:01, 21.87s/it] 54%|████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                        | 8157/15000 [5:47:33<30:26:33, 16.02s/it] 54%|████████████████████████████████████████████��███████████████████████████████████████████████████████████▉                                                                                        | 8158/15000 [5:47:35<22:38:44, 11.92s/it] 54%|████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                        | 8159/15000 [5:47:38<17:11:25,  9.05s/it] 54%|████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                        | 8160/15000 [5:47:40<13:22:26,  7.04s/it]                                                                                                                                                                                                                                                {'loss': 2.7116, 'grad_norm': 1.7890625, 'learning_rate': 3.923311412780566e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3346.25, 'total_tokens': 66662547, 'epoch': 0.54}
+ 54%|████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                        | 8160/15000 [5:47:40<13:22:26,  7.04s/it] 54%|█████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                                        | 8161/15000 [5:47:42<10:42:22,  5.64s/it] 54%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                        | 8162/15000 [5:47:45<8:50:07,  4.65s/it] 54%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                        | 8163/15000 [5:47:47<7:31:29,  3.96s/it] 54%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                        | 8164/15000 [5:47:50<6:36:17,  3.48s/it] 54%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                        | 8165/15000 [5:47:52<5:57:39,  3.14s/it] 54%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                        | 8166/15000 [5:47:54<5:30:52,  2.90s/it] 54%|█████████████████████████████████████████████████████████████████████████��███████████████████████████████▋                                                                                        | 8167/15000 [5:47:57<5:11:53,  2.74s/it] 54%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                        | 8168/15000 [5:47:59<4:58:34,  2.62s/it] 54%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                        | 8169/15000 [5:48:01<4:49:17,  2.54s/it] 54%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                        | 8170/15000 [5:48:04<4:42:47,  2.48s/it]                                                                                                                                                                                                                                                {'loss': 2.6663, 'grad_norm': 1.734375, 'learning_rate': 3.9170572638744134e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3490.27, 'total_tokens': 66744375, 'epoch': 0.54}
+ 54%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                        | 8170/15000 [5:48:04<4:42:47,  2.48s/it] 54%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                        | 8171/15000 [5:48:06<4:38:05,  2.44s/it] 54%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                        | 8172/15000 [5:48:08<4:34:41,  2.41s/it] 54%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                        | 8173/15000 [5:48:11<4:32:19,  2.39s/it] 54%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                        | 8174/15000 [5:48:13<4:30:50,  2.38s/it] 55%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                        | 8175/15000 [5:48:15<4:29:42,  2.37s/it] 55%|███████████████████████████████████████████████████████████████████████████████████████████████████���█████▋                                                                                        | 8176/15000 [5:48:18<4:29:16,  2.37s/it] 55%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                        | 8177/15000 [5:48:20<4:28:56,  2.36s/it] 55%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                        | 8178/15000 [5:48:22<4:28:45,  2.36s/it] 55%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                        | 8179/15000 [5:48:25<4:44:38,  2.50s/it] 55%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                        | 8180/15000 [5:48:28<4:39:19,  2.46s/it]                                                                                                                                                                                                                                                {'loss': 2.7457, 'grad_norm': 1.8125, 'learning_rate': 3.910790362884692e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3495.5, 'total_tokens': 66826236, 'epoch': 0.55}
+ 55%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                        | 8180/15000 [5:48:28<4:39:19,  2.46s/it] 55%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                        | 8181/15000 [5:48:30<4:35:56,  2.43s/it] 55%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                        | 8182/15000 [5:48:32<4:33:26,  2.41s/it] 55%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                        | 8183/15000 [5:48:35<4:31:42,  2.39s/it] 55%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                        | 8184/15000 [5:48:37<4:30:11,  2.38s/it] 55%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                        | 8185/15000 [5:48:39<4:29:28,  2.37s/it] 55%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                        | 8186/15000 [5:48:42<4:28:55,  2.37s/it] 55%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                        | 8187/15000 [5:48:44<4:28:27,  2.36s/it] 55%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                        | 8188/15000 [5:48:46<4:27:54,  2.36s/it] 55%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                        | 8189/15000 [5:48:49<4:27:37,  2.36s/it] 55%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                        | 8190/15000 [5:48:51<4:27:14,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.7342, 'grad_norm': 1.703125, 'learning_rate': 3.904510771663183e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3494.81, 'total_tokens': 66908038, 'epoch': 0.55}
+ 55%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                        | 8190/15000 [5:48:51<4:27:14,  2.35s/it] 55%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                        | 8191/15000 [5:48:54<4:27:11,  2.35s/it] 55%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                        | 8192/15000 [5:48:56<4:27:18,  2.36s/it] 55%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                        | 8193/15000 [5:48:58<4:27:22,  2.36s/it] 55%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                        | 8194/15000 [5:49:01<4:27:21,  2.36s/it] 55%|█���███████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                        | 8195/15000 [5:49:03<4:27:10,  2.36s/it] 55%|██████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                                        | 8196/15000 [5:49:05<4:27:12,  2.36s/it] 55%|██████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                                        | 8197/15000 [5:49:08<4:27:08,  2.36s/it] 55%|██████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                                        | 8198/15000 [5:49:10<4:27:22,  2.36s/it] 55%|██████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                                        | 8199/15000 [5:49:12<4:27:21,  2.36s/it] 55%|██████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                                        | 8200/15000 [5:49:15<4:27:13,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.7036, 'grad_norm': 1.78125, 'learning_rate': 3.898218552186918e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3483.33, 'total_tokens': 66989868, 'epoch': 0.55}
+ 55%|██████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                                        | 8200/15000 [5:49:15<4:27:13,  2.36s/it] 55%|██████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                                        | 8201/15000 [5:49:17<4:27:25,  2.36s/it] 55%|██████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                                        | 8202/15000 [5:49:19<4:26:59,  2.36s/it] 55%|██████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                                        | 8203/15000 [5:49:22<4:26:39,  2.35s/it] 55%|███████████████████████████��██████████████████████████████████████████████████████████████████████████████                                                                                        | 8204/15000 [5:49:24<4:26:45,  2.36s/it] 55%|██████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                                        | 8205/15000 [5:49:27<4:26:49,  2.36s/it] 55%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                       | 8206/15000 [5:49:29<4:26:31,  2.35s/it] 55%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                       | 8207/15000 [5:49:31<4:26:36,  2.35s/it] 55%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                       | 8208/15000 [5:49:34<4:26:30,  2.35s/it] 55%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                       | 8209/15000 [5:49:36<4:26:47,  2.36s/it] 55%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                       | 8210/15000 [5:49:38<4:26:27,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6933, 'grad_norm': 1.7890625, 'learning_rate': 3.891913766557561e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3493.57, 'total_tokens': 67071665, 'epoch': 0.55}
+ 55%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                       | 8210/15000 [5:49:38<4:26:27,  2.35s/it] 55%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                       | 8211/15000 [5:49:41<4:26:22,  2.35s/it] 55%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                       | 8212/15000 [5:49:43<4:26:08,  2.35s/it] 55%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                       | 8213/15000 [5:49:45<4:26:01,  2.35s/it] 55%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                       | 8214/15000 [5:49:48<4:25:52,  2.35s/it] 55%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                       | 8215/15000 [5:49:50<4:25:53,  2.35s/it] 55%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                       | 8216/15000 [5:49:52<4:25:35,  2.35s/it] 55%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                       | 8217/15000 [5:49:55<4:25:45,  2.35s/it] 55%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                       | 8218/15000 [5:49:57<4:25:40,  2.35s/it] 55%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                       | 8219/15000 [5:49:59<4:25:52,  2.35s/it] 55%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                       | 8220/15000 [5:50:02<4:25:52,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.7481, 'grad_norm': 1.953125, 'learning_rate': 3.8855964770008017e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3485.63, 'total_tokens': 67153457, 'epoch': 0.55}
+ 55%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                       | 8220/15000 [5:50:02<4:25:52,  2.35s/it] 55%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                       | 8221/15000 [5:50:04<4:25:37,  2.35s/it] 55%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                       | 8222/15000 [5:50:06<4:25:38,  2.35s/it] 55%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                       | 8223/15000 [5:50:09<4:25:41,  2.35s/it] 55%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                       | 8224/15000 [5:50:11<4:25:34,  2.35s/it] 55%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                       | 8225/15000 [5:50:14<4:25:22,  2.35s/it] 55%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                       | 8226/15000 [5:50:16<4:25:29,  2.35s/it] 55%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                       | 8227/15000 [5:50:18<4:25:39,  2.35s/it] 55%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                       | 8228/15000 [5:50:21<4:25:40,  2.35s/it] 55%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                       | 8229/15000 [5:50:23<4:25:33,  2.35s/it] 55%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                       | 8230/15000 [5:50:25<4:25:38,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.7001, 'grad_norm': 1.8203125, 'learning_rate': 3.879266745865739e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3482.46, 'total_tokens': 67235277, 'epoch': 0.55}
+ 55%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                       | 8230/15000 [5:50:25<4:25:38,  2.35s/it] 55%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                       | 8231/15000 [5:50:28<4:25:33,  2.35s/it] 55%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                       | 8232/15000 [5:50:30<4:25:36,  2.35s/it] 55%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                       | 8233/15000 [5:50:32<4:25:42,  2.36s/it] 55%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                       | 8234/15000 [5:50:35<4:25:53,  2.36s/it] 55%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                       | 8235/15000 [5:50:37<4:25:38,  2.36s/it] 55%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                       | 8236/15000 [5:50:39<4:25:35,  2.36s/it] 55%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                       | 8237/15000 [5:50:42<4:25:10,  2.35s/it] 55%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                       | 8238/15000 [5:50:44<4:25:12,  2.35s/it] 55%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                       | 8239/15000 [5:50:47<4:25:19,  2.35s/it] 55%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                       | 8240/15000 [5:50:49<4:25:18,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6614, 'grad_norm': 1.71875, 'learning_rate': 3.872924635624261e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3484.6, 'total_tokens': 67317106, 'epoch': 0.55}
+ 55%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                       | 8240/15000 [5:50:49<4:25:18,  2.35s/it] 55%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                       | 8241/15000 [5:50:51<4:25:29,  2.36s/it] 55%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                       | 8242/15000 [5:50:54<4:25:22,  2.36s/it] 55%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                       | 8243/15000 [5:50:56<4:25:07,  2.35s/it] 55%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                       | 8244/15000 [5:50:58<4:25:11,  2.36s/it] 55%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                       | 8245/15000 [5:51:01<4:25:02,  2.35s/it] 55%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                       | 8246/15000 [5:51:03<4:25:11,  2.36s/it] 55%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                       | 8247/15000 [5:51:05<4:25:07,  2.36s/it] 55%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                       | 8248/15000 [5:51:08<4:25:00,  2.35s/it] 55%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                       | 8249/15000 [5:51:10<4:24:48,  2.35s/it] 55%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                       | 8250/15000 [5:51:12<4:24:46,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6536, 'grad_norm': 1.796875, 'learning_rate': 3.8665702088704384e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3486.92, 'total_tokens': 67398942, 'epoch': 0.55}
+ 55%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                       | 8250/15000 [5:51:12<4:24:46,  2.35s/it] 55%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                       | 8251/15000 [5:51:15<4:24:52,  2.35s/it] 55%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                       | 8252/15000 [5:51:17<4:24:42,  2.35s/it] 55%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                       | 8253/15000 [5:51:19<4:24:37,  2.35s/it] 55%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                       | 8254/15000 [5:51:22<4:24:36,  2.35s/it] 55%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                       | 8255/15000 [5:51:24<4:24:31,  2.35s/it] 55%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                       | 8256/15000 [5:51:27<4:24:42,  2.36s/it] 55%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                       | 8257/15000 [5:51:29<4:24:25,  2.35s/it] 55%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                       | 8258/15000 [5:51:31<4:24:40,  2.36s/it] 55%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                       | 8259/15000 [5:51:34<4:24:36,  2.36s/it] 55%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                       | 8260/15000 [5:51:36<4:24:19,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.7522, 'grad_norm': 1.7734375, 'learning_rate': 3.860203528319896e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3493.58, 'total_tokens': 67480717, 'epoch': 0.55}
+ 55%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                       | 8260/15000 [5:51:36<4:24:19,  2.35s/it] 55%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                       | 8261/15000 [5:51:38<4:24:31,  2.36s/it] 55%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                       | 8262/15000 [5:51:41<4:24:10,  2.35s/it] 55%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                       | 8263/15000 [5:51:43<4:24:19,  2.35s/it] 55%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                       | 8264/15000 [5:51:45<4:23:54,  2.35s/it] 55%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                       | 8265/15000 [5:51:48<4:23:56,  2.35s/it] 55%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                       | 8266/15000 [5:51:50<4:23:49,  2.35s/it] 55%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                       | 8267/15000 [5:51:52<4:23:36,  2.35s/it] 55%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                       | 8268/15000 [5:51:55<4:23:53,  2.35s/it] 55%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                       | 8269/15000 [5:51:57<4:24:04,  2.35s/it] 55%|██████████████████████████████��███████████████████████████████████████████████████████████████████████████▉                                                                                       | 8270/15000 [5:51:59<4:23:57,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.777, 'grad_norm': 1.921875, 'learning_rate': 3.8538246568092e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3488.49, 'total_tokens': 67562500, 'epoch': 0.55}
+ 55%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                       | 8270/15000 [5:51:59<4:23:57,  2.35s/it] 55%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                       | 8271/15000 [5:52:02<4:23:52,  2.35s/it] 55%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                       | 8272/15000 [5:52:04<4:24:01,  2.35s/it] 55%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                       | 8273/15000 [5:52:07<4:23:56,  2.35s/it] 55%|███████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                                       | 8274/15000 [5:52:09<4:23:57,  2.35s/it] 55%|███████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                                       | 8275/15000 [5:52:11<4:23:44,  2.35s/it] 55%|███████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                                       | 8276/15000 [5:52:14<4:23:32,  2.35s/it] 55%|███████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                                       | 8277/15000 [5:52:16<4:23:33,  2.35s/it] 55%|███████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                                       | 8278/15000 [5:52:18<4:23:34,  2.35s/it] 55%|███████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                                       | 8279/15000 [5:52:21<4:23:26,  2.35s/it] 55%|███████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                                       | 8280/15000 [5:52:23<4:23:28,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.736, 'grad_norm': 1.765625, 'learning_rate': 3.847433657295239e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3484.79, 'total_tokens': 67644281, 'epoch': 0.55}
+ 55%|███████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                                       | 8280/15000 [5:52:23<4:23:28,  2.35s/it] 55%|███████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                                       | 8281/15000 [5:52:25<4:23:29,  2.35s/it] 55%|███████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                                       | 8282/15000 [5:52:28<4:23:37,  2.35s/it] 55%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                      | 8283/15000 [5:52:30<4:23:29,  2.35s/it] 55%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                      | 8284/15000 [5:52:32<4:23:30,  2.35s/it] 55%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                      | 8285/15000 [5:52:35<4:23:32,  2.35s/it] 55%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                      | 8286/15000 [5:52:37<4:23:26,  2.35s/it] 55%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                      | 8287/15000 [5:52:39<4:23:21,  2.35s/it] 55%|███████████████████████████████████████████████████████████████████���███████████████████████████████████████▏                                                                                      | 8288/15000 [5:52:42<4:23:14,  2.35s/it] 55%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                      | 8289/15000 [5:52:44<4:23:19,  2.35s/it] 55%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                      | 8290/15000 [5:52:47<4:23:18,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6752, 'grad_norm': 1.7890625, 'learning_rate': 3.8410305928545964e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3482.16, 'total_tokens': 67726031, 'epoch': 0.55}
+ 55%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                      | 8290/15000 [5:52:47<4:23:18,  2.35s/it] 55%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                      | 8291/15000 [5:52:49<4:23:17,  2.35s/it] 55%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                      | 8292/15000 [5:52:51<4:23:10,  2.35s/it] 55%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                      | 8293/15000 [5:52:54<4:22:55,  2.35s/it] 55%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                      | 8294/15000 [5:52:56<4:22:56,  2.35s/it] 55%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                      | 8295/15000 [5:52:58<4:23:06,  2.35s/it] 55%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                      | 8296/15000 [5:53:01<4:23:00,  2.35s/it] 55%|███████████████████████████████████████████████████████████████████████████████���███████████████████████████▎                                                                                      | 8297/15000 [5:53:03<4:22:51,  2.35s/it] 55%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                      | 8298/15000 [5:53:05<4:22:46,  2.35s/it] 55%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                      | 8299/15000 [5:53:08<4:22:56,  2.35s/it] 55%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                      | 8300/15000 [5:53:10<4:23:04,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.7259, 'grad_norm': 1.6484375, 'learning_rate': 3.834615526682934e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3474.25, 'total_tokens': 67807773, 'epoch': 0.55}
+ 55%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                      | 8300/15000 [5:53:10<4:23:04,  2.36s/it] 55%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                      | 8301/15000 [5:53:12<4:22:48,  2.35s/it] 55%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                      | 8302/15000 [5:53:15<4:22:48,  2.35s/it] 55%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                      | 8303/15000 [5:53:17<4:22:51,  2.36s/it] 55%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                      | 8304/15000 [5:53:20<4:22:52,  2.36s/it] 55%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                      | 8305/15000 [5:53:22<4:22:48,  2.36s/it] 55%|███████████████████████████████████████████████████████████████████████████████████████████��███████████████▍                                                                                      | 8306/15000 [5:53:24<4:22:50,  2.36s/it] 55%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                      | 8307/15000 [5:53:27<4:22:31,  2.35s/it] 55%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                      | 8308/15000 [5:53:29<4:22:27,  2.35s/it] 55%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                      | 8309/15000 [5:53:31<4:22:04,  2.35s/it] 55%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                      | 8310/15000 [5:53:34<4:22:04,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.7418, 'grad_norm': 1.890625, 'learning_rate': 3.828188522094364e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3489.19, 'total_tokens': 67889553, 'epoch': 0.55}
+ 55%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                      | 8310/15000 [5:53:34<4:22:04,  2.35s/it] 55%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                      | 8311/15000 [5:53:36<4:22:18,  2.35s/it] 55%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                      | 8312/15000 [5:53:38<4:22:11,  2.35s/it] 55%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                      | 8313/15000 [5:53:41<4:22:10,  2.35s/it] 55%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                      | 8314/15000 [5:53:43<4:22:02,  2.35s/it] 55%|████████████████████████████████████████████████████████████████████████████████████████████████████████���██▌                                                                                      | 8315/15000 [5:53:45<4:22:14,  2.35s/it] 55%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                      | 8316/15000 [5:53:48<4:22:20,  2.35s/it] 55%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                      | 8317/15000 [5:53:50<4:22:08,  2.35s/it] 55%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                      | 8318/15000 [5:53:52<4:21:52,  2.35s/it] 55%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                      | 8319/15000 [5:53:55<4:21:49,  2.35s/it] 55%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                      | 8320/15000 [5:53:57<4:21:58,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.7073, 'grad_norm': 1.7109375, 'learning_rate': 3.821749642520829e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3478.42, 'total_tokens': 67971297, 'epoch': 0.55}
+ 55%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                      | 8320/15000 [5:53:57<4:21:58,  2.35s/it] 55%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                      | 8321/15000 [5:54:00<4:21:58,  2.35s/it] 55%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                      | 8322/15000 [5:54:02<4:21:45,  2.35s/it] 55%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                      | 8323/15000 [5:54:04<4:22:01,  2.35s/it] 55%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                      | 8324/15000 [5:54:07<4:21:53,  2.35s/it] 56%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                      | 8325/15000 [5:54:09<4:22:10,  2.36s/it] 56%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                      | 8326/15000 [5:54:11<4:21:57,  2.36s/it] 56%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                      | 8327/15000 [5:54:14<4:21:32,  2.35s/it] 56%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                      | 8328/15000 [5:54:16<4:21:34,  2.35s/it] 56%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                      | 8329/15000 [5:54:18<4:21:33,  2.35s/it] 56%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                      | 8330/15000 [5:54:21<4:21:28,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6913, 'grad_norm': 1.8203125, 'learning_rate': 3.815298951511469e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3492.0, 'total_tokens': 68053155, 'epoch': 0.56}
+ 56%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                      | 8330/15000 [5:54:21<4:21:28,  2.35s/it] 56%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                      | 8331/15000 [5:54:23<4:21:34,  2.35s/it] 56%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                      | 8332/15000 [5:54:25<4:21:52,  2.36s/it] 56%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                      | 8333/15000 [5:54:28<4:21:29,  2.35s/it] 56%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                      | 8334/15000 [5:54:30<4:21:49,  2.36s/it] 56%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                      | 8335/15000 [5:54:32<4:21:44,  2.36s/it] 56%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                      | 8336/15000 [5:54:35<4:21:35,  2.36s/it] 56%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                      | 8337/15000 [5:54:37<4:21:09,  2.35s/it] 56%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                      | 8338/15000 [5:54:40<4:21:15,  2.35s/it] 56%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                      | 8339/15000 [5:54:42<4:21:12,  2.35s/it] 56%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                      | 8340/15000 [5:54:44<4:21:17,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.722, 'grad_norm': 1.7578125, 'learning_rate': 3.8088365127320006e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3478.94, 'total_tokens': 68134897, 'epoch': 0.56}
+ 56%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                      | 8340/15000 [5:54:44<4:21:17,  2.35s/it] 56%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                      | 8341/15000 [5:54:47<4:21:18,  2.35s/it] 56%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                      | 8342/15000 [5:54:49<4:21:15,  2.35s/it] 56%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                      | 8343/15000 [5:54:51<4:21:18,  2.36s/it] 56%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                      | 8344/15000 [5:54:54<4:21:11,  2.35s/it] 56%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                      | 8345/15000 [5:54:56<4:21:19,  2.36s/it] 56%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                      | 8346/15000 [5:54:58<4:21:12,  2.36s/it] 56%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                      | 8347/15000 [5:55:01<4:21:13,  2.36s/it] 56%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                      | 8348/15000 [5:55:03<4:20:59,  2.35s/it] 56%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                      | 8349/15000 [5:55:05<4:21:07,  2.36s/it] 56%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                      | 8350/15000 [5:55:08<4:20:40,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.7612, 'grad_norm': 1.953125, 'learning_rate': 3.8023623899640865e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3499.45, 'total_tokens': 68216670, 'epoch': 0.56}
+ 56%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                      | 8350/15000 [5:55:08<4:20:40,  2.35s/it] 56%|████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                                      | 8351/15000 [5:55:10<4:20:31,  2.35s/it] 56%|█��██████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                                      | 8352/15000 [5:55:12<4:20:42,  2.35s/it] 56%|████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                                      | 8353/15000 [5:55:15<4:20:42,  2.35s/it] 56%|████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                                      | 8354/15000 [5:55:17<4:20:55,  2.36s/it] 56%|████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                                      | 8355/15000 [5:55:20<4:20:59,  2.36s/it] 56%|████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                                      | 8356/15000 [5:55:22<4:20:52,  2.36s/it] 56%|████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                                      | 8357/15000 [5:55:24<4:20:41,  2.35s/it] 56%|████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                                      | 8358/15000 [5:55:27<4:20:39,  2.35s/it] 56%|████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                                      | 8359/15000 [5:55:29<4:20:23,  2.35s/it] 56%|████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                                      | 8360/15000 [5:55:31<4:20:33,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6165, 'grad_norm': 1.734375, 'learning_rate': 3.795876647104703e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3477.7, 'total_tokens': 68298450, 'epoch': 0.56}
+ 56%|████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                                      | 8360/15000 [5:55:31<4:20:33,  2.35s/it] 56%|██████████████��█████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                     | 8361/15000 [5:55:34<4:20:28,  2.35s/it] 56%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                     | 8362/15000 [5:55:36<4:20:27,  2.35s/it] 56%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                     | 8363/15000 [5:55:38<4:20:23,  2.35s/it] 56%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                     | 8364/15000 [5:55:41<4:20:32,  2.36s/it] 56%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                     | 8365/15000 [5:55:43<4:20:30,  2.36s/it] 56%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                     | 8366/15000 [5:55:45<4:20:13,  2.35s/it] 56%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                     | 8367/15000 [5:55:48<4:20:32,  2.36s/it] 56%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                     | 8368/15000 [5:55:50<4:20:28,  2.36s/it] 56%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                     | 8369/15000 [5:55:53<4:20:22,  2.36s/it] 56%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                     | 8370/15000 [5:55:55<4:19:59,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.7109, 'grad_norm': 1.671875, 'learning_rate': 3.789379348165515e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3496.93, 'total_tokens': 68380229, 'epoch': 0.56}
+ 56%|████████████████████��███████████████████████████████████████████████████████████████████████████████████████▎                                                                                     | 8370/15000 [5:55:55<4:19:59,  2.35s/it] 56%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                     | 8371/15000 [5:55:57<4:20:10,  2.35s/it] 56%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                     | 8372/15000 [5:56:00<4:19:59,  2.35s/it] 56%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                     | 8373/15000 [5:56:02<4:19:43,  2.35s/it] 56%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                     | 8374/15000 [5:56:04<4:19:55,  2.35s/it] 56%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                     | 8375/15000 [5:56:07<4:19:45,  2.35s/it] 56%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                     | 8376/15000 [5:56:09<4:19:51,  2.35s/it] 56%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                     | 8377/15000 [5:56:11<4:19:53,  2.35s/it] 56%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                     | 8378/15000 [5:56:14<4:19:54,  2.35s/it] 56%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                     | 8379/15000 [5:56:16<4:19:40,  2.35s/it] 56%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                     | 8380/15000 [5:56:18<4:19:24,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.8169, 'grad_norm': 2.703125, 'learning_rate': 3.78287055727224e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3494.74, 'total_tokens': 68461990, 'epoch': 0.56}
+ 56%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                     | 8380/15000 [5:56:18<4:19:24,  2.35s/it] 56%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                     | 8381/15000 [5:56:21<4:19:23,  2.35s/it] 56%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                     | 8382/15000 [5:56:23<4:19:35,  2.35s/it] 56%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                     | 8383/15000 [5:56:25<4:19:30,  2.35s/it] 56%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                     | 8384/15000 [5:56:28<4:19:22,  2.35s/it] 56%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                     | 8385/15000 [5:56:30<4:19:09,  2.35s/it] 56%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                     | 8386/15000 [5:56:33<4:18:55,  2.35s/it] 56%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                     | 8387/15000 [5:56:35<4:18:52,  2.35s/it] 56%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                     | 8388/15000 [5:56:37<4:18:59,  2.35s/it] 56%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                     | 8389/15000 [5:56:40<4:18:58,  2.35s/it] 56%|██████████████████████████████████████████████████��█████████████████████████████████████████████████████████▌                                                                                     | 8390/15000 [5:56:42<4:18:59,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.7538, 'grad_norm': 1.8046875, 'learning_rate': 3.776350338664015e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3488.16, 'total_tokens': 68543788, 'epoch': 0.56}
+ 56%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                     | 8390/15000 [5:56:42<4:18:59,  2.35s/it] 56%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                     | 8391/15000 [5:56:44<4:19:09,  2.35s/it] 56%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                     | 8392/15000 [5:56:47<4:19:17,  2.35s/it] 56%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                     | 8393/15000 [5:56:49<4:18:46,  2.35s/it] 56%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                     | 8394/15000 [5:56:51<4:18:54,  2.35s/it] 56%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                     | 8395/15000 [5:56:54<4:18:52,  2.35s/it] 56%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                     | 8396/15000 [5:56:56<4:18:53,  2.35s/it] 56%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                     | 8397/15000 [5:56:58<4:18:40,  2.35s/it] 56%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                     | 8398/15000 [5:57:01<4:18:51,  2.35s/it] 56%|████████████████████████████████████████████████████████���███████████████████████████████████████████████████▋                                                                                     | 8399/15000 [5:57:03<4:19:14,  2.36s/it] 56%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                     | 8400/15000 [5:57:05<4:19:09,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.7221, 'grad_norm': 1.8046875, 'learning_rate': 3.7698187566927665e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3479.52, 'total_tokens': 68625495, 'epoch': 0.56}
+ 56%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                     | 8400/15000 [5:57:05<4:19:09,  2.36s/it] 56%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                     | 8401/15000 [5:57:08<4:19:13,  2.36s/it] 56%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                     | 8402/15000 [5:57:10<4:18:46,  2.35s/it] 56%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                     | 8403/15000 [5:57:12<4:18:24,  2.35s/it] 56%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                     | 8404/15000 [5:57:15<4:18:27,  2.35s/it] 56%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                     | 8405/15000 [5:57:17<4:18:36,  2.35s/it] 56%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                     | 8406/15000 [5:57:20<4:18:29,  2.35s/it] 56%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                     | 8407/15000 [5:57:22<4:18:42,  2.35s/it] 56%|█████████████████████████████████████████████████████████████��██████████████████████████████████████████████▋                                                                                     | 8408/15000 [5:57:24<4:18:43,  2.35s/it] 56%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                     | 8409/15000 [5:57:27<4:18:50,  2.36s/it] 56%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                     | 8410/15000 [5:57:29<4:18:43,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.6647, 'grad_norm': 1.7109375, 'learning_rate': 3.763275875822572e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3485.75, 'total_tokens': 68707291, 'epoch': 0.56}
+ 56%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                     | 8410/15000 [5:57:29<4:18:43,  2.36s/it] 56%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                     | 8411/15000 [5:57:31<4:18:45,  2.36s/it] 56%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                     | 8412/15000 [5:57:34<4:18:43,  2.36s/it] 56%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                     | 8413/15000 [5:57:36<4:18:39,  2.36s/it] 56%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                     | 8414/15000 [5:57:38<4:18:41,  2.36s/it] 56%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                     | 8415/15000 [5:57:41<4:18:38,  2.36s/it] 56%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                     | 8416/15000 [5:57:43<4:18:22,  2.35s/it] 56%|███████████████████████████████████████████████████████████████████���████████████████████████████████████████▊                                                                                     | 8417/15000 [5:57:45<4:18:21,  2.35s/it] 56%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                     | 8418/15000 [5:57:48<4:18:21,  2.36s/it] 56%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                     | 8419/15000 [5:57:50<4:18:11,  2.35s/it] 56%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                     | 8420/15000 [5:57:53<4:18:05,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6794, 'grad_norm': 1.8046875, 'learning_rate': 3.756721760629023e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3484.75, 'total_tokens': 68789040, 'epoch': 0.56}
+ 56%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                     | 8420/15000 [5:57:53<4:18:05,  2.35s/it] 56%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                     | 8421/15000 [5:57:55<4:18:10,  2.35s/it] 56%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                     | 8422/15000 [5:57:57<4:18:09,  2.35s/it] 56%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                     | 8423/15000 [5:58:00<4:18:01,  2.35s/it] 56%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                     | 8424/15000 [5:58:02<4:17:43,  2.35s/it] 56%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                     | 8425/15000 [5:58:04<4:17:37,  2.35s/it] 56%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                     | 8426/15000 [5:58:07<4:17:46,  2.35s/it] 56%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                     | 8427/15000 [5:58:09<4:17:44,  2.35s/it] 56%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                                     | 8428/15000 [5:58:11<4:17:44,  2.35s/it] 56%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                                     | 8429/15000 [5:58:14<4:17:44,  2.35s/it] 56%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                                     | 8430/15000 [5:58:16<4:18:00,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.7426, 'grad_norm': 5.34375, 'learning_rate': 3.7501564757985913e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3468.23, 'total_tokens': 68870747, 'epoch': 0.56}
+ 56%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                                     | 8430/15000 [5:58:16<4:18:00,  2.36s/it] 56%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                                     | 8431/15000 [5:58:18<4:17:57,  2.36s/it] 56%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                                     | 8432/15000 [5:58:21<4:18:00,  2.36s/it] 56%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                                     | 8433/15000 [5:58:23<4:17:51,  2.36s/it] 56%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                                     | 8434/15000 [5:58:25<4:17:40,  2.35s/it] 56%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                                     | 8435/15000 [5:58:28<4:17:46,  2.36s/it] 56%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                                     | 8436/15000 [5:58:30<4:17:27,  2.35s/it] 56%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                                     | 8437/15000 [5:58:33<4:17:18,  2.35s/it] 56%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                    | 8438/15000 [5:58:35<4:17:36,  2.36s/it] 56%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                    | 8439/15000 [5:58:37<4:17:26,  2.35s/it] 56%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                    | 8440/15000 [5:58:40<4:17:21,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6216, 'grad_norm': 1.71875, 'learning_rate': 3.743580086127988e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3483.26, 'total_tokens': 68952465, 'epoch': 0.56}
+ 56%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                    | 8440/15000 [5:58:40<4:17:21,  2.35s/it] 56%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                    | 8441/15000 [5:58:42<4:17:15,  2.35s/it] 56%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                    | 8442/15000 [5:58:44<4:17:24,  2.35s/it] 56%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                    | 8443/15000 [5:58:47<4:32:43,  2.50s/it] 56%|████████████████████████████████████████████████████████████████████████████████��████████████████████████████▏                                                                                    | 8444/15000 [5:58:50<4:28:14,  2.45s/it] 56%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                    | 8445/15000 [5:58:52<4:24:47,  2.42s/it] 56%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                    | 8446/15000 [5:58:54<4:22:30,  2.40s/it] 56%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                    | 8447/15000 [5:58:57<4:20:59,  2.39s/it] 56%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                    | 8448/15000 [5:58:59<4:19:30,  2.38s/it] 56%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                    | 8449/15000 [5:59:01<4:18:48,  2.37s/it] 56%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                    | 8450/15000 [5:59:04<4:18:11,  2.37s/it]                                                                                                                                                                                                                                                {'loss': 2.7171, 'grad_norm': 1.7109375, 'learning_rate': 3.736992656523523e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3480.56, 'total_tokens': 69034113, 'epoch': 0.56}
+ 56%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                    | 8450/15000 [5:59:04<4:18:11,  2.37s/it] 56%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                    | 8451/15000 [5:59:06<4:17:47,  2.36s/it] 56%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                    | 8452/15000 [5:59:08<4:17:26,  2.36s/it] 56%|███████████████████████████████████████████████████████████████████████████████��█████████████████████████████▎                                                                                    | 8453/15000 [5:59:11<4:17:37,  2.36s/it] 56%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                    | 8454/15000 [5:59:13<4:17:16,  2.36s/it] 56%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                    | 8455/15000 [5:59:15<4:16:59,  2.36s/it] 56%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                    | 8456/15000 [5:59:18<4:16:44,  2.35s/it] 56%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                    | 8457/15000 [5:59:20<4:16:32,  2.35s/it] 56%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                    | 8458/15000 [5:59:22<4:16:26,  2.35s/it] 56%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                    | 8459/15000 [5:59:25<4:16:32,  2.35s/it] 56%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                    | 8460/15000 [5:59:27<4:16:33,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6838, 'grad_norm': 1.75, 'learning_rate': 3.730394252000469e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3473.16, 'total_tokens': 69115664, 'epoch': 0.56}
+ 56%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                    | 8460/15000 [5:59:27<4:16:33,  2.35s/it] 56%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                    | 8461/15000 [5:59:30<4:16:28,  2.35s/it] 56%|████████████████████████████████████████████████████████████████████████████████���████████████████████████████▍                                                                                    | 8462/15000 [5:59:32<4:16:34,  2.35s/it] 56%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                    | 8463/15000 [5:59:34<4:16:33,  2.35s/it] 56%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                    | 8464/15000 [5:59:37<4:16:25,  2.35s/it] 56%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                    | 8465/15000 [5:59:39<4:16:05,  2.35s/it] 56%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                    | 8466/15000 [5:59:41<4:16:03,  2.35s/it] 56%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                    | 8467/15000 [5:59:44<4:16:04,  2.35s/it] 56%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                    | 8468/15000 [5:59:46<4:16:03,  2.35s/it] 56%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                    | 8469/15000 [5:59:48<4:15:50,  2.35s/it] 56%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                    | 8470/15000 [5:59:51<4:16:02,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.7442, 'grad_norm': 1.7890625, 'learning_rate': 3.7237849376824126e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3470.76, 'total_tokens': 69197238, 'epoch': 0.56}
+ 56%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                    | 8470/15000 [5:59:51<4:16:02,  2.35s/it] 56%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                    | 8471/15000 [5:59:53<4:15:55,  2.35s/it] 56%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                    | 8472/15000 [5:59:55<4:15:59,  2.35s/it] 56%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                    | 8473/15000 [5:59:58<4:16:09,  2.35s/it] 56%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                    | 8474/15000 [6:00:00<4:16:07,  2.35s/it] 56%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                    | 8475/15000 [6:00:02<4:16:00,  2.35s/it] 57%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                    | 8476/15000 [6:00:05<4:15:54,  2.35s/it] 57%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                    | 8477/15000 [6:00:07<4:15:56,  2.35s/it] 57%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                    | 8478/15000 [6:00:10<4:16:03,  2.36s/it] 57%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                    | 8479/15000 [6:00:12<4:16:01,  2.36s/it] 57%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                    | 8480/15000 [6:00:14<4:15:52,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.7358, 'grad_norm': 1.75, 'learning_rate': 3.717164778800618e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3484.7, 'total_tokens': 69278962, 'epoch': 0.57}
+ 57%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                    | 8480/15000 [6:00:14<4:15:52,  2.35s/it] 57%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                    | 8481/15000 [6:00:17<4:15:43,  2.35s/it] 57%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                    | 8482/15000 [6:00:19<4:15:32,  2.35s/it] 57%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                    | 8483/15000 [6:00:21<4:15:18,  2.35s/it] 57%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                    | 8484/15000 [6:00:24<4:15:30,  2.35s/it] 57%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                    | 8485/15000 [6:00:26<4:15:23,  2.35s/it] 57%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                    | 8486/15000 [6:00:28<4:15:14,  2.35s/it] 57%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                    | 8487/15000 [6:00:31<4:15:23,  2.35s/it] 57%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                    | 8488/15000 [6:00:33<4:15:13,  2.35s/it] 57%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                    | 8489/15000 [6:00:35<4:15:08,  2.35s/it] 57%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                    | 8490/15000 [6:00:38<4:15:19,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.7095, 'grad_norm': 1.796875, 'learning_rate': 3.710533840693383e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3466.17, 'total_tokens': 69360447, 'epoch': 0.57}
+ 57%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                    | 8490/15000 [6:00:38<4:15:19,  2.35s/it] 57%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                    | 8491/15000 [6:00:40<4:15:11,  2.35s/it] 57%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                    | 8492/15000 [6:00:42<4:15:15,  2.35s/it] 57%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                    | 8493/15000 [6:00:45<4:15:10,  2.35s/it] 57%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                    | 8494/15000 [6:00:47<4:15:04,  2.35s/it] 57%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                    | 8495/15000 [6:00:50<4:15:08,  2.35s/it] 57%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                    | 8496/15000 [6:00:52<4:15:21,  2.36s/it] 57%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                    | 8497/15000 [6:00:54<4:15:13,  2.35s/it] 57%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                    | 8498/15000 [6:00:57<4:14:57,  2.35s/it] 57%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                    | 8499/15000 [6:00:59<4:15:00,  2.35s/it] 57%|███████████████████████████████████████████████████████████████████████████████████████████████��█████████████▉                                                                                    | 8500/15000 [6:01:01<4:14:42,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.7808, 'grad_norm': 1.7265625, 'learning_rate': 3.7038921888053865e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3492.48, 'total_tokens': 69442111, 'epoch': 0.57}
+ 57%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                    | 8500/15000 [6:01:01<4:14:42,  2.35s/it] 57%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                    | 8501/15000 [6:01:04<4:14:57,  2.35s/it] 57%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                    | 8502/15000 [6:01:06<4:14:57,  2.35s/it] 57%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                    | 8503/15000 [6:01:08<4:14:33,  2.35s/it] 57%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                    | 8504/15000 [6:01:11<4:14:34,  2.35s/it] 57%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                    | 8505/15000 [6:01:13<4:14:33,  2.35s/it] 57%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                                    | 8506/15000 [6:01:15<4:14:35,  2.35s/it][2025-11-17 03:44:09,205] [INFO] [axolotl.utils.data.wrappers.get_dataset_wrapper:87] [PID:8163] Loading dataset: Goader/kobza-2m-jsonl with base_type: pretrain and prompt_style: None
+
+Tokenizing Prompts (num_proc=64):   0%|                                                                                                                                                                        | 0/10000 [00:00<?, ? examples/s][A
+Tokenizing Prompts (num_proc=64):   2%|██▍                                                                                                                                                           | 157/10000 [00:06<06:18, 25.99 examples/s][A
+Tokenizing Prompts (num_proc=64):   3%|████▉                                                                                                                                                         | 314/10000 [00:06<03:02, 53.01 examples/s][A
+Tokenizing Prompts (num_proc=64):   5%|███████▍                                                                                                                                                      | 471/10000 [00:07<01:59, 79.56 examples/s][A
+Tokenizing Prompts (num_proc=64):   6%|█████████▉                                                                                                                                                    | 628/10000 [00:09<01:43, 90.75 examples/s][A
+Tokenizing Prompts (num_proc=64):   8%|████████████▎                                                                                                                                                | 785/10000 [00:09<01:23, 110.48 examples/s][A
+Tokenizing Prompts (num_proc=64):   9%|██████████████▊                                                                                                                                              | 942/10000 [00:09<00:56, 160.65 examples/s][A
+Tokenizing Prompts (num_proc=64):  11%|█████████████████▏                                                                                                                                          | 1099/10000 [00:10<00:49, 181.60 examples/s][A
+Tokenizing Prompts (num_proc=64):  13%|███████████████████▌                                                                                                                                        | 1256/10000 [00:11<00:45, 191.14 examples/s][A
+Tokenizing Prompts (num_proc=64):  14%|██████████████████████                                                                                                                                      | 1413/10000 [00:12<00:44, 192.16 examples/s][A
+Tokenizing Prompts (num_proc=64):  16%|████████████████████████▍                                                                                                                                   | 1570/10000 [00:12<00:42, 197.40 examples/s][A
+Tokenizing Prompts (num_proc=64):  17%|██████████████████████████▉                                                                                                                                 | 1727/10000 [00:13<00:40, 202.07 examples/s][A
+Tokenizing Prompts (num_proc=64):  19%|█████████████████████████████▍                                                                                                                              | 1884/10000 [00:14<00:39, 205.64 examples/s][A
+Tokenizing Prompts (num_proc=64):  20%|███████████████████████████████▊                                                                                                                            | 2041/10000 [00:15<00:38, 206.29 examples/s][A
+Tokenizing Prompts (num_proc=64):  22%|██████████████████████████████████▎                                                                                                                         | 2198/10000 [00:15<00:38, 204.47 examples/s][A
+Tokenizing Prompts (num_proc=64):  24%|████████████████████████████████████▋                                                                                                                       | 2355/10000 [00:16<00:34, 221.74 examples/s][A
+Tokenizing Prompts (num_proc=64):  25%|███████████████████████████████████████▏                                                                                                                    | 2512/10000 [00:17<00:34, 217.41 examples/s][A
+Tokenizing Prompts (num_proc=64):  27%|█████████████████████████████████████████▌                                                                                                                  | 2668/10000 [00:17<00:33, 215.71 examples/s][A
+Tokenizing Prompts (num_proc=64):  28%|████████████████████████████████████████████                                                                                                                | 2824/10000 [00:18<00:33, 213.32 examples/s][A
+Tokenizing Prompts (num_proc=64):  30%|██████████████████████████████████████████████▍                                                                                                             | 2980/10000 [00:19<00:32, 214.35 examples/s][A
+Tokenizing Prompts (num_proc=64):  31%|████████████████████████████████████████████████▉                                                                                                           | 3136/10000 [00:20<00:38, 178.25 examples/s][A
+Tokenizing Prompts (num_proc=64):  33%|███████████████████████████████████████████████████▎                                                                                                        | 3292/10000 [00:21<00:31, 214.84 examples/s][A
+Tokenizing Prompts (num_proc=64):  34%|█████████████████████████████████████████████████████▊                                                                                                      | 3448/10000 [00:22<00:31, 210.76 examples/s][A
+Tokenizing Prompts (num_proc=64):  36%|████████████████████████████████████████████████████████▏                                                                                                   | 3604/10000 [00:22<00:27, 235.20 examples/s][A
+Tokenizing Prompts (num_proc=64):  38%|██████████████████████████████████████████████████████████▋                                                                                                 | 3760/10000 [00:22<00:26, 234.62 examples/s][A
+Tokenizing Prompts (num_proc=64):  39%|█████████████████████████████████████████████████████████████                                                                                               | 3916/10000 [00:23<00:27, 223.69 examples/s][A
+Tokenizing Prompts (num_proc=64):  41%|███████████████████████████████████████████████████████████████▌                                                                                            | 4072/10000 [00:24<00:25, 229.86 examples/s][A
+Tokenizing Prompts (num_proc=64):  42%|█████████████████████████████████████████████████████████████████▉                                                                                          | 4228/10000 [00:25<00:25, 226.39 examples/s][A
+Tokenizing Prompts (num_proc=64):  44%|████████████████████████████████████████████████████████████████████▍                                                                                       | 4384/10000 [00:25<00:25, 221.60 examples/s][A
+Tokenizing Prompts (num_proc=64):  45%|██████████████████████████████████████████████████████████████████████▊                                                                                     | 4540/10000 [00:26<00:24, 222.68 examples/s][A
+Tokenizing Prompts (num_proc=64):  47%|█████████████████████████████████████████████████████████████████████████▎                                                                                  | 4696/10000 [00:27<00:23, 223.39 examples/s][A
+Tokenizing Prompts (num_proc=64):  49%|███████████████████████████████████████████████████████████████████████████▋                                                                                | 4852/10000 [00:28<00:28, 178.30 examples/s][A
+Tokenizing Prompts (num_proc=64):  50%|██████████████████████████████████████████████████████████████████████████████                                                                              | 5008/10000 [00:28<00:20, 242.52 examples/s][A
+Tokenizing Prompts (num_proc=64):  52%|████████████████████████████████████████████████████████████████████████████████▌                                                                           | 5164/10000 [00:29<00:25, 187.33 examples/s][A
+Tokenizing Prompts (num_proc=64):  53%|██████████████████████████████��███████████████████████████████████████████████████▉                                                                         | 5320/10000 [00:30<00:19, 240.79 examples/s][A
+Tokenizing Prompts (num_proc=64):  55%|█████████████████████████████████████████████████████████████████████████████████████▍                                                                      | 5476/10000 [00:30<00:19, 229.64 examples/s][A
+Tokenizing Prompts (num_proc=64):  56%|███████████████████████████████████████████████████████████████████████████████████████▊                                                                    | 5632/10000 [00:32<00:25, 171.71 examples/s][A
+Tokenizing Prompts (num_proc=64):  58%|██████████████████████████████████████████████████████████████████████████████████████████▎                                                                 | 5788/10000 [00:32<00:20, 201.35 examples/s][A
+Tokenizing Prompts (num_proc=64):  59%|████████████████████████████████████████████████████████████████████████████████████████████▋                                                               | 5944/10000 [00:33<00:16, 247.56 examples/s][A
+Tokenizing Prompts (num_proc=64):  61%|███████████████████████████████████████████████████████████████████████████████████████████████▏                                                            | 6100/10000 [00:33<00:15, 252.76 examples/s][A
+Tokenizing Prompts (num_proc=64):  63%|█████████████████████████████████████████████████████████████████████████████████████████████████▌                                                          | 6256/10000 [00:34<00:15, 246.50 examples/s][A
+Tokenizing Prompts (num_proc=64):  64%|████████████████████████████████████████████████████████████████████████████████████████████████████                                                        | 6412/10000 [00:35<00:18, 191.05 examples/s][A
+Tokenizing Prompts (num_proc=64):  66%|██████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                     | 6568/10000 [00:35<00:13, 255.27 examples/s][A
+Tokenizing Prompts (num_proc=64):  67%|████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                   | 6724/10000 [00:36<00:13, 242.70 examples/s][A
+Tokenizing Prompts (num_proc=64):  69%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                | 6880/10000 [00:37<00:13, 233.14 examples/s][A
+Tokenizing Prompts (num_proc=64):  70%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                              | 7036/10000 [00:37<00:13, 224.14 examples/s][A
+Tokenizing Prompts (num_proc=64):  72%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                           | 7192/10000 [00:38<00:12, 230.36 examples/s][A
+Tokenizing Prompts (num_proc=64):  73%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                         | 7348/10000 [00:39<00:11, 224.72 examples/s][A
+Tokenizing Prompts (num_proc=64):  75%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                       | 7504/10000 [00:39<00:11, 220.44 examples/s][A
+Tokenizing Prompts (num_proc=64):  77%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                    | 7660/10000 [00:41<00:12, 181.17 examples/s][A
+Tokenizing Prompts (num_proc=64):  78%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                  | 7816/10000 [00:41<00:11, 190.77 examples/s][A
+Tokenizing Prompts (num_proc=64):  80%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                               | 7972/10000 [00:42<00:10, 197.80 examples/s][A
+Tokenizing Prompts (num_proc=64):  81%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                             | 8128/10000 [00:42<00:07, 254.33 examples/s][A
+Tokenizing Prompts (num_proc=64):  83%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                          | 8284/10000 [00:43<00:07, 236.27 examples/s][A
+Tokenizing Prompts (num_proc=64):  84%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                        | 8440/10000 [00:45<00:07, 199.93 examples/s][A
+Tokenizing Prompts (num_proc=64):  86%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                      | 8596/10000 [00:45<00:06, 211.45 examples/s][A
+Tokenizing Prompts (num_proc=64):  88%|██████████████████████████████████████████��█████████████████████████████████████████████████████████████████████████████████████████████▌                   | 8752/10000 [00:46<00:07, 175.94 examples/s][A
+Tokenizing Prompts (num_proc=64):  89%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                 | 8908/10000 [00:46<00:04, 234.73 examples/s][A
+Tokenizing Prompts (num_proc=64):  91%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍              | 9064/10000 [00:47<00:04, 219.71 examples/s][A
+Tokenizing Prompts (num_proc=64):  92%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊            | 9220/10000 [00:48<00:03, 228.39 examples/s][A
+Tokenizing Prompts (num_proc=64):  94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎         | 9376/10000 [00:48<00:02, 222.11 examples/s][A
+Tokenizing Prompts (num_proc=64):  95%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋       | 9532/10000 [00:49<00:02, 222.56 examples/s][A
+Tokenizing Prompts (num_proc=64):  97%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏    | 9688/10000 [00:50<00:01, 221.39 examples/s][A
+Tokenizing Prompts (num_proc=64):  98%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌  | 9844/10000 [00:50<00:00, 226.18 examples/s][A
+Tokenizing Prompts (num_proc=64): 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10000/10000 [00:51<00:00, 225.39 examples/s][ATokenizing Prompts (num_proc=64): 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████��██████████████████████| 10000/10000 [00:53<00:00, 186.63 examples/s]
+
+Dropping Long Sequences:   0%|                                                                                                                                                                                 | 0/10002 [00:00<?, ? examples/s][A
+Dropping Long Sequences:  10%|████████████████▍                                                                                                                                                    | 1000/10002 [00:01<00:14, 622.10 examples/s][A
+Dropping Long Sequences:  20%|████████████████████████████████▊                                                                                                                                   | 2000/10002 [00:01<00:06, 1247.95 examples/s][A
+Dropping Long Sequences:  30%|█████████████████████████████████████████████████▏                                                                                                                  | 3000/10002 [00:02<00:03, 1778.90 examples/s][A
+Dropping Long Sequences:  40%|█████████████████████████████████████████████████████████████████▌                                                                                                  | 4000/10002 [00:02<00:02, 2233.83 examples/s][A
+Dropping Long Sequences:  50%|█████████████████████████████████████████████████████████████████████████████████▉                                                                                  | 5000/10002 [00:02<00:01, 2505.58 examples/s][A
+Dropping Long Sequences:  60%|██████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                 | 6000/10002 [00:03<00:01, 2710.09 examples/s][A
+Dropping Long Sequences:  70%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                 | 7000/10002 [00:03<00:00, 3002.92 examples/s][A
+Dropping Long Sequences:  80%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                | 8000/10002 [00:03<00:00, 3271.94 examples/s][A
+Dropping Long Sequences:  90%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                | 9000/10002 [00:03<00:00, 3333.01 examples/s][A
+Dropping Long Sequences: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉| 10000/10002 [00:04<00:00, 3474.69 examples/s][ADropping Long Sequences: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████��██████████| 10002/10002 [00:04<00:00, 2412.79 examples/s]
+
+Add position_id column (Pretraining Sample Packing):   0%|                                                                                                                                                      | 0/8705 [00:00<?, ? examples/s][A
+Add position_id column (Pretraining Sample Packing):  11%|███████████████▊                                                                                                                          | 1000/8705 [00:01<00:10, 725.04 examples/s][A
+Add position_id column (Pretraining Sample Packing):  23%|███████████████████████████████▍                                                                                                         | 2000/8705 [00:01<00:04, 1517.70 examples/s][A
+Add position_id column (Pretraining Sample Packing):  34%|███████████████████████████████████████████████▏                                                                                         | 3000/8705 [00:01<00:02, 2369.32 examples/s][A
+Add position_id column (Pretraining Sample Packing):  46%|██████████████████████████████████████████████████████████████▉                                                                          | 4000/8705 [00:01<00:01, 3123.52 examples/s][A
+Add position_id column (Pretraining Sample Packing):  57%|██████████████████████████████████████████████████████████████████████████████▋                                                          | 5000/8705 [00:01<00:00, 3912.32 examples/s][A
+Add position_id column (Pretraining Sample Packing):  69%|██████████████████████████████████████████████████████████████████████████████████████████████▍                                          | 6000/8705 [00:02<00:00, 4527.86 examples/s][A
+Add position_id column (Pretraining Sample Packing):  80%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                          | 7000/8705 [00:02<00:00, 5042.26 examples/s][A
+Add position_id column (Pretraining Sample Packing):  92%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉           | 8000/8705 [00:02<00:00, 5242.58 examples/s][A
+Add position_id column (Pretraining Sample Packing): 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 8705/8705 [00:02<00:00, 5589.27 examples/s][AAdd position_id column (Pretraining Sample Packing): 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 8705/8705 [00:02<00:00, 3324.36 examples/s]
+[2025-11-17 03:45:11,386] [DEBUG] [axolotl.utils.samplers.multipack.pack_parallel:177] [PID:8163] Using single process for pack_parallel, running sequentially.
+ 57%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                   | 8507/15000 [6:02:26<41:01:09, 22.74s/it] 57%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                   | 8508/15000 [6:02:28<29:58:44, 16.62s/it] 57%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                   | 8509/15000 [6:02:30<22:15:29, 12.34s/it] 57%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                   | 8510/15000 [6:02:33<16:51:16,  9.35s/it]                                                                                                                                                                                                                                                {'loss': 2.7323, 'grad_norm': 1.78125, 'learning_rate': 3.697239888687053e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3319.79, 'total_tokens': 69520216, 'epoch': 0.57}
+ 57%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                   | 8510/15000 [6:02:33<16:51:16,  9.35s/it] 57%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                   | 8511/15000 [6:02:35<13:04:06,  7.25s/it] 57%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                   | 8512/15000 [6:02:37<10:25:03,  5.78s/it] 57%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                                    | 8513/15000 [6:02:40<8:33:40,  4.75s/it] 57%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                                    | 8514/15000 [6:02:42<7:15:40,  4.03s/it] 57%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                   | 8515/15000 [6:02:45<6:20:59,  3.52s/it] 57%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                   | 8516/15000 [6:02:47<5:42:44,  3.17s/it] 57%|█████���████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                   | 8517/15000 [6:02:49<5:15:38,  2.92s/it] 57%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                   | 8518/15000 [6:02:52<4:57:04,  2.75s/it] 57%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                   | 8519/15000 [6:02:54<4:44:09,  2.63s/it] 57%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                   | 8520/15000 [6:02:56<4:35:07,  2.55s/it]                                                                                                                                                                                                                                                {'loss': 2.6952, 'grad_norm': 1.78125, 'learning_rate': 3.6905770059939005e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3489.31, 'total_tokens': 69602077, 'epoch': 0.57}
+ 57%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                   | 8520/15000 [6:02:56<4:35:07,  2.55s/it] 57%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                   | 8521/15000 [6:02:59<4:28:51,  2.49s/it] 57%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                   | 8522/15000 [6:03:01<4:24:20,  2.45s/it] 57%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                   | 8523/15000 [6:03:03<4:21:17,  2.42s/it] 57%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                   | 8524/15000 [6:03:06<4:19:00,  2.40s/it] 57%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                   | 8525/15000 [6:03:08<4:17:28,  2.39s/it] 57%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                   | 8526/15000 [6:03:10<4:16:27,  2.38s/it] 57%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                   | 8527/15000 [6:03:13<4:15:44,  2.37s/it] 57%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                   | 8528/15000 [6:03:15<4:15:23,  2.37s/it] 57%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                   | 8529/15000 [6:03:17<4:14:43,  2.36s/it] 57%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                   | 8530/15000 [6:03:20<4:14:28,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.71, 'grad_norm': 1.8125, 'learning_rate': 3.683903606485888e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3484.15, 'total_tokens': 69683905, 'epoch': 0.57}
+ 57%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                   | 8530/15000 [6:03:20<4:14:28,  2.36s/it] 57%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                   | 8531/15000 [6:03:22<4:14:10,  2.36s/it] 57%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                   | 8532/15000 [6:03:25<4:13:54,  2.36s/it] 57%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                   | 8533/15000 [6:03:27<4:13:47,  2.35s/it] 57%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                   | 8534/15000 [6:03:29<4:13:24,  2.35s/it] 57%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                   | 8535/15000 [6:03:32<4:13:29,  2.35s/it] 57%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                   | 8536/15000 [6:03:34<4:13:24,  2.35s/it] 57%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                   | 8537/15000 [6:03:36<4:13:22,  2.35s/it] 57%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                   | 8538/15000 [6:03:39<4:13:29,  2.35s/it] 57%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                   | 8539/15000 [6:03:41<4:13:30,  2.35s/it] 57%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                   | 8540/15000 [6:03:43<4:13:28,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.7002, 'grad_norm': 1.65625, 'learning_rate': 3.6772197560267766e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3484.68, 'total_tokens': 69765705, 'epoch': 0.57}
+ 57%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                   | 8540/15000 [6:03:43<4:13:28,  2.35s/it] 57%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                   | 8541/15000 [6:03:46<4:13:21,  2.35s/it] 57%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                   | 8542/15000 [6:03:48<4:13:06,  2.35s/it] 57%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                   | 8543/15000 [6:03:50<4:13:02,  2.35s/it] 57%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                   | 8544/15000 [6:03:53<4:12:59,  2.35s/it] 57%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                   | 8545/15000 [6:03:55<4:13:09,  2.35s/it] 57%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                   | 8546/15000 [6:03:57<4:12:56,  2.35s/it] 57%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                   | 8547/15000 [6:04:00<4:12:55,  2.35s/it] 57%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                   | 8548/15000 [6:04:02<4:12:35,  2.35s/it] 57%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                   | 8549/15000 [6:04:04<4:12:42,  2.35s/it] 57%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                   | 8550/15000 [6:04:07<4:12:42,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.7515, 'grad_norm': 2.390625, 'learning_rate': 3.6705255205834725e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3488.31, 'total_tokens': 69847503, 'epoch': 0.57}
+ 57%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                   | 8550/15000 [6:04:07<4:12:42,  2.35s/it] 57%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                   | 8551/15000 [6:04:09<4:13:03,  2.35s/it] 57%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                   | 8552/15000 [6:04:12<4:12:54,  2.35s/it] 57%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                   | 8553/15000 [6:04:14<4:12:53,  2.35s/it] 57%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                   | 8554/15000 [6:04:16<4:12:54,  2.35s/it] 57%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                   | 8555/15000 [6:04:19<4:12:49,  2.35s/it] 57%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                   | 8556/15000 [6:04:21<4:12:45,  2.35s/it] 57%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                   | 8557/15000 [6:04:23<4:12:38,  2.35s/it] 57%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                   | 8558/15000 [6:04:26<4:12:32,  2.35s/it] 57%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                   | 8559/15000 [6:04:28<4:12:08,  2.35s/it] 57%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                   | 8560/15000 [6:04:30<4:12:03,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6829, 'grad_norm': 1.78125, 'learning_rate': 3.663820966225375e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3494.03, 'total_tokens': 69929289, 'epoch': 0.57}
+ 57%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                   | 8560/15000 [6:04:30<4:12:03,  2.35s/it] 57%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                   | 8561/15000 [6:04:33<4:12:06,  2.35s/it] 57%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                   | 8562/15000 [6:04:35<4:12:12,  2.35s/it] 57%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                   | 8563/15000 [6:04:37<4:12:05,  2.35s/it] 57%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                   | 8564/15000 [6:04:40<4:12:03,  2.35s/it] 57%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                   | 8565/15000 [6:04:42<4:12:02,  2.35s/it] 57%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                   | 8566/15000 [6:04:44<4:11:59,  2.35s/it] 57%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                   | 8567/15000 [6:04:47<4:12:09,  2.35s/it] 57%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                   | 8568/15000 [6:04:49<4:12:12,  2.35s/it] 57%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                   | 8569/15000 [6:04:52<4:12:10,  2.35s/it] 57%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                   | 8570/15000 [6:04:54<4:12:31,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.7753, 'grad_norm': 1.6796875, 'learning_rate': 3.6571061591237304e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3469.85, 'total_tokens': 70011087, 'epoch': 0.57}
+ 57%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                   | 8570/15000 [6:04:54<4:12:31,  2.36s/it] 57%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                   | 8571/15000 [6:04:56<4:12:12,  2.35s/it] 57%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                   | 8572/15000 [6:04:59<4:12:04,  2.35s/it] 57%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                   | 8573/15000 [6:05:01<4:12:12,  2.35s/it] 57%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                   | 8574/15000 [6:05:03<4:12:01,  2.35s/it] 57%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                   | 8575/15000 [6:05:06<4:11:45,  2.35s/it] 57%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                   | 8576/15000 [6:05:08<4:11:28,  2.35s/it] 57%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                   | 8577/15000 [6:05:10<4:11:41,  2.35s/it] 57%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                   | 8578/15000 [6:05:13<4:11:24,  2.35s/it] 57%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                   | 8579/15000 [6:05:15<4:11:30,  2.35s/it] 57%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                   | 8580/15000 [6:05:17<4:11:31,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6643, 'grad_norm': 1.7265625, 'learning_rate': 3.6503811655509736e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3489.11, 'total_tokens': 70092917, 'epoch': 0.57}
+ 57%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                   | 8580/15000 [6:05:17<4:11:31,  2.35s/it] 57%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                   | 8581/15000 [6:05:20<4:11:47,  2.35s/it] 57%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                   | 8582/15000 [6:05:22<4:11:48,  2.35s/it] 57%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                                   | 8583/15000 [6:05:24<4:11:49,  2.35s/it] 57%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                                   | 8584/15000 [6:05:27<4:11:41,  2.35s/it] 57%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                                   | 8585/15000 [6:05:29<4:11:11,  2.35s/it] 57%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                                   | 8586/15000 [6:05:32<4:11:09,  2.35s/it] 57%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                                   | 8587/15000 [6:05:34<4:10:54,  2.35s/it] 57%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                                   | 8588/15000 [6:05:36<4:10:49,  2.35s/it] 57%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                                   | 8589/15000 [6:05:39<4:11:09,  2.35s/it] 57%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                                   | 8590/15000 [6:05:41<4:11:09,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6728, 'grad_norm': 1.796875, 'learning_rate': 3.643646051880075e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3489.62, 'total_tokens': 70174721, 'epoch': 0.57}
+ 57%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                                   | 8590/15000 [6:05:41<4:11:09,  2.35s/it] 57%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                                   | 8591/15000 [6:05:43<4:11:05,  2.35s/it] 57%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                                   | 8592/15000 [6:05:46<4:11:09,  2.35s/it] 57%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                  | 8593/15000 [6:05:48<4:11:03,  2.35s/it] 57%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                  | 8594/15000 [6:05:50<4:10:57,  2.35s/it] 57%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                  | 8595/15000 [6:05:53<4:10:56,  2.35s/it] 57%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                  | 8596/15000 [6:05:55<4:10:47,  2.35s/it] 57%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                  | 8597/15000 [6:05:57<4:10:53,  2.35s/it] 57%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                  | 8598/15000 [6:06:00<4:11:06,  2.35s/it] 57%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                  | 8599/15000 [6:06:02<4:10:55,  2.35s/it] 57%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                  | 8600/15000 [6:06:04<4:10:44,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.716, 'grad_norm': 1.890625, 'learning_rate': 3.636900884583889e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3495.77, 'total_tokens': 70256535, 'epoch': 0.57}
+ 57%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                  | 8600/15000 [6:06:04<4:10:44,  2.35s/it] 57%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                  | 8601/15000 [6:06:07<4:10:46,  2.35s/it] 57%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                  | 8602/15000 [6:06:09<4:10:51,  2.35s/it] 57%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                  | 8603/15000 [6:06:11<4:10:55,  2.35s/it] 57%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                  | 8604/15000 [6:06:14<4:11:13,  2.36s/it] 57%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                  | 8605/15000 [6:06:16<4:10:51,  2.35s/it] 57%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                  | 8606/15000 [6:06:19<4:10:50,  2.35s/it] 57%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                  | 8607/15000 [6:06:21<4:10:34,  2.35s/it] 57%|████████████████████████████████████████████████████████████████████████████████████████████���██████████████████▎                                                                                  | 8608/15000 [6:06:23<4:10:31,  2.35s/it] 57%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                  | 8609/15000 [6:06:26<4:10:22,  2.35s/it] 57%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                  | 8610/15000 [6:06:28<4:10:21,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.7316, 'grad_norm': 1.7265625, 'learning_rate': 3.630145730234492e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3488.86, 'total_tokens': 70338309, 'epoch': 0.57}
+ 57%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                  | 8610/15000 [6:06:28<4:10:21,  2.35s/it] 57%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                  | 8611/15000 [6:06:30<4:10:27,  2.35s/it] 57%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                  | 8612/15000 [6:06:33<4:10:22,  2.35s/it] 57%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                  | 8613/15000 [6:06:35<4:10:22,  2.35s/it] 57%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                  | 8614/15000 [6:06:37<4:10:28,  2.35s/it] 57%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                  | 8615/15000 [6:06:40<4:10:38,  2.36s/it] 57%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                  | 8616/15000 [6:06:42<4:10:30,  2.35s/it] 57%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                  | 8617/15000 [6:06:44<4:10:25,  2.35s/it] 57%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                  | 8618/15000 [6:06:47<4:10:33,  2.36s/it] 57%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                  | 8619/15000 [6:06:49<4:10:32,  2.36s/it] 57%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                  | 8620/15000 [6:06:51<4:10:33,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.6677, 'grad_norm': 1.78125, 'learning_rate': 3.623380655502533e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3477.77, 'total_tokens': 70420064, 'epoch': 0.57}
+ 57%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                  | 8620/15000 [6:06:52<4:10:33,  2.36s/it] 57%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                  | 8621/15000 [6:06:54<4:10:23,  2.36s/it] 57%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                  | 8622/15000 [6:06:56<4:10:21,  2.36s/it] 57%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                  | 8623/15000 [6:06:59<4:10:17,  2.35s/it] 57%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                  | 8624/15000 [6:07:01<4:10:07,  2.35s/it] 57%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                  | 8625/15000 [6:07:03<4:10:07,  2.35s/it] 58%|████████████████████████████████████████████████████████████████���██████████████████████████████████████████████▌                                                                                  | 8626/15000 [6:07:06<4:10:10,  2.35s/it] 58%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                  | 8627/15000 [6:07:08<4:10:07,  2.35s/it] 58%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                  | 8628/15000 [6:07:10<4:10:02,  2.35s/it] 58%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                  | 8629/15000 [6:07:13<4:10:00,  2.35s/it] 58%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                  | 8630/15000 [6:07:15<4:10:02,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.7056, 'grad_norm': 1.7890625, 'learning_rate': 3.616605727156565e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3481.02, 'total_tokens': 70501858, 'epoch': 0.58}
+ 58%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                  | 8630/15000 [6:07:15<4:10:02,  2.36s/it] 58%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                  | 8631/15000 [6:07:17<4:09:57,  2.35s/it] 58%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                  | 8632/15000 [6:07:20<4:09:47,  2.35s/it] 58%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                  | 8633/15000 [6:07:22<4:09:40,  2.35s/it] 58%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                  | 8634/15000 [6:07:24<4:09:32,  2.35s/it] 58%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                  | 8635/15000 [6:07:27<4:09:04,  2.35s/it] 58%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                  | 8636/15000 [6:07:29<4:09:06,  2.35s/it] 58%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                  | 8637/15000 [6:07:31<4:09:07,  2.35s/it] 58%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                  | 8638/15000 [6:07:34<4:09:10,  2.35s/it] 58%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                  | 8639/15000 [6:07:36<4:09:38,  2.35s/it] 58%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                  | 8640/15000 [6:07:39<4:09:32,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.7156, 'grad_norm': 1.765625, 'learning_rate': 3.609821012062399e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3486.59, 'total_tokens': 70583654, 'epoch': 0.58}
+ 58%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                  | 8640/15000 [6:07:39<4:09:32,  2.35s/it] 58%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                  | 8641/15000 [6:07:41<4:09:47,  2.36s/it] 58%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                  | 8642/15000 [6:07:43<4:09:26,  2.35s/it] 58%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                  | 8643/15000 [6:07:46<4:09:39,  2.36s/it] 58%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                  | 8644/15000 [6:07:48<4:09:45,  2.36s/it] 58%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                  | 8645/15000 [6:07:50<4:09:36,  2.36s/it] 58%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                  | 8646/15000 [6:07:53<4:09:34,  2.36s/it] 58%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                  | 8647/15000 [6:07:55<4:09:29,  2.36s/it] 58%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                  | 8648/15000 [6:07:57<4:09:38,  2.36s/it] 58%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                  | 8649/15000 [6:08:00<4:09:38,  2.36s/it] 58%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                  | 8650/15000 [6:08:02<4:09:29,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.7301, 'grad_norm': 1.765625, 'learning_rate': 3.603026577182431e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3483.16, 'total_tokens': 70665443, 'epoch': 0.58}
+ 58%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                  | 8650/15000 [6:08:02<4:09:29,  2.36s/it] 58%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                  | 8651/15000 [6:08:04<4:09:25,  2.36s/it] 58%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                  | 8652/15000 [6:08:07<4:09:03,  2.35s/it] 58%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                  | 8653/15000 [6:08:09<4:08:49,  2.35s/it] 58%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                  | 8654/15000 [6:08:12<4:08:45,  2.35s/it] 58%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                  | 8655/15000 [6:08:14<4:08:57,  2.35s/it] 58%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                  | 8656/15000 [6:08:16<4:08:59,  2.35s/it] 58%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                  | 8657/15000 [6:08:19<4:08:32,  2.35s/it] 58%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                  | 8658/15000 [6:08:21<4:08:29,  2.35s/it] 58%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                  | 8659/15000 [6:08:23<4:08:31,  2.35s/it] 58%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                                  | 8660/15000 [6:08:26<4:08:30,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6583, 'grad_norm': 1.796875, 'learning_rate': 3.5962224895749924e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3487.22, 'total_tokens': 70747241, 'epoch': 0.58}
+ 58%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                                  | 8660/15000 [6:08:26<4:08:30,  2.35s/it] 58%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                                  | 8661/15000 [6:08:28<4:08:38,  2.35s/it] 58%|███████��████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                                  | 8662/15000 [6:08:30<4:08:33,  2.35s/it] 58%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                                  | 8663/15000 [6:08:33<4:08:36,  2.35s/it] 58%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                                  | 8664/15000 [6:08:35<4:08:40,  2.35s/it] 58%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                                  | 8665/15000 [6:08:37<4:08:49,  2.36s/it] 58%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                                  | 8666/15000 [6:08:40<4:08:41,  2.36s/it] 58%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                                  | 8667/15000 [6:08:42<4:08:34,  2.36s/it] 58%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                                  | 8668/15000 [6:08:44<4:08:11,  2.35s/it] 58%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                                  | 8669/15000 [6:08:47<4:08:22,  2.35s/it] 58%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                 | 8670/15000 [6:08:49<4:08:29,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.7076, 'grad_norm': 1.78125, 'learning_rate': 3.5894088163936796e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3475.97, 'total_tokens': 70828996, 'epoch': 0.58}
+ 58%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                 | 8670/15000 [6:08:49<4:08:29,  2.36s/it] 58%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                 | 8671/15000 [6:08:52<4:08:23,  2.35s/it] 58%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                 | 8672/15000 [6:08:54<4:08:19,  2.35s/it] 58%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                 | 8673/15000 [6:08:56<4:08:21,  2.36s/it] 58%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                 | 8674/15000 [6:08:59<4:08:17,  2.36s/it] 58%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                 | 8675/15000 [6:09:01<4:08:23,  2.36s/it] 58%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                 | 8676/15000 [6:09:03<4:08:17,  2.36s/it] 58%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                 | 8677/15000 [6:09:06<4:08:05,  2.35s/it] 58%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                 | 8678/15000 [6:09:08<4:08:02,  2.35s/it] 58%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                 | 8679/15000 [6:09:10<4:08:14,  2.36s/it] 58%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                 | 8680/15000 [6:09:13<4:08:02,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.7799, 'grad_norm': 1.7578125, 'learning_rate': 3.5825856248866965e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3487.24, 'total_tokens': 70910749, 'epoch': 0.58}
+ 58%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                 | 8680/15000 [6:09:13<4:08:02,  2.35s/it] 58%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                 | 8681/15000 [6:09:15<4:08:09,  2.36s/it] 58%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                 | 8682/15000 [6:09:17<4:08:11,  2.36s/it] 58%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                 | 8683/15000 [6:09:20<4:08:01,  2.36s/it] 58%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                 | 8684/15000 [6:09:22<4:08:02,  2.36s/it] 58%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                 | 8685/15000 [6:09:25<4:07:56,  2.36s/it] 58%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                 | 8686/15000 [6:09:27<4:07:43,  2.35s/it] 58%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                 | 8687/15000 [6:09:29<4:07:42,  2.35s/it] 58%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                 | 8688/15000 [6:09:32<4:07:38,  2.35s/it] 58%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                 | 8689/15000 [6:09:34<4:07:24,  2.35s/it] 58%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                 | 8690/15000 [6:09:36<4:07:34,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6724, 'grad_norm': 1.7890625, 'learning_rate': 3.5757529823961895e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3477.57, 'total_tokens': 70992535, 'epoch': 0.58}
+ 58%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                 | 8690/15000 [6:09:36<4:07:34,  2.35s/it] 58%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                 | 8691/15000 [6:09:39<4:07:36,  2.35s/it] 58%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                 | 8692/15000 [6:09:41<4:07:43,  2.36s/it] 58%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                 | 8693/15000 [6:09:43<4:07:48,  2.36s/it] 58%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                 | 8694/15000 [6:09:46<4:07:36,  2.36s/it] 58%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                 | 8695/15000 [6:09:48<4:07:26,  2.35s/it] 58%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                 | 8696/15000 [6:09:50<4:07:23,  2.35s/it] 58%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                 | 8697/15000 [6:09:53<4:07:07,  2.35s/it] 58%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                 | 8698/15000 [6:09:55<4:07:15,  2.35s/it] 58%|███████████████████████████████████████████████████████████████████████████████████████████████████��████████████▌                                                                                 | 8699/15000 [6:09:58<4:07:30,  2.36s/it] 58%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                 | 8700/15000 [6:10:00<4:06:54,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.71, 'grad_norm': 1.765625, 'learning_rate': 3.56891095635758e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3505.0, 'total_tokens': 71074272, 'epoch': 0.58}
+ 58%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                 | 8700/15000 [6:10:00<4:06:54,  2.35s/it] 58%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                 | 8701/15000 [6:10:02<4:07:08,  2.35s/it] 58%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                 | 8702/15000 [6:10:05<4:07:13,  2.36s/it] 58%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                 | 8703/15000 [6:10:07<4:07:05,  2.35s/it] 58%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                 | 8704/15000 [6:10:09<4:07:09,  2.36s/it] 58%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                 | 8705/15000 [6:10:12<4:07:03,  2.35s/it] 58%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                 | 8706/15000 [6:10:14<4:07:05,  2.36s/it] 58%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                 | 8707/15000 [6:10:16<4:07:09,  2.36s/it] 58%|████████████████████████████████████████████████████████████████████████████████���███████████████████████████████▌                                                                                 | 8708/15000 [6:10:19<4:07:00,  2.36s/it] 58%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                 | 8709/15000 [6:10:21<4:07:00,  2.36s/it] 58%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                 | 8710/15000 [6:10:23<4:06:37,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.7125, 'grad_norm': 1.7265625, 'learning_rate': 3.562059614298904e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3497.65, 'total_tokens': 71156022, 'epoch': 0.58}
+ 58%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                 | 8710/15000 [6:10:23<4:06:37,  2.35s/it] 58%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                 | 8711/15000 [6:10:26<4:06:43,  2.35s/it] 58%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                 | 8712/15000 [6:10:28<4:06:51,  2.36s/it] 58%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                 | 8713/15000 [6:10:31<4:21:49,  2.50s/it] 58%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                 | 8714/15000 [6:10:33<4:17:00,  2.45s/it] 58%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                 | 8715/15000 [6:10:36<4:13:36,  2.42s/it] 58%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                 | 8716/15000 [6:10:38<4:11:24,  2.40s/it] 58%|███████████████████████████████████████████████████████████���████████████████████████████████████████████████████▋                                                                                 | 8717/15000 [6:10:40<4:09:55,  2.39s/it] 58%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                 | 8718/15000 [6:10:43<4:09:04,  2.38s/it] 58%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                 | 8719/15000 [6:10:45<4:08:11,  2.37s/it] 58%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                 | 8720/15000 [6:10:47<4:07:40,  2.37s/it]                                                                                                                                                                                                                                                {'loss': 2.6661, 'grad_norm': 1.71875, 'learning_rate': 3.555199023840141e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3479.51, 'total_tokens': 71237758, 'epoch': 0.58}
+ 58%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                 | 8720/15000 [6:10:47<4:07:40,  2.37s/it] 58%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                 | 8721/15000 [6:10:50<4:07:09,  2.36s/it] 58%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                 | 8722/15000 [6:10:52<4:06:48,  2.36s/it] 58%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                 | 8723/15000 [6:10:54<4:06:35,  2.36s/it] 58%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                 | 8724/15000 [6:10:57<4:06:24,  2.36s/it] 58%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                 | 8725/15000 [6:10:59<4:06:24,  2.36s/it] 58%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                 | 8726/15000 [6:11:02<4:06:16,  2.36s/it] 58%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                 | 8727/15000 [6:11:04<4:06:14,  2.36s/it] 58%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                 | 8728/15000 [6:11:06<4:06:13,  2.36s/it] 58%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                 | 8729/15000 [6:11:09<4:05:56,  2.35s/it] 58%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                 | 8730/15000 [6:11:11<4:05:59,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6761, 'grad_norm': 1.7265625, 'learning_rate': 3.5483292526925486e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3480.58, 'total_tokens': 71319513, 'epoch': 0.58}
+ 58%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                 | 8730/15000 [6:11:11<4:05:59,  2.35s/it] 58%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                 | 8731/15000 [6:11:13<4:05:58,  2.35s/it] 58%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                 | 8732/15000 [6:11:16<4:06:08,  2.36s/it] 58%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                 | 8733/15000 [6:11:18<4:06:01,  2.36s/it] 58%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                 | 8734/15000 [6:11:20<4:06:00,  2.36s/it] 58%|█████████████████��██████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                 | 8735/15000 [6:11:23<4:05:38,  2.35s/it] 58%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                 | 8736/15000 [6:11:25<4:05:35,  2.35s/it] 58%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                 | 8737/15000 [6:11:27<4:05:19,  2.35s/it] 58%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                                 | 8738/15000 [6:11:30<4:05:18,  2.35s/it] 58%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                                 | 8739/15000 [6:11:32<4:05:38,  2.35s/it] 58%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                                 | 8740/15000 [6:11:34<4:05:35,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6743, 'grad_norm': 1.703125, 'learning_rate': 3.5414503686579956e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3481.31, 'total_tokens': 71401212, 'epoch': 0.58}
+ 58%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                                 | 8740/15000 [6:11:34<4:05:35,  2.35s/it] 58%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                                 | 8741/15000 [6:11:37<4:05:45,  2.36s/it] 58%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                                 | 8742/15000 [6:11:39<4:05:29,  2.35s/it] 58%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                                 | 8743/15000 [6:11:42<4:05:20,  2.35s/it] 58%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                                 | 8744/15000 [6:11:44<4:05:27,  2.35s/it] 58%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                                 | 8745/15000 [6:11:46<4:05:20,  2.35s/it] 58%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                                 | 8746/15000 [6:11:49<4:05:23,  2.35s/it] 58%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                | 8747/15000 [6:11:51<4:05:20,  2.35s/it] 58%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                | 8748/15000 [6:11:53<4:05:07,  2.35s/it] 58%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                | 8749/15000 [6:11:56<4:05:04,  2.35s/it] 58%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                | 8750/15000 [6:11:58<4:04:49,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6523, 'grad_norm': 2.5, 'learning_rate': 3.534562439628291e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3494.22, 'total_tokens': 71482930, 'epoch': 0.58}
+ 58%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                | 8750/15000 [6:11:58<4:04:49,  2.35s/it] 58%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                | 8751/15000 [6:12:00<4:05:03,  2.35s/it] 58%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                | 8752/15000 [6:12:03<4:05:00,  2.35s/it] 58%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                | 8753/15000 [6:12:05<4:05:03,  2.35s/it] 58%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                | 8754/15000 [6:12:07<4:04:58,  2.35s/it] 58%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                | 8755/15000 [6:12:10<4:05:01,  2.35s/it] 58%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                                | 8756/15000 [6:12:12<4:05:07,  2.36s/it] 58%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                | 8757/15000 [6:12:15<4:05:20,  2.36s/it] 58%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                | 8758/15000 [6:12:17<4:04:57,  2.35s/it] 58%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                | 8759/15000 [6:12:19<4:04:56,  2.35s/it] 58%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                | 8760/15000 [6:12:22<4:04:28,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6323, 'grad_norm': 1.7890625, 'learning_rate': 3.527665533584512e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3499.22, 'total_tokens': 71564606, 'epoch': 0.58}
+ 58%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                | 8760/15000 [6:12:22<4:04:28,  2.35s/it] 58%|█████████████████████████████████████████████████████████████████████████████████████████████████████��███████████▎                                                                                | 8761/15000 [6:12:24<4:04:38,  2.35s/it] 58%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                | 8762/15000 [6:12:26<4:04:49,  2.35s/it] 58%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                | 8763/15000 [6:12:29<4:04:51,  2.36s/it] 58%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                | 8764/15000 [6:12:31<4:04:38,  2.35s/it] 58%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                | 8765/15000 [6:12:33<4:04:40,  2.35s/it] 58%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                | 8766/15000 [6:12:36<4:04:35,  2.35s/it] 58%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                | 8767/15000 [6:12:38<4:04:38,  2.35s/it] 58%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                | 8768/15000 [6:12:40<4:04:28,  2.35s/it] 58%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                | 8769/15000 [6:12:43<4:04:30,  2.35s/it] 58%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                | 8770/15000 [6:12:45<4:04:14,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.7293, 'grad_norm': 1.7421875, 'learning_rate': 3.5207597185963356e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3491.23, 'total_tokens': 71646311, 'epoch': 0.58}
+ 58%|█████████████████████████████████████████████████████████████████████████��███████████████████████████████████████▍                                                                                | 8770/15000 [6:12:45<4:04:14,  2.35s/it] 58%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                | 8771/15000 [6:12:47<4:04:19,  2.35s/it] 58%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                | 8772/15000 [6:12:50<4:04:25,  2.35s/it] 58%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                | 8773/15000 [6:12:52<4:04:09,  2.35s/it] 58%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                | 8774/15000 [6:12:55<4:04:04,  2.35s/it] 58%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                                | 8775/15000 [6:12:57<4:03:55,  2.35s/it] 59%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                | 8776/15000 [6:12:59<4:04:01,  2.35s/it] 59%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                | 8777/15000 [6:13:02<4:04:05,  2.35s/it] 59%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                | 8778/15000 [6:13:04<4:04:09,  2.35s/it] 59%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                | 8779/15000 [6:13:06<4:04:10,  2.36s/it] 59%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                | 8780/15000 [6:13:09<4:03:55,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6719, 'grad_norm': 1.84375, 'learning_rate': 3.5138450628213714e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3488.24, 'total_tokens': 71727987, 'epoch': 0.59}
+ 59%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                | 8780/15000 [6:13:09<4:03:55,  2.35s/it] 59%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                | 8781/15000 [6:13:11<4:04:08,  2.36s/it] 59%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                | 8782/15000 [6:13:13<4:04:01,  2.35s/it] 59%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                | 8783/15000 [6:13:16<4:04:12,  2.36s/it] 59%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                | 8784/15000 [6:13:18<4:03:50,  2.35s/it] 59%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                                | 8785/15000 [6:13:20<4:03:43,  2.35s/it] 59%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                | 8786/15000 [6:13:23<4:03:49,  2.35s/it] 59%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                | 8787/15000 [6:13:25<4:03:32,  2.35s/it] 59%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                | 8788/15000 [6:13:27<4:03:25,  2.35s/it] 59%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                | 8789/15000 [6:13:30<4:03:35,  2.35s/it] 59%|█████████████████████████████████���███████████████████████████████████████████████████████████████████████████████▋                                                                                | 8790/15000 [6:13:32<4:03:36,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.7019, 'grad_norm': 1.6796875, 'learning_rate': 3.506921634504478e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3481.28, 'total_tokens': 71809713, 'epoch': 0.59}
+ 59%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                | 8790/15000 [6:13:32<4:03:36,  2.35s/it] 59%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                | 8791/15000 [6:13:35<4:03:41,  2.35s/it] 59%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                | 8792/15000 [6:13:37<4:03:35,  2.35s/it] 59%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                | 8793/15000 [6:13:39<4:03:33,  2.35s/it] 59%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                | 8794/15000 [6:13:42<4:03:44,  2.36s/it] 59%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                                | 8795/15000 [6:13:44<4:03:41,  2.36s/it] 59%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                | 8796/15000 [6:13:46<4:03:29,  2.35s/it] 59%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                | 8797/15000 [6:13:49<4:03:28,  2.36s/it] 59%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                | 8798/15000 [6:13:51<4:03:22,  2.35s/it] 59%|█████��███████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                | 8799/15000 [6:13:53<4:03:13,  2.35s/it] 59%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                | 8800/15000 [6:13:56<4:03:10,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6934, 'grad_norm': 1.6640625, 'learning_rate': 3.499989501977097e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3481.27, 'total_tokens': 71891387, 'epoch': 0.59}
+ 59%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                | 8800/15000 [6:13:56<4:03:10,  2.35s/it] 59%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                | 8801/15000 [6:13:58<4:03:18,  2.36s/it] 59%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                | 8802/15000 [6:14:00<4:03:14,  2.35s/it] 59%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                | 8803/15000 [6:14:03<4:03:10,  2.35s/it] 59%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                                | 8804/15000 [6:14:05<4:03:06,  2.35s/it] 59%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                | 8805/15000 [6:14:07<4:03:13,  2.36s/it] 59%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                | 8806/15000 [6:14:10<4:02:59,  2.35s/it] 59%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                | 8807/15000 [6:14:12<4:02:52,  2.35s/it] 59%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                | 8808/15000 [6:14:15<4:02:50,  2.35s/it] 59%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                | 8809/15000 [6:14:17<4:02:51,  2.35s/it] 59%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                | 8810/15000 [6:14:19<4:02:51,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.7013, 'grad_norm': 1.703125, 'learning_rate': 3.493048733656581e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3479.34, 'total_tokens': 71973086, 'epoch': 0.59}
+ 59%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                | 8810/15000 [6:14:19<4:02:51,  2.35s/it] 59%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                | 8811/15000 [6:14:22<4:02:40,  2.35s/it] 59%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                | 8812/15000 [6:14:24<4:02:36,  2.35s/it] 59%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                | 8813/15000 [6:14:26<4:02:35,  2.35s/it] 59%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                                | 8814/15000 [6:14:29<4:02:26,  2.35s/it] 59%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                                | 8815/15000 [6:14:31<4:02:26,  2.35s/it] 59%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                                | 8816/15000 [6:14:33<4:02:26,  2.35s/it] 59%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                                | 8817/15000 [6:14:36<4:02:29,  2.35s/it] 59%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                                | 8818/15000 [6:14:38<4:02:15,  2.35s/it] 59%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                                | 8819/15000 [6:14:40<4:02:02,  2.35s/it] 59%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                                | 8820/15000 [6:14:43<4:02:11,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6754, 'grad_norm': 1.703125, 'learning_rate': 3.486099398045508e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3478.74, 'total_tokens': 72054777, 'epoch': 0.59}
+ 59%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                                | 8820/15000 [6:14:43<4:02:11,  2.35s/it] 59%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                                | 8821/15000 [6:14:45<4:02:19,  2.35s/it] 59%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                                | 8822/15000 [6:14:47<4:02:18,  2.35s/it] 59%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                                | 8823/15000 [6:14:50<4:02:13,  2.35s/it] 59%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                                | 8824/15000 [6:14:52<4:02:18,  2.35s/it] 59%|███████████████████████████████████████████████████████████████████████████████��██████████████████████████████████▏                                                                               | 8825/15000 [6:14:55<4:01:57,  2.35s/it] 59%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                               | 8826/15000 [6:14:57<4:01:59,  2.35s/it] 59%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                               | 8827/15000 [6:14:59<4:02:02,  2.35s/it] 59%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                               | 8828/15000 [6:15:02<4:02:05,  2.35s/it] 59%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                               | 8829/15000 [6:15:04<4:01:51,  2.35s/it] 59%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                               | 8830/15000 [6:15:06<4:02:00,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6612, 'grad_norm': 1.6484375, 'learning_rate': 3.4791415637310166e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3474.16, 'total_tokens': 72136437, 'epoch': 0.59}
+ 59%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                               | 8830/15000 [6:15:06<4:02:00,  2.35s/it] 59%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                               | 8831/15000 [6:15:09<4:01:56,  2.35s/it] 59%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                               | 8832/15000 [6:15:11<4:01:58,  2.35s/it] 59%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                               | 8833/15000 [6:15:13<4:01:55,  2.35s/it] 59%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                               | 8834/15000 [6:15:16<4:01:44,  2.35s/it] 59%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                               | 8835/15000 [6:15:18<4:01:47,  2.35s/it] 59%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                               | 8836/15000 [6:15:20<4:01:34,  2.35s/it] 59%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                               | 8837/15000 [6:15:23<4:01:37,  2.35s/it] 59%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                               | 8838/15000 [6:15:25<4:01:39,  2.35s/it] 59%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                               | 8839/15000 [6:15:27<4:01:33,  2.35s/it] 59%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                               | 8840/15000 [6:15:30<4:01:28,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6767, 'grad_norm': 1.7578125, 'learning_rate': 3.472175299384122e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3483.2, 'total_tokens': 72218080, 'epoch': 0.59}
+ 59%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                               | 8840/15000 [6:15:30<4:01:28,  2.35s/it] 59%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                               | 8841/15000 [6:15:32<4:01:39,  2.35s/it] 59%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                               | 8842/15000 [6:15:35<4:01:25,  2.35s/it] 59%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                               | 8843/15000 [6:15:37<4:01:33,  2.35s/it] 59%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                               | 8844/15000 [6:15:39<4:01:20,  2.35s/it] 59%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                               | 8845/15000 [6:15:42<4:01:31,  2.35s/it] 59%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                               | 8846/15000 [6:15:44<4:01:19,  2.35s/it] 59%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                               | 8847/15000 [6:15:46<4:01:04,  2.35s/it] 59%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                               | 8848/15000 [6:15:49<4:01:03,  2.35s/it] 59%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                               | 8849/15000 [6:15:51<4:01:22,  2.35s/it] 59%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                               | 8850/15000 [6:15:53<4:01:27,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.7059, 'grad_norm': 1.78125, 'learning_rate': 3.465200673759041e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3466.53, 'total_tokens': 72299581, 'epoch': 0.59}
+ 59%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                               | 8850/15000 [6:15:53<4:01:27,  2.36s/it] 59%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                               | 8851/15000 [6:15:56<4:01:20,  2.35s/it] 59%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                               | 8852/15000 [6:15:58<4:01:11,  2.35s/it] 59%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                               | 8853/15000 [6:16:00<4:01:01,  2.35s/it] 59%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                               | 8854/15000 [6:16:03<4:01:01,  2.35s/it] 59%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                               | 8855/15000 [6:16:05<4:01:01,  2.35s/it] 59%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                               | 8856/15000 [6:16:07<4:01:08,  2.35s/it] 59%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                               | 8857/15000 [6:16:10<4:01:22,  2.36s/it] 59%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                               | 8858/15000 [6:16:12<4:01:02,  2.35s/it] 59%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                               | 8859/15000 [6:16:15<4:00:49,  2.35s/it][2025-11-17 03:59:09,520] [INFO] [axolotl.utils.data.wrappers.get_dataset_wrapper:87] [PID:8163] Loading dataset: Goader/kobza-2m-jsonl with base_type: pretrain and prompt_style: None
+
+Tokenizing Prompts (num_proc=64):   0%|                                                                                                                                                                        | 0/10000 [00:00<?, ? examples/s][A
+Tokenizing Prompts (num_proc=64):   2%|██▍                                                                                                                                                           | 157/10000 [00:06<06:36, 24.85 examples/s][A
+Tokenizing Prompts (num_proc=64):   3%|████▉                                                                                                                                                         | 314/10000 [00:06<02:48, 57.46 examples/s][A
+Tokenizing Prompts (num_proc=64):   5%|███████▍                                                                                                                                                      | 471/10000 [00:07<02:01, 78.41 examples/s][A
+Tokenizing Prompts (num_proc=64):   6%|█████████▊                                                                                                                                                   | 628/10000 [00:07<01:17, 120.27 examples/s][A
+Tokenizing Prompts (num_proc=64):   8%|████████████▎                                                                                                                                                | 785/10000 [00:08<01:04, 143.08 examples/s][A
+Tokenizing Prompts (num_proc=64):   9%|██████████████▊                                                                                                                                              | 942/10000 [00:09<00:54, 166.68 examples/s][A
+Tokenizing Prompts (num_proc=64):  11%|█████████████████▏                                                                                                                                          | 1099/10000 [00:10<00:50, 177.87 examples/s][A
+Tokenizing Prompts (num_proc=64):  13%|███████████████████▌                                                                                                                                        | 1256/10000 [00:10<00:44, 196.66 examples/s][A
+Tokenizing Prompts (num_proc=64):  14%|██████████████████████                                                                                                                                      | 1413/10000 [00:11<00:41, 206.55 examples/s][A
+Tokenizing Prompts (num_proc=64):  16%|████████████████████████▍                                                                                                                                   | 1570/10000 [00:12<00:41, 202.42 examples/s][A
+Tokenizing Prompts (num_proc=64):  17%|██████████████████████████▉                                                                                                                                 | 1727/10000 [00:12<00:36, 223.71 examples/s][A
+Tokenizing Prompts (num_proc=64):  19%|█████████████████████████████▍                                                                                                                              | 1884/10000 [00:13<00:36, 221.33 examples/s][A
+Tokenizing Prompts (num_proc=64):  20%|███████████████████████████████▊                                                                                                                            | 2041/10000 [00:14<00:34, 228.23 examples/s][A
+Tokenizing Prompts (num_proc=64):  22%|██████████████████████████████████▎                                                                                                                         | 2198/10000 [00:15<00:40, 191.51 examples/s][A
+Tokenizing Prompts (num_proc=64):  24%|████████████████████████████████████▋                                                                                                                       | 2355/10000 [00:15<00:37, 201.44 examples/s][A
+Tokenizing Prompts (num_proc=64):  25%|███████████████████████████████████████▏                                                                                                                    | 2512/10000 [00:16<00:35, 212.71 examples/s][A
+Tokenizing Prompts (num_proc=64):  27%|█████████████████████████████████████████▌                                                                                                                  | 2668/10000 [00:17<00:33, 218.69 examples/s][A
+Tokenizing Prompts (num_proc=64):  28%|████████████████████████████████████████████                                                                                                                | 2824/10000 [00:17<00:26, 267.40 examples/s][A
+Tokenizing Prompts (num_proc=64):  30%|██████████████████████████████████████████████▍                                                                                                             | 2980/10000 [00:18<00:29, 236.01 examples/s][A
+Tokenizing Prompts (num_proc=64):  31%|████████████████████████████████████████████████▉                                                                                                           | 3136/10000 [00:18<00:27, 253.30 examples/s][A
+Tokenizing Prompts (num_proc=64):  33%|███████████████████████████████████████████████████▎                                                                                                        | 3292/10000 [00:19<00:26, 250.43 examples/s][A
+Tokenizing Prompts (num_proc=64):  34%|█████████████████████████████████████████████████████▊                                                                                                      | 3448/10000 [00:20<00:27, 241.12 examples/s][A
+Tokenizing Prompts (num_proc=64):  36%|████████████████████████████████████████████████████████▏                                                                                                   | 3604/10000 [00:21<00:32, 198.41 examples/s][A
+Tokenizing Prompts (num_proc=64):  38%|██████████████████████████████████████████████████████████▋                                                                                                 | 3760/10000 [00:21<00:24, 254.12 examples/s][A
+Tokenizing Prompts (num_proc=64):  39%|█████████████████████████████████████████████████████████████                                                                                               | 3916/10000 [00:22<00:24, 246.60 examples/s][A
+Tokenizing Prompts (num_proc=64):  41%|███████████████████████████████████████████████████████████████▌                                                                                            | 4072/10000 [00:22<00:24, 240.14 examples/s][A
+Tokenizing Prompts (num_proc=64):  42%|█████████████████████████████████████████████████████████████████▉                                                                                          | 4228/10000 [00:23<00:29, 194.98 examples/s][A
+Tokenizing Prompts (num_proc=64):  44%|████████████████████████████████████████████████████████████████████▍                                                                                       | 4384/10000 [00:24<00:22, 250.32 examples/s][A
+Tokenizing Prompts (num_proc=64):  45%|██████████████████████████████████████████████████████████████████████▊                                                                                     | 4540/10000 [00:25<00:27, 200.28 examples/s][A
+Tokenizing Prompts (num_proc=64):  47%|█████████████████████████████████████████████████████████████████████████▎                                                                                  | 4696/10000 [00:25<00:20, 254.44 examples/s][A
+Tokenizing Prompts (num_proc=64):  49%|███████████████████████████████████████████████████████████████████████████▋                                                                                | 4852/10000 [00:26<00:20, 246.51 examples/s][A
+Tokenizing Prompts (num_proc=64):  50%|██████████████████████████████████████████████████████████████████████████████                                                                              | 5008/10000 [00:27<00:21, 233.18 examples/s][A
+Tokenizing Prompts (num_proc=64):  52%|████████████████████████████████████████████████████████████████████████████████▌                                                                           | 5164/10000 [00:27<00:19, 242.92 examples/s][A
+Tokenizing Prompts (num_proc=64):  53%|██████████████████████████████████████████████████████████████████████████████████▉                                                                         | 5320/10000 [00:28<00:20, 223.17 examples/s][A
+Tokenizing Prompts (num_proc=64):  55%|█████████████████████████████████████████████████████████████████████████████████████▍                                                                      | 5476/10000 [00:28<00:18, 240.85 examples/s][A
+Tokenizing Prompts (num_proc=64):  56%|███████████████████████████████████████████████████████████████████████████████████████▊                                                                    | 5632/10000 [00:29<00:18, 236.99 examples/s][A
+Tokenizing Prompts (num_proc=64):  58%|██████████████████████████████████████████████████████████████████████████████████████████▎                                                                 | 5788/10000 [00:30<00:21, 198.54 examples/s][A
+Tokenizing Prompts (num_proc=64):  59%|████████████████████████████████████████████████████████████████████████████████████████████▋                                                               | 5944/10000 [00:31<00:17, 232.52 examples/s][A
+Tokenizing Prompts (num_proc=64):  61%|███████████████████████████████████████████████████████████████████████████████████████████████▏                                                            | 6100/10000 [00:32<00:19, 204.93 examples/s][A
+Tokenizing Prompts (num_proc=64):  63%|█████████████████████████████████████████████████████████████████████████████████████████████████▌                                                          | 6256/10000 [00:32<00:14, 264.64 examples/s][A
+Tokenizing Prompts (num_proc=64):  64%|████████████████████████████████████████████████████████████████████████████████████████████████████                                                        | 6412/10000 [00:33<00:14, 241.08 examples/s][A
+Tokenizing Prompts (num_proc=64):  66%|██████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                     | 6568/10000 [00:33<00:13, 245.61 examples/s][A
+Tokenizing Prompts (num_proc=64):  67%|████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                   | 6724/10000 [00:34<00:16, 201.63 examples/s][A
+Tokenizing Prompts (num_proc=64):  69%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                | 6880/10000 [00:35<00:14, 210.70 examples/s][A
+Tokenizing Prompts (num_proc=64):  70%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                              | 7036/10000 [00:35<00:11, 264.74 examples/s][A
+Tokenizing Prompts (num_proc=64):  72%|█████��██████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                           | 7192/10000 [00:36<00:13, 211.15 examples/s][A
+Tokenizing Prompts (num_proc=64):  73%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                         | 7348/10000 [00:37<00:10, 250.51 examples/s][A
+Tokenizing Prompts (num_proc=64):  75%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                       | 7504/10000 [00:37<00:09, 254.08 examples/s][A
+Tokenizing Prompts (num_proc=64):  77%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                    | 7660/10000 [00:38<00:09, 249.98 examples/s][A
+Tokenizing Prompts (num_proc=64):  78%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                  | 7816/10000 [00:38<00:08, 244.28 examples/s][A
+Tokenizing Prompts (num_proc=64):  80%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                               | 7972/10000 [00:40<00:10, 200.87 examples/s][A
+Tokenizing Prompts (num_proc=64):  81%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                             | 8128/10000 [00:40<00:07, 253.10 examples/s][A
+Tokenizing Prompts (num_proc=64):  83%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                          | 8284/10000 [00:41<00:06, 246.96 examples/s][A
+Tokenizing Prompts (num_proc=64):  84%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                        | 8440/10000 [00:42<00:06, 223.57 examples/s][A
+Tokenizing Prompts (num_proc=64):  86%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                      | 8596/10000 [00:42<00:05, 246.73 examples/s][A
+Tokenizing Prompts (num_proc=64):  88%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                   | 8752/10000 [00:44<00:08, 155.56 examples/s][A
+Tokenizing Prompts (num_proc=64):  91%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍              | 9064/10000 [00:44<00:03, 265.49 examples/s][A
+Tokenizing Prompts (num_proc=64):  92%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊            | 9220/10000 [00:45<00:03, 199.71 examples/s][A
+Tokenizing Prompts (num_proc=64):  95%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋       | 9532/10000 [00:46<00:01, 258.61 examples/s][A
+Tokenizing Prompts (num_proc=64):  97%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏    | 9688/10000 [00:47<00:01, 244.04 examples/s][A
+Tokenizing Prompts (num_proc=64):  98%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌  | 9844/10000 [00:47<00:00, 249.87 examples/s][A
+Tokenizing Prompts (num_proc=64): 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10000/10000 [00:48<00:00, 245.33 examples/s][ATokenizing Prompts (num_proc=64): 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10000/10000 [00:50<00:00, 196.95 examples/s]
+
+Dropping Long Sequences:   0%|                                                                                                                                                                                 | 0/10001 [00:00<?, ? examples/s][A
+Dropping Long Sequences:  10%|████████████████▍                                                                                                                                                    | 1000/10001 [00:01<00:14, 611.57 examples/s][A
+Dropping Long Sequences:  20%|████████████████████████████████▊                                                                                                                                   | 2000/10001 [00:01<00:06, 1200.76 examples/s][A
+Dropping Long Sequences:  30%|█████████████████████████████████████████████████▏                                                                                                                  | 3000/10001 [00:02<00:04, 1673.85 examples/s][A
+Dropping Long Sequences:  40%|█████████████████████████████████████████████████████████████████▌                                                                                                  | 4000/10001 [00:02<00:02, 2183.78 examples/s][A
+Dropping Long Sequences:  50%|█████████████████████████████████████████████████████████████████████████████████▉                                                                                  | 5000/10001 [00:02<00:01, 2568.80 examples/s][A
+Dropping Long Sequences:  60%|██████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                 | 6000/10001 [00:03<00:01, 2827.33 examples/s][A
+Dropping Long Sequences:  70%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                 | 7000/10001 [00:03<00:00, 3091.58 examples/s][A
+Dropping Long Sequences:  80%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                | 8000/10001 [00:03<00:00, 3265.09 examples/s][A
+Dropping Long Sequences:  90%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                | 9000/10001 [00:03<00:00, 3478.43 examples/s][A
+Dropping Long Sequences: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉| 10000/10001 [00:04<00:00, 3548.85 examples/s][ADropping Long Sequences: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10001/10001 [00:04<00:00, 2415.80 examples/s]
+
+Add position_id column (Pretraining Sample Packing):   0%|                                                                                                                                                      | 0/8740 [00:00<?, ? examples/s][A
+Add position_id column (Pretraining Sample Packing):  11%|███████████████▊                                                                                                                          | 1000/8740 [00:01<00:10, 749.98 examples/s][A
+Add position_id column (Pretraining Sample Packing):  23%|███████████████████████████████▎                                                                                                         | 2000/8740 [00:01<00:04, 1558.46 examples/s][A
+Add position_id column (Pretraining Sample Packing):  34%|███████████████████████████████████████████████                                                                                          | 3000/8740 [00:01<00:02, 2407.53 examples/s][A
+Add position_id column (Pretraining Sample Packing):  46%|██████████████████████████████████████████████████████████████▋                                                                          | 4000/8740 [00:01<00:01, 3187.48 examples/s][A
+Add position_id column (Pretraining Sample Packing):  57%|██████████████████████████████████████████████████████████████████████████████▍                                                          | 5000/8740 [00:01<00:00, 3910.32 examples/s][A
+Add position_id column (Pretraining Sample Packing):  69%|██████████████████████████████████████████████████████████████████████████████████████████████                                           | 6000/8740 [00:02<00:00, 4527.91 examples/s][A
+Add position_id column (Pretraining Sample Packing):  80%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                           | 7000/8740 [00:02<00:00, 5085.83 examples/s][A
+Add position_id column (Pretraining Sample Packing):  92%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍           | 8000/8740 [00:02<00:00, 5335.87 examples/s][A
+Add position_id column (Pretraining Sample Packing): 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 8740/8740 [00:02<00:00, 5646.69 examples/s][AAdd position_id column (Pretraining Sample Packing): 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 8740/8740 [00:02<00:00, 3385.71 examples/s]
+[2025-11-17 04:00:08,738] [DEBUG] [axolotl.utils.samplers.multipack.pack_parallel:177] [PID:8163] Using single process for pack_parallel, running sequentially.
+ 59%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                               | 8860/15000 [6:17:23<37:56:10, 22.24s/it]                                                                                                                                                                                                                                                {'loss': 2.747, 'grad_norm': 2.6875, 'learning_rate': 3.4582177556925124e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3558.4, 'total_tokens': 72377996, 'epoch': 0.59}
+ 59%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                               | 8860/15000 [6:17:23<37:56:10, 22.24s/it] 59%|█████████████████████████████████████████████████████████████���████████████████████████████████████████████████████                                                                               | 8861/15000 [6:17:26<27:45:12, 16.27s/it] 59%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                               | 8862/15000 [6:17:28<20:37:44, 12.10s/it] 59%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                               | 8863/15000 [6:17:30<15:38:24,  9.17s/it] 59%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                               | 8864/15000 [6:17:33<12:09:08,  7.13s/it] 59%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                               | 8865/15000 [6:17:35<9:42:26,  5.70s/it] 59%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                               | 8866/15000 [6:17:37<7:59:40,  4.69s/it] 59%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                               | 8867/15000 [6:17:40<6:47:51,  3.99s/it] 59%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                               | 8868/15000 [6:17:42<5:57:40,  3.50s/it] 59%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                               | 8869/15000 [6:17:44<5:22:42,  3.16s/it] 59%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                               | 8870/15000 [6:17:47<4:58:04,  2.92s/it]                                                                                                                                                                                                                                                {'loss': 2.7599, 'grad_norm': 1.7265625, 'learning_rate': 3.4512266141031194e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3483.86, 'total_tokens': 72459837, 'epoch': 0.59}
+ 59%|█████████████████████████████���████████████████████████████████████████████████████████████████████████████████████▋                                                                               | 8870/15000 [6:17:47<4:58:04,  2.92s/it] 59%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                               | 8871/15000 [6:17:49<4:40:36,  2.75s/it] 59%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                               | 8872/15000 [6:17:51<4:28:25,  2.63s/it] 59%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                               | 8873/15000 [6:17:54<4:19:52,  2.54s/it] 59%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                               | 8874/15000 [6:17:56<4:13:54,  2.49s/it] 59%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                               | 8875/15000 [6:17:58<4:09:34,  2.44s/it] 59%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                               | 8876/15000 [6:18:01<4:06:51,  2.42s/it] 59%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                               | 8877/15000 [6:18:03<4:04:54,  2.40s/it] 59%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                               | 8878/15000 [6:18:06<4:03:38,  2.39s/it] 59%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                               | 8879/15000 [6:18:08<4:02:34,  2.38s/it] 59%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                               | 8880/15000 [6:18:10<4:01:54,  2.37s/it]                                                                                                                                                                                                                                                {'loss': 2.6672, 'grad_norm': 1.734375, 'learning_rate': 3.444227317990606e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3482.67, 'total_tokens': 72541674, 'epoch': 0.59}
+ 59%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                               | 8880/15000 [6:18:10<4:01:54,  2.37s/it] 59%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                               | 8881/15000 [6:18:13<4:01:11,  2.36s/it] 59%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                               | 8882/15000 [6:18:15<4:00:39,  2.36s/it] 59%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                               | 8883/15000 [6:18:17<4:00:17,  2.36s/it] 59%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                               | 8884/15000 [6:18:20<4:00:06,  2.36s/it] 59%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                               | 8885/15000 [6:18:22<3:59:55,  2.35s/it] 59%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                               | 8886/15000 [6:18:24<4:00:10,  2.36s/it] 59%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                               | 8887/15000 [6:18:27<4:00:04,  2.36s/it] 59%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                               | 8888/15000 [6:18:29<4:00:02,  2.36s/it] 59%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                               | 8889/15000 [6:18:31<3:59:41,  2.35s/it] 59%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                               | 8890/15000 [6:18:34<3:59:46,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6653, 'grad_norm': 1.875, 'learning_rate': 3.4372199364351995e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3483.03, 'total_tokens': 72623536, 'epoch': 0.59}
+ 59%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                               | 8890/15000 [6:18:34<3:59:46,  2.35s/it] 59%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                               | 8891/15000 [6:18:36<3:59:52,  2.36s/it] 59%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                               | 8892/15000 [6:18:39<3:59:57,  2.36s/it] 59%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                               | 8893/15000 [6:18:41<3:59:30,  2.35s/it] 59%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                               | 8894/15000 [6:18:43<3:59:32,  2.35s/it] 59%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                               | 8895/15000 [6:18:46<3:59:39,  2.36s/it] 59%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                               | 8896/15000 [6:18:48<3:59:31,  2.35s/it] 59%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                               | 8897/15000 [6:18:50<3:59:38,  2.36s/it] 59%|██████████████████████████████████████████████████████████████████████████████████████████████████��████████████████                                                                               | 8898/15000 [6:18:53<3:59:22,  2.35s/it] 59%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                               | 8899/15000 [6:18:55<3:59:28,  2.36s/it] 59%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                               | 8900/15000 [6:18:57<3:59:22,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.7255, 'grad_norm': 1.703125, 'learning_rate': 3.4302045385969266e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3487.79, 'total_tokens': 72705357, 'epoch': 0.59}
+ 59%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                               | 8900/15000 [6:18:57<3:59:22,  2.35s/it] 59%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                               | 8901/15000 [6:19:00<3:59:24,  2.36s/it] 59%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                              | 8902/15000 [6:19:02<3:59:23,  2.36s/it] 59%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                              | 8903/15000 [6:19:04<3:59:16,  2.35s/it] 59%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                              | 8904/15000 [6:19:07<3:59:28,  2.36s/it] 59%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                              | 8905/15000 [6:19:09<3:59:37,  2.36s/it] 59%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                              | 8906/15000 [6:19:11<3:59:26,  2.36s/it] 59%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                              | 8907/15000 [6:19:14<3:59:16,  2.36s/it] 59%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                              | 8908/15000 [6:19:16<3:59:28,  2.36s/it] 59%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                              | 8909/15000 [6:19:19<3:59:26,  2.36s/it] 59%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                              | 8910/15000 [6:19:21<3:59:21,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.7149, 'grad_norm': 1.921875, 'learning_rate': 3.423181193714932e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3480.38, 'total_tokens': 72787161, 'epoch': 0.59}
+ 59%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                              | 8910/15000 [6:19:21<3:59:21,  2.36s/it] 59%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                              | 8911/15000 [6:19:23<3:59:15,  2.36s/it] 59%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                              | 8912/15000 [6:19:26<3:59:04,  2.36s/it] 59%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                              | 8913/15000 [6:19:28<3:58:50,  2.35s/it] 59%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                              | 8914/15000 [6:19:30<3:58:59,  2.36s/it] 59%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                              | 8915/15000 [6:19:33<3:58:56,  2.36s/it] 59%|████████████████████���██████████████████████████████████████████████████████████████████████████████████████████████▎                                                                              | 8916/15000 [6:19:35<3:58:32,  2.35s/it] 59%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                              | 8917/15000 [6:19:37<3:58:34,  2.35s/it] 59%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                              | 8918/15000 [6:19:40<3:58:32,  2.35s/it] 59%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                              | 8919/15000 [6:19:42<3:58:02,  2.35s/it] 59%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                              | 8920/15000 [6:19:44<3:58:01,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6602, 'grad_norm': 1.9296875, 'learning_rate': 3.416149971106795e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3492.78, 'total_tokens': 72868972, 'epoch': 0.59}
+ 59%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                              | 8920/15000 [6:19:44<3:58:01,  2.35s/it] 59%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                              | 8921/15000 [6:19:47<3:58:11,  2.35s/it] 59%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                              | 8922/15000 [6:19:49<3:58:30,  2.35s/it] 59%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                              | 8923/15000 [6:19:52<3:58:32,  2.36s/it] 59%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                              | 8924/15000 [6:19:54<3:58:32,  2.36s/it] 60%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                              | 8925/15000 [6:19:56<3:58:29,  2.36s/it] 60%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                              | 8926/15000 [6:19:59<3:58:31,  2.36s/it] 60%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                              | 8927/15000 [6:20:01<3:58:22,  2.36s/it] 60%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                              | 8928/15000 [6:20:03<3:58:18,  2.35s/it] 60%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                              | 8929/15000 [6:20:06<3:58:10,  2.35s/it] 60%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                              | 8930/15000 [6:20:08<3:58:11,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6801, 'grad_norm': 1.734375, 'learning_rate': 3.409110940167842e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3484.0, 'total_tokens': 72950795, 'epoch': 0.6}
+ 60%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                              | 8930/15000 [6:20:08<3:58:11,  2.35s/it] 60%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                              | 8931/15000 [6:20:10<3:58:12,  2.35s/it] 60%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                              | 8932/15000 [6:20:13<3:57:58,  2.35s/it] 60%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                              | 8933/15000 [6:20:15<3:58:02,  2.35s/it] 60%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                              | 8934/15000 [6:20:17<3:58:00,  2.35s/it] 60%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                              | 8935/15000 [6:20:20<3:57:59,  2.35s/it] 60%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                              | 8936/15000 [6:20:22<3:58:02,  2.36s/it] 60%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                              | 8937/15000 [6:20:24<3:57:51,  2.35s/it] 60%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                              | 8938/15000 [6:20:27<3:57:50,  2.35s/it] 60%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                              | 8939/15000 [6:20:29<3:57:28,  2.35s/it] 60%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                              | 8940/15000 [6:20:32<3:57:24,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6898, 'grad_norm': 1.7265625, 'learning_rate': 3.4020641703704696e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3493.13, 'total_tokens': 73032638, 'epoch': 0.6}
+ 60%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                              | 8940/15000 [6:20:32<3:57:24,  2.35s/it] 60%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                              | 8941/15000 [6:20:34<3:57:27,  2.35s/it] 60%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                              | 8942/15000 [6:20:36<3:57:38,  2.35s/it] 60%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                              | 8943/15000 [6:20:39<3:57:37,  2.35s/it] 60%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                              | 8944/15000 [6:20:41<3:57:43,  2.36s/it] 60%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                              | 8945/15000 [6:20:43<3:57:34,  2.35s/it] 60%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                              | 8946/15000 [6:20:46<3:57:32,  2.35s/it] 60%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                              | 8947/15000 [6:20:48<3:57:35,  2.36s/it] 60%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                              | 8948/15000 [6:20:50<3:57:37,  2.36s/it] 60%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                              | 8949/15000 [6:20:53<3:57:45,  2.36s/it] 60%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                              | 8950/15000 [6:20:55<3:57:22,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6296, 'grad_norm': 1.875, 'learning_rate': 3.395009731263448e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3495.8, 'total_tokens': 73114418, 'epoch': 0.6}
+ 60%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                              | 8950/15000 [6:20:55<3:57:22,  2.35s/it] 60%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                              | 8951/15000 [6:20:57<3:57:31,  2.36s/it] 60%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                              | 8952/15000 [6:21:00<3:57:37,  2.36s/it] 60%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                              | 8953/15000 [6:21:02<3:57:22,  2.36s/it] 60%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                              | 8954/15000 [6:21:05<3:57:20,  2.36s/it] 60%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                              | 8955/15000 [6:21:07<3:57:16,  2.36s/it] 60%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                              | 8956/15000 [6:21:09<3:57:18,  2.36s/it] 60%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                              | 8957/15000 [6:21:12<3:57:14,  2.36s/it] 60%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                              | 8958/15000 [6:21:14<3:57:08,  2.35s/it] 60%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                              | 8959/15000 [6:21:16<3:57:02,  2.35s/it] 60%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                              | 8960/15000 [6:21:19<3:56:55,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.7162, 'grad_norm': 1.828125, 'learning_rate': 3.387947692471245e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3490.62, 'total_tokens': 73196259, 'epoch': 0.6}
+ 60%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                              | 8960/15000 [6:21:19<3:56:55,  2.35s/it] 60%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                              | 8961/15000 [6:21:21<3:56:55,  2.35s/it] 60%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                              | 8962/15000 [6:21:23<3:56:47,  2.35s/it] 60%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                              | 8963/15000 [6:21:26<3:57:02,  2.36s/it] 60%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                              | 8964/15000 [6:21:28<3:56:54,  2.35s/it] 60%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                              | 8965/15000 [6:21:30<3:56:49,  2.35s/it] 60%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                              | 8966/15000 [6:21:33<3:56:55,  2.36s/it] 60%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                              | 8967/15000 [6:21:35<3:56:44,  2.35s/it] 60%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                              | 8968/15000 [6:21:37<3:56:48,  2.36s/it] 60%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                              | 8969/15000 [6:21:40<3:56:48,  2.36s/it] 60%|██████████████████████████████████████████████████████████████████████████████████████████████████████████��█████████                                                                              | 8970/15000 [6:21:42<3:56:40,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6047, 'grad_norm': 1.875, 'learning_rate': 3.380878123693331e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3486.13, 'total_tokens': 73278046, 'epoch': 0.6}
+ 60%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                              | 8970/15000 [6:21:42<3:56:40,  2.35s/it] 60%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                              | 8971/15000 [6:21:45<3:56:33,  2.35s/it] 60%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                              | 8972/15000 [6:21:47<3:56:41,  2.36s/it] 60%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                              | 8973/15000 [6:21:49<3:56:41,  2.36s/it] 60%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                              | 8974/15000 [6:21:52<3:56:33,  2.36s/it] 60%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                              | 8975/15000 [6:21:54<3:56:32,  2.36s/it] 60%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                              | 8976/15000 [6:21:56<3:56:20,  2.35s/it] 60%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                              | 8977/15000 [6:21:59<3:56:30,  2.36s/it] 60%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                              | 8978/15000 [6:22:01<3:56:40,  2.36s/it] 60%|███████████████████████████████████████████████████████████████████���████████████████████████████████████████████████▏                                                                             | 8979/15000 [6:22:04<4:10:54,  2.50s/it] 60%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                             | 8980/15000 [6:22:06<4:06:25,  2.46s/it]                                                                                                                                                                                                                                                {'loss': 2.6601, 'grad_norm': 1.8359375, 'learning_rate': 3.3738010947034974e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3487.81, 'total_tokens': 73359861, 'epoch': 0.6}
+ 60%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                             | 8980/15000 [6:22:06<4:06:25,  2.46s/it] 60%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                             | 8981/15000 [6:22:09<4:03:19,  2.43s/it] 60%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                             | 8982/15000 [6:22:11<4:01:12,  2.40s/it] 60%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                             | 8983/15000 [6:22:13<3:59:38,  2.39s/it] 60%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                             | 8984/15000 [6:22:16<3:58:25,  2.38s/it] 60%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                             | 8985/15000 [6:22:18<3:57:34,  2.37s/it] 60%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                             | 8986/15000 [6:22:20<3:57:02,  2.36s/it] 60%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                             | 8987/15000 [6:22:23<3:56:34,  2.36s/it] 60%|███████████████████��████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                             | 8988/15000 [6:22:25<3:56:16,  2.36s/it] 60%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                             | 8989/15000 [6:22:27<3:55:58,  2.36s/it] 60%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                             | 8990/15000 [6:22:30<3:56:05,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.6781, 'grad_norm': 1.875, 'learning_rate': 3.366716675349161e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3478.04, 'total_tokens': 73441707, 'epoch': 0.6}
+ 60%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                             | 8990/15000 [6:22:30<3:56:05,  2.36s/it] 60%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                             | 8991/15000 [6:22:32<3:55:57,  2.36s/it] 60%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                             | 8992/15000 [6:22:34<3:56:02,  2.36s/it] 60%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                             | 8993/15000 [6:22:37<3:55:54,  2.36s/it] 60%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                             | 8994/15000 [6:22:39<3:55:46,  2.36s/it] 60%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                             | 8995/15000 [6:22:42<3:55:36,  2.35s/it] 60%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                             | 8996/15000 [6:22:44<3:55:46,  2.36s/it] 60%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                             | 8997/15000 [6:22:46<3:55:30,  2.35s/it] 60%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                             | 8998/15000 [6:22:49<3:55:29,  2.35s/it] 60%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                             | 8999/15000 [6:22:51<3:55:28,  2.35s/it] 60%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                             | 9000/15000 [6:22:53<3:55:32,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.707, 'grad_norm': 1.7421875, 'learning_rate': 3.359624935550683e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3479.14, 'total_tokens': 73523494, 'epoch': 0.6}
+ 60%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                             | 9000/15000 [6:22:53<3:55:32,  2.36s/it] 60%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                             | 9001/15000 [6:22:56<3:55:40,  2.36s/it] 60%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                             | 9002/15000 [6:22:58<3:55:26,  2.36s/it] 60%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                             | 9003/15000 [6:23:00<3:55:19,  2.35s/it] 60%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                             | 9004/15000 [6:23:03<3:55:15,  2.35s/it] 60%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                             | 9005/15000 [6:23:05<3:55:09,  2.35s/it] 60%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                             | 9006/15000 [6:23:07<3:55:07,  2.35s/it] 60%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                             | 9007/15000 [6:23:10<3:54:48,  2.35s/it] 60%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                             | 9008/15000 [6:23:12<3:54:59,  2.35s/it] 60%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                             | 9009/15000 [6:23:14<3:54:55,  2.35s/it] 60%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                             | 9010/15000 [6:23:17<3:54:56,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.8017, 'grad_norm': 1.78125, 'learning_rate': 3.3525259453006715e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3483.49, 'total_tokens': 73605273, 'epoch': 0.6}
+ 60%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                             | 9010/15000 [6:23:17<3:54:56,  2.35s/it] 60%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                             | 9011/15000 [6:23:19<3:54:59,  2.35s/it] 60%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                             | 9012/15000 [6:23:22<3:54:52,  2.35s/it] 60%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                             | 9013/15000 [6:23:24<3:54:50,  2.35s/it] 60%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                             | 9014/15000 [6:23:26<3:54:53,  2.35s/it] 60%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                             | 9015/15000 [6:23:29<3:54:33,  2.35s/it] 60%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                             | 9016/15000 [6:23:31<3:54:22,  2.35s/it] 60%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                             | 9017/15000 [6:23:33<3:54:23,  2.35s/it] 60%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                             | 9018/15000 [6:23:36<3:54:28,  2.35s/it] 60%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                             | 9019/15000 [6:23:38<3:54:26,  2.35s/it] 60%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                             | 9020/15000 [6:23:40<3:54:37,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6525, 'grad_norm': 1.84375, 'learning_rate': 3.3454197746632933e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3476.74, 'total_tokens': 73687060, 'epoch': 0.6}
+ 60%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                             | 9020/15000 [6:23:40<3:54:37,  2.35s/it] 60%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                             | 9021/15000 [6:23:43<3:54:37,  2.35s/it] 60%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                             | 9022/15000 [6:23:45<3:54:43,  2.36s/it] 60%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                             | 9023/15000 [6:23:47<3:54:28,  2.35s/it] 60%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                             | 9024/15000 [6:23:50<3:54:24,  2.35s/it] 60%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                             | 9025/15000 [6:23:52<3:54:17,  2.35s/it] 60%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                             | 9026/15000 [6:23:54<3:54:17,  2.35s/it] 60%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                             | 9027/15000 [6:23:57<3:54:19,  2.35s/it] 60%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                             | 9028/15000 [6:23:59<3:54:13,  2.35s/it] 60%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                             | 9029/15000 [6:24:02<3:54:22,  2.36s/it] 60%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                             | 9030/15000 [6:24:04<3:54:06,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.7237, 'grad_norm': 1.6640625, 'learning_rate': 3.338306493773584e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3494.9, 'total_tokens': 73768854, 'epoch': 0.6}
+ 60%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                             | 9030/15000 [6:24:04<3:54:06,  2.35s/it] 60%|██████████████████████████████████████████████████████████████████████████████████████████████████████���█████████████▊                                                                             | 9031/15000 [6:24:06<3:54:12,  2.35s/it] 60%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                             | 9032/15000 [6:24:09<3:54:08,  2.35s/it] 60%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                             | 9033/15000 [6:24:11<3:54:00,  2.35s/it] 60%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                             | 9034/15000 [6:24:13<3:53:53,  2.35s/it] 60%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                             | 9035/15000 [6:24:16<3:53:46,  2.35s/it] 60%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                             | 9036/15000 [6:24:18<3:53:52,  2.35s/it] 60%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                             | 9037/15000 [6:24:20<3:53:53,  2.35s/it] 60%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                             | 9038/15000 [6:24:23<3:53:31,  2.35s/it] 60%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                             | 9039/15000 [6:24:25<3:53:37,  2.35s/it] 60%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                             | 9040/15000 [6:24:27<3:53:37,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.7271, 'grad_norm': 1.8515625, 'learning_rate': 3.331186172836755e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3486.92, 'total_tokens': 73850638, 'epoch': 0.6}
+ 60%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                             | 9040/15000 [6:24:27<3:53:37,  2.35s/it] 60%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                             | 9041/15000 [6:24:30<3:53:26,  2.35s/it] 60%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                             | 9042/15000 [6:24:32<3:53:28,  2.35s/it] 60%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                             | 9043/15000 [6:24:34<3:53:40,  2.35s/it] 60%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                             | 9044/15000 [6:24:37<3:53:28,  2.35s/it] 60%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                             | 9045/15000 [6:24:39<3:53:41,  2.35s/it] 60%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                             | 9046/15000 [6:24:42<3:53:28,  2.35s/it] 60%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                             | 9047/15000 [6:24:44<3:53:38,  2.35s/it] 60%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                             | 9048/15000 [6:24:46<3:53:41,  2.36s/it] 60%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                             | 9049/15000 [6:24:49<3:53:43,  2.36s/it] 60%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                             | 9050/15000 [6:24:51<3:53:38,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.7621, 'grad_norm': 1.8046875, 'learning_rate': 3.3240588821274996e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3480.32, 'total_tokens': 73932356, 'epoch': 0.6}
+ 60%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                             | 9050/15000 [6:24:51<3:53:38,  2.36s/it] 60%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                             | 9051/15000 [6:24:53<3:53:31,  2.36s/it] 60%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                             | 9052/15000 [6:24:56<3:53:26,  2.35s/it] 60%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                             | 9053/15000 [6:24:58<3:53:03,  2.35s/it] 60%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                             | 9054/15000 [6:25:00<3:53:03,  2.35s/it] 60%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                             | 9055/15000 [6:25:03<3:52:57,  2.35s/it] 60%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                             | 9056/15000 [6:25:05<3:53:12,  2.35s/it] 60%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                            | 9057/15000 [6:25:07<3:52:56,  2.35s/it] 60%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                            | 9058/15000 [6:25:10<3:53:02,  2.35s/it] 60%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                            | 9059/15000 [6:25:12<3:53:11,  2.36s/it] 60%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                            | 9060/15000 [6:25:15<3:52:53,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.7046, 'grad_norm': 1.703125, 'learning_rate': 3.316924691989299e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3495.49, 'total_tokens': 74014137, 'epoch': 0.6}
+ 60%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                            | 9060/15000 [6:25:15<3:52:53,  2.35s/it] 60%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                            | 9061/15000 [6:25:17<3:52:37,  2.35s/it] 60%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                            | 9062/15000 [6:25:19<3:52:37,  2.35s/it] 60%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                            | 9063/15000 [6:25:22<3:52:33,  2.35s/it] 60%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                            | 9064/15000 [6:25:24<3:52:36,  2.35s/it] 60%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                            | 9065/15000 [6:25:26<3:52:40,  2.35s/it] 60%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                            | 9066/15000 [6:25:29<3:52:27,  2.35s/it] 60%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                            | 9067/15000 [6:25:31<3:52:37,  2.35s/it] 60%|███████████████████████████████████████████████████████████████████████████��█████████████████████████████████████████▎                                                                            | 9068/15000 [6:25:33<3:52:43,  2.35s/it] 60%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                            | 9069/15000 [6:25:36<3:52:45,  2.35s/it] 60%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                            | 9070/15000 [6:25:38<3:52:33,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.8138, 'grad_norm': 1.65625, 'learning_rate': 3.30978367283373e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3490.21, 'total_tokens': 74095873, 'epoch': 0.6}
+ 60%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                            | 9070/15000 [6:25:38<3:52:33,  2.35s/it] 60%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                            | 9071/15000 [6:25:40<3:52:28,  2.35s/it] 60%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                            | 9072/15000 [6:25:43<3:52:26,  2.35s/it] 60%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                            | 9073/15000 [6:25:45<3:52:34,  2.35s/it] 60%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                            | 9074/15000 [6:25:47<3:52:17,  2.35s/it] 60%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                            | 9075/15000 [6:25:50<3:52:18,  2.35s/it] 61%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                            | 9076/15000 [6:25:52<3:52:32,  2.36s/it] 61%|██████████████████████��██████████████████████████████████████████████████████████████████████████████████████████████▍                                                                            | 9077/15000 [6:25:54<3:52:23,  2.35s/it] 61%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                            | 9078/15000 [6:25:57<3:52:06,  2.35s/it] 61%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                            | 9079/15000 [6:25:59<3:52:14,  2.35s/it] 61%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                            | 9080/15000 [6:26:02<3:52:24,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.6363, 'grad_norm': 1.71875, 'learning_rate': 3.302635895139767e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3473.72, 'total_tokens': 74177608, 'epoch': 0.61}
+ 61%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                            | 9080/15000 [6:26:02<3:52:24,  2.36s/it] 61%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                            | 9081/15000 [6:26:04<3:52:24,  2.36s/it] 61%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                            | 9082/15000 [6:26:06<3:52:19,  2.36s/it] 61%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                            | 9083/15000 [6:26:09<3:52:13,  2.35s/it] 61%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                            | 9084/15000 [6:26:11<3:52:06,  2.35s/it] 61%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                            | 9085/15000 [6:26:13<3:51:56,  2.35s/it] 61%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                            | 9086/15000 [6:26:16<3:52:05,  2.35s/it] 61%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                            | 9087/15000 [6:26:18<3:51:56,  2.35s/it] 61%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                            | 9088/15000 [6:26:20<3:52:01,  2.35s/it] 61%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                            | 9089/15000 [6:26:23<3:52:00,  2.36s/it] 61%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                            | 9090/15000 [6:26:25<3:51:49,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.7516, 'grad_norm': 1.8359375, 'learning_rate': 3.295481429453093e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3490.03, 'total_tokens': 74259375, 'epoch': 0.61}
+ 61%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                            | 9090/15000 [6:26:25<3:51:49,  2.35s/it] 61%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                            | 9091/15000 [6:26:27<3:51:48,  2.35s/it] 61%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                            | 9092/15000 [6:26:30<3:51:57,  2.36s/it] 61%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                            | 9093/15000 [6:26:32<3:52:02,  2.36s/it] 61%|█████████████████████████████████████████████████████████████████████████��███████████████████████████████████████████▌                                                                            | 9094/15000 [6:26:35<3:51:51,  2.36s/it] 61%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                            | 9095/15000 [6:26:37<3:51:38,  2.35s/it] 61%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                            | 9096/15000 [6:26:39<3:51:26,  2.35s/it] 61%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                            | 9097/15000 [6:26:42<3:51:23,  2.35s/it] 61%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                            | 9098/15000 [6:26:44<3:51:23,  2.35s/it] 61%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                            | 9099/15000 [6:26:46<3:51:33,  2.35s/it] 61%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                            | 9100/15000 [6:26:49<3:51:30,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6926, 'grad_norm': 1.8046875, 'learning_rate': 3.2883203463853936e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3482.44, 'total_tokens': 74341119, 'epoch': 0.61}
+ 61%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                            | 9100/15000 [6:26:49<3:51:30,  2.35s/it] 61%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                            | 9101/15000 [6:26:51<3:51:41,  2.36s/it] 61%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                            | 9102/15000 [6:26:53<3:51:39,  2.36s/it] 61%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                            | 9103/15000 [6:26:56<3:51:16,  2.35s/it] 61%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                            | 9104/15000 [6:26:58<3:51:15,  2.35s/it] 61%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                            | 9105/15000 [6:27:00<3:50:55,  2.35s/it] 61%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                            | 9106/15000 [6:27:03<3:51:10,  2.35s/it] 61%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                            | 9107/15000 [6:27:05<3:51:05,  2.35s/it] 61%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                            | 9108/15000 [6:27:07<3:51:08,  2.35s/it] 61%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                            | 9109/15000 [6:27:10<3:50:59,  2.35s/it] 61%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                            | 9110/15000 [6:27:12<3:50:50,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6274, 'grad_norm': 1.7265625, 'learning_rate': 3.281152716613669e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3489.66, 'total_tokens': 74422842, 'epoch': 0.61}
+ 61%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                            | 9110/15000 [6:27:12<3:50:50,  2.35s/it] 61%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                            | 9111/15000 [6:27:15<3:50:54,  2.35s/it] 61%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                            | 9112/15000 [6:27:17<3:51:06,  2.36s/it] 61%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                            | 9113/15000 [6:27:19<3:51:05,  2.36s/it] 61%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                            | 9114/15000 [6:27:22<3:50:54,  2.35s/it] 61%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                            | 9115/15000 [6:27:24<3:50:51,  2.35s/it] 61%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                            | 9116/15000 [6:27:26<3:50:45,  2.35s/it] 61%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                            | 9117/15000 [6:27:29<3:50:38,  2.35s/it] 61%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                            | 9118/15000 [6:27:31<3:50:49,  2.35s/it] 61%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                            | 9119/15000 [6:27:33<3:50:45,  2.35s/it] 61%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                            | 9120/15000 [6:27:36<3:50:30,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6549, 'grad_norm': 1.671875, 'learning_rate': 3.273978610879532e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3493.23, 'total_tokens': 74504594, 'epoch': 0.61}
+ 61%|█████████████████████████████████████████████████████████████████████��███████████████████████████████████████████████▉                                                                            | 9120/15000 [6:27:36<3:50:30,  2.35s/it] 61%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                            | 9121/15000 [6:27:38<3:50:38,  2.35s/it] 61%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                            | 9122/15000 [6:27:40<3:50:39,  2.35s/it] 61%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                            | 9123/15000 [6:27:43<3:50:29,  2.35s/it] 61%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                            | 9124/15000 [6:27:45<3:50:12,  2.35s/it] 61%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                            | 9125/15000 [6:27:47<3:50:13,  2.35s/it] 61%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                            | 9126/15000 [6:27:50<3:50:07,  2.35s/it] 61%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                            | 9127/15000 [6:27:52<3:50:25,  2.35s/it] 61%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                            | 9128/15000 [6:27:55<3:50:18,  2.35s/it] 61%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                            | 9129/15000 [6:27:57<3:50:22,  2.35s/it] 61%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                            | 9130/15000 [6:27:59<3:50:10,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.7521, 'grad_norm': 1.8515625, 'learning_rate': 3.2667980999885076e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3489.9, 'total_tokens': 74586312, 'epoch': 0.61}
+ 61%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                            | 9130/15000 [6:27:59<3:50:10,  2.35s/it] 61%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                            | 9131/15000 [6:28:02<3:50:10,  2.35s/it] 61%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                            | 9132/15000 [6:28:04<3:50:04,  2.35s/it] 61%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                            | 9133/15000 [6:28:06<3:49:56,  2.35s/it] 61%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                           | 9134/15000 [6:28:09<3:49:59,  2.35s/it] 61%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                           | 9135/15000 [6:28:11<3:50:01,  2.35s/it] 61%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                           | 9136/15000 [6:28:13<3:49:58,  2.35s/it] 61%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                           | 9137/15000 [6:28:16<3:49:44,  2.35s/it] 61%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                           | 9138/15000 [6:28:18<3:49:47,  2.35s/it] 61%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                           | 9139/15000 [6:28:20<3:49:47,  2.35s/it] 61%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                           | 9140/15000 [6:28:23<3:49:54,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6656, 'grad_norm': 1.8125, 'learning_rate': 3.2596112548093415e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3478.17, 'total_tokens': 74668071, 'epoch': 0.61}
+ 61%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                           | 9140/15000 [6:28:23<3:49:54,  2.35s/it] 61%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                           | 9141/15000 [6:28:25<3:50:02,  2.36s/it] 61%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                           | 9142/15000 [6:28:27<3:49:46,  2.35s/it] 61%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                           | 9143/15000 [6:28:30<3:49:33,  2.35s/it] 61%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                           | 9144/15000 [6:28:32<3:49:26,  2.35s/it] 61%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                           | 9145/15000 [6:28:35<3:49:26,  2.35s/it] 61%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                           | 9146/15000 [6:28:37<3:49:28,  2.35s/it] 61%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                           | 9147/15000 [6:28:39<3:49:30,  2.35s/it] 61%|████████████████████████████████████████████████████████████████████���█████████████████████████████████████████████████▎                                                                           | 9148/15000 [6:28:42<3:49:27,  2.35s/it] 61%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                           | 9149/15000 [6:28:44<3:49:33,  2.35s/it] 61%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                           | 9150/15000 [6:28:46<3:49:17,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6528, 'grad_norm': 1.7890625, 'learning_rate': 3.252418146273293e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3494.17, 'total_tokens': 74749824, 'epoch': 0.61}
+ 61%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                           | 9150/15000 [6:28:46<3:49:17,  2.35s/it] 61%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                           | 9151/15000 [6:28:49<3:49:14,  2.35s/it] 61%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                           | 9152/15000 [6:28:51<3:49:23,  2.35s/it] 61%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                           | 9153/15000 [6:28:53<3:49:31,  2.36s/it] 61%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                           | 9154/15000 [6:28:56<3:49:19,  2.35s/it] 61%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                           | 9155/15000 [6:28:58<3:49:10,  2.35s/it] 61%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                           | 9156/15000 [6:29:00<3:49:04,  2.35s/it] 61%|███████���██████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                           | 9157/15000 [6:29:03<3:49:16,  2.35s/it] 61%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                           | 9158/15000 [6:29:05<3:49:01,  2.35s/it] 61%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                           | 9159/15000 [6:29:07<3:49:05,  2.35s/it] 61%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                           | 9160/15000 [6:29:10<3:49:06,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6865, 'grad_norm': 1.8203125, 'learning_rate': 3.2452188453734396e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3478.79, 'total_tokens': 74831504, 'epoch': 0.61}
+ 61%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                           | 9160/15000 [6:29:10<3:49:06,  2.35s/it] 61%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                           | 9161/15000 [6:29:12<3:49:08,  2.35s/it] 61%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                           | 9162/15000 [6:29:15<3:48:57,  2.35s/it] 61%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                           | 9163/15000 [6:29:17<3:48:58,  2.35s/it] 61%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                           | 9164/15000 [6:29:19<3:49:03,  2.35s/it] 61%|█████████████████████████████████████████████████████████████████████████████████████████████████████████��████████████▌                                                                           | 9165/15000 [6:29:22<3:49:10,  2.36s/it] 61%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                           | 9166/15000 [6:29:24<3:49:00,  2.36s/it] 61%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                           | 9167/15000 [6:29:26<3:48:57,  2.36s/it] 61%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                           | 9168/15000 [6:29:29<3:48:57,  2.36s/it] 61%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                           | 9169/15000 [6:29:31<3:48:52,  2.36s/it] 61%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                           | 9170/15000 [6:29:33<3:48:56,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.6702, 'grad_norm': 1.7890625, 'learning_rate': 3.238013423163975e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3476.96, 'total_tokens': 74913265, 'epoch': 0.61}
+ 61%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                           | 9170/15000 [6:29:33<3:48:56,  2.36s/it] 61%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                           | 9171/15000 [6:29:36<3:48:59,  2.36s/it] 61%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                           | 9172/15000 [6:29:38<3:48:51,  2.36s/it] 61%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                           | 9173/15000 [6:29:40<3:48:51,  2.36s/it] 61%|████████████████████████████████████████████��█████████████████████████████████████████████████████████████████████████▋                                                                           | 9174/15000 [6:29:43<3:48:47,  2.36s/it] 61%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                           | 9175/15000 [6:29:45<3:48:39,  2.36s/it] 61%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                           | 9176/15000 [6:29:48<3:48:11,  2.35s/it] 61%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                           | 9177/15000 [6:29:50<3:48:12,  2.35s/it] 61%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                           | 9178/15000 [6:29:52<3:48:07,  2.35s/it] 61%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                           | 9179/15000 [6:29:55<3:48:15,  2.35s/it] 61%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                           | 9180/15000 [6:29:57<3:48:10,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.7259, 'grad_norm': 1.6953125, 'learning_rate': 3.230801950759507e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3484.99, 'total_tokens': 74994959, 'epoch': 0.61}
+ 61%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                           | 9180/15000 [6:29:57<3:48:10,  2.35s/it] 61%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                           | 9181/15000 [6:29:59<3:48:20,  2.35s/it] 61%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                           | 9182/15000 [6:30:02<3:48:10,  2.35s/it] 61%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                           | 9183/15000 [6:30:04<3:48:22,  2.36s/it] 61%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                           | 9184/15000 [6:30:06<3:48:14,  2.35s/it] 61%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                           | 9185/15000 [6:30:09<3:47:53,  2.35s/it] 61%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                           | 9186/15000 [6:30:11<3:47:55,  2.35s/it] 61%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                           | 9187/15000 [6:30:13<3:47:55,  2.35s/it] 61%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                           | 9188/15000 [6:30:16<3:47:58,  2.35s/it] 61%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                           | 9189/15000 [6:30:18<3:47:52,  2.35s/it] 61%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                           | 9190/15000 [6:30:20<3:48:02,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.7404, 'grad_norm': 1.75, 'learning_rate': 3.223584499334357e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3472.92, 'total_tokens': 75076649, 'epoch': 0.61}
+ 61%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                           | 9190/15000 [6:30:20<3:48:02,  2.35s/it] 61%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                           | 9191/15000 [6:30:23<3:47:54,  2.35s/it] 61%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                           | 9192/15000 [6:30:25<3:47:51,  2.35s/it] 61%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                           | 9193/15000 [6:30:28<3:47:47,  2.35s/it] 61%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                           | 9194/15000 [6:30:30<3:47:44,  2.35s/it] 61%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                           | 9195/15000 [6:30:32<3:47:36,  2.35s/it] 61%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                           | 9196/15000 [6:30:35<3:47:23,  2.35s/it] 61%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                           | 9197/15000 [6:30:37<3:47:25,  2.35s/it] 61%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                           | 9198/15000 [6:30:39<3:47:25,  2.35s/it] 61%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                           | 9199/15000 [6:30:42<3:47:20,  2.35s/it] 61%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                           | 9200/15000 [6:30:44<3:47:17,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6291, 'grad_norm': 1.765625, 'learning_rate': 3.216361140121858e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3483.99, 'total_tokens': 75158304, 'epoch': 0.61}
+ 61%|███████████████████████���██████████████████████████████████████████████████████████████████████████████████████████████▉                                                                           | 9200/15000 [6:30:44<3:47:17,  2.35s/it] 61%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                           | 9201/15000 [6:30:46<3:47:19,  2.35s/it] 61%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                           | 9202/15000 [6:30:49<3:47:15,  2.35s/it] 61%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                           | 9203/15000 [6:30:51<3:47:18,  2.35s/it] 61%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                           | 9204/15000 [6:30:53<3:47:21,  2.35s/it] 61%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                           | 9205/15000 [6:30:56<3:47:22,  2.35s/it] 61%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                           | 9206/15000 [6:30:58<3:47:25,  2.36s/it] 61%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                           | 9207/15000 [6:31:00<3:47:24,  2.36s/it] 61%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                           | 9208/15000 [6:31:03<3:47:15,  2.35s/it] 61%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                           | 9209/15000 [6:31:05<3:47:13,  2.35s/it] 61%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                           | 9210/15000 [6:31:08<3:47:01,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6306, 'grad_norm': 1.8515625, 'learning_rate': 3.209131944413647e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3481.76, 'total_tokens': 75239844, 'epoch': 0.61}
+ 61%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                           | 9210/15000 [6:31:08<3:47:01,  2.35s/it] 61%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                          | 9211/15000 [6:31:10<3:46:59,  2.35s/it] 61%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                          | 9212/15000 [6:31:12<3:46:51,  2.35s/it] 61%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                          | 9213/15000 [6:31:15<3:46:59,  2.35s/it] 61%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                          | 9214/15000 [6:31:17<3:46:56,  2.35s/it] 61%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                          | 9215/15000 [6:31:19<3:46:42,  2.35s/it] 61%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                          | 9216/15000 [6:31:22<3:46:45,  2.35s/it] 61%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                          | 9217/15000 [6:31:24<3:46:44,  2.35s/it] 61%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                          | 9218/15000 [6:31:26<3:46:53,  2.35s/it][2025-11-17 04:14:20,556] [INFO] [axolotl.utils.data.wrappers.get_dataset_wrapper:87] [PID:8163] Loading dataset: Goader/kobza-2m-jsonl with base_type: pretrain and prompt_style: None
+
+Tokenizing Prompts (num_proc=64):   0%|                                                                                                                                                                        | 0/10000 [00:00<?, ? examples/s][A
+Tokenizing Prompts (num_proc=64):   2%|██▍                                                                                                                                                           | 157/10000 [00:06<06:18, 26.01 examples/s][A
+Tokenizing Prompts (num_proc=64):   3%|████▉                                                                                                                                                         | 314/10000 [00:06<02:53, 55.84 examples/s][A
+Tokenizing Prompts (num_proc=64):   5%|███████▍                                                                                                                                                      | 471/10000 [00:07<02:04, 76.26 examples/s][A
+Tokenizing Prompts (num_proc=64):   6%|█████████▊                                                                                                                                                   | 628/10000 [00:08<01:24, 111.36 examples/s][A
+Tokenizing Prompts (num_proc=64):   8%|████████████▎                                                                                                                                                | 785/10000 [00:08<01:03, 144.01 examples/s][A
+Tokenizing Prompts (num_proc=64):   9%|██████████████▊                                                                                                                                              | 942/10000 [00:09<00:54, 165.50 examples/s][A
+Tokenizing Prompts (num_proc=64):  11%|█████████████████▏                                                                                                                                          | 1099/10000 [00:10<00:49, 178.75 examples/s][A
+Tokenizing Prompts (num_proc=64):  13%|███████████████████▌                                                                                                                                        | 1256/10000 [00:10<00:45, 191.79 examples/s][A
+Tokenizing Prompts (num_proc=64):  14%|██████████████████████                                                                                                                                      | 1413/10000 [00:11<00:50, 171.10 examples/s][A
+Tokenizing Prompts (num_proc=64):  16%|████████████████████████▍                                                                                                                                   | 1570/10000 [00:12<00:40, 210.22 examples/s][A
+Tokenizing Prompts (num_proc=64):  17%|██████████████████████████▉                                                                                                                                 | 1727/10000 [00:12<00:36, 229.78 examples/s][A
+Tokenizing Prompts (num_proc=64):  19%|█████████████████████████████▍                                                                                                                              | 1884/10000 [00:13<00:38, 212.85 examples/s][A
+Tokenizing Prompts (num_proc=64):  20%|███████████████████████████████▊                                                                                                                            | 2041/10000 [00:14<00:40, 197.37 examples/s][A
+Tokenizing Prompts (num_proc=64):  22%|██████████████████████████████████▎                                                                                                                         | 2198/10000 [00:14<00:32, 242.98 examples/s][A
+Tokenizing Prompts (num_proc=64):  24%|████████████████████████████████████▋                                                                                                                       | 2355/10000 [00:15<00:31, 240.47 examples/s][A
+Tokenizing Prompts (num_proc=64):  25%|███████████████████████████████████████▏                                                                                                                    | 2512/10000 [00:16<00:30, 248.10 examples/s][A
+Tokenizing Prompts (num_proc=64):  27%|█████████████████████████████████████████▌                                                                                                                  | 2668/10000 [00:17<00:32, 225.20 examples/s][A
+Tokenizing Prompts (num_proc=64):  28%|████████████████████████████████████████████                                                                                                                | 2824/10000 [00:17<00:35, 202.83 examples/s][A
+Tokenizing Prompts (num_proc=64):  30%|██████████████████████████████████████████████▍                                                                                                             | 2980/10000 [00:18<00:27, 256.12 examples/s][A
+Tokenizing Prompts (num_proc=64):  31%|████████████████████████████████████████████████▉                                                                                                           | 3136/10000 [00:18<00:27, 250.33 examples/s][A
+Tokenizing Prompts (num_proc=64):  33%|███████████████████████████████████████████████████▎                                                                                                        | 3292/10000 [00:19<00:28, 238.86 examples/s][A
+Tokenizing Prompts (num_proc=64):  34%|█████████████████████████████████████████████████████▊                                                                                                      | 3448/10000 [00:20<00:28, 233.33 examples/s][A
+Tokenizing Prompts (num_proc=64):  36%|████████████████████████████████████████████████████████▏                                                                                                   | 3604/10000 [00:21<00:31, 202.61 examples/s][A
+Tokenizing Prompts (num_proc=64):  38%|██████████████████████████████████████████████████████████▋                                                                                                 | 3760/10000 [00:21<00:25, 242.04 examples/s][A
+Tokenizing Prompts (num_proc=64):  39%|█████████████████████████████████████████████████████████████                                                                                               | 3916/10000 [00:22<00:29, 206.62 examples/s][A
+Tokenizing Prompts (num_proc=64):  41%|███████████████████████████████████████████████████████████████▌                                                                                            | 4072/10000 [00:22<00:22, 263.81 examples/s][A
+Tokenizing Prompts (num_proc=64):  42%|█████████████████████████████████████████████████████████████████▉                                                                                          | 4228/10000 [00:23<00:23, 247.19 examples/s][A
+Tokenizing Prompts (num_proc=64):  44%|████████████████████████████████████████████████████████████████████▍                                                                                       | 4384/10000 [00:24<00:22, 247.27 examples/s][A
+Tokenizing Prompts (num_proc=64):  45%|██████████████████████████████████████████████████████████████████████▊                                                                                     | 4540/10000 [00:24<00:22, 242.55 examples/s][A
+Tokenizing Prompts (num_proc=64):  47%|█████████████████████████████████████████████████████████████████████████▎                                                                                  | 4696/10000 [00:25<00:26, 201.61 examples/s][A
+Tokenizing Prompts (num_proc=64):  49%|███████████████████████████████████████████████████████████████████████████▋                                                                                | 4852/10000 [00:26<00:21, 234.23 examples/s][A
+Tokenizing Prompts (num_proc=64):  50%|██████████████████████████████████████████████████████████████████████████████                                                                              | 5008/10000 [00:26<00:19, 253.24 examples/s][A
+Tokenizing Prompts (num_proc=64):  52%|████████████████████████████████████████████████████████████████████████████████▌                                                                           | 5164/10000 [00:27<00:23, 204.11 examples/s][A
+Tokenizing Prompts (num_proc=64):  53%|██████████████████████████████████████████████████████████████████████████████████▉                                                                         | 5320/10000 [00:28<00:19, 238.71 examples/s][A
+Tokenizing Prompts (num_proc=64):  55%|█████████████████████████████████████████████████████████████████████████████████████▍                                                                      | 5476/10000 [00:30<00:25, 180.79 examples/s][A
+Tokenizing Prompts (num_proc=64):  56%|███████████████████████████████████████████████████████████████████████████████████████▊                                                                    | 5632/10000 [00:30<00:19, 224.32 examples/s][A
+Tokenizing Prompts (num_proc=64):  58%|██████████████████████████████████████████████████████████████████████████████████████████▎                                                                 | 5788/10000 [00:30<00:14, 282.12 examples/s][A
+Tokenizing Prompts (num_proc=64):  59%|████████████████████████████████████████████████████████████████████████████████████████████▋                                                               | 5944/10000 [00:30<00:15, 264.87 examples/s][A
+Tokenizing Prompts (num_proc=64):  61%|███████████████████████████████████████████████████████████████████████████████████████████████▏                                                            | 6100/10000 [00:31<00:15, 250.37 examples/s][A
+Tokenizing Prompts (num_proc=64):  63%|█████████████████████████████████████████████████████████████████████████████████████████████████▌                                                          | 6256/10000 [00:32<00:14, 250.48 examples/s][A
+Tokenizing Prompts (num_proc=64):  64%|████████████████████████████████████████████████████████████████████████████████████████████████████                                                        | 6412/10000 [00:33<00:17, 208.28 examples/s][A
+Tokenizing Prompts (num_proc=64):  66%|██████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                     | 6568/10000 [00:33<00:14, 240.56 examples/s][A
+Tokenizing Prompts (num_proc=64):  67%|████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                   | 6724/10000 [00:34<00:12, 261.70 examples/s][A
+Tokenizing Prompts (num_proc=64):  69%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                | 6880/10000 [00:35<00:14, 210.53 examples/s][A
+Tokenizing Prompts (num_proc=64):  70%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                              | 7036/10000 [00:35<00:11, 257.98 examples/s][A
+Tokenizing Prompts (num_proc=64):  72%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                           | 7192/10000 [00:36<00:10, 259.33 examples/s][A
+Tokenizing Prompts (num_proc=64):  73%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                         | 7348/10000 [00:37<00:10, 242.89 examples/s][A
+Tokenizing Prompts (num_proc=64):  75%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                       | 7504/10000 [00:37<00:10, 243.65 examples/s][A
+Tokenizing Prompts (num_proc=64):  77%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                    | 7660/10000 [00:38<00:09, 244.32 examples/s][A
+Tokenizing Prompts (num_proc=64):  78%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                  | 7816/10000 [00:38<00:09, 231.99 examples/s][A
+Tokenizing Prompts (num_proc=64):  80%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                               | 7972/10000 [00:39<00:10, 201.51 examples/s][A
+Tokenizing Prompts (num_proc=64):  81%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                             | 8128/10000 [00:40<00:07, 236.40 examples/s][A
+Tokenizing Prompts (num_proc=64):  83%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                          | 8284/10000 [00:40<00:06, 246.93 examples/s][A
+Tokenizing Prompts (num_proc=64):  84%|█████████████████████████████████████████████████���█████████████████████████████████████████████████████████████████████████████████▋                        | 8440/10000 [00:41<00:06, 254.10 examples/s][A
+Tokenizing Prompts (num_proc=64):  86%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                      | 8596/10000 [00:42<00:05, 248.51 examples/s][A
+Tokenizing Prompts (num_proc=64):  88%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                   | 8752/10000 [00:42<00:05, 241.39 examples/s][A
+Tokenizing Prompts (num_proc=64):  89%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                 | 8908/10000 [00:43<00:04, 238.33 examples/s][A
+Tokenizing Prompts (num_proc=64):  91%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍              | 9064/10000 [00:44<00:03, 237.93 examples/s][A
+Tokenizing Prompts (num_proc=64):  92%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊            | 9220/10000 [00:44<00:03, 238.28 examples/s][A
+Tokenizing Prompts (num_proc=64):  94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎         | 9376/10000 [00:45<00:02, 238.39 examples/s][A
+Tokenizing Prompts (num_proc=64):  95%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋       | 9532/10000 [00:46<00:01, 238.32 examples/s][A
+Tokenizing Prompts (num_proc=64):  97%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏    | 9688/10000 [00:46<00:01, 230.65 examples/s][A
+Tokenizing Prompts (num_proc=64):  98%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌  | 9844/10000 [00:47<00:00, 235.91 examples/s][A
+Tokenizing Prompts (num_proc=64): 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10000/10000 [00:48<00:00, 240.69 examples/s][ATokenizing Prompts (num_proc=64): 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10000/10000 [00:50<00:00, 199.12 examples/s]
+
+Dropping Long Sequences:   0%|                                                                                                                                                                                 | 0/10001 [00:00<?, ? examples/s][A
+Dropping Long Sequences:  10%|████████████████▍                                                                                                                                                    | 1000/10001 [00:01<00:13, 675.76 examples/s][A
+Dropping Long Sequences:  20%|████████████████████████████████▊                                                                                                                                   | 2000/10001 [00:01<00:06, 1306.24 examples/s][A
+Dropping Long Sequences:  30%|█████████████████████████████████████████████████▏                                                                                                                  | 3000/10001 [00:02<00:03, 1795.90 examples/s][A
+Dropping Long Sequences:  40%|█████████████████████████████████████████████████████████████████▌                                                                                                  | 4000/10001 [00:02<00:02, 2292.32 examples/s][A
+Dropping Long Sequences:  50%|█████████████████████████████████████████████████████████████████████████████████▉                                                                                  | 5000/10001 [00:02<00:01, 2668.08 examples/s][A
+Dropping Long Sequences:  60%|██████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                 | 6000/10001 [00:02<00:01, 2916.43 examples/s][A
+Dropping Long Sequences:  70%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                 | 7000/10001 [00:03<00:00, 3136.18 examples/s][A
+Dropping Long Sequences:  80%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                | 8000/10001 [00:03<00:00, 3395.76 examples/s][A
+Dropping Long Sequences:  90%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                | 9000/10001 [00:03<00:00, 3548.66 examples/s][A
+Dropping Long Sequences: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉| 10000/10001 [00:03<00:00, 3641.24 examples/s][ADropping Long Sequences: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10001/10001 [00:03<00:00, 2540.48 examples/s]
+
+Add position_id column (Pretraining Sample Packing):   0%|                                                                                                                                                      | 0/8687 [00:00<?, ? examples/s][A
+Add position_id column (Pretraining Sample Packing):  12%|███████████████▉                                                                                                                          | 1000/8687 [00:01<00:09, 798.27 examples/s][A
+Add position_id column (Pretraining Sample Packing):  23%|███████████████████████████████▌                                                                                                         | 2000/8687 [00:01<00:04, 1656.14 examples/s][A
+Add position_id column (Pretraining Sample Packing):  35%|███████████████████████████████████████████████▎                                                                                         | 3000/8687 [00:01<00:02, 2550.88 examples/s][A
+Add position_id column (Pretraining Sample Packing):  46%|███████████████████████████████████████████████████████████████                                                                          | 4000/8687 [00:01<00:01, 3344.01 examples/s][A
+Add position_id column (Pretraining Sample Packing):  58%|██████████████████████████████████████████████████████████████████████████████▊                                                          | 5000/8687 [00:01<00:00, 4092.69 examples/s][A
+Add position_id column (Pretraining Sample Packing):  69%|██████████████████████████████████████████████████████████████████████████████████████████████▌                                          | 6000/8687 [00:02<00:00, 4653.77 examples/s][A
+Add position_id column (Pretraining Sample Packing):  81%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                          | 7000/8687 [00:02<00:00, 5293.90 examples/s][A
+Add position_id column (Pretraining Sample Packing):  92%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏          | 8000/8687 [00:02<00:00, 5469.83 examples/s][A
+Add position_id column (Pretraining Sample Packing): 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 8687/8687 [00:02<00:00, 5744.19 examples/s][AAdd position_id column (Pretraining Sample Packing): 100%|█████████████████████████████████��███████████████████████████████████████████████████████████████████████████████████████████████████████| 8687/8687 [00:02<00:00, 3527.38 examples/s]
+[2025-11-17 04:15:18,799] [DEBUG] [axolotl.utils.samplers.multipack.pack_parallel:177] [PID:8163] Using single process for pack_parallel, running sequentially.
+ 61%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                          | 9219/15000 [6:32:33<34:48:56, 21.68s/it] 61%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                          | 9220/15000 [6:32:35<25:30:15, 15.89s/it]                                                                                                                                                                                                                                                {'loss': 2.6664, 'grad_norm': 1.7109375, 'learning_rate': 3.201896983558969e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3305.16, 'total_tokens': 75317666, 'epoch': 0.61}
+ 61%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                          | 9220/15000 [6:32:35<25:30:15, 15.89s/it] 61%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                          | 9221/15000 [6:32:38<18:59:09, 11.83s/it] 61%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                          | 9222/15000 [6:32:40<14:25:15,  8.99s/it] 61%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                          | 9223/15000 [6:32:43<11:13:28,  6.99s/it] 61%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                          | 9224/15000 [6:32:45<8:59:21,  5.60s/it] 62%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                          | 9225/15000 [6:32:47<7:25:29,  4.63s/it] 62%|██████████████████████████████████████████████████████████████████████████████████���████████████████████████████████████▎                                                                          | 9226/15000 [6:32:50<6:19:44,  3.95s/it] 62%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                          | 9227/15000 [6:32:52<5:33:42,  3.47s/it] 62%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                          | 9228/15000 [6:32:54<5:01:32,  3.13s/it] 62%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                          | 9229/15000 [6:32:57<4:39:02,  2.90s/it] 62%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                          | 9230/15000 [6:32:59<4:23:05,  2.74s/it]                                                                                                                                                                                                                                                {'loss': 2.6812, 'grad_norm': 1.875, 'learning_rate': 3.194656328963966e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3494.01, 'total_tokens': 75399536, 'epoch': 0.62}
+ 62%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                          | 9230/15000 [6:32:59<4:23:05,  2.74s/it] 62%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                          | 9231/15000 [6:33:01<4:11:58,  2.62s/it] 62%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                          | 9232/15000 [6:33:04<4:04:09,  2.54s/it] 62%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                          | 9233/15000 [6:33:06<3:58:44,  2.48s/it] 62%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                          | 9234/15000 [6:33:08<3:54:49,  2.44s/it] 62%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                          | 9235/15000 [6:33:11<3:52:20,  2.42s/it] 62%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                          | 9236/15000 [6:33:13<3:50:33,  2.40s/it] 62%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                          | 9237/15000 [6:33:15<3:49:14,  2.39s/it] 62%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                          | 9238/15000 [6:33:18<3:48:16,  2.38s/it] 62%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                          | 9239/15000 [6:33:20<3:47:31,  2.37s/it] 62%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                          | 9240/15000 [6:33:23<3:47:17,  2.37s/it]                                                                                                                                                                                                                                                {'loss': 2.749, 'grad_norm': 1.7890625, 'learning_rate': 3.187410052090976e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3476.07, 'total_tokens': 75481420, 'epoch': 0.62}
+ 62%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                          | 9240/15000 [6:33:23<3:47:17,  2.37s/it] 62%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                          | 9241/15000 [6:33:25<3:46:49,  2.36s/it] 62%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                          | 9242/15000 [6:33:27<3:46:29,  2.36s/it] 62%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                          | 9243/15000 [6:33:30<3:46:01,  2.36s/it] 62%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                          | 9244/15000 [6:33:32<3:45:56,  2.36s/it] 62%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                          | 9245/15000 [6:33:34<3:45:40,  2.35s/it] 62%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                          | 9246/15000 [6:33:37<3:45:26,  2.35s/it] 62%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                          | 9247/15000 [6:33:39<3:59:11,  2.49s/it] 62%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                          | 9248/15000 [6:33:42<3:54:58,  2.45s/it] 62%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                          | 9249/15000 [6:33:44<3:52:12,  2.42s/it] 62%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                          | 9250/15000 [6:33:47<3:50:07,  2.40s/it]                                                                                                                                                                                                                                                {'loss': 2.6995, 'grad_norm': 1.765625, 'learning_rate': 3.180158224457825e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3489.16, 'total_tokens': 75563244, 'epoch': 0.62}
+ 62%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                          | 9250/15000 [6:33:47<3:50:07,  2.40s/it] 62%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                          | 9251/15000 [6:33:49<3:48:47,  2.39s/it] 62%|█████████████████████████████████████████��█████████████████████████████████████████████████████████████████████████████▋                                                                          | 9252/15000 [6:33:51<3:47:49,  2.38s/it] 62%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                          | 9253/15000 [6:33:54<3:46:51,  2.37s/it] 62%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                          | 9254/15000 [6:33:56<3:46:34,  2.37s/it] 62%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                          | 9255/15000 [6:33:58<3:46:05,  2.36s/it] 62%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                          | 9256/15000 [6:34:01<3:46:02,  2.36s/it] 62%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                          | 9257/15000 [6:34:03<3:45:46,  2.36s/it] 62%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                          | 9258/15000 [6:34:05<3:45:38,  2.36s/it] 62%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                          | 9259/15000 [6:34:08<3:45:30,  2.36s/it] 62%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                          | 9260/15000 [6:34:10<3:45:18,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.6638, 'grad_norm': 1.6640625, 'learning_rate': 3.172900917637125e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3491.21, 'total_tokens': 75645085, 'epoch': 0.62}
+ 62%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                          | 9260/15000 [6:34:10<3:45:18,  2.36s/it] 62%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                          | 9261/15000 [6:34:12<3:45:13,  2.35s/it] 62%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                          | 9262/15000 [6:34:15<3:45:08,  2.35s/it] 62%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                          | 9263/15000 [6:34:17<3:45:07,  2.35s/it] 62%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                          | 9264/15000 [6:34:20<3:45:11,  2.36s/it] 62%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                          | 9265/15000 [6:34:22<3:45:08,  2.36s/it] 62%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                          | 9266/15000 [6:34:24<3:45:08,  2.36s/it] 62%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                          | 9267/15000 [6:34:27<3:44:58,  2.35s/it] 62%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                          | 9268/15000 [6:34:29<3:45:04,  2.36s/it] 62%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                          | 9269/15000 [6:34:31<3:44:56,  2.36s/it] 62%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                          | 9270/15000 [6:34:34<3:44:54,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.7194, 'grad_norm': 1.765625, 'learning_rate': 3.165638203255565e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3484.74, 'total_tokens': 75726909, 'epoch': 0.62}
+ 62%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                          | 9270/15000 [6:34:34<3:44:54,  2.36s/it] 62%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                          | 9271/15000 [6:34:36<3:44:44,  2.35s/it] 62%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                          | 9272/15000 [6:34:38<3:44:51,  2.36s/it] 62%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                          | 9273/15000 [6:34:41<3:44:36,  2.35s/it] 62%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                          | 9274/15000 [6:34:43<3:44:43,  2.35s/it] 62%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                          | 9275/15000 [6:34:45<3:44:29,  2.35s/it] 62%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                          | 9276/15000 [6:34:48<3:44:29,  2.35s/it] 62%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                          | 9277/15000 [6:34:50<3:44:36,  2.35s/it] 62%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                          | 9278/15000 [6:34:52<3:44:38,  2.36s/it] 62%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                          | 9279/15000 [6:34:55<3:44:38,  2.36s/it] 62%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                          | 9280/15000 [6:34:57<3:44:52,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.713, 'grad_norm': 1.6484375, 'learning_rate': 3.158370152993204e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3469.41, 'total_tokens': 75808735, 'epoch': 0.62}
+ 62%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                          | 9280/15000 [6:34:57<3:44:52,  2.36s/it] 62%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                          | 9281/15000 [6:35:00<3:44:52,  2.36s/it] 62%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                          | 9282/15000 [6:35:02<3:44:40,  2.36s/it] 62%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                          | 9283/15000 [6:35:04<3:44:50,  2.36s/it] 62%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                          | 9284/15000 [6:35:07<3:44:47,  2.36s/it] 62%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                          | 9285/15000 [6:35:09<3:44:23,  2.36s/it] 62%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                          | 9286/15000 [6:35:11<3:43:59,  2.35s/it] 62%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                          | 9287/15000 [6:35:14<3:44:09,  2.35s/it] 62%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                          | 9288/15000 [6:35:16<3:44:09,  2.35s/it] 62%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                         | 9289/15000 [6:35:18<3:44:04,  2.35s/it] 62%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                         | 9290/15000 [6:35:21<3:44:09,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.6576, 'grad_norm': 1.6484375, 'learning_rate': 3.1510968385827624e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3479.86, 'total_tokens': 75890555, 'epoch': 0.62}
+ 62%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                         | 9290/15000 [6:35:21<3:44:09,  2.36s/it] 62%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                         | 9291/15000 [6:35:23<3:43:54,  2.35s/it] 62%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                         | 9292/15000 [6:35:25<3:43:49,  2.35s/it] 62%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                         | 9293/15000 [6:35:28<3:43:30,  2.35s/it] 62%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                         | 9294/15000 [6:35:30<3:43:39,  2.35s/it] 62%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                         | 9295/15000 [6:35:33<3:43:31,  2.35s/it] 62%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                         | 9296/15000 [6:35:35<3:43:22,  2.35s/it] 62%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                         | 9297/15000 [6:35:37<3:43:40,  2.35s/it] 62%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                         | 9298/15000 [6:35:40<3:43:33,  2.35s/it] 62%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                         | 9299/15000 [6:35:42<3:43:37,  2.35s/it] 62%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                         | 9300/15000 [6:35:44<3:43:19,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.7389, 'grad_norm': 1.8515625, 'learning_rate': 3.1438183318089176e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3500.24, 'total_tokens': 75972379, 'epoch': 0.62}
+ 62%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                         | 9300/15000 [6:35:44<3:43:19,  2.35s/it] 62%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                         | 9301/15000 [6:35:47<3:43:27,  2.35s/it] 62%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                         | 9302/15000 [6:35:49<3:43:34,  2.35s/it] 62%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                         | 9303/15000 [6:35:51<3:43:25,  2.35s/it] 62%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                         | 9304/15000 [6:35:54<3:43:29,  2.35s/it] 62%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████���████▎                                                                         | 9305/15000 [6:35:56<3:43:27,  2.35s/it] 62%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                         | 9306/15000 [6:35:58<3:43:20,  2.35s/it] 62%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                         | 9307/15000 [6:36:01<3:43:11,  2.35s/it] 62%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                         | 9308/15000 [6:36:03<3:42:46,  2.35s/it] 62%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                         | 9309/15000 [6:36:05<3:42:35,  2.35s/it] 62%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                         | 9310/15000 [6:36:08<3:43:01,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.7004, 'grad_norm': 1.796875, 'learning_rate': 3.1365347045075934e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3470.31, 'total_tokens': 76054153, 'epoch': 0.62}
+ 62%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                         | 9310/15000 [6:36:08<3:43:01,  2.35s/it] 62%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                         | 9311/15000 [6:36:10<3:43:02,  2.35s/it] 62%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                         | 9312/15000 [6:36:12<3:42:54,  2.35s/it] 62%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                         | 9313/15000 [6:36:15<3:42:52,  2.35s/it] 62%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                         | 9314/15000 [6:36:17<3:42:55,  2.35s/it] 62%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                         | 9315/15000 [6:36:20<3:42:49,  2.35s/it] 62%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                         | 9316/15000 [6:36:22<3:42:49,  2.35s/it] 62%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                         | 9317/15000 [6:36:24<3:42:38,  2.35s/it] 62%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                         | 9318/15000 [6:36:27<3:42:49,  2.35s/it] 62%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                         | 9319/15000 [6:36:29<3:43:00,  2.36s/it] 62%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                         | 9320/15000 [6:36:31<3:42:42,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6929, 'grad_norm': 1.75, 'learning_rate': 3.1292460285652506e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3497.8, 'total_tokens': 76135968, 'epoch': 0.62}
+ 62%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                         | 9320/15000 [6:36:31<3:42:42,  2.35s/it] 62%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                         | 9321/15000 [6:36:34<3:42:48,  2.35s/it] 62%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                         | 9322/15000 [6:36:36<3:42:45,  2.35s/it] 62%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                         | 9323/15000 [6:36:38<3:42:44,  2.35s/it] 62%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                         | 9324/15000 [6:36:41<3:42:38,  2.35s/it] 62%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                         | 9325/15000 [6:36:43<3:42:46,  2.36s/it] 62%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                         | 9326/15000 [6:36:45<3:42:32,  2.35s/it] 62%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                         | 9327/15000 [6:36:48<3:42:30,  2.35s/it] 62%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                         | 9328/15000 [6:36:50<3:42:22,  2.35s/it] 62%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                         | 9329/15000 [6:36:52<3:42:25,  2.35s/it] 62%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                         | 9330/15000 [6:36:55<3:42:20,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.7372, 'grad_norm': 1.7109375, 'learning_rate': 3.121952375918179e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3488.34, 'total_tokens': 76217760, 'epoch': 0.62}
+ 62%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                         | 9330/15000 [6:36:55<3:42:20,  2.35s/it] 62%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                         | 9331/15000 [6:36:57<3:42:08,  2.35s/it] 62%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                         | 9332/15000 [6:37:00<3:42:02,  2.35s/it] 62%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                         | 9333/15000 [6:37:02<3:42:07,  2.35s/it] 62%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                         | 9334/15000 [6:37:04<3:42:05,  2.35s/it] 62%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                         | 9335/15000 [6:37:07<3:42:01,  2.35s/it] 62%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                         | 9336/15000 [6:37:09<3:41:46,  2.35s/it] 62%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                         | 9337/15000 [6:37:11<3:41:42,  2.35s/it] 62%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                         | 9338/15000 [6:37:14<3:41:47,  2.35s/it] 62%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                         | 9339/15000 [6:37:16<3:41:48,  2.35s/it] 62%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                         | 9340/15000 [6:37:18<3:41:48,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6025, 'grad_norm': 1.65625, 'learning_rate': 3.114653818551785e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3489.32, 'total_tokens': 76299591, 'epoch': 0.62}
+ 62%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                         | 9340/15000 [6:37:18<3:41:48,  2.35s/it] 62%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                         | 9341/15000 [6:37:21<3:41:50,  2.35s/it] 62%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                         | 9342/15000 [6:37:23<3:42:07,  2.36s/it] 62%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                         | 9343/15000 [6:37:25<3:42:03,  2.36s/it] 62%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                         | 9344/15000 [6:37:28<3:42:04,  2.36s/it] 62%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                         | 9345/15000 [6:37:30<3:41:47,  2.35s/it] 62%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                         | 9346/15000 [6:37:32<3:41:45,  2.35s/it] 62%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                         | 9347/15000 [6:37:35<3:41:32,  2.35s/it] 62%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                         | 9348/15000 [6:37:37<3:41:28,  2.35s/it] 62%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                         | 9349/15000 [6:37:40<3:41:39,  2.35s/it] 62%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                         | 9350/15000 [6:37:42<3:41:38,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.7296, 'grad_norm': 1.671875, 'learning_rate': 3.1073504284998815e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3485.5, 'total_tokens': 76381409, 'epoch': 0.62}
+ 62%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                         | 9350/15000 [6:37:42<3:41:38,  2.35s/it] 62%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                         | 9351/15000 [6:37:44<3:41:47,  2.36s/it] 62%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                         | 9352/15000 [6:37:47<3:41:32,  2.35s/it] 62%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                         | 9353/15000 [6:37:49<3:41:37,  2.35s/it] 62%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                         | 9354/15000 [6:37:51<3:41:34,  2.35s/it] 62%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                         | 9355/15000 [6:37:54<3:41:25,  2.35s/it] 62%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                         | 9356/15000 [6:37:56<3:41:21,  2.35s/it] 62%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                         | 9357/15000 [6:37:58<3:41:32,  2.36s/it] 62%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                         | 9358/15000 [6:38:01<3:41:21,  2.35s/it] 62%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                         | 9359/15000 [6:38:03<3:41:09,  2.35s/it] 62%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                         | 9360/15000 [6:38:05<3:41:00,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.7266, 'grad_norm': 1.734375, 'learning_rate': 3.100042277843982e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3491.03, 'total_tokens': 76463140, 'epoch': 0.62}
+ 62%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                         | 9360/15000 [6:38:05<3:41:00,  2.35s/it] 62%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                         | 9361/15000 [6:38:08<3:40:58,  2.35s/it] 62%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                         | 9362/15000 [6:38:10<3:40:58,  2.35s/it] 62%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                         | 9363/15000 [6:38:12<3:40:47,  2.35s/it] 62%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                         | 9364/15000 [6:38:15<3:40:42,  2.35s/it] 62%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                         | 9365/15000 [6:38:17<3:40:55,  2.35s/it] 62%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                        | 9366/15000 [6:38:20<3:40:57,  2.35s/it] 62%|██████████████████████████████████████████████████████████████████████████████████████████���██████████████████████████████▏                                                                        | 9367/15000 [6:38:22<3:41:00,  2.35s/it] 62%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                        | 9368/15000 [6:38:24<3:41:06,  2.36s/it] 62%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                        | 9369/15000 [6:38:27<3:41:04,  2.36s/it] 62%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                        | 9370/15000 [6:38:29<3:40:46,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6633, 'grad_norm': 1.9140625, 'learning_rate': 3.092729438712584e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3494.07, 'total_tokens': 76544883, 'epoch': 0.62}
+ 62%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                        | 9370/15000 [6:38:29<3:40:46,  2.35s/it] 62%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                        | 9371/15000 [6:38:31<3:40:46,  2.35s/it] 62%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                        | 9372/15000 [6:38:34<3:40:49,  2.35s/it] 62%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                        | 9373/15000 [6:38:36<3:40:48,  2.35s/it] 62%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                        | 9374/15000 [6:38:38<3:40:40,  2.35s/it] 62%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                        | 9375/15000 [6:38:41<3:40:36,  2.35s/it] 63%|█████████���███████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                        | 9376/15000 [6:38:43<3:40:35,  2.35s/it] 63%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                        | 9377/15000 [6:38:45<3:40:27,  2.35s/it] 63%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                        | 9378/15000 [6:38:48<3:40:39,  2.36s/it] 63%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                        | 9379/15000 [6:38:50<3:40:39,  2.36s/it] 63%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                        | 9380/15000 [6:38:53<3:40:40,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.7098, 'grad_norm': 1.7109375, 'learning_rate': 3.085411983280455e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3479.41, 'total_tokens': 76626675, 'epoch': 0.63}
+ 63%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                        | 9380/15000 [6:38:53<3:40:40,  2.36s/it] 63%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                        | 9381/15000 [6:38:55<3:40:36,  2.36s/it] 63%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                        | 9382/15000 [6:38:57<3:40:40,  2.36s/it] 63%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                        | 9383/15000 [6:39:00<3:40:42,  2.36s/it] 63%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                        | 9384/15000 [6:39:02<3:40:28,  2.36s/it] 63%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                        | 9385/15000 [6:39:04<3:40:28,  2.36s/it] 63%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                        | 9386/15000 [6:39:07<3:40:13,  2.35s/it] 63%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                        | 9387/15000 [6:39:09<3:40:15,  2.35s/it] 63%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                        | 9388/15000 [6:39:11<3:40:17,  2.36s/it] 63%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                        | 9389/15000 [6:39:14<3:40:07,  2.35s/it] 63%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                        | 9390/15000 [6:39:16<3:40:04,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.7489, 'grad_norm': 1.7421875, 'learning_rate': 3.078089983767926e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3483.04, 'total_tokens': 76708420, 'epoch': 0.63}
+ 63%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                        | 9390/15000 [6:39:16<3:40:04,  2.35s/it] 63%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                        | 9391/15000 [6:39:18<3:39:52,  2.35s/it] 63%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                        | 9392/15000 [6:39:21<3:39:51,  2.35s/it] 63%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                        | 9393/15000 [6:39:23<3:39:49,  2.35s/it] 63%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                        | 9394/15000 [6:39:25<3:39:48,  2.35s/it] 63%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                        | 9395/15000 [6:39:28<3:39:50,  2.35s/it] 63%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                        | 9396/15000 [6:39:30<3:39:56,  2.35s/it] 63%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                        | 9397/15000 [6:39:33<3:39:56,  2.36s/it] 63%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                        | 9398/15000 [6:39:35<3:39:50,  2.35s/it] 63%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                        | 9399/15000 [6:39:37<3:39:50,  2.35s/it] 63%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                        | 9400/15000 [6:39:40<3:39:57,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.6829, 'grad_norm': 1.7265625, 'learning_rate': 3.0707635124401784e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3474.72, 'total_tokens': 76790211, 'epoch': 0.63}
+ 63%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                        | 9400/15000 [6:39:40<3:39:57,  2.36s/it] 63%|█████████████████████████████████████████████████████████████████████████████████████████���███████████████████████████████▌                                                                        | 9401/15000 [6:39:42<3:40:00,  2.36s/it] 63%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                        | 9402/15000 [6:39:44<3:39:49,  2.36s/it] 63%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                        | 9403/15000 [6:39:47<3:39:46,  2.36s/it] 63%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                        | 9404/15000 [6:39:49<3:39:27,  2.35s/it] 63%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                        | 9405/15000 [6:39:51<3:39:17,  2.35s/it] 63%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                        | 9406/15000 [6:39:54<3:39:21,  2.35s/it] 63%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                        | 9407/15000 [6:39:56<3:39:16,  2.35s/it] 63%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                        | 9408/15000 [6:39:58<3:39:13,  2.35s/it] 63%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                        | 9409/15000 [6:40:01<3:39:15,  2.35s/it] 63%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                        | 9410/15000 [6:40:03<3:39:15,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.723, 'grad_norm': 1.6875, 'learning_rate': 3.063432641606524e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3482.0, 'total_tokens': 76871955, 'epoch': 0.63}
+ 63%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                        | 9410/15000 [6:40:03<3:39:15,  2.35s/it] 63%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                        | 9411/15000 [6:40:05<3:39:29,  2.36s/it] 63%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                        | 9412/15000 [6:40:08<3:39:23,  2.36s/it] 63%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                        | 9413/15000 [6:40:10<3:39:23,  2.36s/it] 63%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                        | 9414/15000 [6:40:13<3:39:12,  2.35s/it] 63%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                        | 9415/15000 [6:40:15<3:39:07,  2.35s/it] 63%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                        | 9416/15000 [6:40:17<3:39:14,  2.36s/it] 63%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                        | 9417/15000 [6:40:20<3:39:06,  2.35s/it] 63%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                        | 9418/15000 [6:40:22<3:38:56,  2.35s/it] 63%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                        | 9419/15000 [6:40:24<3:38:53,  2.35s/it] 63%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                        | 9420/15000 [6:40:27<3:38:55,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6561, 'grad_norm': 1.7578125, 'learning_rate': 3.0560974436197e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3480.19, 'total_tokens': 76953692, 'epoch': 0.63}
+ 63%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                        | 9420/15000 [6:40:27<3:38:55,  2.35s/it] 63%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                        | 9421/15000 [6:40:29<3:38:57,  2.35s/it] 63%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                        | 9422/15000 [6:40:31<3:38:51,  2.35s/it] 63%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                        | 9423/15000 [6:40:34<3:38:48,  2.35s/it] 63%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                        | 9424/15000 [6:40:36<3:38:41,  2.35s/it] 63%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                        | 9425/15000 [6:40:38<3:39:00,  2.36s/it] 63%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                        | 9426/15000 [6:40:41<3:38:45,  2.35s/it] 63%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                        | 9427/15000 [6:40:43<3:39:03,  2.36s/it] 63%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                        | 9428/15000 [6:40:46<3:39:01,  2.36s/it] 63%|███████████████████��█████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                        | 9429/15000 [6:40:48<3:38:54,  2.36s/it] 63%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                        | 9430/15000 [6:40:50<3:38:45,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.6999, 'grad_norm': 1.7265625, 'learning_rate': 3.0487579908751483e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3484.9, 'total_tokens': 77035465, 'epoch': 0.63}
+ 63%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                        | 9430/15000 [6:40:50<3:38:45,  2.36s/it] 63%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                        | 9431/15000 [6:40:53<3:38:34,  2.35s/it] 63%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                        | 9432/15000 [6:40:55<3:38:18,  2.35s/it] 63%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                        | 9433/15000 [6:40:57<3:38:29,  2.35s/it] 63%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                        | 9434/15000 [6:41:00<3:38:23,  2.35s/it] 63%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                        | 9435/15000 [6:41:02<3:38:17,  2.35s/it] 63%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                        | 9436/15000 [6:41:04<3:38:11,  2.35s/it] 63%|████████████████████████████████████████████████████████████████████████████████████████████████████���█████████████████████                                                                        | 9437/15000 [6:41:07<3:38:14,  2.35s/it] 63%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                        | 9438/15000 [6:41:09<3:37:59,  2.35s/it] 63%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                        | 9439/15000 [6:41:11<3:38:00,  2.35s/it] 63%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                        | 9440/15000 [6:41:14<3:37:48,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6977, 'grad_norm': 1.7734375, 'learning_rate': 3.0414143558103048e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3495.18, 'total_tokens': 77117227, 'epoch': 0.63}
+ 63%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                        | 9440/15000 [6:41:14<3:37:48,  2.35s/it] 63%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                        | 9441/15000 [6:41:16<3:37:41,  2.35s/it] 63%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                        | 9442/15000 [6:41:18<3:37:43,  2.35s/it] 63%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                       | 9443/15000 [6:41:21<3:37:44,  2.35s/it] 63%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                       | 9444/15000 [6:41:23<3:37:56,  2.35s/it] 63%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                       | 9445/15000 [6:41:26<3:37:59,  2.35s/it] 63%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                       | 9446/15000 [6:41:28<3:37:58,  2.35s/it] 63%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                       | 9447/15000 [6:41:30<3:37:57,  2.36s/it] 63%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                       | 9448/15000 [6:41:33<3:37:52,  2.35s/it] 63%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                       | 9449/15000 [6:41:35<3:37:39,  2.35s/it] 63%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                       | 9450/15000 [6:41:37<3:37:43,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6899, 'grad_norm': 1.7734375, 'learning_rate': 3.0340666109038822e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3477.46, 'total_tokens': 77198936, 'epoch': 0.63}
+ 63%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                       | 9450/15000 [6:41:37<3:37:43,  2.35s/it] 63%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                       | 9451/15000 [6:41:40<3:37:41,  2.35s/it] 63%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                       | 9452/15000 [6:41:42<3:37:29,  2.35s/it] 63%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                       | 9453/15000 [6:41:44<3:37:41,  2.35s/it] 63%|███████████████████████████████████████████████████████████████████████████████████████████���██████████████████████████████▎                                                                       | 9454/15000 [6:41:47<3:37:30,  2.35s/it] 63%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                       | 9455/15000 [6:41:49<3:37:22,  2.35s/it] 63%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                       | 9456/15000 [6:41:51<3:37:29,  2.35s/it] 63%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                       | 9457/15000 [6:41:54<3:37:23,  2.35s/it] 63%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                       | 9458/15000 [6:41:56<3:37:16,  2.35s/it] 63%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                       | 9459/15000 [6:41:58<3:37:12,  2.35s/it] 63%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                       | 9460/15000 [6:42:01<3:37:08,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6873, 'grad_norm': 1.9453125, 'learning_rate': 3.0267148286751578e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3485.59, 'total_tokens': 77280644, 'epoch': 0.63}
+ 63%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                       | 9460/15000 [6:42:01<3:37:08,  2.35s/it] 63%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                       | 9461/15000 [6:42:03<3:37:06,  2.35s/it] 63%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                       | 9462/15000 [6:42:06<3:37:10,  2.35s/it] 63%|███���██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                       | 9463/15000 [6:42:08<3:37:11,  2.35s/it] 63%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                       | 9464/15000 [6:42:10<3:37:12,  2.35s/it] 63%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                       | 9465/15000 [6:42:13<3:37:04,  2.35s/it] 63%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                       | 9466/15000 [6:42:15<3:37:04,  2.35s/it] 63%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                       | 9467/15000 [6:42:17<3:36:51,  2.35s/it] 63%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                       | 9468/15000 [6:42:20<3:36:43,  2.35s/it] 63%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                       | 9469/15000 [6:42:22<3:36:52,  2.35s/it] 63%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                       | 9470/15000 [6:42:24<3:37:00,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6988, 'grad_norm': 1.7890625, 'learning_rate': 3.0193590816832524e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3477.13, 'total_tokens': 77362417, 'epoch': 0.63}
+ 63%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                       | 9470/15000 [6:42:24<3:37:00,  2.35s/it] 63%|█████████████████████████████████████████████████████████████████████████████��████████████████████████████████████████████▍                                                                       | 9471/15000 [6:42:27<3:36:52,  2.35s/it] 63%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                       | 9472/15000 [6:42:29<3:36:56,  2.35s/it] 63%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                       | 9473/15000 [6:42:31<3:36:46,  2.35s/it] 63%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                       | 9474/15000 [6:42:34<3:36:51,  2.35s/it] 63%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                       | 9475/15000 [6:42:36<3:36:47,  2.35s/it] 63%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                       | 9476/15000 [6:42:38<3:36:45,  2.35s/it] 63%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                       | 9477/15000 [6:42:41<3:36:39,  2.35s/it] 63%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                       | 9478/15000 [6:42:43<3:36:45,  2.36s/it] 63%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                       | 9479/15000 [6:42:46<3:36:46,  2.36s/it] 63%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                       | 9480/15000 [6:42:48<3:36:34,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6817, 'grad_norm': 1.7890625, 'learning_rate': 3.0119994425264204e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3488.61, 'total_tokens': 77444147, 'epoch': 0.63}
+ 63%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                       | 9480/15000 [6:42:48<3:36:34,  2.35s/it] 63%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                       | 9481/15000 [6:42:50<3:36:37,  2.36s/it] 63%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                       | 9482/15000 [6:42:53<3:36:35,  2.36s/it] 63%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                       | 9483/15000 [6:42:55<3:36:31,  2.35s/it] 63%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                       | 9484/15000 [6:42:57<3:36:29,  2.35s/it] 63%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                       | 9485/15000 [6:43:00<3:36:33,  2.36s/it] 63%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                       | 9486/15000 [6:43:02<3:36:23,  2.35s/it] 63%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                       | 9487/15000 [6:43:04<3:36:28,  2.36s/it] 63%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                       | 9488/15000 [6:43:07<3:36:18,  2.35s/it] 63%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                       | 9489/15000 [6:43:09<3:36:14,  2.35s/it] 63%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                       | 9490/15000 [6:43:11<3:36:12,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6612, 'grad_norm': 1.71875, 'learning_rate': 3.0046359838413278e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3481.27, 'total_tokens': 77525869, 'epoch': 0.63}
+ 63%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                       | 9490/15000 [6:43:11<3:36:12,  2.35s/it] 63%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                       | 9491/15000 [6:43:14<3:36:00,  2.35s/it] 63%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                       | 9492/15000 [6:43:16<3:36:01,  2.35s/it] 63%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                       | 9493/15000 [6:43:19<3:36:14,  2.36s/it] 63%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                       | 9494/15000 [6:43:21<3:36:10,  2.36s/it] 63%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                       | 9495/15000 [6:43:23<3:36:22,  2.36s/it] 63%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                       | 9496/15000 [6:43:26<3:36:13,  2.36s/it] 63%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                       | 9497/15000 [6:43:28<3:36:13,  2.36s/it] 63%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                       | 9498/15000 [6:43:30<3:35:55,  2.35s/it] 63%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                       | 9499/15000 [6:43:33<3:36:09,  2.36s/it] 63%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                       | 9500/15000 [6:43:35<3:35:53,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.6089, 'grad_norm': 1.8359375, 'learning_rate': 2.9972687783023406e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3489.08, 'total_tokens': 77607599, 'epoch': 0.63}
+ 63%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                       | 9500/15000 [6:43:35<3:35:53,  2.36s/it] 63%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                       | 9501/15000 [6:43:37<3:35:42,  2.35s/it] 63%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                       | 9502/15000 [6:43:40<3:35:34,  2.35s/it] 63%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                       | 9503/15000 [6:43:42<3:35:41,  2.35s/it] 63%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                       | 9504/15000 [6:43:45<3:48:45,  2.50s/it] 63%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                       | 9505/15000 [6:43:47<3:44:44,  2.45s/it] 63%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                       | 9506/15000 [6:43:50<3:41:46,  2.42s/it] 63%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                       | 9507/15000 [6:43:52<3:39:44,  2.40s/it] 63%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                       | 9508/15000 [6:43:54<3:38:23,  2.39s/it] 63%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                       | 9509/15000 [6:43:57<3:37:26,  2.38s/it] 63%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                       | 9510/15000 [6:43:59<3:36:47,  2.37s/it]                                                                                                                                                                                                                                                {'loss': 2.6713, 'grad_norm': 1.7421875, 'learning_rate': 2.9898978986208026e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3479.8, 'total_tokens': 77689261, 'epoch': 0.63}
+ 63%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                       | 9510/15000 [6:43:59<3:36:47,  2.37s/it] 63%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                       | 9511/15000 [6:44:01<3:36:17,  2.36s/it] 63%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                       | 9512/15000 [6:44:04<3:35:59,  2.36s/it] 63%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                       | 9513/15000 [6:44:06<3:35:41,  2.36s/it] 63%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                       | 9514/15000 [6:44:08<3:35:34,  2.36s/it] 63%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                       | 9515/15000 [6:44:11<3:35:34,  2.36s/it] 63%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                       | 9516/15000 [6:44:13<3:35:06,  2.35s/it] 63%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                       | 9517/15000 [6:44:15<3:35:02,  2.35s/it] 63%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                       | 9518/15000 [6:44:18<3:34:52,  2.35s/it] 63%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                       | 9519/15000 [6:44:20<3:35:06,  2.35s/it] 63%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                      | 9520/15000 [6:44:23<3:34:59,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.7354, 'grad_norm': 1.734375, 'learning_rate': 2.982523417544321e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3482.48, 'total_tokens': 77770934, 'epoch': 0.63}
+ 63%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                      | 9520/15000 [6:44:23<3:34:59,  2.35s/it] 63%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                      | 9521/15000 [6:44:25<3:34:47,  2.35s/it] 63%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                      | 9522/15000 [6:44:27<3:34:41,  2.35s/it] 63%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                      | 9523/15000 [6:44:30<3:34:49,  2.35s/it] 63%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                      | 9524/15000 [6:44:32<3:34:45,  2.35s/it] 64%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                      | 9525/15000 [6:44:34<3:34:46,  2.35s/it] 64%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                      | 9526/15000 [6:44:37<3:34:42,  2.35s/it] 64%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                      | 9527/15000 [6:44:39<3:34:24,  2.35s/it] 64%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                      | 9528/15000 [6:44:41<3:34:29,  2.35s/it] 64%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                      | 9529/15000 [6:44:44<3:34:14,  2.35s/it] 64%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                      | 9530/15000 [6:44:46<3:34:24,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6197, 'grad_norm': 1.84375, 'learning_rate': 2.9751454078560458e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3476.23, 'total_tokens': 77852629, 'epoch': 0.64}
+ 64%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                      | 9530/15000 [6:44:46<3:34:24,  2.35s/it] 64%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                      | 9531/15000 [6:44:48<3:34:22,  2.35s/it] 64%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                      | 9532/15000 [6:44:51<3:34:32,  2.35s/it] 64%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                      | 9533/15000 [6:44:53<3:34:20,  2.35s/it] 64%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                      | 9534/15000 [6:44:55<3:34:25,  2.35s/it] 64%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                      | 9535/15000 [6:44:58<3:34:13,  2.35s/it] 64%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                      | 9536/15000 [6:45:00<3:33:54,  2.35s/it] 64%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                      | 9537/15000 [6:45:03<3:33:51,  2.35s/it] 64%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                      | 9538/15000 [6:45:05<3:34:04,  2.35s/it] 64%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                      | 9539/15000 [6:45:07<3:34:04,  2.35s/it] 64%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                      | 9540/15000 [6:45:10<3:34:10,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6576, 'grad_norm': 1.7578125, 'learning_rate': 2.9677639423739543e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3477.95, 'total_tokens': 77934364, 'epoch': 0.64}
+ 64%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                      | 9540/15000 [6:45:10<3:34:10,  2.35s/it] 64%|██████████████████���████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                      | 9541/15000 [6:45:12<3:33:55,  2.35s/it] 64%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                      | 9542/15000 [6:45:14<3:33:50,  2.35s/it] 64%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                      | 9543/15000 [6:45:17<3:33:50,  2.35s/it] 64%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                      | 9544/15000 [6:45:19<3:34:02,  2.35s/it] 64%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                      | 9545/15000 [6:45:21<3:34:02,  2.35s/it] 64%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                      | 9546/15000 [6:45:24<3:33:57,  2.35s/it] 64%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                      | 9547/15000 [6:45:26<3:33:55,  2.35s/it] 64%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                      | 9548/15000 [6:45:28<3:33:51,  2.35s/it] 64%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                      | 9549/15000 [6:45:31<3:33:47,  2.35s/it] 64%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                      | 9550/15000 [6:45:33<3:33:31,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.7168, 'grad_norm': 1.8046875, 'learning_rate': 2.9603790939501314e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3486.85, 'total_tokens': 78015900, 'epoch': 0.64}
+ 64%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                      | 9550/15000 [6:45:33<3:33:31,  2.35s/it] 64%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                      | 9551/15000 [6:45:35<3:33:39,  2.35s/it] 64%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                      | 9552/15000 [6:45:38<3:33:41,  2.35s/it] 64%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                      | 9553/15000 [6:45:40<3:33:33,  2.35s/it] 64%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                      | 9554/15000 [6:45:43<3:33:22,  2.35s/it] 64%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                      | 9555/15000 [6:45:45<3:33:24,  2.35s/it] 64%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                      | 9556/15000 [6:45:47<3:33:18,  2.35s/it] 64%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                      | 9557/15000 [6:45:50<3:33:27,  2.35s/it] 64%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                      | 9558/15000 [6:45:52<3:33:25,  2.35s/it] 64%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                      | 9559/15000 [6:45:54<3:33:10,  2.35s/it] 64%|���██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                      | 9560/15000 [6:45:57<3:33:15,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.7301, 'grad_norm': 1.75, 'learning_rate': 2.9529909354700493e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3471.77, 'total_tokens': 78097439, 'epoch': 0.64}
+ 64%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                      | 9560/15000 [6:45:57<3:33:15,  2.35s/it] 64%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                      | 9561/15000 [6:45:59<3:33:22,  2.35s/it] 64%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                      | 9562/15000 [6:46:01<3:33:23,  2.35s/it] 64%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                      | 9563/15000 [6:46:04<3:33:27,  2.36s/it] 64%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                      | 9564/15000 [6:46:06<3:33:19,  2.35s/it] 64%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                      | 9565/15000 [6:46:08<3:33:15,  2.35s/it] 64%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                      | 9566/15000 [6:46:11<3:33:04,  2.35s/it] 64%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                      | 9567/15000 [6:46:13<3:32:54,  2.35s/it] 64%|██████████████████████████████████████████████████████████████████████���████████████████████████████████████████████████████▋                                                                      | 9568/15000 [6:46:15<3:32:45,  2.35s/it] 64%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                      | 9569/15000 [6:46:18<3:32:55,  2.35s/it][2025-11-17 04:29:12,384] [INFO] [axolotl.utils.data.wrappers.get_dataset_wrapper:87] [PID:8163] Loading dataset: Goader/kobza-2m-jsonl with base_type: pretrain and prompt_style: None
+
+Tokenizing Prompts (num_proc=64):   0%|                                                                                                                                                                        | 0/10000 [00:00<?, ? examples/s][A
+Tokenizing Prompts (num_proc=64):   2%|██▍                                                                                                                                                           | 157/10000 [00:06<06:19, 25.96 examples/s][A
+Tokenizing Prompts (num_proc=64):   3%|████▉                                                                                                                                                         | 314/10000 [00:06<02:54, 55.48 examples/s][A
+Tokenizing Prompts (num_proc=64):   5%|███████▍                                                                                                                                                      | 471/10000 [00:07<01:52, 84.54 examples/s][A
+Tokenizing Prompts (num_proc=64):   6%|█████████▊                                                                                                                                                   | 628/10000 [00:08<01:24, 111.34 examples/s][A
+Tokenizing Prompts (num_proc=64):   8%|████████████▎                                                                                                                                                | 785/10000 [00:08<01:08, 133.95 examples/s][A
+Tokenizing Prompts (num_proc=64):   9%|██████████████▊                                                                                                                                              | 942/10000 [00:09<00:57, 156.45 examples/s][A
+Tokenizing Prompts (num_proc=64):  11%|█████████████████▏                                                                                                                                          | 1099/10000 [00:10<00:59, 149.99 examples/s][A
+Tokenizing Prompts (num_proc=64):  13%|███████████████████▌                                                                                                                                        | 1256/10000 [00:10<00:44, 197.71 examples/s][A
+Tokenizing Prompts (num_proc=64):  14%|██████████████████████                                                                                                                                      | 1413/10000 [00:11<00:42, 203.86 examples/s][A
+Tokenizing Prompts (num_proc=64):  16%|████████████████████████▍                                                                                                                                   | 1570/10000 [00:12<00:40, 209.88 examples/s][A
+Tokenizing Prompts (num_proc=64):  17%|██████████████████████████▉                                                                                                                                 | 1727/10000 [00:12<00:38, 215.78 examples/s][A
+Tokenizing Prompts (num_proc=64):  19%|█████████████████████████████▍                                                                                                                              | 1884/10000 [00:13<00:37, 216.24 examples/s][A
+Tokenizing Prompts (num_proc=64):  20%|███████████████████████████████▊                                                                                                                            | 2041/10000 [00:14<00:36, 220.44 examples/s][A
+Tokenizing Prompts (num_proc=64):  22%|██████████████████████████████████▎                                                                                                                         | 2198/10000 [00:15<00:35, 222.75 examples/s][A
+Tokenizing Prompts (num_proc=64):  24%|████████████████████████████████████▋                                                                                                                       | 2355/10000 [00:15<00:33, 227.77 examples/s][A
+Tokenizing Prompts (num_proc=64):  25%|███████████████████████████████████████▏                                                                                                                    | 2512/10000 [00:16<00:33, 223.08 examples/s][A
+Tokenizing Prompts (num_proc=64):  27%|█████████████████████████████████████████▌                                                                                                                  | 2668/10000 [00:17<00:32, 227.17 examples/s][A
+Tokenizing Prompts (num_proc=64):  28%|████████████████████████████████████████████                                                                                                                | 2824/10000 [00:18<00:33, 211.55 examples/s][A
+Tokenizing Prompts (num_proc=64):  30%|██████████████████████████████████████████████▍                                                                                                             | 2980/10000 [00:18<00:30, 232.14 examples/s][A
+Tokenizing Prompts (num_proc=64):  31%|████████████████████████████████████████████████▉                                                                                                           | 3136/10000 [00:19<00:35, 193.80 examples/s][A
+Tokenizing Prompts (num_proc=64):  33%|███████████████████████████████████████████████████▎                                                                                                        | 3292/10000 [00:19<00:27, 246.30 examples/s][A
+Tokenizing Prompts (num_proc=64):  34%|█████████████████████████████████████████████████████▊                                                                                                      | 3448/10000 [00:20<00:28, 232.27 examples/s][A
+Tokenizing Prompts (num_proc=64):  36%|████████████████████████████████████████████████████████▏                                                                                                   | 3604/10000 [00:21<00:26, 241.02 examples/s][A
+Tokenizing Prompts (num_proc=64):  38%|██████████████████████████████████████████████████████████▋                                                                                                 | 3760/10000 [00:22<00:31, 198.62 examples/s][A
+Tokenizing Prompts (num_proc=64):  39%|█████████████████████████████████████████████████████████████                                                                                               | 3916/10000 [00:22<00:29, 204.97 examples/s][A
+Tokenizing Prompts (num_proc=64):  41%|███████████████████████████████████████████████████████████████▌                                                                                            | 4072/10000 [00:23<00:22, 258.01 examples/s][A
+Tokenizing Prompts (num_proc=64):  42%|█████████████████████████████████████████████████████████████████▉                                                                                          | 4228/10000 [00:24<00:25, 230.23 examples/s][A
+Tokenizing Prompts (num_proc=64):  44%|████████████████████████████████████████████████████████████████████▍                                                                                       | 4384/10000 [00:24<00:22, 251.12 examples/s][A
+Tokenizing Prompts (num_proc=64):  45%|████████████████████████████████████��█████████████████████████████████▊                                                                                     | 4540/10000 [00:25<00:22, 243.31 examples/s][A
+Tokenizing Prompts (num_proc=64):  47%|█████████████████████████████████████████████████████████████████████████▎                                                                                  | 4696/10000 [00:25<00:22, 239.91 examples/s][A
+Tokenizing Prompts (num_proc=64):  49%|███████████████████████████████████████████████████████████████████████████▋                                                                                | 4852/10000 [00:26<00:21, 235.19 examples/s][A
+Tokenizing Prompts (num_proc=64):  50%|██████████████████████████████████████████████████████████████████████████████                                                                              | 5008/10000 [00:27<00:21, 236.15 examples/s][A
+Tokenizing Prompts (num_proc=64):  52%|████████████████████████████████████████████████████████████████████████████████▌                                                                           | 5164/10000 [00:28<00:22, 213.52 examples/s][A
+Tokenizing Prompts (num_proc=64):  53%|██████████████████████████████████████████████████████████████████████████████████▉                                                                         | 5320/10000 [00:28<00:19, 238.19 examples/s][A
+Tokenizing Prompts (num_proc=64):  55%|█████████████████████████████████████████████████████████████████████████████████████▍                                                                      | 5476/10000 [00:29<00:19, 232.76 examples/s][A
+Tokenizing Prompts (num_proc=64):  56%|███████████████████████████████████████████████████████████████████████████████████████▊                                                                    | 5632/10000 [00:30<00:18, 231.35 examples/s][A
+Tokenizing Prompts (num_proc=64):  58%|██████████████████████████████████████████████████████████████████████████████████████████▎                                                                 | 5788/10000 [00:31<00:21, 193.72 examples/s][A
+Tokenizing Prompts (num_proc=64):  59%|████████████████████████████████████████████████████████████████████████████████████████████▋                                                               | 5944/10000 [00:31<00:16, 240.97 examples/s][A
+Tokenizing Prompts (num_proc=64):  61%|███████████████████████████████████████████████████████████████████████████████████████████████▏                                                            | 6100/10000 [00:32<00:15, 244.40 examples/s][A
+Tokenizing Prompts (num_proc=64):  63%|█████████████████████████████████████████████████████████████████████████████████████████████████▌                                                          | 6256/10000 [00:32<00:15, 238.94 examples/s][A
+Tokenizing Prompts (num_proc=64):  64%|██████████████████████████████████████████████████████████████████████████████████��█████████████████                                                        | 6412/10000 [00:33<00:18, 198.10 examples/s][A
+Tokenizing Prompts (num_proc=64):  66%|██████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                     | 6568/10000 [00:34<00:14, 238.73 examples/s][A
+Tokenizing Prompts (num_proc=64):  67%|████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                   | 6724/10000 [00:34<00:13, 250.67 examples/s][A
+Tokenizing Prompts (num_proc=64):  69%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                | 6880/10000 [00:35<00:12, 240.68 examples/s][A
+Tokenizing Prompts (num_proc=64):  70%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                              | 7036/10000 [00:36<00:12, 237.61 examples/s][A
+Tokenizing Prompts (num_proc=64):  72%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                           | 7192/10000 [00:37<00:12, 224.15 examples/s][A
+Tokenizing Prompts (num_proc=64):  73%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                         | 7348/10000 [00:37<00:11, 240.13 examples/s][A
+Tokenizing Prompts (num_proc=64):  75%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                       | 7504/10000 [00:38<00:10, 235.70 examples/s][A
+Tokenizing Prompts (num_proc=64):  77%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                    | 7660/10000 [00:38<00:09, 236.14 examples/s][A
+Tokenizing Prompts (num_proc=64):  78%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                  | 7816/10000 [00:39<00:09, 229.86 examples/s][A
+Tokenizing Prompts (num_proc=64):  80%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                               | 7972/10000 [00:40<00:08, 234.29 examples/s][A
+Tokenizing Prompts (num_proc=64):  81%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                             | 8128/10000 [00:40<00:08, 228.15 examples/s][A
+Tokenizing Prompts (num_proc=64):  83%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                          | 8284/10000 [00:41<00:07, 234.75 examples/s][A
+Tokenizing Prompts (num_proc=64):  84%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                        | 8440/10000 [00:42<00:06, 223.80 examples/s][A
+Tokenizing Prompts (num_proc=64):  86%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                      | 8596/10000 [00:42<00:05, 238.42 examples/s][A
+Tokenizing Prompts (num_proc=64):  88%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                   | 8752/10000 [00:43<00:05, 234.58 examples/s][A
+Tokenizing Prompts (num_proc=64):  89%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                 | 8908/10000 [00:44<00:05, 197.61 examples/s][A
+Tokenizing Prompts (num_proc=64):  91%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍              | 9064/10000 [00:44<00:03, 246.78 examples/s][A
+Tokenizing Prompts (num_proc=64):  92%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊            | 9220/10000 [00:45<00:03, 247.52 examples/s][A
+Tokenizing Prompts (num_proc=64):  94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎         | 9376/10000 [00:46<00:02, 226.54 examples/s][A
+Tokenizing Prompts (num_proc=64):  95%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋       | 9532/10000 [00:46<00:01, 241.53 examples/s][A
+Tokenizing Prompts (num_proc=64):  97%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏    | 9688/10000 [00:47<00:01, 238.93 examples/s][A
+Tokenizing Prompts (num_proc=64):  98%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌  | 9844/10000 [00:48<00:00, 231.28 examples/s][A
+Tokenizing Prompts (num_proc=64): 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10000/10000 [00:48<00:00, 233.23 examples/s][ATokenizing Prompts (num_proc=64): 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10000/10000 [00:51<00:00, 196.02 examples/s]
+
+Dropping Long Sequences:   0%|                                                                                                                                                                                 | 0/10000 [00:00<?, ? examples/s][A
+Dropping Long Sequences:  10%|████████████████▌                                                                                                                                                    | 1000/10000 [00:01<00:12, 692.91 examples/s][A
+Dropping Long Sequences:  20%|████████████████████████████████▊                                                                                                                                   | 2000/10000 [00:01<00:06, 1306.56 examples/s][A
+Dropping Long Sequences:  30%|█████████████████████████████████████████████████▏                                                                                                                  | 3000/10000 [00:02<00:03, 1860.10 examples/s][A
+Dropping Long Sequences:  40%|█████████████████████████████████████████████████████████████████▌                                                                                                  | 4000/10000 [00:02<00:02, 2265.25 examples/s][A
+Dropping Long Sequences:  50%|██████████████████████████████████████████████████████████████████████████████████                                                                                  | 5000/10000 [00:02<00:01, 2692.20 examples/s][A
+Dropping Long Sequences:  60%|██████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                 | 6000/10000 [00:02<00:01, 2932.68 examples/s][A
+Dropping Long Sequences:  70%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                 | 7000/10000 [00:03<00:00, 3186.56 examples/s][A
+Dropping Long Sequences:  80%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                | 8000/10000 [00:03<00:00, 3403.26 examples/s][A
+Dropping Long Sequences:  90%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                | 9000/10000 [00:03<00:00, 3588.33 examples/s][A
+Dropping Long Sequences: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10000/10000 [00:03<00:00, 3721.10 examples/s][ADropping Long Sequences: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10000/10000 [00:03<00:00, 2581.54 examples/s]
+
+Add position_id column (Pretraining Sample Packing):   0%|                                                                                                                                                      | 0/8722 [00:00<?, ? examples/s][A
+Add position_id column (Pretraining Sample Packing):  11%|███████████████▊                                                                                                                          | 1000/8722 [00:01<00:09, 809.47 examples/s][A
+Add position_id column (Pretraining Sample Packing):  23%|███████████████████████████████▍                                                                                                         | 2000/8722 [00:01<00:04, 1679.69 examples/s][A
+Add position_id column (Pretraining Sample Packing):  34%|███████████████████████████████████████████████                                                                                          | 3000/8722 [00:01<00:02, 2573.74 examples/s][A
+Add position_id column (Pretraining Sample Packing):  46%|██████████████████████████████████████████████████████████████▊                                                                          | 4000/8722 [00:01<00:01, 3365.64 examples/s][A
+Add position_id column (Pretraining Sample Packing):  57%|██████████████████████████████████████████████████████████████████████████████▌                                                          | 5000/8722 [00:01<00:00, 4135.95 examples/s][A
+Add position_id column (Pretraining Sample Packing):  69%|██████████████████████████████████████████████████████████████████████████████████████████████▏                                          | 6000/8722 [00:01<00:00, 4777.37 examples/s][A
+Add position_id column (Pretraining Sample Packing):  80%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                           | 7000/8722 [00:02<00:00, 5339.37 examples/s][A
+Add position_id column (Pretraining Sample Packing):  92%|███████████████████████████████████████████████████��█████████████████████████████████████████████████████████████████████████▋           | 8000/8722 [00:02<00:00, 5506.91 examples/s][A
+Add position_id column (Pretraining Sample Packing): 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 8722/8722 [00:02<00:00, 5820.77 examples/s][AAdd position_id column (Pretraining Sample Packing): 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 8722/8722 [00:02<00:00, 3584.49 examples/s]
+[2025-11-17 04:30:11,246] [DEBUG] [axolotl.utils.samplers.multipack.pack_parallel:177] [PID:8163] Using single process for pack_parallel, running sequentially.
+ 64%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                     | 9570/15000 [6:47:25<33:04:27, 21.93s/it]                                                                                                                                                                                                                                                {'loss': 2.7323, 'grad_norm': 2.34375, 'learning_rate': 2.945599539851849e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3862.23, 'total_tokens': 78177628, 'epoch': 0.64}
+ 64%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                     | 9570/15000 [6:47:25<33:04:27, 21.93s/it] 64%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                     | 9571/15000 [6:47:28<24:12:46, 16.06s/it] 64%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                     | 9572/15000 [6:47:30<18:00:34, 11.94s/it] 64%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                     | 9573/15000 [6:47:32<13:39:42,  9.06s/it] 64%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                     | 9574/15000 [6:47:35<10:37:28,  7.05s/it] 64%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                      | 9575/15000 [6:47:37<8:30:02,  5.64s/it] 64%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                      | 9576/15000 [6:47:40<7:00:41,  4.65s/it] 64%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                      | 9577/15000 [6:47:42<5:58:19,  3.96s/it] 64%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                      | 9578/15000 [6:47:44<5:14:17,  3.48s/it] 64%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                      | 9579/15000 [6:47:47<4:43:40,  3.14s/it] 64%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                      | 9580/15000 [6:47:49<4:22:17,  2.90s/it]                                                                                                                                                                                                                                                {'loss': 2.6835, 'grad_norm': 1.765625, 'learning_rate': 2.9382049800456213e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3489.73, 'total_tokens': 78259482, 'epoch': 0.64}
+ 64%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                      | 9580/15000 [6:47:49<4:22:17,  2.90s/it] 64%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                      | 9581/15000 [6:47:51<4:07:15,  2.74s/it] 64%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                      | 9582/15000 [6:47:54<3:56:54,  2.62s/it] 64%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                      | 9583/15000 [6:47:56<3:49:35,  2.54s/it] 64%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                      | 9584/15000 [6:47:58<3:44:19,  2.49s/it] 64%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                      | 9585/15000 [6:48:01<3:40:41,  2.45s/it] 64%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                      | 9586/15000 [6:48:03<3:38:06,  2.42s/it] 64%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                      | 9587/15000 [6:48:05<3:36:21,  2.40s/it] 64%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                      | 9588/15000 [6:48:08<3:34:52,  2.38s/it] 64%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                      | 9589/15000 [6:48:10<3:33:58,  2.37s/it] 64%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                      | 9590/15000 [6:48:12<3:33:14,  2.37s/it]                                                                                                                                                                                                                                                {'loss': 2.6004, 'grad_norm': 1.7265625, 'learning_rate': 2.930807329032687e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3497.93, 'total_tokens': 78341337, 'epoch': 0.64}
+ 64%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                      | 9590/15000 [6:48:12<3:33:14,  2.37s/it] 64%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                      | 9591/15000 [6:48:15<3:33:01,  2.36s/it] 64%|█████████████████████████████████████���██████████████████████████████████████████████████████████████████████████████████████                                                                      | 9592/15000 [6:48:17<3:32:43,  2.36s/it] 64%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                      | 9593/15000 [6:48:19<3:32:24,  2.36s/it] 64%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                      | 9594/15000 [6:48:22<3:32:06,  2.35s/it] 64%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                      | 9595/15000 [6:48:24<3:32:05,  2.35s/it] 64%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                      | 9596/15000 [6:48:27<3:31:56,  2.35s/it] 64%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                      | 9597/15000 [6:48:29<3:31:51,  2.35s/it] 64%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                     | 9598/15000 [6:48:31<3:31:40,  2.35s/it] 64%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                     | 9599/15000 [6:48:34<3:31:38,  2.35s/it] 64%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                     | 9600/15000 [6:48:36<3:31:32,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6414, 'grad_norm': 1.75, 'learning_rate': 2.9234066598248744e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3495.51, 'total_tokens': 78423195, 'epoch': 0.64}
+ 64%|█████████████████████████████████████████████████████████████████████████████████████████████████████████���██████████████████▏                                                                     | 9600/15000 [6:48:36<3:31:32,  2.35s/it] 64%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                     | 9601/15000 [6:48:38<3:31:37,  2.35s/it] 64%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                     | 9602/15000 [6:48:41<3:31:37,  2.35s/it] 64%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                     | 9603/15000 [6:48:43<3:31:37,  2.35s/it] 64%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                     | 9604/15000 [6:48:45<3:31:38,  2.35s/it] 64%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                     | 9605/15000 [6:48:48<3:31:23,  2.35s/it] 64%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                     | 9606/15000 [6:48:50<3:31:26,  2.35s/it] 64%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                     | 9607/15000 [6:48:52<3:31:42,  2.36s/it] 64%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                     | 9608/15000 [6:48:55<3:31:32,  2.35s/it] 64%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                     | 9609/15000 [6:48:57<3:31:27,  2.35s/it] 64%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                     | 9610/15000 [6:48:59<3:31:28,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6983, 'grad_norm': 1.6640625, 'learning_rate': 2.916003045463801e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3480.57, 'total_tokens': 78504949, 'epoch': 0.64}
+ 64%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                     | 9610/15000 [6:48:59<3:31:28,  2.35s/it] 64%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                     | 9611/15000 [6:49:02<3:31:30,  2.35s/it] 64%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                     | 9612/15000 [6:49:04<3:31:18,  2.35s/it] 64%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                     | 9613/15000 [6:49:07<3:31:11,  2.35s/it] 64%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                     | 9614/15000 [6:49:09<3:31:09,  2.35s/it] 64%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                     | 9615/15000 [6:49:11<3:31:06,  2.35s/it] 64%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                     | 9616/15000 [6:49:14<3:31:01,  2.35s/it] 64%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                     | 9617/15000 [6:49:16<3:30:52,  2.35s/it] 64%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                     | 9618/15000 [6:49:18<3:30:59,  2.35s/it] 64%|██████████████████████████████████████████████████████████████████████████���█████████████████████████████████████████████████▍                                                                     | 9619/15000 [6:49:21<3:30:55,  2.35s/it] 64%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                     | 9620/15000 [6:49:23<3:31:00,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6422, 'grad_norm': 1.8046875, 'learning_rate': 2.9085965590201512e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3481.22, 'total_tokens': 78586722, 'epoch': 0.64}
+ 64%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                     | 9620/15000 [6:49:23<3:31:00,  2.35s/it] 64%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                     | 9621/15000 [6:49:25<3:31:08,  2.36s/it] 64%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                     | 9622/15000 [6:49:28<3:30:53,  2.35s/it] 64%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                     | 9623/15000 [6:49:30<3:30:51,  2.35s/it] 64%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                     | 9624/15000 [6:49:32<3:30:51,  2.35s/it] 64%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                     | 9625/15000 [6:49:35<3:30:47,  2.35s/it] 64%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                     | 9626/15000 [6:49:37<3:30:46,  2.35s/it] 64%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                     | 9627/15000 [6:49:39<3:30:46,  2.35s/it] 64%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                     | 9628/15000 [6:49:42<3:30:44,  2.35s/it] 64%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                     | 9629/15000 [6:49:44<3:30:49,  2.36s/it] 64%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                     | 9630/15000 [6:49:47<3:30:42,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6339, 'grad_norm': 1.8671875, 'learning_rate': 2.901187273592958e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3489.38, 'total_tokens': 78668544, 'epoch': 0.64}
+ 64%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                     | 9630/15000 [6:49:47<3:30:42,  2.35s/it] 64%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                     | 9631/15000 [6:49:49<3:30:46,  2.36s/it] 64%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                     | 9632/15000 [6:49:51<3:30:38,  2.35s/it] 64%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                     | 9633/15000 [6:49:54<3:30:28,  2.35s/it] 64%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                     | 9634/15000 [6:49:56<3:30:25,  2.35s/it] 64%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                     | 9635/15000 [6:49:58<3:30:20,  2.35s/it] 64%|███████████████████████████████████��████████████████████████████████████████████████████████████████████████████████████████▋                                                                     | 9636/15000 [6:50:01<3:30:27,  2.35s/it] 64%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                     | 9637/15000 [6:50:03<3:30:19,  2.35s/it] 64%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                     | 9638/15000 [6:50:05<3:30:26,  2.35s/it] 64%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                     | 9639/15000 [6:50:08<3:30:19,  2.35s/it] 64%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                     | 9640/15000 [6:50:10<3:30:19,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.7111, 'grad_norm': 1.828125, 'learning_rate': 2.8937752623088737e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3483.74, 'total_tokens': 78750357, 'epoch': 0.64}
+ 64%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                     | 9640/15000 [6:50:10<3:30:19,  2.35s/it] 64%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                     | 9641/15000 [6:50:12<3:30:16,  2.35s/it] 64%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                     | 9642/15000 [6:50:15<3:30:12,  2.35s/it] 64%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                     | 9643/15000 [6:50:17<3:30:11,  2.35s/it] 64%|██████████████████████████████████████████████████████████████████████████████████████████████████���█████████████████████████▋                                                                     | 9644/15000 [6:50:19<3:30:10,  2.35s/it] 64%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                     | 9645/15000 [6:50:22<3:29:45,  2.35s/it] 64%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                     | 9646/15000 [6:50:24<3:29:50,  2.35s/it] 64%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                     | 9647/15000 [6:50:27<3:30:00,  2.35s/it] 64%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                     | 9648/15000 [6:50:29<3:29:46,  2.35s/it] 64%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                     | 9649/15000 [6:50:31<3:29:47,  2.35s/it] 64%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                     | 9650/15000 [6:50:34<3:29:42,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6395, 'grad_norm': 2.0, 'learning_rate': 2.8863605983214605e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3490.48, 'total_tokens': 78832169, 'epoch': 0.64}
+ 64%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                     | 9650/15000 [6:50:34<3:29:42,  2.35s/it] 64%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                     | 9651/15000 [6:50:36<3:29:52,  2.35s/it] 64%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                     | 9652/15000 [6:50:38<3:29:37,  2.35s/it] 64%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                     | 9653/15000 [6:50:41<3:29:35,  2.35s/it] 64%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                     | 9654/15000 [6:50:43<3:29:52,  2.36s/it] 64%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                     | 9655/15000 [6:50:45<3:29:34,  2.35s/it] 64%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                     | 9656/15000 [6:50:48<3:29:16,  2.35s/it] 64%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                     | 9657/15000 [6:50:50<3:29:16,  2.35s/it] 64%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                     | 9658/15000 [6:50:52<3:29:28,  2.35s/it] 64%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                     | 9659/15000 [6:50:55<3:29:24,  2.35s/it] 64%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                     | 9660/15000 [6:50:57<3:29:25,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.5974, 'grad_norm': 1.7421875, 'learning_rate': 2.878943354810457e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3487.23, 'total_tokens': 78914025, 'epoch': 0.64}
+ 64%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                     | 9660/15000 [6:50:57<3:29:25,  2.35s/it] 64%|█████████████████████████████████████████████████████████████��██████████████████████████████████████████████████████████████▉                                                                     | 9661/15000 [6:50:59<3:29:25,  2.35s/it] 64%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                     | 9662/15000 [6:51:02<3:29:25,  2.35s/it] 64%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                     | 9663/15000 [6:51:04<3:29:21,  2.35s/it] 64%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                     | 9664/15000 [6:51:07<3:29:22,  2.35s/it] 64%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                     | 9665/15000 [6:51:09<3:29:13,  2.35s/it] 64%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                     | 9666/15000 [6:51:11<3:29:14,  2.35s/it] 64%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                     | 9667/15000 [6:51:14<3:29:01,  2.35s/it] 64%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                     | 9668/15000 [6:51:16<3:29:05,  2.35s/it] 64%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                     | 9669/15000 [6:51:18<3:28:57,  2.35s/it] 64%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                     | 9670/15000 [6:51:21<3:28:56,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.75, 'grad_norm': 1.765625, 'learning_rate': 2.8715236049810627e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3489.75, 'total_tokens': 78995880, 'epoch': 0.64}
+ 64%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                     | 9670/15000 [6:51:21<3:28:56,  2.35s/it] 64%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                     | 9671/15000 [6:51:23<3:28:48,  2.35s/it] 64%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                     | 9672/15000 [6:51:25<3:28:48,  2.35s/it] 64%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                     | 9673/15000 [6:51:28<3:28:47,  2.35s/it] 64%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                     | 9674/15000 [6:51:30<3:28:49,  2.35s/it] 64%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                    | 9675/15000 [6:51:32<3:28:45,  2.35s/it] 65%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                    | 9676/15000 [6:51:35<3:28:57,  2.35s/it] 65%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                    | 9677/15000 [6:51:37<3:28:43,  2.35s/it] 65%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                    | 9678/15000 [6:51:39<3:28:33,  2.35s/it] 65%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                    | 9679/15000 [6:51:42<3:28:44,  2.35s/it] 65%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                    | 9680/15000 [6:51:44<3:28:37,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6748, 'grad_norm': 1.6015625, 'learning_rate': 2.8641014220632134e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3489.26, 'total_tokens': 79077654, 'epoch': 0.65}
+ 65%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                    | 9680/15000 [6:51:44<3:28:37,  2.35s/it] 65%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                    | 9681/15000 [6:51:47<3:28:44,  2.35s/it] 65%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                    | 9682/15000 [6:51:49<3:28:37,  2.35s/it] 65%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                    | 9683/15000 [6:51:51<3:28:26,  2.35s/it] 65%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                    | 9684/15000 [6:51:54<3:28:27,  2.35s/it] 65%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                    | 9685/15000 [6:51:56<3:28:41,  2.36s/it] 65%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                    | 9686/15000 [6:51:58<3:28:27,  2.35s/it] 65%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                    | 9687/15000 [6:52:01<3:28:26,  2.35s/it] 65%|████████████████████████████████████████████████████████████████████████████████████���████████████████████████████████████████▎                                                                    | 9688/15000 [6:52:03<3:28:28,  2.35s/it] 65%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                    | 9689/15000 [6:52:05<3:28:33,  2.36s/it] 65%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                    | 9690/15000 [6:52:08<3:28:26,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.7389, 'grad_norm': 1.7734375, 'learning_rate': 2.8566768793108568e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3484.71, 'total_tokens': 79159422, 'epoch': 0.65}
+ 65%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                    | 9690/15000 [6:52:08<3:28:26,  2.36s/it] 65%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                    | 9691/15000 [6:52:10<3:28:28,  2.36s/it] 65%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                    | 9692/15000 [6:52:12<3:28:14,  2.35s/it] 65%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                    | 9693/15000 [6:52:15<3:28:09,  2.35s/it] 65%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                    | 9694/15000 [6:52:17<3:28:07,  2.35s/it] 65%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                    | 9695/15000 [6:52:19<3:27:58,  2.35s/it] 65%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                    | 9696/15000 [6:52:22<3:27:51,  2.35s/it] 65%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                    | 9697/15000 [6:52:24<3:27:48,  2.35s/it] 65%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                    | 9698/15000 [6:52:27<3:27:51,  2.35s/it] 65%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                    | 9699/15000 [6:52:29<3:27:55,  2.35s/it] 65%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                    | 9700/15000 [6:52:31<3:28:00,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6606, 'grad_norm': 1.8359375, 'learning_rate': 2.8492500500012326e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3478.16, 'total_tokens': 79241201, 'epoch': 0.65}
+ 65%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                    | 9700/15000 [6:52:31<3:28:00,  2.35s/it] 65%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                    | 9701/15000 [6:52:34<3:27:45,  2.35s/it] 65%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                    | 9702/15000 [6:52:36<3:27:41,  2.35s/it] 65%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                    | 9703/15000 [6:52:38<3:27:39,  2.35s/it] 65%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                    | 9704/15000 [6:52:41<3:27:45,  2.35s/it] 65%|████████████████████████████████��████████████████████████████████████████████████████████████████████████████████████████████▌                                                                    | 9705/15000 [6:52:43<3:27:45,  2.35s/it] 65%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                    | 9706/15000 [6:52:45<3:27:25,  2.35s/it] 65%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                    | 9707/15000 [6:52:48<3:27:14,  2.35s/it] 65%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                    | 9708/15000 [6:52:50<3:27:12,  2.35s/it] 65%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                    | 9709/15000 [6:52:52<3:27:17,  2.35s/it] 65%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                    | 9710/15000 [6:52:55<3:27:31,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6481, 'grad_norm': 1.7578125, 'learning_rate': 2.8418210074341496e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3474.27, 'total_tokens': 79322994, 'epoch': 0.65}
+ 65%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                    | 9710/15000 [6:52:55<3:27:31,  2.35s/it] 65%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                    | 9711/15000 [6:52:57<3:27:32,  2.35s/it] 65%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                    | 9712/15000 [6:52:59<3:27:23,  2.35s/it] 65%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                    | 9713/15000 [6:53:02<3:27:11,  2.35s/it] 65%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                    | 9714/15000 [6:53:04<3:27:13,  2.35s/it] 65%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                    | 9715/15000 [6:53:07<3:27:17,  2.35s/it] 65%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                    | 9716/15000 [6:53:09<3:27:20,  2.35s/it] 65%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                    | 9717/15000 [6:53:11<3:27:14,  2.35s/it] 65%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                    | 9718/15000 [6:53:14<3:27:18,  2.35s/it] 65%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                    | 9719/15000 [6:53:16<3:27:05,  2.35s/it] 65%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                    | 9720/15000 [6:53:18<3:27:03,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.7034, 'grad_norm': 3.125, 'learning_rate': 2.8343898249312567e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3487.24, 'total_tokens': 79404801, 'epoch': 0.65}
+ 65%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                    | 9720/15000 [6:53:18<3:27:03,  2.35s/it] 65%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                    | 9721/15000 [6:53:21<3:27:05,  2.35s/it] 65%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                    | 9722/15000 [6:53:23<3:26:47,  2.35s/it] 65%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                    | 9723/15000 [6:53:25<3:26:43,  2.35s/it] 65%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                    | 9724/15000 [6:53:28<3:26:37,  2.35s/it] 65%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                    | 9725/15000 [6:53:30<3:26:27,  2.35s/it] 65%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                    | 9726/15000 [6:53:32<3:26:29,  2.35s/it] 65%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                    | 9727/15000 [6:53:35<3:26:40,  2.35s/it] 65%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                    | 9728/15000 [6:53:37<3:26:35,  2.35s/it] 65%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                    | 9729/15000 [6:53:39<3:26:38,  2.35s/it] 65%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                    | 9730/15000 [6:53:42<3:26:32,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6863, 'grad_norm': 1.671875, 'learning_rate': 2.8269565758353262e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3492.11, 'total_tokens': 79486628, 'epoch': 0.65}
+ 65%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                    | 9730/15000 [6:53:42<3:26:32,  2.35s/it] 65%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                    | 9731/15000 [6:53:44<3:26:51,  2.36s/it] 65%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                    | 9732/15000 [6:53:47<3:26:52,  2.36s/it] 65%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                    | 9733/15000 [6:53:49<3:26:48,  2.36s/it] 65%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                    | 9734/15000 [6:53:51<3:26:49,  2.36s/it] 65%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                    | 9735/15000 [6:53:54<3:26:42,  2.36s/it] 65%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                    | 9736/15000 [6:53:56<3:26:19,  2.35s/it] 65%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                    | 9737/15000 [6:53:58<3:26:23,  2.35s/it] 65%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                    | 9738/15000 [6:54:01<3:26:12,  2.35s/it] 65%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                    | 9739/15000 [6:54:03<3:26:36,  2.36s/it] 65%|██████████████████████████████████████████████████████████████████████████████████████████████████████���██████████████████████▉                                                                    | 9740/15000 [6:54:05<3:26:39,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.7506, 'grad_norm': 1.6953125, 'learning_rate': 2.819521333509525e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3476.81, 'total_tokens': 79568423, 'epoch': 0.65}
+ 65%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                    | 9740/15000 [6:54:05<3:26:39,  2.36s/it] 65%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                    | 9741/15000 [6:54:08<3:26:30,  2.36s/it] 65%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                    | 9742/15000 [6:54:10<3:26:21,  2.35s/it] 65%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                    | 9743/15000 [6:54:12<3:26:18,  2.35s/it] 65%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                    | 9744/15000 [6:54:15<3:26:17,  2.35s/it] 65%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                    | 9745/15000 [6:54:17<3:26:17,  2.36s/it] 65%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                    | 9746/15000 [6:54:19<3:26:10,  2.35s/it] 65%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                    | 9747/15000 [6:54:22<3:26:07,  2.35s/it] 65%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                    | 9748/15000 [6:54:24<3:26:07,  2.35s/it] 65%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                    | 9749/15000 [6:54:27<3:26:07,  2.36s/it] 65%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                    | 9750/15000 [6:54:29<3:26:11,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.6292, 'grad_norm': 1.8671875, 'learning_rate': 2.8120841713366936e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3474.87, 'total_tokens': 79650155, 'epoch': 0.65}
+ 65%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                    | 9750/15000 [6:54:29<3:26:11,  2.36s/it] 65%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                    | 9751/15000 [6:54:31<3:25:57,  2.35s/it] 65%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                   | 9752/15000 [6:54:34<3:38:53,  2.50s/it] 65%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                   | 9753/15000 [6:54:36<3:35:06,  2.46s/it] 65%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                   | 9754/15000 [6:54:39<3:32:34,  2.43s/it] 65%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                   | 9755/15000 [6:54:41<3:30:26,  2.41s/it] 65%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                   | 9756/15000 [6:54:44<3:28:51,  2.39s/it] 65%|███████████████████████████████████████████████��██████████████████████████████████████████████████████████████████████████████▏                                                                   | 9757/15000 [6:54:46<3:28:02,  2.38s/it] 65%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                   | 9758/15000 [6:54:48<3:27:10,  2.37s/it] 65%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                   | 9759/15000 [6:54:51<3:26:47,  2.37s/it] 65%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                   | 9760/15000 [6:54:53<3:26:26,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.736, 'grad_norm': 1.7265625, 'learning_rate': 2.80464516271862e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3484.84, 'total_tokens': 79732002, 'epoch': 0.65}
+ 65%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                   | 9760/15000 [6:54:53<3:26:26,  2.36s/it] 65%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                   | 9761/15000 [6:54:55<3:26:17,  2.36s/it] 65%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                   | 9762/15000 [6:54:58<3:26:00,  2.36s/it] 65%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                   | 9763/15000 [6:55:00<3:25:47,  2.36s/it] 65%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                   | 9764/15000 [6:55:02<3:25:38,  2.36s/it] 65%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                   | 9765/15000 [6:55:05<3:25:18,  2.35s/it] 65%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                   | 9766/15000 [6:55:07<3:25:22,  2.35s/it] 65%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                   | 9767/15000 [6:55:09<3:25:10,  2.35s/it] 65%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                   | 9768/15000 [6:55:12<3:25:13,  2.35s/it] 65%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                   | 9769/15000 [6:55:14<3:25:10,  2.35s/it] 65%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                   | 9770/15000 [6:55:16<3:25:08,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.7026, 'grad_norm': 2.6875, 'learning_rate': 2.797204381075316e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3485.35, 'total_tokens': 79813799, 'epoch': 0.65}
+ 65%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                   | 9770/15000 [6:55:17<3:25:08,  2.35s/it] 65%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                   | 9771/15000 [6:55:19<3:25:01,  2.35s/it] 65%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                   | 9772/15000 [6:55:21<3:24:46,  2.35s/it] 65%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                   | 9773/15000 [6:55:24<3:25:01,  2.35s/it] 65%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                   | 9774/15000 [6:55:26<3:24:58,  2.35s/it] 65%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                   | 9775/15000 [6:55:28<3:25:01,  2.35s/it] 65%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                   | 9776/15000 [6:55:31<3:25:00,  2.35s/it] 65%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                   | 9777/15000 [6:55:33<3:25:07,  2.36s/it] 65%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                   | 9778/15000 [6:55:35<3:24:58,  2.36s/it] 65%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                   | 9779/15000 [6:55:38<3:24:59,  2.36s/it] 65%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                   | 9780/15000 [6:55:40<3:25:00,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.6561, 'grad_norm': 1.7421875, 'learning_rate': 2.7897618998442927e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3473.68, 'total_tokens': 79895473, 'epoch': 0.65}
+ 65%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                   | 9780/15000 [6:55:40<3:25:00,  2.36s/it] 65%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                   | 9781/15000 [6:55:42<3:25:04,  2.36s/it] 65%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                   | 9782/15000 [6:55:45<3:24:55,  2.36s/it] 65%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                   | 9783/15000 [6:55:47<3:24:48,  2.36s/it] 65%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                   | 9784/15000 [6:55:49<3:24:52,  2.36s/it] 65%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                   | 9785/15000 [6:55:52<3:24:39,  2.35s/it] 65%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                   | 9786/15000 [6:55:54<3:24:38,  2.35s/it] 65%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                   | 9787/15000 [6:55:57<3:24:33,  2.35s/it] 65%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                   | 9788/15000 [6:55:59<3:24:35,  2.36s/it] 65%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                   | 9789/15000 [6:56:01<3:24:27,  2.35s/it] 65%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                   | 9790/15000 [6:56:04<3:24:29,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6186, 'grad_norm': 1.7734375, 'learning_rate': 2.782317792479835e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3476.78, 'total_tokens': 79977169, 'epoch': 0.65}
+ 65%|██████████████████████████████████████████████████████████████████████████████████████��███████████████████████████████████████▌                                                                   | 9790/15000 [6:56:04<3:24:29,  2.35s/it] 65%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                   | 9791/15000 [6:56:06<3:24:32,  2.36s/it] 65%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                   | 9792/15000 [6:56:08<3:24:32,  2.36s/it] 65%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                   | 9793/15000 [6:56:11<3:24:18,  2.35s/it] 65%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                   | 9794/15000 [6:56:13<3:24:13,  2.35s/it] 65%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                   | 9795/15000 [6:56:15<3:24:11,  2.35s/it] 65%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                   | 9796/15000 [6:56:18<3:24:13,  2.35s/it] 65%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                   | 9797/15000 [6:56:20<3:24:12,  2.35s/it] 65%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                   | 9798/15000 [6:56:22<3:24:08,  2.35s/it] 65%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                   | 9799/15000 [6:56:25<3:23:57,  2.35s/it] 65%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                   | 9800/15000 [6:56:27<3:24:06,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.6777, 'grad_norm': 1.6953125, 'learning_rate': 2.774872132452277e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3471.91, 'total_tokens': 80058859, 'epoch': 0.65}
+ 65%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                   | 9800/15000 [6:56:27<3:24:06,  2.36s/it] 65%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                   | 9801/15000 [6:56:29<3:24:03,  2.35s/it] 65%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                   | 9802/15000 [6:56:32<3:24:04,  2.36s/it] 65%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                   | 9803/15000 [6:56:34<3:23:58,  2.36s/it] 65%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                   | 9804/15000 [6:56:37<3:24:00,  2.36s/it] 65%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                   | 9805/15000 [6:56:39<3:23:50,  2.35s/it] 65%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                   | 9806/15000 [6:56:41<3:24:06,  2.36s/it] 65%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                   | 9807/15000 [6:56:44<3:24:01,  2.36s/it] 65%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                   | 9808/15000 [6:56:46<3:23:54,  2.36s/it] 65%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                   | 9809/15000 [6:56:48<3:23:53,  2.36s/it] 65%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                   | 9810/15000 [6:56:51<3:23:32,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6155, 'grad_norm': 1.8203125, 'learning_rate': 2.7674249932472772e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3494.4, 'total_tokens': 80140549, 'epoch': 0.65}
+ 65%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                   | 9810/15000 [6:56:51<3:23:32,  2.35s/it] 65%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                   | 9811/15000 [6:56:53<3:23:35,  2.35s/it] 65%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                   | 9812/15000 [6:56:55<3:23:39,  2.36s/it] 65%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                   | 9813/15000 [6:56:58<3:23:38,  2.36s/it] 65%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                   | 9814/15000 [6:57:00<3:23:28,  2.35s/it] 65%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                   | 9815/15000 [6:57:02<3:23:35,  2.36s/it] 65%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                   | 9816/15000 [6:57:05<3:23:28,  2.35s/it] 65%|███████████████████████████████████████████████████████████████████████████████��██████████████████████████████████████████████▉                                                                   | 9817/15000 [6:57:07<3:23:24,  2.35s/it] 65%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                   | 9818/15000 [6:57:10<3:23:29,  2.36s/it] 65%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                   | 9819/15000 [6:57:12<3:23:34,  2.36s/it] 65%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                   | 9820/15000 [6:57:14<3:23:28,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.6685, 'grad_norm': 1.671875, 'learning_rate': 2.759976448365095e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3480.63, 'total_tokens': 80222282, 'epoch': 0.65}
+ 65%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                   | 9820/15000 [6:57:14<3:23:28,  2.36s/it] 65%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                   | 9821/15000 [6:57:17<3:23:26,  2.36s/it] 65%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                   | 9822/15000 [6:57:19<3:23:28,  2.36s/it] 65%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                   | 9823/15000 [6:57:21<3:23:36,  2.36s/it] 65%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                   | 9824/15000 [6:57:24<3:23:36,  2.36s/it] 66%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                   | 9825/15000 [6:57:26<3:23:18,  2.36s/it] 66%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                   | 9826/15000 [6:57:28<3:23:06,  2.36s/it] 66%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                   | 9827/15000 [6:57:31<3:23:02,  2.35s/it] 66%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                   | 9828/15000 [6:57:33<3:23:04,  2.36s/it] 66%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                   | 9829/15000 [6:57:35<3:22:51,  2.35s/it] 66%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                  | 9830/15000 [6:57:38<3:22:54,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6576, 'grad_norm': 1.7734375, 'learning_rate': 2.7525265713198577e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3480.35, 'total_tokens': 80304060, 'epoch': 0.66}
+ 66%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                  | 9830/15000 [6:57:38<3:22:54,  2.35s/it] 66%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                  | 9831/15000 [6:57:40<3:22:55,  2.36s/it] 66%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                  | 9832/15000 [6:57:43<3:22:49,  2.35s/it] 66%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                  | 9833/15000 [6:57:45<3:22:36,  2.35s/it] 66%|████████████��██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                  | 9834/15000 [6:57:47<3:22:40,  2.35s/it] 66%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                  | 9835/15000 [6:57:50<3:22:45,  2.36s/it] 66%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                  | 9836/15000 [6:57:52<3:22:37,  2.35s/it] 66%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                  | 9837/15000 [6:57:54<3:22:24,  2.35s/it] 66%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                  | 9838/15000 [6:57:57<3:22:19,  2.35s/it] 66%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                  | 9839/15000 [6:57:59<3:22:33,  2.35s/it] 66%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                  | 9840/15000 [6:58:01<3:22:24,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6858, 'grad_norm': 1.6796875, 'learning_rate': 2.745075435638847e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3488.1, 'total_tokens': 80385801, 'epoch': 0.66}
+ 66%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                  | 9840/15000 [6:58:01<3:22:24,  2.35s/it] 66%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                  | 9841/15000 [6:58:04<3:22:09,  2.35s/it] 66%|█████████████████████████████████████████████████████████��█████████████████████████████████████████████████████████████████████▎                                                                  | 9842/15000 [6:58:06<3:22:29,  2.36s/it] 66%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                  | 9843/15000 [6:58:08<3:22:05,  2.35s/it] 66%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                  | 9844/15000 [6:58:11<3:22:05,  2.35s/it] 66%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                  | 9845/15000 [6:58:13<3:22:04,  2.35s/it] 66%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                  | 9846/15000 [6:58:15<3:21:55,  2.35s/it] 66%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                  | 9847/15000 [6:58:18<3:21:55,  2.35s/it] 66%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                  | 9848/15000 [6:58:20<3:21:54,  2.35s/it] 66%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                  | 9849/15000 [6:58:23<3:21:53,  2.35s/it] 66%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                  | 9850/15000 [6:58:25<3:21:58,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6233, 'grad_norm': 1.765625, 'learning_rate': 2.7376231148617625e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3478.56, 'total_tokens': 80467538, 'epoch': 0.66}
+ 66%|██████████████████████████████████████████████████████████████████████████████████████████████████████���████████████████████████▍                                                                  | 9850/15000 [6:58:25<3:21:58,  2.35s/it] 66%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                  | 9851/15000 [6:58:27<3:21:51,  2.35s/it] 66%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                  | 9852/15000 [6:58:30<3:21:49,  2.35s/it] 66%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                  | 9853/15000 [6:58:32<3:21:50,  2.35s/it] 66%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                  | 9854/15000 [6:58:34<3:21:50,  2.35s/it] 66%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                  | 9855/15000 [6:58:37<3:21:40,  2.35s/it] 66%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                  | 9856/15000 [6:58:39<3:21:41,  2.35s/it] 66%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                  | 9857/15000 [6:58:41<3:21:40,  2.35s/it] 66%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                  | 9858/15000 [6:58:44<3:21:30,  2.35s/it] 66%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                  | 9859/15000 [6:58:46<3:21:19,  2.35s/it] 66%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                  | 9860/15000 [6:58:48<3:21:26,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.7129, 'grad_norm': 1.734375, 'learning_rate': 2.7301696825400026e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3479.33, 'total_tokens': 80549274, 'epoch': 0.66}
+ 66%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                  | 9860/15000 [6:58:48<3:21:26,  2.35s/it] 66%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                  | 9861/15000 [6:58:51<3:21:21,  2.35s/it] 66%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                  | 9862/15000 [6:58:53<3:21:33,  2.35s/it] 66%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                  | 9863/15000 [6:58:55<3:21:39,  2.36s/it] 66%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                  | 9864/15000 [6:58:58<3:21:23,  2.35s/it] 66%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                  | 9865/15000 [6:59:00<3:21:22,  2.35s/it] 66%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                  | 9866/15000 [6:59:03<3:21:23,  2.35s/it] 66%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                  | 9867/15000 [6:59:05<3:21:28,  2.36s/it] 66%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                  | 9868/15000 [6:59:07<3:21:19,  2.35s/it] 66%|███████████████████████████████���███████████████████████████████████████████████████████████████████████████████████████████████▋                                                                  | 9869/15000 [6:59:10<3:21:14,  2.35s/it] 66%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                  | 9870/15000 [6:59:12<3:21:10,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6483, 'grad_norm': 1.7265625, 'learning_rate': 2.7227152122359345e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3484.57, 'total_tokens': 80631007, 'epoch': 0.66}
+ 66%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                  | 9870/15000 [6:59:12<3:21:10,  2.35s/it] 66%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                  | 9871/15000 [6:59:14<3:21:20,  2.36s/it] 66%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                  | 9872/15000 [6:59:17<3:21:22,  2.36s/it] 66%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                  | 9873/15000 [6:59:19<3:21:16,  2.36s/it] 66%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                  | 9874/15000 [6:59:21<3:21:06,  2.35s/it] 66%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                  | 9875/15000 [6:59:24<3:21:11,  2.36s/it] 66%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                  | 9876/15000 [6:59:26<3:21:16,  2.36s/it] 66%|███████████████████████████████████████████████████████████████████████████��███████████████████████████████████████████████████▋                                                                  | 9877/15000 [6:59:28<3:21:15,  2.36s/it] 66%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                  | 9878/15000 [6:59:31<3:21:09,  2.36s/it] 66%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                  | 9879/15000 [6:59:33<3:21:04,  2.36s/it] 66%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                  | 9880/15000 [6:59:35<3:20:51,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6998, 'grad_norm': 1.78125, 'learning_rate': 2.7152597775221704e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3487.81, 'total_tokens': 80712693, 'epoch': 0.66}
+ 66%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                  | 9880/15000 [6:59:35<3:20:51,  2.35s/it] 66%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                  | 9881/15000 [6:59:38<3:20:48,  2.35s/it] 66%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                  | 9882/15000 [6:59:40<3:20:45,  2.35s/it] 66%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                  | 9883/15000 [6:59:43<3:20:44,  2.35s/it] 66%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                  | 9884/15000 [6:59:45<3:20:43,  2.35s/it] 66%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████��██████▊                                                                  | 9885/15000 [6:59:47<3:20:52,  2.36s/it] 66%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                  | 9886/15000 [6:59:50<3:20:34,  2.35s/it] 66%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                  | 9887/15000 [6:59:52<3:20:37,  2.35s/it] 66%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                  | 9888/15000 [6:59:54<3:20:33,  2.35s/it] 66%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                  | 9889/15000 [6:59:57<3:20:23,  2.35s/it] 66%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                  | 9890/15000 [6:59:59<3:20:20,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.7057, 'grad_norm': 1.6953125, 'learning_rate': 2.707803451980842e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3483.66, 'total_tokens': 80794396, 'epoch': 0.66}
+ 66%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                  | 9890/15000 [6:59:59<3:20:20,  2.35s/it] 66%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                  | 9891/15000 [7:00:01<3:20:17,  2.35s/it] 66%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                  | 9892/15000 [7:00:04<3:20:08,  2.35s/it] 66%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                  | 9893/15000 [7:00:06<3:20:13,  2.35s/it] 66%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                  | 9894/15000 [7:00:08<3:20:05,  2.35s/it] 66%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                  | 9895/15000 [7:00:11<3:19:45,  2.35s/it] 66%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                  | 9896/15000 [7:00:13<3:19:51,  2.35s/it] 66%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                  | 9897/15000 [7:00:15<3:20:12,  2.35s/it] 66%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                  | 9898/15000 [7:00:18<3:20:12,  2.35s/it] 66%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                  | 9899/15000 [7:00:20<3:20:10,  2.35s/it] 66%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                  | 9900/15000 [7:00:23<3:20:01,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.7317, 'grad_norm': 1.765625, 'learning_rate': 2.700346309202872e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3484.36, 'total_tokens': 80876027, 'epoch': 0.66}
+ 66%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                  | 9900/15000 [7:00:23<3:20:01,  2.35s/it] 66%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                  | 9901/15000 [7:00:25<3:20:07,  2.35s/it] 66%|████████████████████████████████████████████��███████████████████████████████████████████████████████████████████████████████████                                                                  | 9902/15000 [7:00:27<3:20:08,  2.36s/it] 66%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                  | 9903/15000 [7:00:30<3:20:00,  2.35s/it] 66%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                  | 9904/15000 [7:00:32<3:19:43,  2.35s/it] 66%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                  | 9905/15000 [7:00:34<3:19:51,  2.35s/it] 66%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                  | 9906/15000 [7:00:37<3:19:57,  2.36s/it] 66%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                 | 9907/15000 [7:00:39<3:19:48,  2.35s/it] 66%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                 | 9908/15000 [7:00:41<3:19:48,  2.35s/it] 66%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                 | 9909/15000 [7:00:44<3:19:42,  2.35s/it] 66%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                 | 9910/15000 [7:00:46<3:19:39,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6421, 'grad_norm': 1.6640625, 'learning_rate': 2.6928884227872485e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3477.72, 'total_tokens': 80957619, 'epoch': 0.66}
+ 66%|██████████████████████████████████████████████████████████████████████████████████████���█████████████████████████████████████████▏                                                                 | 9910/15000 [7:00:46<3:19:39,  2.35s/it] 66%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                 | 9911/15000 [7:00:48<3:19:37,  2.35s/it] 66%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                 | 9912/15000 [7:00:51<3:19:39,  2.35s/it] 66%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                 | 9913/15000 [7:00:53<3:19:42,  2.36s/it] 66%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                 | 9914/15000 [7:00:56<3:19:31,  2.35s/it] 66%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                 | 9915/15000 [7:00:58<3:19:34,  2.35s/it] 66%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                 | 9916/15000 [7:01:00<3:19:19,  2.35s/it] 66%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                 | 9917/15000 [7:01:03<3:19:28,  2.35s/it] 66%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                 | 9918/15000 [7:01:05<3:19:21,  2.35s/it] 66%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                 | 9919/15000 [7:01:07<3:19:16,  2.35s/it] 66%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                 | 9920/15000 [7:01:10<3:19:19,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.7082, 'grad_norm': 1.6171875, 'learning_rate': 2.6854298663403e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3472.28, 'total_tokens': 81039201, 'epoch': 0.66}
+ 66%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                 | 9920/15000 [7:01:10<3:19:19,  2.35s/it] 66%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                 | 9921/15000 [7:01:12<3:19:26,  2.36s/it] 66%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                 | 9922/15000 [7:01:14<3:19:17,  2.35s/it] 66%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                 | 9923/15000 [7:01:17<3:19:08,  2.35s/it] 66%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                 | 9924/15000 [7:01:19<3:19:09,  2.35s/it] 66%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                 | 9925/15000 [7:01:21<3:19:05,  2.35s/it][2025-11-17 04:44:16,352] [INFO] [axolotl.utils.data.wrappers.get_dataset_wrapper:87] [PID:8163] Loading dataset: Goader/kobza-2m-jsonl with base_type: pretrain and prompt_style: None
+
+Tokenizing Prompts (num_proc=64):   0%|                                                                                                                                                                        | 0/10000 [00:00<?, ? examples/s][A
+Tokenizing Prompts (num_proc=64):   2%|██▍                                                                                                                                                           | 157/10000 [00:05<05:58, 27.42 examples/s][A
+Tokenizing Prompts (num_proc=64):   3%|████▉                                                                                                                                                         | 314/10000 [00:06<02:51, 56.56 examples/s][A
+Tokenizing Prompts (num_proc=64):   5%|███████▍                                                                                                                                                      | 471/10000 [00:07<01:51, 85.27 examples/s][A
+Tokenizing Prompts (num_proc=64):   6%|█████████▉                                                                                                                                                    | 628/10000 [00:08<01:34, 99.47 examples/s][A
+Tokenizing Prompts (num_proc=64):   8%|��███████████▎                                                                                                                                                | 785/10000 [00:08<01:03, 145.87 examples/s][A
+Tokenizing Prompts (num_proc=64):   9%|██████████████▊                                                                                                                                              | 942/10000 [00:09<00:54, 166.23 examples/s][A
+Tokenizing Prompts (num_proc=64):  11%|█████████████████▏                                                                                                                                          | 1099/10000 [00:09<00:49, 178.44 examples/s][A
+Tokenizing Prompts (num_proc=64):  13%|███████████████████▌                                                                                                                                        | 1256/10000 [00:10<00:46, 189.93 examples/s][A
+Tokenizing Prompts (num_proc=64):  14%|██████████████████████                                                                                                                                      | 1413/10000 [00:11<00:41, 205.52 examples/s][A
+Tokenizing Prompts (num_proc=64):  16%|████████████████████████▍                                                                                                                                   | 1570/10000 [00:11<00:39, 211.50 examples/s][A
+Tokenizing Prompts (num_proc=64):  17%|██████████████████████████▉                                                                                                                                 | 1727/10000 [00:12<00:39, 211.90 examples/s][A
+Tokenizing Prompts (num_proc=64):  19%|█████████████████████████████▍                                                                                                                              | 1884/10000 [00:13<00:36, 220.69 examples/s][A
+Tokenizing Prompts (num_proc=64):  20%|███████████████████████████████▊                                                                                                                            | 2041/10000 [00:14<00:36, 216.19 examples/s][A
+Tokenizing Prompts (num_proc=64):  22%|██████████████████████████████████▎                                                                                                                         | 2198/10000 [00:15<00:39, 195.42 examples/s][A
+Tokenizing Prompts (num_proc=64):  24%|████████████████████████████████████▋                                                                                                                       | 2355/10000 [00:15<00:31, 240.96 examples/s][A
+Tokenizing Prompts (num_proc=64):  25%|███████████████████████████████████████▏                                                                                                                    | 2512/10000 [00:16<00:35, 208.26 examples/s][A
+Tokenizing Prompts (num_proc=64):  27%|█████████████████████████████████████████▌                                                                                                                  | 2668/10000 [00:17<00:33, 217.18 examples/s][A
+Tokenizing Prompts (num_proc=64):  28%|████████████████████████████████████████████                                                                                                                | 2824/10000 [00:17<00:26, 268.18 examples/s][A
+Tokenizing Prompts (num_proc=64):  30%|██████████████████████████████████████████████▍                                                                                                             | 2980/10000 [00:17<00:26, 261.45 examples/s][A
+Tokenizing Prompts (num_proc=64):  31%|████████████████████████████████████████████████▉                                                                                                           | 3136/10000 [00:19<00:28, 240.07 examples/s][A
+Tokenizing Prompts (num_proc=64):  33%|███████████████████████████████████████████████████▎                                                                                                        | 3292/10000 [00:19<00:26, 257.34 examples/s][A
+Tokenizing Prompts (num_proc=64):  34%|█████████████████████████████████████████████████████▊                                                                                                      | 3448/10000 [00:20<00:31, 207.87 examples/s][A
+Tokenizing Prompts (num_proc=64):  36%|████████████████████████████████████████████████████████▏                                                                                                   | 3604/10000 [00:20<00:29, 216.90 examples/s][A
+Tokenizing Prompts (num_proc=64):  38%|██████████████████████████████████████████████████████████▋                                                                                                 | 3760/10000 [00:21<00:22, 274.19 examples/s][A
+Tokenizing Prompts (num_proc=64):  39%|█████████████████████████████████████████████████████████████                                                                                               | 3916/10000 [00:22<00:28, 215.50 examples/s][A
+Tokenizing Prompts (num_proc=64):  41%|███████████████████████████████████████████████████████████████▌                                                                                            | 4072/10000 [00:22<00:22, 266.34 examples/s][A
+Tokenizing Prompts (num_proc=64):  42%|█████████████████████████████████████████████████████████████████▉                                                                                          | 4228/10000 [00:23<00:26, 214.56 examples/s][A
+Tokenizing Prompts (num_proc=64):  44%|████████████████████████████████████████████████████████████████████▍                                                                                       | 4384/10000 [00:24<00:22, 249.58 examples/s][A
+Tokenizing Prompts (num_proc=64):  45%|██████████████████████████████████████████████████████████████████████▊                                                                                     | 4540/10000 [00:25<00:27, 198.58 examples/s][A
+Tokenizing Prompts (num_proc=64):  47%|█████████████████████████████████████████████████████████████████████████▎                                                                                  | 4696/10000 [00:25<00:20, 262.24 examples/s][A
+Tokenizing Prompts (num_proc=64):  49%|███████████████████████████████████████████████████████████████████████████▋                                                                                | 4852/10000 [00:25<00:18, 278.43 examples/s][A
+Tokenizing Prompts (num_proc=64):  50%|██████████████████████████████████████████████████████████████████████████████                                                                              | 5008/10000 [00:26<00:18, 264.99 examples/s][A
+Tokenizing Prompts (num_proc=64):  52%|████████████████████████████████████████████████████████████████████████████████▌                                                                           | 5164/10000 [00:27<00:19, 247.79 examples/s][A
+Tokenizing Prompts (num_proc=64):  53%|██████████████████████████████████████████████████████████████████████████████████▉                                                                         | 5320/10000 [00:28<00:22, 211.74 examples/s][A
+Tokenizing Prompts (num_proc=64):  55%|█████████████████████████████████████████████████████████████████████████████████████▍                                                                      | 5476/10000 [00:28<00:20, 220.55 examples/s][A
+Tokenizing Prompts (num_proc=64):  56%|███████████████████████████████████████████████████████████████████████████████████████▊                                                                    | 5632/10000 [00:29<00:16, 260.11 examples/s][A
+Tokenizing Prompts (num_proc=64):  58%|██████████████████████████████████████████████████████████████████████████████████████████▎                                                                 | 5788/10000 [00:30<00:19, 220.27 examples/s][A
+Tokenizing Prompts (num_proc=64):  59%|████████████████████████████████████████████████████████████████████████████████████████████▋                                                               | 5944/10000 [00:30<00:15, 266.25 examples/s][A
+Tokenizing Prompts (num_proc=64):  61%|███████████████████████████████████████████████████████████████████████████████████████████████▏                                                            | 6100/10000 [00:31<00:17, 221.18 examples/s][A
+Tokenizing Prompts (num_proc=64):  63%|█████████████████████████████████████████████████████████████████████████████████████████████████▌                                                          | 6256/10000 [00:32<00:14, 257.98 examples/s][A
+Tokenizing Prompts (num_proc=64):  64%|████████████████████████████████████████████████████████████████████████████████████████████████████                                                        | 6412/10000 [00:32<00:13, 261.55 examples/s][A
+Tokenizing Prompts (num_proc=64):  66%|██████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                     | 6568/10000 [00:33<00:13, 249.32 examples/s][A
+Tokenizing Prompts (num_proc=64):  67%|████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                   | 6724/10000 [00:33<00:13, 244.86 examples/s][A
+Tokenizing Prompts (num_proc=64):  69%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                | 6880/10000 [00:34<00:11, 260.05 examples/s][A
+Tokenizing Prompts (num_proc=64):  70%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                              | 7036/10000 [00:35<00:12, 243.57 examples/s][A
+Tokenizing Prompts (num_proc=64):  72%|███████████████████████████████████████████████████████████████████████████████���████████████████████████████████▏                                           | 7192/10000 [00:35<00:11, 246.16 examples/s][A
+Tokenizing Prompts (num_proc=64):  73%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                         | 7348/10000 [00:36<00:10, 250.78 examples/s][A
+Tokenizing Prompts (num_proc=64):  75%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                       | 7504/10000 [00:36<00:10, 243.41 examples/s][A
+Tokenizing Prompts (num_proc=64):  77%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                    | 7660/10000 [00:37<00:09, 234.85 examples/s][A
+Tokenizing Prompts (num_proc=64):  78%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                  | 7816/10000 [00:38<00:08, 247.90 examples/s][A
+Tokenizing Prompts (num_proc=64):  80%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                               | 7972/10000 [00:39<00:08, 239.90 examples/s][A
+Tokenizing Prompts (num_proc=64):  81%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                             | 8128/10000 [00:39<00:09, 207.36 examples/s][A
+Tokenizing Prompts (num_proc=64):  83%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                          | 8284/10000 [00:40<00:07, 216.35 examples/s][A
+Tokenizing Prompts (num_proc=64):  84%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                        | 8440/10000 [00:41<00:07, 222.56 examples/s][A
+Tokenizing Prompts (num_proc=64):  86%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                      | 8596/10000 [00:41<00:06, 228.04 examples/s][A
+Tokenizing Prompts (num_proc=64):  88%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                   | 8752/10000 [00:41<00:04, 282.64 examples/s][A
+Tokenizing Prompts (num_proc=64):  89%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                 | 8908/10000 [00:43<00:04, 258.44 examples/s][A
+Tokenizing Prompts (num_proc=64):  91%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍              | 9064/10000 [00:43<00:03, 255.59 examples/s][A
+Tokenizing Prompts (num_proc=64):  92%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊            | 9220/10000 [00:43<00:03, 252.44 examples/s][A
+Tokenizing Prompts (num_proc=64):  94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎         | 9376/10000 [00:44<00:02, 249.31 examples/s][A
+Tokenizing Prompts (num_proc=64):  95%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋       | 9532/10000 [00:45<00:02, 212.16 examples/s][A
+Tokenizing Prompts (num_proc=64):  97%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏    | 9688/10000 [00:45<00:01, 262.61 examples/s][A
+Tokenizing Prompts (num_proc=64):  98%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌  | 9844/10000 [00:46<00:00, 255.54 examples/s][A
+Tokenizing Prompts (num_proc=64): 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10000/10000 [00:47<00:00, 231.63 examples/s][ATokenizing Prompts (num_proc=64): 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10000/10000 [00:49<00:00, 201.92 examples/s]
+
+Dropping Long Sequences:   0%|                                                                                                                                                                                 | 0/10000 [00:00<?, ? examples/s][A
+Dropping Long Sequences:  10%|████████████████▌                                                                                                                                                    | 1000/10000 [00:01<00:12, 707.48 examples/s][A
+Dropping Long Sequences:  20%|████████████████████████████████▊                                                                                                                                   | 2000/10000 [00:01<00:05, 1382.21 examples/s][A
+Dropping Long Sequences:  30%|█████████████████████████████████████████████████▏                                                                                                                  | 3000/10000 [00:01<00:03, 1979.70 examples/s][A
+Dropping Long Sequences:  40%|█████████████████████████████████████████████████████████████████▌                                                                                                  | 4000/10000 [00:02<00:02, 2449.36 examples/s][A
+Dropping Long Sequences:  50%|██████████████████████████████████████████████████████████████████████████████████                                                                                  | 5000/10000 [00:02<00:01, 2915.87 examples/s][A
+Dropping Long Sequences:  60%|██████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                 | 6000/10000 [00:02<00:01, 3119.73 examples/s][A
+Dropping Long Sequences:  70%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                 | 7000/10000 [00:02<00:00, 3316.98 examples/s][A
+Dropping Long Sequences:  80%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                | 8000/10000 [00:03<00:00, 3544.86 examples/s][A
+Dropping Long Sequences:  90%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                | 9000/10000 [00:03<00:00, 3672.84 examples/s][A
+Dropping Long Sequences: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10000/10000 [00:03<00:00, 3716.99 examples/s][ADropping Long Sequences: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10000/10000 [00:03<00:00, 2679.78 examples/s]
+
+Add position_id column (Pretraining Sample Packing):   0%|                                                                                                                                                      | 0/8788 [00:00<?, ? examples/s][A
+Add position_id column (Pretraining Sample Packing):  11%|███████████████▋                                                                                                                          | 1000/8788 [00:01<00:09, 790.08 examples/s][A
+Add position_id column (Pretraining Sample Packing):  23%|███████████████████████████████▏                                                                                                         | 2000/8788 [00:01<00:04, 1646.80 examples/s][A
+Add position_id column (Pretraining Sample Packing):  34%|██████████████████████████████████████████████▊                                                                                          | 3000/8788 [00:01<00:02, 2545.05 examples/s][A
+Add position_id column (Pretraining Sample Packing):  46%|██████████████████████████████████████████████████████████████▎                                                                          | 4000/8788 [00:01<00:01, 3344.02 examples/s][A
+Add position_id column (Pretraining Sample Packing):  57%|█████████████████████████████████████████████████████████████████████████████▉                                                           | 5000/8788 [00:01<00:00, 4150.78 examples/s][A
+Add position_id column (Pretraining Sample Packing):  68%|█████████████████████████████████████████████████████████████████████████████████████████████▌                                           | 6000/8788 [00:01<00:00, 4810.77 examples/s][A
+Add position_id column (Pretraining Sample Packing):  80%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                           | 7000/8788 [00:02<00:00, 5388.27 examples/s][A
+Add position_id column (Pretraining Sample Packing):  91%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋            | 8000/8788 [00:02<00:00, 5531.30 examples/s][A
+Add position_id column (Pretraining Sample Packing): 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 8788/8788 [00:02<00:00, 5865.53 examples/s][AAdd position_id column (Pretraining Sample Packing): 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 8788/8788 [00:02<00:00, 3577.30 examples/s]
+[2025-11-17 04:45:13,690] [DEBUG] [axolotl.utils.samplers.multipack.pack_parallel:177] [PID:8163] Using single process for pack_parallel, running sequentially.
+ 66%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                 | 9926/15000 [7:02:28<30:26:39, 21.60s/it] 66%|██████████████████████████████████████████████████████████████████████████████████████████████████���████████████████████████████▋                                                                 | 9927/15000 [7:02:30<22:18:02, 15.83s/it] 66%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                 | 9928/15000 [7:02:33<16:36:11, 11.78s/it] 66%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                 | 9929/15000 [7:02:35<12:36:44,  8.95s/it] 66%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                 | 9930/15000 [7:02:37<9:49:18,  6.97s/it]                                                                                                                                                                                                                                                {'loss': 2.6698, 'grad_norm': 1.828125, 'learning_rate': 2.6779707134749667e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3389.25, 'total_tokens': 81118780, 'epoch': 0.66}
+ 66%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                 | 9930/15000 [7:02:37<9:49:18,  6.97s/it] 66%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                 | 9931/15000 [7:02:40<7:51:57,  5.59s/it] 66%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                 | 9932/15000 [7:02:42<6:29:51,  4.62s/it] 66%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                 | 9933/15000 [7:02:44<5:32:25,  3.94s/it] 66%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                 | 9934/15000 [7:02:47<4:52:05,  3.46s/it] 66%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                 | 9935/15000 [7:02:49<4:24:16,  3.13s/it] 66%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                 | 9936/15000 [7:02:51<4:04:29,  2.90s/it] 66%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                 | 9937/15000 [7:02:54<3:50:40,  2.73s/it] 66%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                 | 9938/15000 [7:02:56<3:40:55,  2.62s/it] 66%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                 | 9939/15000 [7:02:58<3:34:17,  2.54s/it] 66%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                 | 9940/15000 [7:03:01<3:29:25,  2.48s/it]                                                                                                                                                                                                                                                {'loss': 2.681, 'grad_norm': 1.7265625, 'learning_rate': 2.6705110378100766e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3493.2, 'total_tokens': 81200630, 'epoch': 0.66}
+ 66%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                 | 9940/15000 [7:03:01<3:29:25,  2.48s/it] 66%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                 | 9941/15000 [7:03:03<3:25:57,  2.44s/it] 66%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                 | 9942/15000 [7:03:06<3:23:42,  2.42s/it] 66%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                 | 9943/15000 [7:03:08<3:22:01,  2.40s/it] 66%|███████████��████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                 | 9944/15000 [7:03:10<3:20:58,  2.39s/it] 66%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                 | 9945/15000 [7:03:13<3:20:09,  2.38s/it] 66%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                 | 9946/15000 [7:03:15<3:19:32,  2.37s/it] 66%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                 | 9947/15000 [7:03:17<3:18:57,  2.36s/it] 66%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                 | 9948/15000 [7:03:20<3:18:37,  2.36s/it] 66%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                 | 9949/15000 [7:03:22<3:18:11,  2.35s/it] 66%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                 | 9950/15000 [7:03:24<3:18:00,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6898, 'grad_norm': 1.7265625, 'learning_rate': 2.6630509129696167e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3496.01, 'total_tokens': 81282497, 'epoch': 0.66}
+ 66%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                 | 9950/15000 [7:03:24<3:18:00,  2.35s/it] 66%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                 | 9951/15000 [7:03:27<3:18:14,  2.36s/it] 66%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                 | 9952/15000 [7:03:29<3:18:12,  2.36s/it] 66%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                 | 9953/15000 [7:03:31<3:18:24,  2.36s/it] 66%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                 | 9954/15000 [7:03:34<3:18:14,  2.36s/it] 66%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                 | 9955/15000 [7:03:36<3:18:06,  2.36s/it] 66%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                 | 9956/15000 [7:03:38<3:18:02,  2.36s/it] 66%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                 | 9957/15000 [7:03:41<3:17:57,  2.36s/it] 66%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                 | 9958/15000 [7:03:43<3:17:55,  2.36s/it] 66%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                 | 9959/15000 [7:03:46<3:17:48,  2.35s/it] 66%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                 | 9960/15000 [7:03:48<3:17:40,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.7371, 'grad_norm': 1.796875, 'learning_rate': 2.6555904125820075e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3493.05, 'total_tokens': 81364361, 'epoch': 0.66}
+ 66%|████████████████████████████████████████████████████████████████████████████████████████��███████████████████████████████████████▊                                                                 | 9960/15000 [7:03:48<3:17:40,  2.35s/it] 66%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                 | 9961/15000 [7:03:50<3:17:50,  2.36s/it] 66%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                 | 9962/15000 [7:03:53<3:17:47,  2.36s/it] 66%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                 | 9963/15000 [7:03:55<3:17:28,  2.35s/it] 66%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                 | 9964/15000 [7:03:57<3:17:31,  2.35s/it] 66%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                 | 9965/15000 [7:04:00<3:17:31,  2.35s/it] 66%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                 | 9966/15000 [7:04:02<3:17:31,  2.35s/it] 66%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                 | 9967/15000 [7:04:04<3:17:37,  2.36s/it] 66%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                 | 9968/15000 [7:04:07<3:17:19,  2.35s/it] 66%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                 | 9969/15000 [7:04:09<3:17:15,  2.35s/it] 66%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                 | 9970/15000 [7:04:11<3:17:28,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.717, 'grad_norm': 1.8046875, 'learning_rate': 2.6481296102793763e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3475.67, 'total_tokens': 81446221, 'epoch': 0.66}
+ 66%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                 | 9970/15000 [7:04:11<3:17:28,  2.36s/it] 66%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                 | 9971/15000 [7:04:14<3:17:32,  2.36s/it] 66%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                 | 9972/15000 [7:04:16<3:17:21,  2.36s/it] 66%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                 | 9973/15000 [7:04:19<3:17:16,  2.35s/it] 66%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                 | 9974/15000 [7:04:21<3:17:09,  2.35s/it] 66%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                 | 9975/15000 [7:04:23<3:17:00,  2.35s/it] 67%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                 | 9976/15000 [7:04:26<3:16:59,  2.35s/it] 67%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                 | 9977/15000 [7:04:28<3:17:03,  2.35s/it] 67%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                 | 9978/15000 [7:04:30<3:16:59,  2.35s/it] 67%|████���████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                 | 9979/15000 [7:04:33<3:17:01,  2.35s/it] 67%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                 | 9980/15000 [7:04:35<3:16:53,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6228, 'grad_norm': 1.7421875, 'learning_rate': 2.6406685796968294e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3491.22, 'total_tokens': 81528042, 'epoch': 0.67}
+ 67%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                 | 9980/15000 [7:04:35<3:16:53,  2.35s/it] 67%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                 | 9981/15000 [7:04:37<3:16:53,  2.35s/it] 67%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                 | 9982/15000 [7:04:40<3:16:52,  2.35s/it] 67%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                 | 9983/15000 [7:04:42<3:16:59,  2.36s/it] 67%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                | 9984/15000 [7:04:44<3:17:09,  2.36s/it] 67%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                | 9985/15000 [7:04:47<3:17:01,  2.36s/it] 67%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                | 9986/15000 [7:04:49<3:16:50,  2.36s/it] 67%|████████████████████████████████████████��████████████████████████████████████████████████████████████████████████████████████████▏                                                                | 9987/15000 [7:04:51<3:16:35,  2.35s/it] 67%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                | 9988/15000 [7:04:54<3:16:35,  2.35s/it] 67%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                | 9989/15000 [7:04:56<3:16:36,  2.35s/it] 67%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                | 9990/15000 [7:04:59<3:16:26,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6647, 'grad_norm': 1.8125, 'learning_rate': 2.6332073944717267e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3493.46, 'total_tokens': 81609871, 'epoch': 0.67}
+ 67%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                | 9990/15000 [7:04:59<3:16:26,  2.35s/it] 67%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                | 9991/15000 [7:05:01<3:16:32,  2.35s/it] 67%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                | 9992/15000 [7:05:03<3:16:32,  2.35s/it] 67%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                | 9993/15000 [7:05:06<3:16:32,  2.36s/it] 67%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                | 9994/15000 [7:05:08<3:16:21,  2.35s/it] 67%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                | 9995/15000 [7:05:10<3:16:24,  2.35s/it] 67%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                | 9996/15000 [7:05:13<3:16:24,  2.36s/it] 67%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                | 9997/15000 [7:05:15<3:16:14,  2.35s/it] 67%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                | 9998/15000 [7:05:17<3:16:15,  2.35s/it] 67%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                | 9999/15000 [7:05:20<3:16:14,  2.35s/it] 67%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                | 10000/15000 [7:05:22<3:16:13,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6972, 'grad_norm': 2.15625, 'learning_rate': 2.6257461282429547e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3482.62, 'total_tokens': 81691654, 'epoch': 0.67}
+ 67%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                | 10000/15000 [7:05:22<3:16:13,  2.35s/it][2025-11-17 04:48:14,035] [INFO] [axolotl.core.trainers.base._save:676] [PID:7990] Saving model checkpoint to ./outputs/gemma-3-12b-focus-pt/checkpoint-10000
+ 67%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                | 10001/15000 [7:06:03<19:12:59, 13.84s/it] 67%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                | 10002/15000 [7:06:05<14:25:32, 10.39s/it] 67%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                | 10003/15000 [7:06:07<11:04:36,  7.98s/it] 67%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                | 10004/15000 [7:06:10<8:44:02,  6.29s/it] 67%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                | 10005/15000 [7:06:12<7:05:38,  5.11s/it] 67%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                | 10006/15000 [7:06:14<5:56:39,  4.28s/it] 67%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                | 10007/15000 [7:06:17<5:08:20,  3.71s/it] 67%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                | 10008/15000 [7:06:19<4:34:34,  3.30s/it] 67%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                | 10009/15000 [7:06:22<4:10:42,  3.01s/it] 67%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                | 10010/15000 [7:06:24<3:54:11,  2.82s/it]                                                                                                                                                                                                                                                {'loss': 2.7165, 'grad_norm': 1.8984375, 'learning_rate': 2.6182848546501975e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3486.73, 'total_tokens': 81773487, 'epoch': 0.67}
+ 67%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                | 10010/15000 [7:06:24<3:54:11,  2.82s/it] 67%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                | 10011/15000 [7:06:26<3:42:45,  2.68s/it] 67%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                | 10012/15000 [7:06:29<3:34:35,  2.58s/it] 67%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                | 10013/15000 [7:06:31<3:28:46,  2.51s/it] 67%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                | 10014/15000 [7:06:33<3:24:54,  2.47s/it] 67%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                | 10015/15000 [7:06:36<3:21:59,  2.43s/it] 67%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                | 10016/15000 [7:06:38<3:19:57,  2.41s/it] 67%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                | 10017/15000 [7:06:40<3:18:38,  2.39s/it] 67%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                | 10018/15000 [7:06:43<3:17:44,  2.38s/it] 67%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                | 10019/15000 [7:06:45<3:17:19,  2.38s/it] 67%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                | 10020/15000 [7:06:47<3:16:44,  2.37s/it]                                                                                                                                                                                                                                                {'loss': 2.6779, 'grad_norm': 2.109375, 'learning_rate': 2.610823647333213e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3484.5, 'total_tokens': 81855291, 'epoch': 0.67}
+ 67%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                | 10020/15000 [7:06:47<3:16:44,  2.37s/it] 67%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                | 10021/15000 [7:06:50<3:16:18,  2.37s/it] 67%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                | 10022/15000 [7:06:52<3:16:04,  2.36s/it] 67%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                | 10023/15000 [7:06:55<3:27:37,  2.50s/it] 67%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                | 10024/15000 [7:06:57<3:23:39,  2.46s/it] 67%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                | 10025/15000 [7:07:00<3:21:12,  2.43s/it] 67%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                | 10026/15000 [7:07:02<3:19:21,  2.40s/it] 67%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                | 10027/15000 [7:07:04<3:18:04,  2.39s/it] 67%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                | 10028/15000 [7:07:07<3:17:14,  2.38s/it] 67%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                | 10029/15000 [7:07:09<3:16:35,  2.37s/it] 67%|█████████████���███████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                | 10030/15000 [7:07:11<3:16:06,  2.37s/it]                                                                                                                                                                                                                                                {'loss': 2.6563, 'grad_norm': 1.71875, 'learning_rate': 2.6033625799311073e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3484.87, 'total_tokens': 81937106, 'epoch': 0.67}
+ 67%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                | 10030/15000 [7:07:11<3:16:06,  2.37s/it] 67%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                | 10031/15000 [7:07:14<3:15:41,  2.36s/it] 67%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                | 10032/15000 [7:07:16<3:15:26,  2.36s/it] 67%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                | 10033/15000 [7:07:19<3:15:11,  2.36s/it] 67%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                | 10034/15000 [7:07:21<3:15:15,  2.36s/it] 67%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                | 10035/15000 [7:07:23<3:15:05,  2.36s/it] 67%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                               | 10036/15000 [7:07:26<3:15:05,  2.36s/it] 67%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                               | 10037/15000 [7:07:28<3:15:07,  2.36s/it] 67%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                               | 10038/15000 [7:07:30<3:15:02,  2.36s/it] 67%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                               | 10039/15000 [7:07:33<3:14:52,  2.36s/it] 67%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                               | 10040/15000 [7:07:35<3:14:49,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.6398, 'grad_norm': 1.6796875, 'learning_rate': 2.595901726081602e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3480.99, 'total_tokens': 82018887, 'epoch': 0.67}
+ 67%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                               | 10040/15000 [7:07:35<3:14:49,  2.36s/it] 67%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                               | 10041/15000 [7:07:37<3:14:47,  2.36s/it] 67%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                               | 10042/15000 [7:07:40<3:14:51,  2.36s/it] 67%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                               | 10043/15000 [7:07:42<3:14:33,  2.36s/it] 67%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                               | 10044/15000 [7:07:44<3:14:33,  2.36s/it] 67%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                               | 10045/15000 [7:07:47<3:14:23,  2.35s/it] 67%|███████████████████████████████████████████████████████████████████████████████████��█████████████████████████████████████████████▎                                                               | 10046/15000 [7:07:49<3:14:29,  2.36s/it] 67%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                               | 10047/15000 [7:07:52<3:14:28,  2.36s/it] 67%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                               | 10048/15000 [7:07:54<3:14:26,  2.36s/it] 67%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                               | 10049/15000 [7:07:56<3:14:14,  2.35s/it] 67%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                               | 10050/15000 [7:07:59<3:14:09,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6375, 'grad_norm': 1.734375, 'learning_rate': 2.5884411594203122e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3486.32, 'total_tokens': 82100647, 'epoch': 0.67}
+ 67%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                               | 10050/15000 [7:07:59<3:14:09,  2.35s/it] 67%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                               | 10051/15000 [7:08:01<3:14:02,  2.35s/it] 67%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                               | 10052/15000 [7:08:03<3:13:52,  2.35s/it] 67%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                               | 10053/15000 [7:08:06<3:13:47,  2.35s/it] 67%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████���████████████▎                                                               | 10054/15000 [7:08:08<3:14:01,  2.35s/it] 67%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                               | 10055/15000 [7:08:10<3:14:06,  2.36s/it] 67%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                               | 10056/15000 [7:08:13<3:14:00,  2.35s/it] 67%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                               | 10057/15000 [7:08:15<3:13:45,  2.35s/it] 67%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                               | 10058/15000 [7:08:17<3:13:30,  2.35s/it] 67%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                               | 10059/15000 [7:08:20<3:13:27,  2.35s/it] 67%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                               | 10060/15000 [7:08:22<3:13:34,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6584, 'grad_norm': 1.7265625, 'learning_rate': 2.58098095358002e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3483.73, 'total_tokens': 82182456, 'epoch': 0.67}
+ 67%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                               | 10060/15000 [7:08:22<3:13:34,  2.35s/it] 67%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                               | 10061/15000 [7:08:24<3:13:42,  2.35s/it] 67%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                               | 10062/15000 [7:08:27<3:13:39,  2.35s/it] 67%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                               | 10063/15000 [7:08:29<3:13:44,  2.35s/it] 67%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                               | 10064/15000 [7:08:32<3:13:30,  2.35s/it] 67%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                               | 10065/15000 [7:08:34<3:13:19,  2.35s/it] 67%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                               | 10066/15000 [7:08:36<3:13:12,  2.35s/it] 67%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                               | 10067/15000 [7:08:39<3:13:02,  2.35s/it] 67%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                               | 10068/15000 [7:08:41<3:13:06,  2.35s/it] 67%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                               | 10069/15000 [7:08:43<3:13:01,  2.35s/it] 67%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                               | 10070/15000 [7:08:46<3:13:08,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6991, 'grad_norm': 1.71875, 'learning_rate': 2.573521182189945e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3482.3, 'total_tokens': 82264237, 'epoch': 0.67}
+ 67%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                               | 10070/15000 [7:08:46<3:13:08,  2.35s/it] 67%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                               | 10071/15000 [7:08:48<3:13:06,  2.35s/it] 67%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                               | 10072/15000 [7:08:50<3:13:00,  2.35s/it] 67%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                               | 10073/15000 [7:08:53<3:12:55,  2.35s/it] 67%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                               | 10074/15000 [7:08:55<3:13:05,  2.35s/it] 67%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                               | 10075/15000 [7:08:57<3:13:00,  2.35s/it] 67%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                               | 10076/15000 [7:09:00<3:13:05,  2.35s/it] 67%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                               | 10077/15000 [7:09:02<3:13:10,  2.35s/it] 67%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                               | 10078/15000 [7:09:04<3:13:01,  2.35s/it] 67%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                               | 10079/15000 [7:09:07<3:13:00,  2.35s/it] 67%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                               | 10080/15000 [7:09:09<3:13:07,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.6582, 'grad_norm': 1.6953125, 'learning_rate': 2.5660619188750184e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3478.7, 'total_tokens': 82346061, 'epoch': 0.67}
+ 67%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                               | 10080/15000 [7:09:09<3:13:07,  2.36s/it] 67%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                               | 10081/15000 [7:09:11<3:12:56,  2.35s/it] 67%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                               | 10082/15000 [7:09:14<3:12:47,  2.35s/it] 67%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                               | 10083/15000 [7:09:16<3:12:51,  2.35s/it] 67%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                               | 10084/15000 [7:09:19<3:12:46,  2.35s/it] 67%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                               | 10085/15000 [7:09:21<3:13:01,  2.36s/it] 67%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                               | 10086/15000 [7:09:23<3:13:00,  2.36s/it] 67%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                               | 10087/15000 [7:09:26<3:12:51,  2.36s/it] 67%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                               | 10088/15000 [7:09:28<3:12:44,  2.35s/it] 67%|█████████████████████████████████████████████████████████████████████████████████████���███████████████████████████████████████████▊                                                               | 10089/15000 [7:09:30<3:12:42,  2.35s/it] 67%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                               | 10090/15000 [7:09:33<3:12:36,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.688, 'grad_norm': 1.7890625, 'learning_rate': 2.5586032372551588e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3488.69, 'total_tokens': 82427870, 'epoch': 0.67}
+ 67%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                               | 10090/15000 [7:09:33<3:12:36,  2.35s/it] 67%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                               | 10091/15000 [7:09:35<3:12:34,  2.35s/it] 67%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                               | 10092/15000 [7:09:37<3:12:26,  2.35s/it] 67%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                               | 10093/15000 [7:09:40<3:12:23,  2.35s/it] 67%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                               | 10094/15000 [7:09:42<3:12:36,  2.36s/it] 67%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                               | 10095/15000 [7:09:44<3:12:26,  2.35s/it] 67%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                               | 10096/15000 [7:09:47<3:12:24,  2.35s/it] 67%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                               | 10097/15000 [7:09:49<3:12:12,  2.35s/it] 67%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                               | 10098/15000 [7:09:52<3:12:09,  2.35s/it] 67%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                               | 10099/15000 [7:09:54<3:12:14,  2.35s/it] 67%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                               | 10100/15000 [7:09:56<3:12:18,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6911, 'grad_norm': 2.296875, 'learning_rate': 2.5511452109445422e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3480.88, 'total_tokens': 82509683, 'epoch': 0.67}
+ 67%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                               | 10100/15000 [7:09:56<3:12:18,  2.35s/it] 67%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                               | 10101/15000 [7:09:59<3:12:17,  2.36s/it] 67%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                               | 10102/15000 [7:10:01<3:12:15,  2.36s/it] 67%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                               | 10103/15000 [7:10:03<3:11:50,  2.35s/it] 67%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                               | 10104/15000 [7:10:06<3:11:44,  2.35s/it] 67%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                               | 10105/15000 [7:10:08<3:11:44,  2.35s/it] 67%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                               | 10106/15000 [7:10:10<3:11:41,  2.35s/it] 67%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                               | 10107/15000 [7:10:13<3:11:48,  2.35s/it] 67%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                               | 10108/15000 [7:10:15<3:11:44,  2.35s/it] 67%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                               | 10109/15000 [7:10:17<3:11:54,  2.35s/it] 67%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                               | 10110/15000 [7:10:20<3:11:43,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6541, 'grad_norm': 1.90625, 'learning_rate': 2.5436879135508768e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3488.96, 'total_tokens': 82591351, 'epoch': 0.67}
+ 67%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                               | 10110/15000 [7:10:20<3:11:43,  2.35s/it] 67%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                               | 10111/15000 [7:10:22<3:11:32,  2.35s/it] 67%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                               | 10112/15000 [7:10:24<3:11:27,  2.35s/it] 67%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                               | 10113/15000 [7:10:27<3:11:30,  2.35s/it] 67%|████████████████��█████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                              | 10114/15000 [7:10:29<3:11:19,  2.35s/it] 67%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                              | 10115/15000 [7:10:31<3:11:26,  2.35s/it] 67%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                              | 10116/15000 [7:10:34<3:11:23,  2.35s/it] 67%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                              | 10117/15000 [7:10:36<3:11:20,  2.35s/it] 67%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                              | 10118/15000 [7:10:39<3:11:27,  2.35s/it] 67%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                              | 10119/15000 [7:10:41<3:11:38,  2.36s/it] 67%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                              | 10120/15000 [7:10:43<3:11:33,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.7195, 'grad_norm': 1.859375, 'learning_rate': 2.5362314186746778e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3481.81, 'total_tokens': 82673076, 'epoch': 0.67}
+ 67%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                              | 10120/15000 [7:10:43<3:11:33,  2.36s/it] 67%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                              | 10121/15000 [7:10:46<3:11:29,  2.35s/it] 67%|███████████████████████████████████████████���██████████████████████████████████████████████████████████████████████████████████████▏                                                              | 10122/15000 [7:10:48<3:11:24,  2.35s/it] 67%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                              | 10123/15000 [7:10:50<3:11:22,  2.35s/it] 67%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                              | 10124/15000 [7:10:53<3:11:19,  2.35s/it] 68%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                              | 10125/15000 [7:10:55<3:11:19,  2.35s/it] 68%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                              | 10126/15000 [7:10:57<3:11:22,  2.36s/it] 68%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                              | 10127/15000 [7:11:00<3:11:14,  2.35s/it] 68%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                              | 10128/15000 [7:11:02<3:11:22,  2.36s/it] 68%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                              | 10129/15000 [7:11:04<3:11:03,  2.35s/it] 68%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                              | 10130/15000 [7:11:07<3:11:07,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6507, 'grad_norm': 1.703125, 'learning_rate': 2.5287757999085388e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3476.57, 'total_tokens': 82754808, 'epoch': 0.68}
+ 68%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                              | 10130/15000 [7:11:07<3:11:07,  2.35s/it] 68%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                              | 10131/15000 [7:11:09<3:11:11,  2.36s/it] 68%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                              | 10132/15000 [7:11:12<3:10:59,  2.35s/it] 68%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                              | 10133/15000 [7:11:14<3:11:03,  2.36s/it] 68%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                              | 10134/15000 [7:11:16<3:10:53,  2.35s/it] 68%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                              | 10135/15000 [7:11:19<3:10:50,  2.35s/it] 68%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                              | 10136/15000 [7:11:21<3:10:48,  2.35s/it] 68%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                              | 10137/15000 [7:11:23<3:10:46,  2.35s/it] 68%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                              | 10138/15000 [7:11:26<3:10:33,  2.35s/it] 68%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                              | 10139/15000 [7:11:28<3:10:27,  2.35s/it] 68%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                              | 10140/15000 [7:11:30<3:10:45,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.5798, 'grad_norm': 1.7578125, 'learning_rate': 2.5213211308364077e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3468.14, 'total_tokens': 82836596, 'epoch': 0.68}
+ 68%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                              | 10140/15000 [7:11:30<3:10:45,  2.36s/it] 68%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                              | 10141/15000 [7:11:33<3:10:45,  2.36s/it] 68%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                              | 10142/15000 [7:11:35<3:10:46,  2.36s/it] 68%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                              | 10143/15000 [7:11:37<3:10:43,  2.36s/it] 68%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                              | 10144/15000 [7:11:40<3:10:30,  2.35s/it] 68%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                              | 10145/15000 [7:11:42<3:10:25,  2.35s/it] 68%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                              | 10146/15000 [7:11:44<3:10:30,  2.35s/it] 68%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                              | 10147/15000 [7:11:47<3:10:19,  2.35s/it] 68%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████���███▌                                                              | 10148/15000 [7:11:49<3:10:23,  2.35s/it] 68%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                              | 10149/15000 [7:11:52<3:10:19,  2.35s/it] 68%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                              | 10150/15000 [7:11:54<3:10:14,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.638, 'grad_norm': 1.8125, 'learning_rate': 2.5138674850328582e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3487.2, 'total_tokens': 82918380, 'epoch': 0.68}
+ 68%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                              | 10150/15000 [7:11:54<3:10:14,  2.35s/it] 68%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                              | 10151/15000 [7:11:56<3:10:21,  2.36s/it] 68%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                              | 10152/15000 [7:11:59<3:10:16,  2.35s/it] 68%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                              | 10153/15000 [7:12:01<3:10:01,  2.35s/it] 68%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                              | 10154/15000 [7:12:03<3:10:06,  2.35s/it] 68%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                              | 10155/15000 [7:12:06<3:10:04,  2.35s/it] 68%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                              | 10156/15000 [7:12:08<3:10:00,  2.35s/it] 68%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                              | 10157/15000 [7:12:10<3:10:01,  2.35s/it] 68%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                              | 10158/15000 [7:12:13<3:09:48,  2.35s/it] 68%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                              | 10159/15000 [7:12:15<3:09:51,  2.35s/it] 68%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                              | 10160/15000 [7:12:17<3:09:53,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6807, 'grad_norm': 1.671875, 'learning_rate': 2.506414936062365e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3482.04, 'total_tokens': 83000176, 'epoch': 0.68}
+ 68%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                              | 10160/15000 [7:12:17<3:09:53,  2.35s/it] 68%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                              | 10161/15000 [7:12:20<3:09:50,  2.35s/it] 68%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                              | 10162/15000 [7:12:22<3:09:36,  2.35s/it] 68%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                              | 10163/15000 [7:12:24<3:09:41,  2.35s/it] 68%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                              | 10164/15000 [7:12:27<3:09:40,  2.35s/it] 68%|█████████████��████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                              | 10165/15000 [7:12:29<3:09:49,  2.36s/it] 68%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                              | 10166/15000 [7:12:32<3:09:39,  2.35s/it] 68%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                              | 10167/15000 [7:12:34<3:09:28,  2.35s/it] 68%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                              | 10168/15000 [7:12:36<3:09:25,  2.35s/it] 68%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                              | 10169/15000 [7:12:39<3:09:30,  2.35s/it] 68%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                              | 10170/15000 [7:12:41<3:09:27,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.7065, 'grad_norm': 1.7421875, 'learning_rate': 2.4989635574785785e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3486.39, 'total_tokens': 83081971, 'epoch': 0.68}
+ 68%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                              | 10170/15000 [7:12:41<3:09:27,  2.35s/it] 68%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                              | 10171/15000 [7:12:43<3:09:18,  2.35s/it] 68%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                              | 10172/15000 [7:12:46<3:09:15,  2.35s/it] 68%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                              | 10173/15000 [7:12:48<3:09:22,  2.35s/it] 68%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                              | 10174/15000 [7:12:50<3:09:28,  2.36s/it] 68%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                              | 10175/15000 [7:12:53<3:09:17,  2.35s/it] 68%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                              | 10176/15000 [7:12:55<3:09:24,  2.36s/it] 68%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                              | 10177/15000 [7:12:57<3:09:24,  2.36s/it] 68%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                              | 10178/15000 [7:13:00<3:09:19,  2.36s/it] 68%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                              | 10179/15000 [7:13:02<3:09:12,  2.35s/it] 68%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                              | 10180/15000 [7:13:05<3:09:08,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.7086, 'grad_norm': 1.796875, 'learning_rate': 2.491513422823597e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3484.44, 'total_tokens': 83163741, 'epoch': 0.68}
+ 68%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                              | 10180/15000 [7:13:05<3:09:08,  2.35s/it] 68%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                              | 10181/15000 [7:13:07<3:09:16,  2.36s/it] 68%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                              | 10182/15000 [7:13:09<3:09:16,  2.36s/it] 68%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                              | 10183/15000 [7:13:12<3:09:01,  2.35s/it] 68%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                              | 10184/15000 [7:13:14<3:09:10,  2.36s/it] 68%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                              | 10185/15000 [7:13:16<3:09:02,  2.36s/it] 68%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                              | 10186/15000 [7:13:19<3:08:47,  2.35s/it] 68%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                              | 10187/15000 [7:13:21<3:08:31,  2.35s/it] 68%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                              | 10188/15000 [7:13:23<3:08:11,  2.35s/it] 68%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                              | 10189/15000 [7:13:26<3:08:13,  2.35s/it] 68%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                              | 10190/15000 [7:13:28<3:08:23,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.7081, 'grad_norm': 1.71875, 'learning_rate': 2.4840646056272417e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3479.03, 'total_tokens': 83245448, 'epoch': 0.68}
+ 68%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                              | 10190/15000 [7:13:28<3:08:23,  2.35s/it] 68%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                              | 10191/15000 [7:13:30<3:08:23,  2.35s/it] 68%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                             | 10192/15000 [7:13:33<3:08:16,  2.35s/it] 68%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                             | 10193/15000 [7:13:35<3:08:17,  2.35s/it] 68%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                             | 10194/15000 [7:13:37<3:08:22,  2.35s/it] 68%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                             | 10195/15000 [7:13:40<3:08:16,  2.35s/it] 68%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                             | 10196/15000 [7:13:42<3:08:26,  2.35s/it] 68%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                             | 10197/15000 [7:13:44<3:08:32,  2.36s/it] 68%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                             | 10198/15000 [7:13:47<3:08:21,  2.35s/it] 68%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████���███████████▏                                                             | 10199/15000 [7:13:49<3:08:14,  2.35s/it] 68%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                             | 10200/15000 [7:13:52<3:08:02,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6444, 'grad_norm': 2.265625, 'learning_rate': 2.476617179406331e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3494.03, 'total_tokens': 83327174, 'epoch': 0.68}
+ 68%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                             | 10200/15000 [7:13:52<3:08:02,  2.35s/it] 68%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                             | 10201/15000 [7:13:54<3:08:16,  2.35s/it] 68%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                             | 10202/15000 [7:13:56<3:08:08,  2.35s/it] 68%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                             | 10203/15000 [7:13:59<3:08:06,  2.35s/it] 68%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                             | 10204/15000 [7:14:01<3:08:21,  2.36s/it] 68%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                             | 10205/15000 [7:14:03<3:08:20,  2.36s/it] 68%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                             | 10206/15000 [7:14:06<3:08:01,  2.35s/it] 68%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                             | 10207/15000 [7:14:08<3:08:01,  2.35s/it] 68%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                             | 10208/15000 [7:14:10<3:07:55,  2.35s/it] 68%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                             | 10209/15000 [7:14:13<3:08:05,  2.36s/it] 68%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                             | 10210/15000 [7:14:15<3:07:53,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6382, 'grad_norm': 1.75, 'learning_rate': 2.469171217663954e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3488.0, 'total_tokens': 83408859, 'epoch': 0.68}
+ 68%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                             | 10210/15000 [7:14:15<3:07:53,  2.35s/it] 68%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                             | 10211/15000 [7:14:17<3:07:51,  2.35s/it] 68%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                             | 10212/15000 [7:14:20<3:08:01,  2.36s/it] 68%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                             | 10213/15000 [7:14:22<3:07:56,  2.36s/it] 68%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                             | 10214/15000 [7:14:25<3:07:51,  2.36s/it] 68%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                             | 10215/15000 [7:14:27<3:07:44,  2.35s/it] 68%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                             | 10216/15000 [7:14:29<3:07:43,  2.35s/it] 68%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                             | 10217/15000 [7:14:32<3:07:40,  2.35s/it] 68%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                             | 10218/15000 [7:14:34<3:07:42,  2.36s/it] 68%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                             | 10219/15000 [7:14:36<3:07:40,  2.36s/it] 68%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                             | 10220/15000 [7:14:39<3:07:42,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.6315, 'grad_norm': 1.7578125, 'learning_rate': 2.461726793888749e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3477.18, 'total_tokens': 83490623, 'epoch': 0.68}
+ 68%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                             | 10220/15000 [7:14:39<3:07:42,  2.36s/it] 68%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                             | 10221/15000 [7:14:41<3:07:51,  2.36s/it] 68%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                             | 10222/15000 [7:14:43<3:07:52,  2.36s/it] 68%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                             | 10223/15000 [7:14:46<3:07:42,  2.36s/it] 68%|███████████████���███████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                             | 10224/15000 [7:14:48<3:07:42,  2.36s/it] 68%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                             | 10225/15000 [7:14:50<3:07:20,  2.35s/it] 68%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                             | 10226/15000 [7:14:53<3:07:10,  2.35s/it] 68%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                             | 10227/15000 [7:14:55<3:06:54,  2.35s/it] 68%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                             | 10228/15000 [7:14:57<3:07:00,  2.35s/it] 68%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                             | 10229/15000 [7:15:00<3:07:04,  2.35s/it] 68%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                             | 10230/15000 [7:15:02<3:07:05,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6792, 'grad_norm': 1.796875, 'learning_rate': 2.4542839815541714e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3477.79, 'total_tokens': 83572276, 'epoch': 0.68}
+ 68%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                             | 10230/15000 [7:15:02<3:07:05,  2.35s/it] 68%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                             | 10231/15000 [7:15:05<3:07:10,  2.35s/it] 68%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                             | 10232/15000 [7:15:07<3:07:11,  2.36s/it] 68%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                             | 10233/15000 [7:15:09<3:07:08,  2.36s/it] 68%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                             | 10234/15000 [7:15:12<3:07:08,  2.36s/it] 68%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                             | 10235/15000 [7:15:14<3:07:06,  2.36s/it] 68%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                             | 10236/15000 [7:15:16<3:06:40,  2.35s/it] 68%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                             | 10237/15000 [7:15:19<3:06:43,  2.35s/it] 68%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                             | 10238/15000 [7:15:21<3:06:40,  2.35s/it] 68%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                             | 10239/15000 [7:15:23<3:06:47,  2.35s/it] 68%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                             | 10240/15000 [7:15:26<3:06:50,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.6724, 'grad_norm': 3.4375, 'learning_rate': 2.4468428541177757e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3474.55, 'total_tokens': 83653966, 'epoch': 0.68}
+ 68%|█████████████████████████████████████████████████████████���█████████████████████████████████████████████████████████████████████████▊                                                             | 10240/15000 [7:15:26<3:06:50,  2.36s/it] 68%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                             | 10241/15000 [7:15:28<3:06:40,  2.35s/it] 68%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                             | 10242/15000 [7:15:30<3:06:35,  2.35s/it] 68%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                             | 10243/15000 [7:15:33<3:06:48,  2.36s/it] 68%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                             | 10244/15000 [7:15:35<3:06:50,  2.36s/it] 68%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                             | 10245/15000 [7:15:38<3:06:45,  2.36s/it] 68%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                             | 10246/15000 [7:15:40<3:06:44,  2.36s/it] 68%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                             | 10247/15000 [7:15:42<3:06:38,  2.36s/it] 68%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                             | 10248/15000 [7:15:45<3:06:40,  2.36s/it] 68%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                             | 10249/15000 [7:15:47<3:06:25,  2.35s/it] 68%|████████████████████████████████████████████████████████████████████████████████��██████████████████████████████████████████████████▉                                                             | 10250/15000 [7:15:49<3:06:24,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6573, 'grad_norm': 1.75, 'learning_rate': 2.439403485020485e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3477.72, 'total_tokens': 83735618, 'epoch': 0.68}
+ 68%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                             | 10250/15000 [7:15:49<3:06:24,  2.35s/it] 68%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                             | 10251/15000 [7:15:52<3:06:25,  2.36s/it] 68%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                             | 10252/15000 [7:15:54<3:06:33,  2.36s/it] 68%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                             | 10253/15000 [7:15:56<3:06:23,  2.36s/it] 68%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                             | 10254/15000 [7:15:59<3:06:18,  2.36s/it] 68%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                             | 10255/15000 [7:16:01<3:06:15,  2.36s/it] 68%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                             | 10256/15000 [7:16:03<3:06:02,  2.35s/it] 68%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                             | 10257/15000 [7:16:06<3:06:04,  2.35s/it] 68%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                             | 10258/15000 [7:16:08<3:06:00,  2.35s/it] 68%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                             | 10259/15000 [7:16:10<3:06:08,  2.36s/it] 68%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                             | 10260/15000 [7:16:13<3:06:04,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.6978, 'grad_norm': 1.71875, 'learning_rate': 2.431965947685868e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3475.96, 'total_tokens': 83817196, 'epoch': 0.68}
+ 68%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                             | 10260/15000 [7:16:13<3:06:04,  2.36s/it] 68%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                             | 10261/15000 [7:16:15<3:05:46,  2.35s/it] 68%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                             | 10262/15000 [7:16:18<3:05:47,  2.35s/it] 68%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                             | 10263/15000 [7:16:20<3:05:36,  2.35s/it] 68%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                             | 10264/15000 [7:16:22<3:05:39,  2.35s/it] 68%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                             | 10265/15000 [7:16:25<3:05:53,  2.36s/it] 68%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████���███████                                                             | 10266/15000 [7:16:27<3:05:47,  2.35s/it] 68%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                             | 10267/15000 [7:16:29<3:05:51,  2.36s/it] 68%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                             | 10268/15000 [7:16:32<3:05:46,  2.36s/it] 68%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                            | 10269/15000 [7:16:34<3:05:31,  2.35s/it] 68%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                            | 10270/15000 [7:16:36<3:05:36,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6181, 'grad_norm': 1.7421875, 'learning_rate': 2.424530315519417e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3467.5, 'total_tokens': 83898710, 'epoch': 0.68}
+ 68%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                            | 10270/15000 [7:16:36<3:05:36,  2.35s/it] 68%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                            | 10271/15000 [7:16:39<3:05:27,  2.35s/it] 68%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                            | 10272/15000 [7:16:41<3:05:22,  2.35s/it] 68%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                            | 10273/15000 [7:16:43<3:05:24,  2.35s/it] 68%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                            | 10274/15000 [7:16:46<3:05:06,  2.35s/it] 68%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                            | 10275/15000 [7:16:48<3:05:05,  2.35s/it] 69%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                            | 10276/15000 [7:16:50<3:05:02,  2.35s/it] 69%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                            | 10277/15000 [7:16:53<3:05:05,  2.35s/it] 69%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                            | 10278/15000 [7:16:55<3:05:06,  2.35s/it] 69%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                            | 10279/15000 [7:16:58<3:05:04,  2.35s/it] 69%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                            | 10280/15000 [7:17:00<3:05:08,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6375, 'grad_norm': 1.7890625, 'learning_rate': 2.4170966619078193e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3463.99, 'total_tokens': 83980113, 'epoch': 0.69}
+ 69%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                            | 10280/15000 [7:17:00<3:05:08,  2.35s/it] 69%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                            | 10281/15000 [7:17:03<3:16:29,  2.50s/it] 69%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                            | 10282/15000 [7:17:05<3:13:01,  2.45s/it][2025-11-17 04:59:58,366] [INFO] [axolotl.utils.data.wrappers.get_dataset_wrapper:87] [PID:8163] Loading dataset: Goader/kobza-2m-jsonl with base_type: pretrain and prompt_style: None
+
+Tokenizing Prompts (num_proc=64):   0%|                                                                                                                                                                        | 0/10000 [00:00<?, ? examples/s][A
+Tokenizing Prompts (num_proc=64):   2%|██▍                                                                                                                                                           | 157/10000 [00:05<06:00, 27.34 examples/s][A
+Tokenizing Prompts (num_proc=64):   3%|████▉                                                                                                                                                         | 314/10000 [00:06<02:54, 55.55 examples/s][A
+Tokenizing Prompts (num_proc=64):   5%|███████▍                                                                                                                                                      | 471/10000 [00:07<01:51, 85.51 examples/s][A
+Tokenizing Prompts (num_proc=64):   6%|█████████▊                                                                                                                                                   | 628/10000 [00:08<01:25, 109.04 examples/s][A
+Tokenizing Prompts (num_proc=64):   8%|████████████▎                                                                                                                                                | 785/10000 [00:09<01:23, 110.03 examples/s][A
+Tokenizing Prompts (num_proc=64):   9%|██████████████▊                                                                                                                                              | 942/10000 [00:09<00:58, 155.77 examples/s][A
+Tokenizing Prompts (num_proc=64):  11%|█████████████████▏                                                                                                                                          | 1099/10000 [00:10<00:51, 173.08 examples/s][A
+Tokenizing Prompts (num_proc=64):  13%|███████████████████▌                                                                                                                                        | 1256/10000 [00:10<00:46, 189.88 examples/s][A
+Tokenizing Prompts (num_proc=64):  14%|██████████████████████                                                                                                                                      | 1413/10000 [00:11<00:42, 201.41 examples/s][A
+Tokenizing Prompts (num_proc=64):  16%|████████████████████████▍                                                                                                                                   | 1570/10000 [00:12<00:40, 206.58 examples/s][A
+Tokenizing Prompts (num_proc=64):  17%|██████████████████████████▉                                                                                                                                 | 1727/10000 [00:12<00:37, 220.34 examples/s][A
+Tokenizing Prompts (num_proc=64):  19%|█████████████████████████████▍                                                                                                                              | 1884/10000 [00:13<00:36, 221.99 examples/s][A
+Tokenizing Prompts (num_proc=64):  20%|███████████████████████████████▊                                                                                                                            | 2041/10000 [00:14<00:35, 224.55 examples/s][A
+Tokenizing Prompts (num_proc=64):  22%|██████████████████████████████████▎                                                                                                                         | 2198/10000 [00:15<00:34, 228.13 examples/s][A
+Tokenizing Prompts (num_proc=64):  24%|████████████████████████████████████▋                                                                                                                       | 2355/10000 [00:15<00:33, 228.16 examples/s][A
+Tokenizing Prompts (num_proc=64):  25%|███████████████████████████████████████▏                                                                                                                    | 2512/10000 [00:16<00:32, 229.90 examples/s][A
+Tokenizing Prompts (num_proc=64):  27%|█████████████████████████████████████████▌                                                                                                                  | 2668/10000 [00:17<00:31, 233.43 examples/s][A
+Tokenizing Prompts (num_proc=64):  28%|████████████████████████████████████████████                                                                                                                | 2824/10000 [00:17<00:31, 229.37 examples/s][A
+Tokenizing Prompts (num_proc=64):  30%|██████████████████████████████████████████████▍                                                                                                             | 2980/10000 [00:18<00:29, 236.36 examples/s][A
+Tokenizing Prompts (num_proc=64):  31%|████████████████████████████████████████████████▉                                                                                                           | 3136/10000 [00:19<00:35, 195.68 examples/s][A
+Tokenizing Prompts (num_proc=64):  33%|███████████████████████████████████████████████████▎                                                                                                        | 3292/10000 [00:19<00:26, 249.87 examples/s][A
+Tokenizing Prompts (num_proc=64):  34%|█████████████████████████████████████████████████████▊                                                                                                      | 3448/10000 [00:20<00:28, 226.01 examples/s][A
+Tokenizing Prompts (num_proc=64):  36%|████████████████████████████████████████████████████████▏                                                                                                   | 3604/10000 [00:20<00:25, 248.32 examples/s][A
+Tokenizing Prompts (num_proc=64):  38%|██████████████████████████████████████████████████████████▋                                                                                                 | 3760/10000 [00:21<00:26, 233.15 examples/s][A
+Tokenizing Prompts (num_proc=64):  39%|█████████████████████████████████████████████████████████████                                                                                               | 3916/10000 [00:22<00:30, 202.41 examples/s][A
+Tokenizing Prompts (num_proc=64):  41%|███████████████████████████████████████████████████████████████▌                                                                                            | 4072/10000 [00:23<00:23, 252.49 examples/s][A
+Tokenizing Prompts (num_proc=64):  42%|█████████████████████████████████████████████████████████████████▉                                                                                          | 4228/10000 [00:23<00:23, 241.48 examples/s][A
+Tokenizing Prompts (num_proc=64):  44%|████████████████████████████████████████████████████████████████████▍                                                                                       | 4384/10000 [00:24<00:22, 251.72 examples/s][A
+Tokenizing Prompts (num_proc=64):  45%|██████████████████████████████████████████████████████████████████████▊                                                                                     | 4540/10000 [00:24<00:22, 242.78 examples/s][A
+Tokenizing Prompts (num_proc=64):  47%|█████████████████████████████████████████████████████████████████████████▎                                                                                  | 4696/10000 [00:25<00:22, 236.15 examples/s][A
+Tokenizing Prompts (num_proc=64):  49%|██████████████████���████████████████████████████████████████████████████████▋                                                                                | 4852/10000 [00:26<00:21, 242.59 examples/s][A
+Tokenizing Prompts (num_proc=64):  50%|██████████████████████████████████████████████████████████████████████████████                                                                              | 5008/10000 [00:26<00:20, 241.67 examples/s][A
+Tokenizing Prompts (num_proc=64):  52%|████████████████████████████████████████████████████████████████████████████████▌                                                                           | 5164/10000 [00:27<00:20, 240.31 examples/s][A
+Tokenizing Prompts (num_proc=64):  53%|██████████████████████████████████████████████████████████████████████████████████▉                                                                         | 5320/10000 [00:28<00:19, 234.74 examples/s][A
+Tokenizing Prompts (num_proc=64):  55%|█████████████████████████████████████████████████████████████████████████████████████▍                                                                      | 5476/10000 [00:28<00:19, 236.37 examples/s][A
+Tokenizing Prompts (num_proc=64):  56%|███████████████████████████████████████████████████████████████████████████████████████▊                                                                    | 5632/10000 [00:29<00:18, 235.34 examples/s][A
+Tokenizing Prompts (num_proc=64):  58%|██████████████████████████████████████████████████████████████████████████████████████████▎                                                                 | 5788/10000 [00:30<00:17, 242.70 examples/s][A
+Tokenizing Prompts (num_proc=64):  59%|████████████████████████████████████████████████████████████████████████████████████████████▋                                                               | 5944/10000 [00:30<00:17, 233.59 examples/s][A
+Tokenizing Prompts (num_proc=64):  61%|███████████████████████████████████████████████████████████████████████████████████████████████▏                                                            | 6100/10000 [00:31<00:16, 237.04 examples/s][A
+Tokenizing Prompts (num_proc=64):  63%|█████████████████████████████████████████████████████████████████████████████████████████████████▌                                                          | 6256/10000 [00:32<00:15, 237.28 examples/s][A
+Tokenizing Prompts (num_proc=64):  64%|████████████████████████████████████████████████████████████████████████████████████████████████████                                                        | 6412/10000 [00:33<00:15, 225.03 examples/s][A
+Tokenizing Prompts (num_proc=64):  66%|██████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                     | 6568/10000 [00:33<00:14, 237.10 examples/s][A
+Tokenizing Prompts (num_proc=64):  67%|█████████████████████████��██████████████████████████████████████████████████████████████████████████████▉                                                   | 6724/10000 [00:34<00:13, 242.81 examples/s][A
+Tokenizing Prompts (num_proc=64):  69%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                | 6880/10000 [00:35<00:13, 228.95 examples/s][A
+Tokenizing Prompts (num_proc=64):  70%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                              | 7036/10000 [00:35<00:12, 244.07 examples/s][A
+Tokenizing Prompts (num_proc=64):  72%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                           | 7192/10000 [00:36<00:11, 236.96 examples/s][A
+Tokenizing Prompts (num_proc=64):  73%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                         | 7348/10000 [00:37<00:11, 225.59 examples/s][A
+Tokenizing Prompts (num_proc=64):  75%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                       | 7504/10000 [00:37<00:10, 242.72 examples/s][A
+Tokenizing Prompts (num_proc=64):  77%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                    | 7660/10000 [00:38<00:11, 201.56 examples/s][A
+Tokenizing Prompts (num_proc=64):  78%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                  | 7816/10000 [00:38<00:08, 253.03 examples/s][A
+Tokenizing Prompts (num_proc=64):  80%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                               | 7972/10000 [00:39<00:08, 234.53 examples/s][A
+Tokenizing Prompts (num_proc=64):  81%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                             | 8128/10000 [00:40<00:07, 251.04 examples/s][A
+Tokenizing Prompts (num_proc=64):  83%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                          | 8284/10000 [00:40<00:07, 237.71 examples/s][A
+Tokenizing Prompts (num_proc=64):  84%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                        | 8440/10000 [00:41<00:06, 242.42 examples/s][A
+Tokenizing Prompts (num_proc=64):  86%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                      | 8596/10000 [00:42<00:05, 250.96 examples/s][A
+Tokenizing Prompts (num_proc=64):  88%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                   | 8752/10000 [00:43<00:06, 201.18 examples/s][A
+Tokenizing Prompts (num_proc=64):  89%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                 | 8908/10000 [00:43<00:04, 254.40 examples/s][A
+Tokenizing Prompts (num_proc=64):  91%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍              | 9064/10000 [00:44<00:03, 253.44 examples/s][A
+Tokenizing Prompts (num_proc=64):  92%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊            | 9220/10000 [00:44<00:03, 245.71 examples/s][A
+Tokenizing Prompts (num_proc=64):  94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎         | 9376/10000 [00:45<00:02, 238.26 examples/s][A
+Tokenizing Prompts (num_proc=64):  95%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋       | 9532/10000 [00:46<00:01, 240.80 examples/s][A
+Tokenizing Prompts (num_proc=64):  97%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏    | 9688/10000 [00:46<00:01, 234.29 examples/s][A
+Tokenizing Prompts (num_proc=64):  98%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌  | 9844/10000 [00:47<00:00, 243.23 examples/s][A
+Tokenizing Prompts (num_proc=64): 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10000/10000 [00:48<00:00, 239.66 examples/s][ATokenizing Prompts (num_proc=64): 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10000/10000 [00:50<00:00, 199.94 examples/s]
+
+Dropping Long Sequences:   0%|                                                                                                                                                                                 | 0/10000 [00:00<?, ? examples/s][A
+Dropping Long Sequences:  10%|████████████████▌                                                                                                                                                    | 1000/10000 [00:01<00:12, 732.69 examples/s][A
+Dropping Long Sequences:  20%|████████████████████████████████▊                                                                                                                                   | 2000/10000 [00:01<00:05, 1426.03 examples/s][A
+Dropping Long Sequences:  30%|█████████████████████████████████████████████████▏                                                                                                                  | 3000/10000 [00:01<00:03, 2038.23 examples/s][A
+Dropping Long Sequences:  40%|█████████████████████████████████████████████████████████████████▌                                                                                                  | 4000/10000 [00:02<00:02, 2473.15 examples/s][A
+Dropping Long Sequences:  50%|██████████████████████████████████████████████████████████████████████████████████                                                                                  | 5000/10000 [00:02<00:01, 2879.19 examples/s][A
+Dropping Long Sequences:  60%|██████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                 | 6000/10000 [00:02<00:01, 3215.59 examples/s][A
+Dropping Long Sequences:  70%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                 | 7000/10000 [00:02<00:00, 3423.53 examples/s][A
+Dropping Long Sequences:  80%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                | 8000/10000 [00:03<00:00, 3462.86 examples/s][A
+Dropping Long Sequences:  90%|████████████████████████████████████████████████████████████████████████████████████████████████████████████���██████████████████████████████████████▌                | 9000/10000 [00:03<00:00, 3473.44 examples/s][A
+Dropping Long Sequences: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10000/10000 [00:03<00:00, 3509.95 examples/s][ADropping Long Sequences: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10000/10000 [00:03<00:00, 2663.16 examples/s]
+
+Add position_id column (Pretraining Sample Packing):   0%|                                                                                                                                                      | 0/8763 [00:00<?, ? examples/s][A
+Add position_id column (Pretraining Sample Packing):  11%|███████████████▋                                                                                                                          | 1000/8763 [00:01<00:09, 799.46 examples/s][A
+Add position_id column (Pretraining Sample Packing):  23%|███████████████████████████████▎                                                                                                         | 2000/8763 [00:01<00:04, 1663.20 examples/s][A
+Add position_id column (Pretraining Sample Packing):  34%|██████████████████████████████████████████████▉                                                                                          | 3000/8763 [00:01<00:02, 2568.01 examples/s][A
+Add position_id column (Pretraining Sample Packing):  46%|██████████████████████████████████████████████████████████████▌                                                                          | 4000/8763 [00:01<00:01, 3361.64 examples/s][A
+Add position_id column (Pretraining Sample Packing):  57%|██████████████████████████████████████████████████████████████████████████████▏                                                          | 5000/8763 [00:01<00:00, 4160.72 examples/s][A
+Add position_id column (Pretraining Sample Packing):  68%|█████████████████████████████████████████████████████████████████████████████████████████████▊                                           | 6000/8763 [00:01<00:00, 4847.51 examples/s][A
+Add position_id column (Pretraining Sample Packing):  80%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                           | 7000/8763 [00:02<00:00, 5368.36 examples/s][A
+Add position_id column (Pretraining Sample Packing):  91%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████            | 8000/8763 [00:02<00:00, 5581.03 examples/s][A
+Add position_id column (Pretraining Sample Packing): 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████���███████| 8763/8763 [00:02<00:00, 5816.97 examples/s][AAdd position_id column (Pretraining Sample Packing): 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 8763/8763 [00:02<00:00, 3581.34 examples/s]
+[2025-11-17 05:00:56,138] [DEBUG] [axolotl.utils.samplers.multipack.pack_parallel:177] [PID:8163] Using single process for pack_parallel, running sequentially.
+ 69%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                            | 10283/15000 [7:18:10<27:55:55, 21.32s/it] 69%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                            | 10284/15000 [7:18:13<20:28:22, 15.63s/it] 69%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                            | 10285/15000 [7:18:15<15:15:11, 11.65s/it] 69%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                            | 10286/15000 [7:18:17<11:35:51,  8.86s/it] 69%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                            | 10287/15000 [7:18:20<9:02:23,  6.91s/it] 69%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                            | 10288/15000 [7:18:22<7:14:52,  5.54s/it] 69%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                            | 10289/15000 [7:18:25<5:59:38,  4.58s/it] 69%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                            | 10290/15000 [7:18:27<5:06:52,  3.91s/it]                                                                                                                                                                                                                                                {'loss': 2.649, 'grad_norm': 1.8125, 'learning_rate': 2.409665060218234e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3378.09, 'total_tokens': 84059026, 'epoch': 0.69}
+ 69%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                            | 10290/15000 [7:18:27<5:06:52,  3.91s/it] 69%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                            | 10291/15000 [7:18:29<4:30:15,  3.44s/it] 69%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                            | 10292/15000 [7:18:32<4:04:26,  3.12s/it] 69%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                            | 10293/15000 [7:18:34<3:46:24,  2.89s/it] 69%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                            | 10294/15000 [7:18:36<3:33:56,  2.73s/it] 69%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                            | 10295/15000 [7:18:39<3:25:06,  2.62s/it] 69%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                            | 10296/15000 [7:18:41<3:19:01,  2.54s/it] 69%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                            | 10297/15000 [7:18:43<3:14:29,  2.48s/it] 69%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                            | 10298/15000 [7:18:46<3:11:22,  2.44s/it] 69%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████��██████████▌                                                            | 10299/15000 [7:18:48<3:09:19,  2.42s/it] 69%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                            | 10300/15000 [7:18:50<3:07:40,  2.40s/it]                                                                                                                                                                                                                                                {'loss': 2.679, 'grad_norm': 1.765625, 'learning_rate': 2.40223558379757e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3495.36, 'total_tokens': 84140864, 'epoch': 0.69}
+ 69%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                            | 10300/15000 [7:18:50<3:07:40,  2.40s/it] 69%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                            | 10301/15000 [7:18:53<3:06:42,  2.38s/it] 69%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                            | 10302/15000 [7:18:55<3:06:01,  2.38s/it] 69%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                            | 10303/15000 [7:18:57<3:05:26,  2.37s/it] 69%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                            | 10304/15000 [7:19:00<3:05:01,  2.36s/it] 69%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                            | 10305/15000 [7:19:02<3:04:33,  2.36s/it] 69%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                            | 10306/15000 [7:19:05<3:04:23,  2.36s/it] 69%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                            | 10307/15000 [7:19:07<3:04:09,  2.35s/it] 69%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                            | 10308/15000 [7:19:09<3:04:09,  2.35s/it] 69%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                            | 10309/15000 [7:19:12<3:04:10,  2.36s/it] 69%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                            | 10310/15000 [7:19:14<3:04:03,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6283, 'grad_norm': 1.7421875, 'learning_rate': 2.3948083059717604e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3489.32, 'total_tokens': 84222704, 'epoch': 0.69}
+ 69%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                            | 10310/15000 [7:19:14<3:04:03,  2.35s/it] 69%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                            | 10311/15000 [7:19:16<3:04:04,  2.36s/it] 69%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                            | 10312/15000 [7:19:19<3:03:58,  2.35s/it] 69%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                            | 10313/15000 [7:19:21<3:03:54,  2.35s/it] 69%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                            | 10314/15000 [7:19:23<3:03:58,  2.36s/it] 69%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                            | 10315/15000 [7:19:26<3:03:45,  2.35s/it] 69%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                            | 10316/15000 [7:19:28<3:03:50,  2.35s/it] 69%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                            | 10317/15000 [7:19:30<3:03:41,  2.35s/it] 69%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                            | 10318/15000 [7:19:33<3:03:24,  2.35s/it] 69%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                            | 10319/15000 [7:19:35<3:03:18,  2.35s/it] 69%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                            | 10320/15000 [7:19:37<3:03:23,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6466, 'grad_norm': 1.75, 'learning_rate': 2.387383300045039e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3484.12, 'total_tokens': 84304517, 'epoch': 0.69}
+ 69%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                            | 10320/15000 [7:19:37<3:03:23,  2.35s/it] 69%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                            | 10321/15000 [7:19:40<3:03:35,  2.35s/it] 69%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                            | 10322/15000 [7:19:42<3:03:30,  2.35s/it] 69%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                            | 10323/15000 [7:19:45<3:03:34,  2.35s/it] 69%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                            | 10324/15000 [7:19:47<3:03:25,  2.35s/it] 69%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                            | 10325/15000 [7:19:49<3:03:15,  2.35s/it] 69%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                            | 10326/15000 [7:19:52<3:03:06,  2.35s/it] 69%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                            | 10327/15000 [7:19:54<3:03:13,  2.35s/it] 69%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                            | 10328/15000 [7:19:56<3:03:13,  2.35s/it] 69%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                            | 10329/15000 [7:19:59<3:03:20,  2.36s/it] 69%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                            | 10330/15000 [7:20:01<3:03:14,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.7324, 'grad_norm': 1.6484375, 'learning_rate': 2.379960639299216e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3486.3, 'total_tokens': 84386290, 'epoch': 0.69}
+ 69%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                            | 10330/15000 [7:20:01<3:03:14,  2.35s/it] 69%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                            | 10331/15000 [7:20:03<3:03:15,  2.35s/it] 69%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                            | 10332/15000 [7:20:06<3:03:30,  2.36s/it] 69%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                            | 10333/15000 [7:20:08<3:03:16,  2.36s/it] 69%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                            | 10334/15000 [7:20:10<3:03:16,  2.36s/it] 69%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                            | 10335/15000 [7:20:13<3:03:01,  2.35s/it] 69%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                            | 10336/15000 [7:20:15<3:02:54,  2.35s/it] 69%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                            | 10337/15000 [7:20:17<3:02:52,  2.35s/it] 69%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                            | 10338/15000 [7:20:20<3:02:47,  2.35s/it] 69%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                            | 10339/15000 [7:20:22<3:02:50,  2.35s/it] 69%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                            | 10340/15000 [7:20:25<3:02:38,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.7159, 'grad_norm': 1.8125, 'learning_rate': 2.3725403969929567e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3496.73, 'total_tokens': 84468109, 'epoch': 0.69}
+ 69%|█████████████████████████████���███████████████████████████████████████████████████████████████████████████████████████████████████████                                                            | 10340/15000 [7:20:25<3:02:38,  2.35s/it] 69%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                            | 10341/15000 [7:20:27<3:02:43,  2.35s/it] 69%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                            | 10342/15000 [7:20:29<3:02:40,  2.35s/it] 69%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                            | 10343/15000 [7:20:32<3:02:34,  2.35s/it] 69%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                            | 10344/15000 [7:20:34<3:02:23,  2.35s/it] 69%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                            | 10345/15000 [7:20:36<3:02:23,  2.35s/it] 69%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                            | 10346/15000 [7:20:39<3:02:19,  2.35s/it] 69%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                           | 10347/15000 [7:20:41<3:02:24,  2.35s/it] 69%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                           | 10348/15000 [7:20:43<3:02:15,  2.35s/it] 69%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                           | 10349/15000 [7:20:46<3:02:15,  2.35s/it] 69%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                           | 10350/15000 [7:20:48<3:02:19,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.655, 'grad_norm': 1.8671875, 'learning_rate': 2.3651226463610578e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3483.67, 'total_tokens': 84549925, 'epoch': 0.69}
+ 69%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                           | 10350/15000 [7:20:48<3:02:19,  2.35s/it] 69%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                           | 10351/15000 [7:20:50<3:02:19,  2.35s/it] 69%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                           | 10352/15000 [7:20:53<3:02:13,  2.35s/it] 69%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                           | 10353/15000 [7:20:55<3:02:28,  2.36s/it] 69%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                           | 10354/15000 [7:20:57<3:02:22,  2.36s/it] 69%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                           | 10355/15000 [7:21:00<3:02:24,  2.36s/it] 69%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                           | 10356/15000 [7:21:02<3:02:19,  2.36s/it] 69%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                           | 10357/15000 [7:21:05<3:02:05,  2.35s/it] 69%|████████████████████████████████████████████████████��████████████████████████████████████████████████████████████████████████████████▎                                                           | 10358/15000 [7:21:07<3:02:11,  2.35s/it] 69%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                           | 10359/15000 [7:21:09<3:02:07,  2.35s/it] 69%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                           | 10360/15000 [7:21:12<3:02:06,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.7128, 'grad_norm': 1.8125, 'learning_rate': 2.3577074606137218e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3484.12, 'total_tokens': 84631748, 'epoch': 0.69}
+ 69%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                           | 10360/15000 [7:21:12<3:02:06,  2.35s/it] 69%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                           | 10361/15000 [7:21:14<3:02:03,  2.35s/it] 69%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                           | 10362/15000 [7:21:16<3:01:59,  2.35s/it] 69%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                           | 10363/15000 [7:21:19<3:01:56,  2.35s/it] 69%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                           | 10364/15000 [7:21:21<3:02:03,  2.36s/it] 69%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                           | 10365/15000 [7:21:23<3:01:58,  2.36s/it] 69%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                           | 10366/15000 [7:21:26<3:01:44,  2.35s/it] 69%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                           | 10367/15000 [7:21:28<3:01:49,  2.35s/it] 69%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                           | 10368/15000 [7:21:30<3:01:44,  2.35s/it] 69%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                           | 10369/15000 [7:21:33<3:01:40,  2.35s/it] 69%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                           | 10370/15000 [7:21:35<3:01:35,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6917, 'grad_norm': 1.7109375, 'learning_rate': 2.35029491293584e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3488.43, 'total_tokens': 84713566, 'epoch': 0.69}
+ 69%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                           | 10370/15000 [7:21:35<3:01:35,  2.35s/it] 69%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                           | 10371/15000 [7:21:37<3:01:30,  2.35s/it] 69%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                           | 10372/15000 [7:21:40<3:01:26,  2.35s/it] 69%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                           | 10373/15000 [7:21:42<3:01:25,  2.35s/it] 69%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                           | 10374/15000 [7:21:45<3:01:25,  2.35s/it] 69%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                           | 10375/15000 [7:21:47<3:01:17,  2.35s/it] 69%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                           | 10376/15000 [7:21:49<3:01:16,  2.35s/it] 69%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                           | 10377/15000 [7:21:52<3:01:25,  2.35s/it] 69%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                           | 10378/15000 [7:21:54<3:01:24,  2.35s/it] 69%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                           | 10379/15000 [7:21:56<3:01:28,  2.36s/it] 69%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                           | 10380/15000 [7:21:59<3:01:33,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.624, 'grad_norm': 1.8671875, 'learning_rate': 2.3428850764862635e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3475.33, 'total_tokens': 84795388, 'epoch': 0.69}
+ 69%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                           | 10380/15000 [7:21:59<3:01:33,  2.36s/it] 69%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                           | 10381/15000 [7:22:01<3:01:26,  2.36s/it] 69%|███████████████████████████████████████████████████████████████████████████████��█████████████████████████████████████████████████████▌                                                           | 10382/15000 [7:22:03<3:01:31,  2.36s/it] 69%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                           | 10383/15000 [7:22:06<3:01:16,  2.36s/it] 69%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                           | 10384/15000 [7:22:08<3:01:06,  2.35s/it] 69%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                           | 10385/15000 [7:22:10<3:01:00,  2.35s/it] 69%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                           | 10386/15000 [7:22:13<3:01:04,  2.35s/it] 69%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                           | 10387/15000 [7:22:15<3:00:59,  2.35s/it] 69%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                           | 10388/15000 [7:22:18<3:00:58,  2.35s/it] 69%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                           | 10389/15000 [7:22:20<3:01:04,  2.36s/it] 69%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                           | 10390/15000 [7:22:22<3:00:55,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.763, 'grad_norm': 1.8203125, 'learning_rate': 2.3354780243970884e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3486.54, 'total_tokens': 84877141, 'epoch': 0.69}
+ 69%|████████████████████████████████████████████████████████████████████████████████████████���████████████████████████████████████████████▋                                                           | 10390/15000 [7:22:22<3:00:55,  2.35s/it] 69%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                           | 10391/15000 [7:22:25<3:01:06,  2.36s/it] 69%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                           | 10392/15000 [7:22:27<3:00:56,  2.36s/it] 69%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                           | 10393/15000 [7:22:29<3:01:04,  2.36s/it] 69%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                           | 10394/15000 [7:22:32<3:00:45,  2.35s/it] 69%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                           | 10395/15000 [7:22:34<3:00:44,  2.35s/it] 69%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                           | 10396/15000 [7:22:36<3:00:38,  2.35s/it] 69%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                           | 10397/15000 [7:22:39<3:00:32,  2.35s/it] 69%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                           | 10398/15000 [7:22:41<3:00:27,  2.35s/it] 69%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                           | 10399/15000 [7:22:43<3:00:30,  2.35s/it] 69%|██████████████████████████████████████████████████████████████████████████████████████████████████���██████████████████████████████████▊                                                           | 10400/15000 [7:22:46<3:00:35,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.6782, 'grad_norm': 1.6953125, 'learning_rate': 2.3280738297729275e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3477.24, 'total_tokens': 84958922, 'epoch': 0.69}
+ 69%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                           | 10400/15000 [7:22:46<3:00:35,  2.36s/it] 69%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                           | 10401/15000 [7:22:48<3:00:38,  2.36s/it] 69%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                           | 10402/15000 [7:22:51<3:00:41,  2.36s/it] 69%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                           | 10403/15000 [7:22:53<3:00:27,  2.36s/it] 69%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                           | 10404/15000 [7:22:55<3:00:17,  2.35s/it] 69%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                           | 10405/15000 [7:22:58<3:00:12,  2.35s/it] 69%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                           | 10406/15000 [7:23:00<3:00:16,  2.35s/it] 69%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                           | 10407/15000 [7:23:02<3:00:19,  2.36s/it] 69%|██████████████████████████████████████████████████████████████████████████████████████████████████████████��██████████████████████████▉                                                           | 10408/15000 [7:23:05<3:00:25,  2.36s/it] 69%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                           | 10409/15000 [7:23:07<3:00:10,  2.35s/it] 69%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                           | 10410/15000 [7:23:09<3:00:11,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.7081, 'grad_norm': 1.7109375, 'learning_rate': 2.320672565690193e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3477.37, 'total_tokens': 85040652, 'epoch': 0.69}
+ 69%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                           | 10410/15000 [7:23:09<3:00:11,  2.36s/it] 69%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                           | 10411/15000 [7:23:12<3:00:12,  2.36s/it] 69%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                           | 10412/15000 [7:23:14<3:00:08,  2.36s/it] 69%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                           | 10413/15000 [7:23:16<3:00:04,  2.36s/it] 69%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                           | 10414/15000 [7:23:19<3:00:00,  2.36s/it] 69%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                           | 10415/15000 [7:23:21<2:59:56,  2.35s/it] 69%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████���██████████████████                                                           | 10416/15000 [7:23:23<2:59:48,  2.35s/it] 69%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                           | 10417/15000 [7:23:26<2:59:44,  2.35s/it] 69%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                           | 10418/15000 [7:23:28<2:59:45,  2.35s/it] 69%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                           | 10419/15000 [7:23:31<2:59:48,  2.36s/it] 69%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                           | 10420/15000 [7:23:33<2:59:42,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6871, 'grad_norm': 1.7265625, 'learning_rate': 2.3132743051963727e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3484.86, 'total_tokens': 85122390, 'epoch': 0.69}
+ 69%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                           | 10420/15000 [7:23:33<2:59:42,  2.35s/it] 69%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                           | 10421/15000 [7:23:35<2:59:43,  2.36s/it] 69%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                           | 10422/15000 [7:23:38<2:59:54,  2.36s/it] 69%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                           | 10423/15000 [7:23:40<2:59:52,  2.36s/it] 69%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████��██████████                                                           | 10424/15000 [7:23:42<2:59:38,  2.36s/it] 70%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                          | 10425/15000 [7:23:45<2:59:29,  2.35s/it] 70%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                          | 10426/15000 [7:23:47<2:59:31,  2.36s/it] 70%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                          | 10427/15000 [7:23:49<2:59:37,  2.36s/it] 70%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                          | 10428/15000 [7:23:52<2:59:27,  2.36s/it] 70%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                          | 10429/15000 [7:23:54<2:59:31,  2.36s/it] 70%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                          | 10430/15000 [7:23:56<2:59:24,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.6961, 'grad_norm': 1.890625, 'learning_rate': 2.3058791213093116e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3485.81, 'total_tokens': 85204182, 'epoch': 0.7}
+ 70%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                          | 10430/15000 [7:23:56<2:59:24,  2.36s/it] 70%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                          | 10431/15000 [7:23:59<2:59:21,  2.36s/it] 70%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████���██████▏                                                          | 10432/15000 [7:24:01<2:59:14,  2.35s/it] 70%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                          | 10433/15000 [7:24:04<2:59:12,  2.35s/it] 70%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                          | 10434/15000 [7:24:06<2:59:07,  2.35s/it] 70%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                          | 10435/15000 [7:24:08<2:59:10,  2.35s/it] 70%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                          | 10436/15000 [7:24:11<2:59:17,  2.36s/it] 70%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                          | 10437/15000 [7:24:13<2:59:06,  2.36s/it] 70%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                          | 10438/15000 [7:24:15<2:59:09,  2.36s/it] 70%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                          | 10439/15000 [7:24:18<2:58:58,  2.35s/it] 70%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                          | 10440/15000 [7:24:20<2:58:55,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6673, 'grad_norm': 1.921875, 'learning_rate': 2.298487087016489e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3483.6, 'total_tokens': 85285937, 'epoch': 0.7}
+ 70%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                          | 10440/15000 [7:24:20<2:58:55,  2.35s/it] 70%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                          | 10441/15000 [7:24:22<2:59:09,  2.36s/it] 70%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                          | 10442/15000 [7:24:25<2:59:00,  2.36s/it] 70%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                          | 10443/15000 [7:24:27<2:58:46,  2.35s/it] 70%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                          | 10444/15000 [7:24:29<2:58:37,  2.35s/it] 70%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                          | 10445/15000 [7:24:32<2:58:33,  2.35s/it] 70%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                          | 10446/15000 [7:24:34<2:58:50,  2.36s/it] 70%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                          | 10447/15000 [7:24:36<2:58:50,  2.36s/it] 70%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                          | 10448/15000 [7:24:39<2:58:44,  2.36s/it] 70%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                          | 10449/15000 [7:24:41<2:58:40,  2.36s/it] 70%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████���                                                          | 10450/15000 [7:24:44<2:58:22,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.5614, 'grad_norm': 1.8515625, 'learning_rate': 2.2910982752742987e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3501.31, 'total_tokens': 85367754, 'epoch': 0.7}
+ 70%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                          | 10450/15000 [7:24:44<2:58:22,  2.35s/it] 70%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                          | 10451/15000 [7:24:46<2:58:28,  2.35s/it] 70%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                          | 10452/15000 [7:24:48<2:58:19,  2.35s/it] 70%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                          | 10453/15000 [7:24:51<2:58:28,  2.36s/it] 70%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                          | 10454/15000 [7:24:53<2:58:27,  2.36s/it] 70%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                          | 10455/15000 [7:24:55<2:58:23,  2.36s/it] 70%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                          | 10456/15000 [7:24:58<2:58:17,  2.35s/it] 70%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                          | 10457/15000 [7:25:00<2:58:07,  2.35s/it] 70%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                          | 10458/15000 [7:25:02<2:58:07,  2.35s/it] 70%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                          | 10459/15000 [7:25:05<2:57:52,  2.35s/it] 70%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                          | 10460/15000 [7:25:07<2:57:50,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.605, 'grad_norm': 1.8203125, 'learning_rate': 2.28371275900733e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3489.91, 'total_tokens': 85449506, 'epoch': 0.7}
+ 70%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                          | 10460/15000 [7:25:07<2:57:50,  2.35s/it] 70%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                          | 10461/15000 [7:25:09<2:58:04,  2.35s/it] 70%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                          | 10462/15000 [7:25:12<2:58:15,  2.36s/it] 70%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                          | 10463/15000 [7:25:14<2:58:06,  2.36s/it] 70%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                          | 10464/15000 [7:25:17<2:58:09,  2.36s/it] 70%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                          | 10465/15000 [7:25:19<2:58:13,  2.36s/it] 70%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                          | 10466/15000 [7:25:21<2:58:08,  2.36s/it] 70%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                          | 10467/15000 [7:25:24<2:58:02,  2.36s/it] 70%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                          | 10468/15000 [7:25:26<2:57:51,  2.35s/it] 70%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                          | 10469/15000 [7:25:28<2:57:57,  2.36s/it] 70%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                          | 10470/15000 [7:25:31<2:57:40,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6222, 'grad_norm': 1.75, 'learning_rate': 2.2763306111076474e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3493.17, 'total_tokens': 85531223, 'epoch': 0.7}
+ 70%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                          | 10470/15000 [7:25:31<2:57:40,  2.35s/it] 70%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                          | 10471/15000 [7:25:33<2:57:35,  2.35s/it] 70%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                          | 10472/15000 [7:25:35<2:57:40,  2.35s/it] 70%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                          | 10473/15000 [7:25:38<2:57:39,  2.35s/it] 70%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                          | 10474/15000 [7:25:40<2:57:35,  2.35s/it] 70%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                          | 10475/15000 [7:25:42<2:57:36,  2.36s/it] 70%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                          | 10476/15000 [7:25:45<2:57:35,  2.36s/it] 70%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                          | 10477/15000 [7:25:47<2:57:32,  2.36s/it] 70%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                          | 10478/15000 [7:25:49<2:57:23,  2.35s/it] 70%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                          | 10479/15000 [7:25:52<2:57:20,  2.35s/it] 70%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                          | 10480/15000 [7:25:54<2:57:10,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.614, 'grad_norm': 1.75, 'learning_rate': 2.2689519044340686e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3493.13, 'total_tokens': 85612997, 'epoch': 0.7}
+ 70%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                          | 10480/15000 [7:25:54<2:57:10,  2.35s/it] 70%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                          | 10481/15000 [7:25:57<2:57:23,  2.36s/it] 70%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                          | 10482/15000 [7:25:59<2:57:18,  2.35s/it] 70%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                          | 10483/15000 [7:26:01<2:57:13,  2.35s/it] 70%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                          | 10484/15000 [7:26:04<2:57:06,  2.35s/it] 70%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                          | 10485/15000 [7:26:06<2:57:00,  2.35s/it] 70%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                          | 10486/15000 [7:26:08<2:57:00,  2.35s/it] 70%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                          | 10487/15000 [7:26:11<2:56:42,  2.35s/it] 70%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                          | 10488/15000 [7:26:13<2:56:41,  2.35s/it] 70%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                          | 10489/15000 [7:26:15<2:56:46,  2.35s/it] 70%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                          | 10490/15000 [7:26:18<2:56:46,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6918, 'grad_norm': 1.84375, 'learning_rate': 2.2615767118114514e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3484.88, 'total_tokens': 85694765, 'epoch': 0.7}
+ 70%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                          | 10490/15000 [7:26:18<2:56:46,  2.35s/it] 70%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                          | 10491/15000 [7:26:20<2:56:52,  2.35s/it] 70%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                          | 10492/15000 [7:26:22<2:57:02,  2.36s/it] 70%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                          | 10493/15000 [7:26:25<2:56:48,  2.35s/it] 70%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                          | 10494/15000 [7:26:27<2:56:36,  2.35s/it] 70%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                          | 10495/15000 [7:26:29<2:56:24,  2.35s/it] 70%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                          | 10496/15000 [7:26:32<2:56:15,  2.35s/it] 70%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                          | 10497/15000 [7:26:34<2:56:23,  2.35s/it] 70%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                          | 10498/15000 [7:26:37<2:56:31,  2.35s/it] 70%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                          | 10499/15000 [7:26:39<2:56:34,  2.35s/it] 70%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                          | 10500/15000 [7:26:41<2:56:30,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.7013, 'grad_norm': 1.7734375, 'learning_rate': 2.254205106029968e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3486.33, 'total_tokens': 85776532, 'epoch': 0.7}
+ 70%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                          | 10500/15000 [7:26:41<2:56:30,  2.35s/it] 70%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                          | 10501/15000 [7:26:44<2:56:37,  2.36s/it] 70%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                         | 10502/15000 [7:26:46<2:56:36,  2.36s/it] 70%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                         | 10503/15000 [7:26:48<2:56:31,  2.36s/it] 70%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                         | 10504/15000 [7:26:51<2:56:31,  2.36s/it] 70%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                         | 10505/15000 [7:26:53<2:56:28,  2.36s/it] 70%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                         | 10506/15000 [7:26:55<2:56:23,  2.36s/it] 70%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                         | 10507/15000 [7:26:58<2:56:27,  2.36s/it] 70%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                         | 10508/15000 [7:27:00<2:56:33,  2.36s/it] 70%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                         | 10509/15000 [7:27:02<2:56:20,  2.36s/it] 70%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                         | 10510/15000 [7:27:05<2:56:17,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.5753, 'grad_norm': 1.765625, 'learning_rate': 2.2468371598443936e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3482.07, 'total_tokens': 85858292, 'epoch': 0.7}
+ 70%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                         | 10510/15000 [7:27:05<2:56:17,  2.36s/it] 70%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                         | 10511/15000 [7:27:07<2:56:16,  2.36s/it] 70%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                         | 10512/15000 [7:27:09<2:56:16,  2.36s/it] 70%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                         | 10513/15000 [7:27:12<2:56:05,  2.35s/it] 70%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                         | 10514/15000 [7:27:14<2:56:13,  2.36s/it] 70%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                         | 10515/15000 [7:27:17<2:55:59,  2.35s/it] 70%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                         | 10516/15000 [7:27:19<2:55:54,  2.35s/it] 70%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                         | 10517/15000 [7:27:21<2:55:43,  2.35s/it] 70%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                         | 10518/15000 [7:27:24<2:55:45,  2.35s/it] 70%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                         | 10519/15000 [7:27:26<2:55:45,  2.35s/it] 70%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                         | 10520/15000 [7:27:28<2:55:34,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6811, 'grad_norm': 1.703125, 'learning_rate': 2.2394729459733797e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3492.59, 'total_tokens': 85939997, 'epoch': 0.7}
+ 70%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                         | 10520/15000 [7:27:28<2:55:34,  2.35s/it] 70%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                         | 10521/15000 [7:27:31<2:55:37,  2.35s/it] 70%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                         | 10522/15000 [7:27:33<2:55:35,  2.35s/it] 70%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                         | 10523/15000 [7:27:35<2:55:40,  2.35s/it] 70%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                         | 10524/15000 [7:27:38<2:55:45,  2.36s/it] 70%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                         | 10525/15000 [7:27:40<2:55:33,  2.35s/it] 70%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                         | 10526/15000 [7:27:42<2:55:20,  2.35s/it] 70%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                         | 10527/15000 [7:27:45<2:55:23,  2.35s/it] 70%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                         | 10528/15000 [7:27:47<2:55:15,  2.35s/it] 70%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                         | 10529/15000 [7:27:49<2:55:05,  2.35s/it] 70%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                         | 10530/15000 [7:27:52<2:55:01,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6969, 'grad_norm': 1.7734375, 'learning_rate': 2.2321125370987455e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3490.4, 'total_tokens': 86021727, 'epoch': 0.7}
+ 70%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                         | 10530/15000 [7:27:52<2:55:01,  2.35s/it] 70%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                         | 10531/15000 [7:27:54<2:55:03,  2.35s/it] 70%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                         | 10532/15000 [7:27:57<2:55:02,  2.35s/it] 70%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                         | 10533/15000 [7:27:59<2:55:18,  2.35s/it] 70%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                         | 10534/15000 [7:28:01<2:55:15,  2.35s/it] 70%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                         | 10535/15000 [7:28:04<2:55:06,  2.35s/it] 70%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                         | 10536/15000 [7:28:06<2:54:58,  2.35s/it] 70%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                         | 10537/15000 [7:28:08<2:54:59,  2.35s/it] 70%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                         | 10538/15000 [7:28:11<2:54:59,  2.35s/it] 70%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                         | 10539/15000 [7:28:13<3:05:33,  2.50s/it] 70%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                         | 10540/15000 [7:28:16<3:02:13,  2.45s/it]                                                                                                                                                                                                                                                {'loss': 2.6486, 'grad_norm': 1.7578125, 'learning_rate': 2.2247560058647552e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3490.82, 'total_tokens': 86103453, 'epoch': 0.7}
+ 70%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                         | 10540/15000 [7:28:16<3:02:13,  2.45s/it] 70%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                         | 10541/15000 [7:28:18<2:59:59,  2.42s/it] 70%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                         | 10542/15000 [7:28:21<2:58:24,  2.40s/it] 70%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                         | 10543/15000 [7:28:23<2:57:23,  2.39s/it] 70%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                         | 10544/15000 [7:28:25<2:56:26,  2.38s/it] 70%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                         | 10545/15000 [7:28:28<2:56:05,  2.37s/it] 70%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                         | 10546/15000 [7:28:30<2:55:38,  2.37s/it] 70%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                         | 10547/15000 [7:28:32<2:55:24,  2.36s/it] 70%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                         | 10548/15000 [7:28:35<2:55:03,  2.36s/it] 70%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                         | 10549/15000 [7:28:37<2:54:49,  2.36s/it] 70%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                         | 10550/15000 [7:28:39<2:54:39,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.6444, 'grad_norm': 1.8984375, 'learning_rate': 2.2174034248774018e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3484.29, 'total_tokens': 86185123, 'epoch': 0.7}
+ 70%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                         | 10550/15000 [7:28:39<2:54:39,  2.36s/it] 70%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                         | 10551/15000 [7:28:42<2:54:35,  2.35s/it] 70%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                         | 10552/15000 [7:28:44<2:54:27,  2.35s/it] 70%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                         | 10553/15000 [7:28:46<2:54:25,  2.35s/it] 70%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                         | 10554/15000 [7:28:49<2:54:21,  2.35s/it] 70%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                         | 10555/15000 [7:28:51<2:54:13,  2.35s/it] 70%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                         | 10556/15000 [7:28:53<2:54:03,  2.35s/it] 70%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                         | 10557/15000 [7:28:56<2:54:02,  2.35s/it] 70%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                         | 10558/15000 [7:28:58<2:54:11,  2.35s/it] 70%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                         | 10559/15000 [7:29:01<2:54:09,  2.35s/it] 70%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                         | 10560/15000 [7:29:03<2:53:59,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.635, 'grad_norm': 1.796875, 'learning_rate': 2.2100548667036915e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3491.36, 'total_tokens': 86266833, 'epoch': 0.7}
+ 70%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                         | 10560/15000 [7:29:03<2:53:59,  2.35s/it] 70%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                         | 10561/15000 [7:29:05<2:54:06,  2.35s/it] 70%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                         | 10562/15000 [7:29:08<2:54:11,  2.35s/it] 70%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                         | 10563/15000 [7:29:10<2:54:10,  2.36s/it] 70%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                         | 10564/15000 [7:29:12<2:54:04,  2.35s/it] 70%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                         | 10565/15000 [7:29:15<2:53:59,  2.35s/it] 70%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████��█▉                                                         | 10566/15000 [7:29:17<2:53:44,  2.35s/it] 70%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                         | 10567/15000 [7:29:19<2:53:44,  2.35s/it] 70%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                         | 10568/15000 [7:29:22<2:53:36,  2.35s/it] 70%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                         | 10569/15000 [7:29:24<2:53:36,  2.35s/it] 70%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                         | 10570/15000 [7:29:26<2:53:43,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6877, 'grad_norm': 1.7734375, 'learning_rate': 2.202710403870927e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3477.18, 'total_tokens': 86348594, 'epoch': 0.7}
+ 70%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                         | 10570/15000 [7:29:26<2:53:43,  2.35s/it] 70%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                         | 10571/15000 [7:29:29<2:53:54,  2.36s/it] 70%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                         | 10572/15000 [7:29:31<2:53:55,  2.36s/it] 70%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                         | 10573/15000 [7:29:33<2:53:45,  2.36s/it] 70%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████��█████                                                         | 10574/15000 [7:29:36<2:53:36,  2.35s/it] 70%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                         | 10575/15000 [7:29:38<2:53:44,  2.36s/it] 71%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                         | 10576/15000 [7:29:41<2:53:34,  2.35s/it] 71%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                         | 10577/15000 [7:29:43<2:53:33,  2.35s/it] 71%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                         | 10578/15000 [7:29:45<2:53:21,  2.35s/it] 71%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                         | 10579/15000 [7:29:48<2:53:15,  2.35s/it] 71%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                        | 10580/15000 [7:29:50<2:53:17,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6976, 'grad_norm': 1.8125, 'learning_rate': 2.1953701088659907e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3482.15, 'total_tokens': 86430358, 'epoch': 0.71}
+ 71%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                        | 10580/15000 [7:29:50<2:53:17,  2.35s/it] 71%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                        | 10581/15000 [7:29:52<2:53:18,  2.35s/it] 71%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                        | 10582/15000 [7:29:55<2:53:01,  2.35s/it] 71%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                        | 10583/15000 [7:29:57<2:53:03,  2.35s/it] 71%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                        | 10584/15000 [7:29:59<2:52:54,  2.35s/it] 71%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                        | 10585/15000 [7:30:02<2:52:59,  2.35s/it] 71%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                        | 10586/15000 [7:30:04<2:53:02,  2.35s/it] 71%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                        | 10587/15000 [7:30:06<2:52:55,  2.35s/it] 71%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                        | 10588/15000 [7:30:09<2:52:47,  2.35s/it] 71%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                        | 10589/15000 [7:30:11<2:52:51,  2.35s/it] 71%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                        | 10590/15000 [7:30:13<2:53:00,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6739, 'grad_norm': 1.765625, 'learning_rate': 2.1880340541346313e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3471.07, 'total_tokens': 86512007, 'epoch': 0.71}
+ 71%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████��███████████████████▎                                                        | 10590/15000 [7:30:13<2:53:00,  2.35s/it] 71%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                        | 10591/15000 [7:30:16<2:52:59,  2.35s/it] 71%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                        | 10592/15000 [7:30:18<2:52:51,  2.35s/it] 71%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                        | 10593/15000 [7:30:21<2:52:46,  2.35s/it] 71%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                        | 10594/15000 [7:30:23<2:52:43,  2.35s/it] 71%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                        | 10595/15000 [7:30:25<2:52:38,  2.35s/it] 71%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                        | 10596/15000 [7:30:28<2:52:42,  2.35s/it] 71%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                        | 10597/15000 [7:30:30<2:52:36,  2.35s/it] 71%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                        | 10598/15000 [7:30:32<2:52:33,  2.35s/it] 71%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                        | 10599/15000 [7:30:35<2:52:32,  2.35s/it] 71%|██████████████████████████████████████████████████████████████████████████████████████████████████████████��█████████████████████████████▍                                                        | 10600/15000 [7:30:37<2:52:23,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6544, 'grad_norm': 2.546875, 'learning_rate': 2.180702312080748e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3494.33, 'total_tokens': 86593775, 'epoch': 0.71}
+ 71%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                        | 10600/15000 [7:30:37<2:52:23,  2.35s/it] 71%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                        | 10601/15000 [7:30:39<2:52:15,  2.35s/it] 71%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                        | 10602/15000 [7:30:42<2:52:26,  2.35s/it] 71%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                        | 10603/15000 [7:30:44<2:52:19,  2.35s/it] 71%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                        | 10604/15000 [7:30:46<2:52:12,  2.35s/it] 71%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                        | 10605/15000 [7:30:49<2:52:08,  2.35s/it] 71%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                        | 10606/15000 [7:30:51<2:52:18,  2.35s/it] 71%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                        | 10607/15000 [7:30:53<2:52:19,  2.35s/it] 71%|█████████████████████████████████████████████████████████████████████████████████████████████████��██████████████████████████████████████▍                                                        | 10608/15000 [7:30:56<2:52:03,  2.35s/it] 71%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                        | 10609/15000 [7:30:58<2:51:56,  2.35s/it] 71%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                        | 10610/15000 [7:31:01<2:52:07,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6563, 'grad_norm': 1.6875, 'learning_rate': 2.1733749550656738e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3471.47, 'total_tokens': 86675450, 'epoch': 0.71}
+ 71%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                        | 10610/15000 [7:31:01<2:52:07,  2.35s/it] 71%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                        | 10611/15000 [7:31:03<2:52:00,  2.35s/it] 71%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                        | 10612/15000 [7:31:05<2:51:57,  2.35s/it] 71%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                        | 10613/15000 [7:31:08<2:52:08,  2.35s/it] 71%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                        | 10614/15000 [7:31:10<2:52:02,  2.35s/it] 71%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                        | 10615/15000 [7:31:12<2:52:04,  2.35s/it] 71%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                        | 10616/15000 [7:31:15<2:52:03,  2.35s/it] 71%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                        | 10617/15000 [7:31:17<2:51:59,  2.35s/it] 71%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                        | 10618/15000 [7:31:19<2:51:50,  2.35s/it] 71%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                        | 10619/15000 [7:31:22<2:51:44,  2.35s/it] 71%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                        | 10620/15000 [7:31:24<2:51:50,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6931, 'grad_norm': 1.7578125, 'learning_rate': 2.1660520554074644e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3471.44, 'total_tokens': 86757083, 'epoch': 0.71}
+ 71%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                        | 10620/15000 [7:31:24<2:51:50,  2.35s/it] 71%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                        | 10621/15000 [7:31:26<2:51:48,  2.35s/it] 71%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                        | 10622/15000 [7:31:29<2:51:49,  2.35s/it] 71%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                        | 10623/15000 [7:31:31<2:51:47,  2.35s/it] 71%|███████████████████████████████████████████████████████████████████████████████���████████████████████████████████████████████████████████▋                                                        | 10624/15000 [7:31:33<2:51:42,  2.35s/it] 71%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                        | 10625/15000 [7:31:36<2:51:40,  2.35s/it] 71%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                        | 10626/15000 [7:31:38<2:51:38,  2.35s/it] 71%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                        | 10627/15000 [7:31:41<2:51:40,  2.36s/it] 71%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                        | 10628/15000 [7:31:43<2:51:43,  2.36s/it] 71%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                        | 10629/15000 [7:31:45<2:51:33,  2.35s/it] 71%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                        | 10630/15000 [7:31:48<2:51:33,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.6297, 'grad_norm': 1.78125, 'learning_rate': 2.1587336853801836e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3468.32, 'total_tokens': 86838586, 'epoch': 0.71}
+ 71%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                        | 10630/15000 [7:31:48<2:51:33,  2.36s/it] 71%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                        | 10631/15000 [7:31:50<2:51:31,  2.36s/it] 71%|██████████████████████████████████████████████████████████████████████���█████████████████████████████████████████████████████████████████▊                                                        | 10632/15000 [7:31:52<2:51:25,  2.35s/it] 71%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                        | 10633/15000 [7:31:55<2:51:18,  2.35s/it] 71%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                        | 10634/15000 [7:31:57<2:51:25,  2.36s/it] 71%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                        | 10635/15000 [7:31:59<2:51:14,  2.35s/it] 71%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                        | 10636/15000 [7:32:02<2:51:14,  2.35s/it] 71%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                        | 10637/15000 [7:32:04<2:51:23,  2.36s/it] 71%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                        | 10638/15000 [7:32:06<2:51:15,  2.36s/it][2025-11-17 05:15:01,044] [INFO] [axolotl.utils.data.wrappers.get_dataset_wrapper:87] [PID:8163] Loading dataset: Goader/kobza-2m-jsonl with base_type: pretrain and prompt_style: None
+
+Tokenizing Prompts (num_proc=64):   0%|                                                                                                                                                                        | 0/10000 [00:00<?, ? examples/s][A
+Tokenizing Prompts (num_proc=64):   2%|██▍                                                                                                                                                           | 157/10000 [00:05<06:03, 27.08 examples/s][A
+Tokenizing Prompts (num_proc=64):   3%|████▉                                                                                                                                                         | 314/10000 [00:06<03:00, 53.80 examples/s][A
+Tokenizing Prompts (num_proc=64):   5%|███████▍                                                                                                                                                      | 471/10000 [00:07<01:53, 83.72 examples/s][A
+Tokenizing Prompts (num_proc=64):   6%|█████████▊                                                                                                                                                   | 628/10000 [00:08<01:24, 110.52 examples/s][A
+Tokenizing Prompts (num_proc=64):   8%|████████████▎                                                                                                                                                | 785/10000 [00:08<01:07, 137.20 examples/s][A
+Tokenizing Prompts (num_proc=64):   9%|██████████████▊                                                                                                                                              | 942/10000 [00:09<01:00, 149.97 examples/s][A
+Tokenizing Prompts (num_proc=64):  11%|█████████████████▏                                                                                                                                          | 1099/10000 [00:10<00:48, 182.75 examples/s][A
+Tokenizing Prompts (num_proc=64):  13%|███████████████████▌                                                                                                                                        | 1256/10000 [00:10<00:46, 188.92 examples/s][A
+Tokenizing Prompts (num_proc=64):  14%|██████████████████████                                                                                                                                      | 1413/10000 [00:11<00:40, 213.77 examples/s][A
+Tokenizing Prompts (num_proc=64):  16%|████████████████████████▍                                                                                                                                   | 1570/10000 [00:12<00:38, 219.26 examples/s][A
+Tokenizing Prompts (num_proc=64):  17%|██████████████████████████▉                                                                                                                                 | 1727/10000 [00:12<00:37, 223.05 examples/s][A
+Tokenizing Prompts (num_proc=64):  19%|█████████████████████████████▍                                                                                                                              | 1884/10000 [00:13<00:41, 193.24 examples/s][A
+Tokenizing Prompts (num_proc=64):  20%|███████████████████████████████▊                                                                                                                            | 2041/10000 [00:13<00:32, 245.86 examples/s][A
+Tokenizing Prompts (num_proc=64):  22%|██████████████████████████████████▎                                                                                                                         | 2198/10000 [00:14<00:31, 244.24 examples/s][A
+Tokenizing Prompts (num_proc=64):  24%|████████████████████████████████████▋                                                                                                                       | 2355/10000 [00:15<00:31, 246.11 examples/s][A
+Tokenizing Prompts (num_proc=64):  25%|███████████████████████████████████████▏                                                                                                                    | 2512/10000 [00:16<00:32, 228.28 examples/s][A
+Tokenizing Prompts (num_proc=64):  27%|█████████████████████████████████████████▌                                                                                                                  | 2668/10000 [00:16<00:30, 242.83 examples/s][A
+Tokenizing Prompts (num_proc=64):  28%|████████████████████████████████████████████                                                                                                                | 2824/10000 [00:17<00:30, 232.14 examples/s][A
+Tokenizing Prompts (num_proc=64):  30%|██████████████████████████████████████████████▍                                                                                                             | 2980/10000 [00:17<00:28, 245.22 examples/s][A
+Tokenizing Prompts (num_proc=64):  31%|████████████████████████████████████████████████▉                                                                                                           | 3136/10000 [00:18<00:28, 244.51 examples/s][A
+Tokenizing Prompts (num_proc=64):  33%|███████████████████████████████████████████████████▎                                                                                                        | 3292/10000 [00:19<00:33, 201.27 examples/s][A
+Tokenizing Prompts (num_proc=64):  34%|█████████████████████��███████████████████████████████▊                                                                                                      | 3448/10000 [00:20<00:26, 244.52 examples/s][A
+Tokenizing Prompts (num_proc=64):  36%|████████████████████████████████████████████████████████▏                                                                                                   | 3604/10000 [00:20<00:25, 250.51 examples/s][A
+Tokenizing Prompts (num_proc=64):  38%|██████████████████████████████████████████████████████████▋                                                                                                 | 3760/10000 [00:21<00:30, 206.42 examples/s][A
+Tokenizing Prompts (num_proc=64):  39%|█████████████████████████████████████████████████████████████                                                                                               | 3916/10000 [00:22<00:27, 217.32 examples/s][A
+Tokenizing Prompts (num_proc=64):  41%|███████████████████████████████████████████████████████████████▌                                                                                            | 4072/10000 [00:22<00:26, 221.43 examples/s][A
+Tokenizing Prompts (num_proc=64):  42%|█████████████████████████████████████████████████████████████████▉                                                                                          | 4228/10000 [00:23<00:20, 275.08 examples/s][A
+Tokenizing Prompts (num_proc=64):  44%|████████████████████████████████████████████████████████████████████▍                                                                                       | 4384/10000 [00:24<00:25, 219.50 examples/s][A
+Tokenizing Prompts (num_proc=64):  45%|██████████████████████████████████████████████████████████████████████▊                                                                                     | 4540/10000 [00:24<00:19, 276.19 examples/s][A
+Tokenizing Prompts (num_proc=64):  47%|█████████████████████████████████████████████████████████████████████████▎                                                                                  | 4696/10000 [00:25<00:20, 262.68 examples/s][A
+Tokenizing Prompts (num_proc=64):  49%|███████████████████████████████████████████████████████████████████████████▋                                                                                | 4852/10000 [00:26<00:24, 210.99 examples/s][A
+Tokenizing Prompts (num_proc=64):  50%|██████████████████████████████████████████████████████████████████████████████                                                                              | 5008/10000 [00:26<00:18, 266.02 examples/s][A
+Tokenizing Prompts (num_proc=64):  52%|████████████████████████████████████████████████████████████████████████████████▌                                                                           | 5164/10000 [00:27<00:18, 258.91 examples/s][A
+Tokenizing Prompts (num_proc=64):  53%|██████████████████████████████████████████████████████████████████████████████████▉                                                                         | 5320/10000 [00:28<00:19, 244.55 examples/s][A
+Tokenizing Prompts (num_proc=64):  55%|█████████████████████████████████████████████████████████████████████████████████████▍                                                                      | 5476/10000 [00:28<00:18, 248.16 examples/s][A
+Tokenizing Prompts (num_proc=64):  56%|███████████████████████████████████████████████████████████████████████████████████████▊                                                                    | 5632/10000 [00:29<00:17, 248.01 examples/s][A
+Tokenizing Prompts (num_proc=64):  58%|██████████████████████████████████████████████████████████████████████████████████████████▎                                                                 | 5788/10000 [00:29<00:17, 243.08 examples/s][A
+Tokenizing Prompts (num_proc=64):  59%|████████████████████████████████████████████████████████████████████████████████████████████▋                                                               | 5944/10000 [00:30<00:16, 240.21 examples/s][A
+Tokenizing Prompts (num_proc=64):  61%|███████████████████████████████████████████████████████████████████████████████████████████████▏                                                            | 6100/10000 [00:30<00:16, 240.56 examples/s][A
+Tokenizing Prompts (num_proc=64):  63%|█████████████████████████████████████████████████████████████████████████████████████████████████▌                                                          | 6256/10000 [00:31<00:15, 242.36 examples/s][A
+Tokenizing Prompts (num_proc=64):  64%|████████████████████████████████████████████████████████████████████████████████████████████████████                                                        | 6412/10000 [00:32<00:14, 239.76 examples/s][A
+Tokenizing Prompts (num_proc=64):  66%|██████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                     | 6568/10000 [00:32<00:14, 241.27 examples/s][A
+Tokenizing Prompts (num_proc=64):  67%|████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                   | 6724/10000 [00:33<00:13, 238.92 examples/s][A
+Tokenizing Prompts (num_proc=64):  69%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                | 6880/10000 [00:34<00:12, 240.88 examples/s][A
+Tokenizing Prompts (num_proc=64):  70%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                              | 7036/10000 [00:34<00:12, 232.22 examples/s][A
+Tokenizing Prompts (num_proc=64):  72%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                           | 7192/10000 [00:35<00:11, 241.64 examples/s][A
+Tokenizing Prompts (num_proc=64):  73%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                         | 7348/10000 [00:36<00:10, 244.06 examples/s][A
+Tokenizing Prompts (num_proc=64):  75%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                       | 7504/10000 [00:36<00:10, 240.11 examples/s][A
+Tokenizing Prompts (num_proc=64):  77%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                    | 7660/10000 [00:37<00:09, 244.29 examples/s][A
+Tokenizing Prompts (num_proc=64):  78%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                  | 7816/10000 [00:38<00:09, 233.39 examples/s][A
+Tokenizing Prompts (num_proc=64):  80%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                               | 7972/10000 [00:38<00:08, 237.72 examples/s][A
+Tokenizing Prompts (num_proc=64):  81%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                             | 8128/10000 [00:39<00:07, 240.00 examples/s][A
+Tokenizing Prompts (num_proc=64):  83%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                          | 8284/10000 [00:40<00:07, 239.18 examples/s][A
+Tokenizing Prompts (num_proc=64):  84%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                        | 8440/10000 [00:40<00:06, 243.78 examples/s][A
+Tokenizing Prompts (num_proc=64):  86%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                      | 8596/10000 [00:41<00:05, 239.39 examples/s][A
+Tokenizing Prompts (num_proc=64):  88%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                   | 8752/10000 [00:42<00:05, 237.68 examples/s][A
+Tokenizing Prompts (num_proc=64):  89%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                 | 8908/10000 [00:42<00:04, 234.21 examples/s][A
+Tokenizing Prompts (num_proc=64):  91%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍              | 9064/10000 [00:43<00:03, 241.75 examples/s][A
+Tokenizing Prompts (num_proc=64):  92%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊            | 9220/10000 [00:44<00:03, 238.77 examples/s][A
+Tokenizing Prompts (num_proc=64):  94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎         | 9376/10000 [00:45<00:03, 198.84 examples/s][A
+Tokenizing Prompts (num_proc=64):  95%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋       | 9532/10000 [00:45<00:01, 254.67 examples/s][A
+Tokenizing Prompts (num_proc=64):  97%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏    | 9688/10000 [00:46<00:01, 246.98 examples/s][A
+Tokenizing Prompts (num_proc=64):  98%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌  | 9844/10000 [00:46<00:00, 246.72 examples/s][A
+Tokenizing Prompts (num_proc=64): 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10000/10000 [00:47<00:00, 245.63 examples/s][ATokenizing Prompts (num_proc=64): 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10000/10000 [00:49<00:00, 202.31 examples/s]
+
+Dropping Long Sequences:   0%|                                                                                                                                                                                 | 0/10001 [00:00<?, ? examples/s][A
+Dropping Long Sequences:  10%|████████████████▍                                                                                                                                                    | 1000/10001 [00:01<00:12, 740.00 examples/s][A
+Dropping Long Sequences:  20%|████████████████████████████████▊                                                                                                                                   | 2000/10001 [00:01<00:05, 1418.61 examples/s][A
+Dropping Long Sequences:  30%|█████████████████████████████████████████████████▏                                                                                                                  | 3000/10001 [00:01<00:03, 2031.77 examples/s][A
+Dropping Long Sequences:  40%|█████████████████████████████████████████████████████████████████▌                                                                                                  | 4000/10001 [00:02<00:02, 2348.12 examples/s][A
+Dropping Long Sequences:  50%|█████████████████████████████████████████████████████████████████████████████████▉                                                                                  | 5000/10001 [00:02<00:01, 2695.75 examples/s][A
+Dropping Long Sequences:  60%|██████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                 | 6000/10001 [00:02<00:01, 2997.25 examples/s][A
+Dropping Long Sequences:  70%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                 | 7000/10001 [00:02<00:00, 3255.85 examples/s][A
+Dropping Long Sequences:  80%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                | 8000/10001 [00:03<00:00, 3468.06 examples/s][A
+Dropping Long Sequences:  90%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                | 9000/10001 [00:03<00:00, 3738.15 examples/s][A
+Dropping Long Sequences: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉| 10000/10001 [00:03<00:00, 3904.64 examples/s][ADropping Long Sequences: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10001/10001 [00:03<00:00, 2697.25 examples/s]
+
+Add position_id column (Pretraining Sample Packing):   0%|                                                                                                                                                      | 0/8724 [00:00<?, ? examples/s][A
+Add position_id column (Pretraining Sample Packing):  11%|███████████████▊                                                                                                                          | 1000/8724 [00:01<00:09, 787.21 examples/s][A
+Add position_id column (Pretraining Sample Packing):  23%|███████████████████████████████▍                                                                                                         | 2000/8724 [00:01<00:04, 1636.36 examples/s][A
+Add position_id column (Pretraining Sample Packing):  34%|███████████████████████████████████████████████                                                                                          | 3000/8724 [00:01<00:02, 2512.55 examples/s][A
+Add position_id column (Pretraining Sample Packing):  46%|██████████████████████████████████████████████████████████████▊                                                                          | 4000/8724 [00:01<00:01, 3302.38 examples/s][A
+Add position_id column (Pretraining Sample Packing):  57%|██████████████████████████████████████████████████████████████████████████████▌                                                          | 5000/8724 [00:01<00:00, 4092.04 examples/s][A
+Add position_id column (Pretraining Sample Packing):  69%|██████████████████████████████████████████████████████████████████████████████████████████████▏                                          | 6000/8724 [00:02<00:00, 4716.90 examples/s][A
+Add position_id column (Pretraining Sample Packing):  80%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                           | 7000/8724 [00:02<00:00, 5349.12 examples/s][A
+Add position_id column (Pretraining Sample Packing):  92%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋           | 8000/8724 [00:02<00:00, 5555.37 examples/s][A
+Add position_id column (Pretraining Sample Packing): 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 8724/8724 [00:02<00:00, 5797.46 examples/s][AAdd position_id column (Pretraining Sample Packing): 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 8724/8724 [00:02<00:00, 3530.88 examples/s]
+[2025-11-17 05:15:58,188] [DEBUG] [axolotl.utils.samplers.multipack.pack_parallel:177] [PID:8163] Using single process for pack_parallel, running sequentially.
+ 71%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                       | 10639/15000 [7:33:12<25:57:27, 21.43s/it] 71%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                       | 10640/15000 [7:33:15<19:01:22, 15.71s/it]                                                                                                                                                                                                                                                {'loss': 2.6409, 'grad_norm': 1.7421875, 'learning_rate': 2.151419917213189e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3383.75, 'total_tokens': 86918148, 'epoch': 0.71}
+ 71%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                       | 10640/15000 [7:33:15<19:01:22, 15.71s/it] 71%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                       | 10641/15000 [7:33:17<14:10:13, 11.70s/it] 71%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                       | 10642/15000 [7:33:19<10:46:20,  8.90s/it] 71%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                        | 10643/15000 [7:33:22<8:23:43,  6.94s/it] 71%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                        | 10644/15000 [7:33:24<6:43:42,  5.56s/it] 71%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                        | 10645/15000 [7:33:27<5:33:36,  4.60s/it] 71%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                        | 10646/15000 [7:33:29<4:44:29,  3.92s/it] 71%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                        | 10647/15000 [7:33:31<4:10:12,  3.45s/it] 71%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                        | 10648/15000 [7:33:34<3:46:17,  3.12s/it] 71%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                        | 10649/15000 [7:33:36<3:29:44,  2.89s/it] 71%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                        | 10650/15000 [7:33:38<3:17:55,  2.73s/it]                                                                                                                                                                                                                                                {'loss': 2.6301, 'grad_norm': 1.6640625, 'learning_rate': 2.144110823090419e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3491.83, 'total_tokens': 87000007, 'epoch': 0.71}
+ 71%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                        | 10650/15000 [7:33:38<3:17:55,  2.73s/it] 71%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                        | 10651/15000 [7:33:41<3:09:51,  2.62s/it] 71%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                        | 10652/15000 [7:33:43<3:03:55,  2.54s/it] 71%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                        | 10653/15000 [7:33:45<2:59:56,  2.48s/it] 71%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                        | 10654/15000 [7:33:48<2:57:11,  2.45s/it] 71%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                        | 10655/15000 [7:33:50<2:55:09,  2.42s/it] 71%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                        | 10656/15000 [7:33:52<2:53:50,  2.40s/it] 71%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                        | 10657/15000 [7:33:55<2:52:40,  2.39s/it] 71%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                       | 10658/15000 [7:33:57<2:51:59,  2.38s/it] 71%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                       | 10659/15000 [7:33:59<2:51:23,  2.37s/it] 71%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                       | 10660/15000 [7:34:02<2:51:04,  2.37s/it]                                                                                                                                                                                                                                                {'loss': 2.6431, 'grad_norm': 1.78125, 'learning_rate': 2.136806475149682e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3485.52, 'total_tokens': 87081883, 'epoch': 0.71}
+ 71%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                       | 10660/15000 [7:34:02<2:51:04,  2.37s/it] 71%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                       | 10661/15000 [7:34:04<2:50:55,  2.36s/it] 71%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                       | 10662/15000 [7:34:07<2:50:32,  2.36s/it] 71%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                       | 10663/15000 [7:34:09<2:50:28,  2.36s/it] 71%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                       | 10664/15000 [7:34:11<2:50:20,  2.36s/it] 71%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                       | 10665/15000 [7:34:14<2:50:09,  2.36s/it] 71%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                       | 10666/15000 [7:34:16<2:50:08,  2.36s/it] 71%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                       | 10667/15000 [7:34:18<2:50:05,  2.36s/it] 71%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                       | 10668/15000 [7:34:21<2:50:11,  2.36s/it] 71%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                       | 10669/15000 [7:34:23<2:50:10,  2.36s/it] 71%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                       | 10670/15000 [7:34:25<2:49:57,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6442, 'grad_norm': 1.6640625, 'learning_rate': 2.129506945481944e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3494.15, 'total_tokens': 87163719, 'epoch': 0.71}
+ 71%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                       | 10670/15000 [7:34:25<2:49:57,  2.35s/it] 71%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                       | 10671/15000 [7:34:28<2:49:57,  2.36s/it] 71%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████��████████████████████▎                                                       | 10672/15000 [7:34:30<2:50:02,  2.36s/it] 71%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                       | 10673/15000 [7:34:32<2:50:05,  2.36s/it] 71%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                       | 10674/15000 [7:34:35<2:49:59,  2.36s/it] 71%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                       | 10675/15000 [7:34:37<2:49:50,  2.36s/it] 71%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                       | 10676/15000 [7:34:40<2:49:44,  2.36s/it] 71%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                       | 10677/15000 [7:34:42<2:49:26,  2.35s/it] 71%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                       | 10678/15000 [7:34:44<2:49:32,  2.35s/it] 71%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                       | 10679/15000 [7:34:47<2:49:30,  2.35s/it] 71%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                       | 10680/15000 [7:34:49<2:49:29,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6928, 'grad_norm': 1.765625, 'learning_rate': 2.1222123061306155e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3484.55, 'total_tokens': 87245546, 'epoch': 0.71}
+ 71%|█████████████████████████████████████████████████████████████████████████████████████████████████████���███████████████████████████████████▍                                                       | 10680/15000 [7:34:49<2:49:29,  2.35s/it] 71%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                       | 10681/15000 [7:34:51<2:49:30,  2.35s/it] 71%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                       | 10682/15000 [7:34:54<2:49:30,  2.36s/it] 71%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                       | 10683/15000 [7:34:56<2:49:29,  2.36s/it] 71%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                       | 10684/15000 [7:34:58<2:49:19,  2.35s/it] 71%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                       | 10685/15000 [7:35:01<2:49:21,  2.35s/it] 71%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                       | 10686/15000 [7:35:03<2:49:20,  2.36s/it] 71%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                       | 10687/15000 [7:35:05<2:49:05,  2.35s/it] 71%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                       | 10688/15000 [7:35:08<2:49:01,  2.35s/it] 71%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                       | 10689/15000 [7:35:10<2:49:13,  2.36s/it] 71%|████████████████████████████████████████████████████████████████████████████████████��████████████████████████████████████████████████████▌                                                       | 10690/15000 [7:35:12<2:49:13,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.6491, 'grad_norm': 1.6640625, 'learning_rate': 2.1149226290908426e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3481.86, 'total_tokens': 87327383, 'epoch': 0.71}
+ 71%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                       | 10690/15000 [7:35:12<2:49:13,  2.36s/it] 71%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                       | 10691/15000 [7:35:15<2:49:14,  2.36s/it] 71%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                       | 10692/15000 [7:35:17<2:49:18,  2.36s/it] 71%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                       | 10693/15000 [7:35:20<2:49:12,  2.36s/it] 71%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                       | 10694/15000 [7:35:22<2:49:09,  2.36s/it] 71%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                       | 10695/15000 [7:35:24<2:49:02,  2.36s/it] 71%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                       | 10696/15000 [7:35:27<2:48:57,  2.36s/it] 71%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                       | 10697/15000 [7:35:29<2:48:46,  2.35s/it] 71%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                       | 10698/15000 [7:35:31<2:48:57,  2.36s/it] 71%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                       | 10699/15000 [7:35:34<2:48:44,  2.35s/it] 71%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                       | 10700/15000 [7:35:36<2:48:44,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6795, 'grad_norm': 1.734375, 'learning_rate': 2.1076379863087935e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3482.0, 'total_tokens': 87409192, 'epoch': 0.71}
+ 71%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                       | 10700/15000 [7:35:36<2:48:44,  2.35s/it] 71%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                       | 10701/15000 [7:35:38<2:48:46,  2.36s/it] 71%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                       | 10702/15000 [7:35:41<2:48:44,  2.36s/it] 71%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                       | 10703/15000 [7:35:43<2:48:44,  2.36s/it] 71%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                       | 10704/15000 [7:35:45<2:48:35,  2.35s/it] 71%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                       | 10705/15000 [7:35:48<2:48:29,  2.35s/it] 71%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                       | 10706/15000 [7:35:50<2:48:24,  2.35s/it] 71%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                       | 10707/15000 [7:35:52<2:48:15,  2.35s/it] 71%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                       | 10708/15000 [7:35:55<2:48:10,  2.35s/it] 71%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                       | 10709/15000 [7:35:57<2:48:08,  2.35s/it] 71%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                       | 10710/15000 [7:36:00<2:48:14,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.7092, 'grad_norm': 1.71875, 'learning_rate': 2.1003584496809516e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3480.43, 'total_tokens': 87491001, 'epoch': 0.71}
+ 71%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                       | 10710/15000 [7:36:00<2:48:14,  2.35s/it] 71%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                       | 10711/15000 [7:36:02<2:48:15,  2.35s/it] 71%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                       | 10712/15000 [7:36:04<2:48:16,  2.35s/it] 71%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                       | 10713/15000 [7:36:07<2:48:07,  2.35s/it] 71%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                       | 10714/15000 [7:36:09<2:48:04,  2.35s/it] 71%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                       | 10715/15000 [7:36:11<2:48:12,  2.36s/it] 71%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                       | 10716/15000 [7:36:14<2:48:11,  2.36s/it] 71%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                       | 10717/15000 [7:36:16<2:48:15,  2.36s/it] 71%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                       | 10718/15000 [7:36:18<2:48:04,  2.36s/it] 71%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                       | 10719/15000 [7:36:21<2:47:59,  2.35s/it] 71%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                       | 10720/15000 [7:36:23<2:48:03,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.7281, 'grad_norm': 2.671875, 'learning_rate': 2.093084091053405e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3480.93, 'total_tokens': 87572870, 'epoch': 0.71}
+ 71%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                       | 10720/15000 [7:36:23<2:48:03,  2.36s/it] 71%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                       | 10721/15000 [7:36:25<2:48:01,  2.36s/it] 71%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                       | 10722/15000 [7:36:28<2:48:02,  2.36s/it] 71%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                       | 10723/15000 [7:36:30<2:48:00,  2.36s/it] 71%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                       | 10724/15000 [7:36:33<2:47:51,  2.36s/it] 72%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                       | 10725/15000 [7:36:35<2:47:50,  2.36s/it] 72%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                       | 10726/15000 [7:36:37<2:47:39,  2.35s/it] 72%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                       | 10727/15000 [7:36:40<2:47:39,  2.35s/it] 72%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                       | 10728/15000 [7:36:42<2:47:35,  2.35s/it] 72%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                       | 10729/15000 [7:36:44<2:47:36,  2.35s/it] 72%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                       | 10730/15000 [7:36:47<2:47:30,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.7368, 'grad_norm': 1.828125, 'learning_rate': 2.0858149822211372e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3487.15, 'total_tokens': 87654648, 'epoch': 0.72}
+ 72%|████████��█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                       | 10730/15000 [7:36:47<2:47:30,  2.35s/it] 72%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                       | 10731/15000 [7:36:49<2:47:33,  2.35s/it] 72%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                       | 10732/15000 [7:36:51<2:47:22,  2.35s/it] 72%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                       | 10733/15000 [7:36:54<2:47:14,  2.35s/it] 72%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                       | 10734/15000 [7:36:56<2:47:14,  2.35s/it] 72%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                       | 10735/15000 [7:36:58<2:47:11,  2.35s/it] 72%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                      | 10736/15000 [7:37:01<2:47:12,  2.35s/it] 72%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                      | 10737/15000 [7:37:03<2:47:16,  2.35s/it] 72%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                      | 10738/15000 [7:37:05<2:47:16,  2.35s/it] 72%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                      | 10739/15000 [7:37:08<2:47:21,  2.36s/it] 72%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                      | 10740/15000 [7:37:10<2:47:18,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.6953, 'grad_norm': 1.8828125, 'learning_rate': 2.0785511949273164e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3480.9, 'total_tokens': 87736426, 'epoch': 0.72}
+ 72%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                      | 10740/15000 [7:37:10<2:47:18,  2.36s/it] 72%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                      | 10741/15000 [7:37:13<2:47:04,  2.35s/it] 72%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                      | 10742/15000 [7:37:15<2:46:57,  2.35s/it] 72%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                      | 10743/15000 [7:37:17<2:46:59,  2.35s/it] 72%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                      | 10744/15000 [7:37:20<2:46:55,  2.35s/it] 72%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                      | 10745/15000 [7:37:22<2:46:51,  2.35s/it] 72%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                      | 10746/15000 [7:37:24<2:46:54,  2.35s/it] 72%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                      | 10747/15000 [7:37:27<2:46:56,  2.36s/it] 72%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                      | 10748/15000 [7:37:29<2:46:46,  2.35s/it] 72%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                      | 10749/15000 [7:37:31<2:46:36,  2.35s/it] 72%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                      | 10750/15000 [7:37:34<2:46:35,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6342, 'grad_norm': 1.7421875, 'learning_rate': 2.0712928008625915e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3483.27, 'total_tokens': 87818147, 'epoch': 0.72}
+ 72%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                      | 10750/15000 [7:37:34<2:46:35,  2.35s/it] 72%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                      | 10751/15000 [7:37:36<2:46:29,  2.35s/it] 72%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                      | 10752/15000 [7:37:38<2:46:24,  2.35s/it] 72%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                      | 10753/15000 [7:37:41<2:46:35,  2.35s/it] 72%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                      | 10754/15000 [7:37:43<2:46:29,  2.35s/it] 72%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████���██████████████████▍                                                      | 10755/15000 [7:37:45<2:46:33,  2.35s/it] 72%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                      | 10756/15000 [7:37:48<2:46:38,  2.36s/it] 72%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                      | 10757/15000 [7:37:50<2:46:34,  2.36s/it] 72%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                      | 10758/15000 [7:37:53<2:46:23,  2.35s/it] 72%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                      | 10759/15000 [7:37:55<2:46:26,  2.35s/it] 72%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                      | 10760/15000 [7:37:57<2:46:15,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.615, 'grad_norm': 1.75, 'learning_rate': 2.0640398716643817e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3494.14, 'total_tokens': 87899939, 'epoch': 0.72}
+ 72%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                      | 10760/15000 [7:37:57<2:46:15,  2.35s/it] 72%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                      | 10761/15000 [7:38:00<2:46:18,  2.35s/it] 72%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                      | 10762/15000 [7:38:02<2:46:20,  2.36s/it] 72%|███████████████████████████████████████████████████████████████████████████████████████████████████��██████████████████████████████████████▍                                                      | 10763/15000 [7:38:04<2:46:15,  2.35s/it] 72%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                      | 10764/15000 [7:38:07<2:45:55,  2.35s/it] 72%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                      | 10765/15000 [7:38:09<2:46:04,  2.35s/it] 72%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                      | 10766/15000 [7:38:11<2:45:53,  2.35s/it] 72%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                      | 10767/15000 [7:38:14<2:45:55,  2.35s/it] 72%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                      | 10768/15000 [7:38:16<2:45:50,  2.35s/it] 72%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                      | 10769/15000 [7:38:18<2:45:52,  2.35s/it] 72%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                      | 10770/15000 [7:38:21<2:45:39,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.7424, 'grad_norm': 1.75, 'learning_rate': 2.0567924789161697e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3498.61, 'total_tokens': 87981696, 'epoch': 0.72}
+ 72%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                      | 10770/15000 [7:38:21<2:45:39,  2.35s/it] 72%|███████████████████████████████████████████████████████████████████████████████��██████████████████████████████████████████████████████████▌                                                      | 10771/15000 [7:38:23<2:45:41,  2.35s/it] 72%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                      | 10772/15000 [7:38:25<2:45:49,  2.35s/it] 72%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                      | 10773/15000 [7:38:28<2:45:38,  2.35s/it] 72%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                      | 10774/15000 [7:38:30<2:45:34,  2.35s/it] 72%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                      | 10775/15000 [7:38:33<2:45:39,  2.35s/it] 72%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                      | 10776/15000 [7:38:35<2:45:23,  2.35s/it] 72%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                      | 10777/15000 [7:38:37<2:45:26,  2.35s/it] 72%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                      | 10778/15000 [7:38:40<2:45:24,  2.35s/it] 72%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                      | 10779/15000 [7:38:42<2:45:32,  2.35s/it] 72%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                      | 10780/15000 [7:38:44<2:45:22,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6249, 'grad_norm': 1.7421875, 'learning_rate': 2.049550694146796e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3494.98, 'total_tokens': 88063467, 'epoch': 0.72}
+ 72%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                      | 10780/15000 [7:38:44<2:45:22,  2.35s/it] 72%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                      | 10781/15000 [7:38:47<2:45:16,  2.35s/it] 72%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                      | 10782/15000 [7:38:49<2:45:18,  2.35s/it] 72%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                      | 10783/15000 [7:38:51<2:45:18,  2.35s/it] 72%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                      | 10784/15000 [7:38:54<2:45:14,  2.35s/it] 72%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                      | 10785/15000 [7:38:56<2:45:13,  2.35s/it] 72%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                      | 10786/15000 [7:38:58<2:45:14,  2.35s/it] 72%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                      | 10787/15000 [7:39:01<2:45:11,  2.35s/it] 72%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                      | 10788/15000 [7:39:03<2:45:08,  2.35s/it] 72%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                      | 10789/15000 [7:39:05<2:45:14,  2.35s/it] 72%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                      | 10790/15000 [7:39:08<2:45:06,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.7002, 'grad_norm': 1.6953125, 'learning_rate': 2.042314588829753e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3490.48, 'total_tokens': 88145235, 'epoch': 0.72}
+ 72%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                      | 10790/15000 [7:39:08<2:45:06,  2.35s/it] 72%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                      | 10791/15000 [7:39:10<2:45:01,  2.35s/it] 72%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                      | 10792/15000 [7:39:13<2:44:54,  2.35s/it] 72%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                      | 10793/15000 [7:39:15<2:45:03,  2.35s/it] 72%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                      | 10794/15000 [7:39:17<2:45:01,  2.35s/it] 72%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                      | 10795/15000 [7:39:20<2:44:57,  2.35s/it] 72%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                      | 10796/15000 [7:39:22<2:45:01,  2.36s/it] 72%|█████████████��████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                      | 10797/15000 [7:39:24<2:44:53,  2.35s/it] 72%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                      | 10798/15000 [7:39:27<2:44:52,  2.35s/it] 72%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                      | 10799/15000 [7:39:29<2:44:46,  2.35s/it] 72%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                      | 10800/15000 [7:39:31<2:44:39,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.7336, 'grad_norm': 1.71875, 'learning_rate': 2.035084234382479e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3491.96, 'total_tokens': 88227030, 'epoch': 0.72}
+ 72%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                      | 10800/15000 [7:39:31<2:44:39,  2.35s/it] 72%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                      | 10801/15000 [7:39:34<2:44:36,  2.35s/it] 72%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                      | 10802/15000 [7:39:36<2:44:36,  2.35s/it] 72%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                      | 10803/15000 [7:39:38<2:44:37,  2.35s/it] 72%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                      | 10804/15000 [7:39:41<2:44:45,  2.36s/it] 72%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                      | 10805/15000 [7:39:43<2:44:42,  2.36s/it] 72%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                      | 10806/15000 [7:39:46<2:54:42,  2.50s/it] 72%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                      | 10807/15000 [7:39:48<2:51:35,  2.46s/it] 72%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                      | 10808/15000 [7:39:51<2:49:15,  2.42s/it] 72%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                      | 10809/15000 [7:39:53<2:47:51,  2.40s/it] 72%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                      | 10810/15000 [7:39:55<2:46:47,  2.39s/it]                                                                                                                                                                                                                                                {'loss': 2.6024, 'grad_norm': 1.78125, 'learning_rate': 2.0278597021656526e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3484.89, 'total_tokens': 88308810, 'epoch': 0.72}
+ 72%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                      | 10810/15000 [7:39:55<2:46:47,  2.39s/it] 72%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                      | 10811/15000 [7:39:58<2:46:00,  2.38s/it] 72%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                      | 10812/15000 [7:40:00<2:45:28,  2.37s/it] 72%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                     | 10813/15000 [7:40:02<2:44:56,  2.36s/it] 72%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                     | 10814/15000 [7:40:05<2:44:36,  2.36s/it] 72%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                     | 10815/15000 [7:40:07<2:44:21,  2.36s/it] 72%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                     | 10816/15000 [7:40:09<2:44:25,  2.36s/it] 72%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                     | 10817/15000 [7:40:12<2:44:17,  2.36s/it] 72%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                     | 10818/15000 [7:40:14<2:44:29,  2.36s/it] 72%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                     | 10819/15000 [7:40:17<2:44:26,  2.36s/it] 72%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                     | 10820/15000 [7:40:19<2:44:12,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.7029, 'grad_norm': 1.859375, 'learning_rate': 2.0206410634824903e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3490.54, 'total_tokens': 88390617, 'epoch': 0.72}
+ 72%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████���████████████████████▏                                                     | 10820/15000 [7:40:19<2:44:12,  2.36s/it] 72%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                     | 10821/15000 [7:40:21<2:44:16,  2.36s/it] 72%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                     | 10822/15000 [7:40:24<2:44:03,  2.36s/it] 72%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                     | 10823/15000 [7:40:26<2:43:57,  2.36s/it] 72%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                     | 10824/15000 [7:40:28<2:43:54,  2.36s/it] 72%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                     | 10825/15000 [7:40:31<2:43:38,  2.35s/it] 72%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                     | 10826/15000 [7:40:33<2:43:42,  2.35s/it] 72%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                     | 10827/15000 [7:40:35<2:43:41,  2.35s/it] 72%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                     | 10828/15000 [7:40:38<2:43:38,  2.35s/it] 72%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                     | 10829/15000 [7:40:40<2:43:52,  2.36s/it] 72%|████████████████████████████████████████████████████████████████████████████████████████���██████████████████████████████████████████████████▎                                                     | 10830/15000 [7:40:42<2:43:51,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.6691, 'grad_norm': 1.9375, 'learning_rate': 2.013428389578042e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3477.85, 'total_tokens': 88472393, 'epoch': 0.72}
+ 72%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                     | 10830/15000 [7:40:42<2:43:51,  2.36s/it] 72%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                     | 10831/15000 [7:40:45<2:43:47,  2.36s/it] 72%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                     | 10832/15000 [7:40:47<2:43:41,  2.36s/it] 72%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                     | 10833/15000 [7:40:50<2:43:35,  2.36s/it] 72%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                     | 10834/15000 [7:40:52<2:43:35,  2.36s/it] 72%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                     | 10835/15000 [7:40:54<2:43:26,  2.35s/it] 72%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                     | 10836/15000 [7:40:57<2:43:28,  2.36s/it] 72%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                     | 10837/15000 [7:40:59<2:43:25,  2.36s/it] 72%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                     | 10838/15000 [7:41:01<2:43:20,  2.35s/it] 72%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                     | 10839/15000 [7:41:04<2:43:06,  2.35s/it] 72%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                     | 10840/15000 [7:41:06<2:43:01,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.706, 'grad_norm': 1.71875, 'learning_rate': 2.0062217516384874e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3491.62, 'total_tokens': 88554189, 'epoch': 0.72}
+ 72%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                     | 10840/15000 [7:41:06<2:43:01,  2.35s/it] 72%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                     | 10841/15000 [7:41:08<2:42:59,  2.35s/it] 72%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                     | 10842/15000 [7:41:11<2:43:00,  2.35s/it] 72%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                     | 10843/15000 [7:41:13<2:43:03,  2.35s/it] 72%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                     | 10844/15000 [7:41:15<2:42:55,  2.35s/it] 72%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                     | 10845/15000 [7:41:18<2:43:02,  2.35s/it] 72%|███████████████████████████████████���███████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                     | 10846/15000 [7:41:20<2:43:04,  2.36s/it] 72%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                     | 10847/15000 [7:41:22<2:42:53,  2.35s/it] 72%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                     | 10848/15000 [7:41:25<2:42:47,  2.35s/it] 72%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                     | 10849/15000 [7:41:27<2:42:52,  2.35s/it] 72%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                     | 10850/15000 [7:41:30<2:42:51,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6957, 'grad_norm': 1.7109375, 'learning_rate': 1.999021220790433e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3483.2, 'total_tokens': 88635969, 'epoch': 0.72}
+ 72%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                     | 10850/15000 [7:41:30<2:42:51,  2.35s/it] 72%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                     | 10851/15000 [7:41:32<2:42:37,  2.35s/it] 72%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                     | 10852/15000 [7:41:34<2:42:30,  2.35s/it] 72%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                     | 10853/15000 [7:41:37<2:42:35,  2.35s/it] 72%|████████���██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                     | 10854/15000 [7:41:39<2:42:27,  2.35s/it] 72%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                     | 10855/15000 [7:41:41<2:42:36,  2.35s/it] 72%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                     | 10856/15000 [7:41:44<2:42:32,  2.35s/it] 72%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                     | 10857/15000 [7:41:46<2:42:33,  2.35s/it] 72%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                     | 10858/15000 [7:41:48<2:42:20,  2.35s/it] 72%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                     | 10859/15000 [7:41:51<2:42:19,  2.35s/it] 72%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                     | 10860/15000 [7:41:53<2:42:14,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.5835, 'grad_norm': 1.765625, 'learning_rate': 1.9918268681002114e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3489.6, 'total_tokens': 88717719, 'epoch': 0.72}
+ 72%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                     | 10860/15000 [7:41:53<2:42:14,  2.35s/it] 72%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                     | 10861/15000 [7:41:55<2:42:19,  2.35s/it] 72%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                     | 10862/15000 [7:41:58<2:42:16,  2.35s/it] 72%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                     | 10863/15000 [7:42:00<2:42:03,  2.35s/it] 72%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                     | 10864/15000 [7:42:02<2:42:16,  2.35s/it] 72%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                     | 10865/15000 [7:42:05<2:42:13,  2.35s/it] 72%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                     | 10866/15000 [7:42:07<2:42:06,  2.35s/it] 72%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                     | 10867/15000 [7:42:10<2:41:57,  2.35s/it] 72%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                     | 10868/15000 [7:42:12<2:41:52,  2.35s/it] 72%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                     | 10869/15000 [7:42:14<2:41:50,  2.35s/it] 72%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                     | 10870/15000 [7:42:17<2:41:56,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6743, 'grad_norm': 1.6484375, 'learning_rate': 1.9846387645731794e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3480.31, 'total_tokens': 88799499, 'epoch': 0.72}
+ 72%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                     | 10870/15000 [7:42:17<2:41:56,  2.35s/it] 72%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                     | 10871/15000 [7:42:19<2:42:02,  2.35s/it] 72%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                     | 10872/15000 [7:42:21<2:42:03,  2.36s/it] 72%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                     | 10873/15000 [7:42:24<2:41:45,  2.35s/it] 72%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                     | 10874/15000 [7:42:26<2:41:55,  2.35s/it] 72%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                     | 10875/15000 [7:42:28<2:41:54,  2.36s/it] 73%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                     | 10876/15000 [7:42:31<2:42:03,  2.36s/it] 73%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                     | 10877/15000 [7:42:33<2:41:56,  2.36s/it] 73%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                     | 10878/15000 [7:42:35<2:42:00,  2.36s/it] 73%|█████████████████████████████████████████████████████████████████████████████████████████████████���█████████████████████████████████████████▉                                                     | 10879/15000 [7:42:38<2:41:53,  2.36s/it] 73%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                     | 10880/15000 [7:42:40<2:41:46,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.6464, 'grad_norm': 1.6953125, 'learning_rate': 1.9774569811530175e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3481.46, 'total_tokens': 88881207, 'epoch': 0.73}
+ 73%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                     | 10880/15000 [7:42:40<2:41:46,  2.36s/it] 73%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                     | 10881/15000 [7:42:42<2:41:26,  2.35s/it] 73%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                     | 10882/15000 [7:42:45<2:41:25,  2.35s/it] 73%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                     | 10883/15000 [7:42:47<2:41:29,  2.35s/it] 73%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                     | 10884/15000 [7:42:50<2:41:17,  2.35s/it] 73%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                     | 10885/15000 [7:42:52<2:41:13,  2.35s/it] 73%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                     | 10886/15000 [7:42:54<2:41:19,  2.35s/it] 73%|█████████████████████████████████████████████████████████████████████��██████████████████████████████████████████████████████████████████████                                                     | 10887/15000 [7:42:57<2:41:15,  2.35s/it] 73%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                     | 10888/15000 [7:42:59<2:41:15,  2.35s/it] 73%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                     | 10889/15000 [7:43:01<2:41:12,  2.35s/it] 73%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                     | 10890/15000 [7:43:04<2:41:17,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6551, 'grad_norm': 1.8984375, 'learning_rate': 1.9702815887210273e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3476.04, 'total_tokens': 88962948, 'epoch': 0.73}
+ 73%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                     | 10890/15000 [7:43:04<2:41:17,  2.35s/it] 73%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                    | 10891/15000 [7:43:06<2:41:13,  2.35s/it] 73%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                    | 10892/15000 [7:43:08<2:41:11,  2.35s/it] 73%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                    | 10893/15000 [7:43:11<2:41:17,  2.36s/it] 73%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                    | 10894/15000 [7:43:13<2:41:16,  2.36s/it] 73%|███████████████████████████████████████���████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                    | 10895/15000 [7:43:15<2:40:56,  2.35s/it] 73%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                    | 10896/15000 [7:43:18<2:40:52,  2.35s/it] 73%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                    | 10897/15000 [7:43:20<2:40:53,  2.35s/it] 73%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                    | 10898/15000 [7:43:23<2:40:56,  2.35s/it] 73%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                    | 10899/15000 [7:43:25<2:40:50,  2.35s/it] 73%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                    | 10900/15000 [7:43:27<2:40:33,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.7612, 'grad_norm': 1.765625, 'learning_rate': 1.9631126580954356e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3503.49, 'total_tokens': 89044731, 'epoch': 0.73}
+ 73%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                    | 10900/15000 [7:43:27<2:40:33,  2.35s/it] 73%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                    | 10901/15000 [7:43:30<2:40:33,  2.35s/it] 73%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                    | 10902/15000 [7:43:32<2:40:42,  2.35s/it] 73%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                    | 10903/15000 [7:43:34<2:40:36,  2.35s/it] 73%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                    | 10904/15000 [7:43:37<2:40:31,  2.35s/it] 73%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                    | 10905/15000 [7:43:39<2:40:38,  2.35s/it] 73%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                    | 10906/15000 [7:43:41<2:40:38,  2.35s/it] 73%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                    | 10907/15000 [7:43:44<2:40:44,  2.36s/it] 73%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                    | 10908/15000 [7:43:46<2:40:48,  2.36s/it] 73%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                    | 10909/15000 [7:43:48<2:40:50,  2.36s/it] 73%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                    | 10910/15000 [7:43:51<2:40:47,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.7354, 'grad_norm': 2.34375, 'learning_rate': 1.955950260030694e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3472.85, 'total_tokens': 89126403, 'epoch': 0.73}
+ 73%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                    | 10910/15000 [7:43:51<2:40:47,  2.36s/it] 73%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                    | 10911/15000 [7:43:53<2:40:35,  2.36s/it] 73%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                    | 10912/15000 [7:43:55<2:40:33,  2.36s/it] 73%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                    | 10913/15000 [7:43:58<2:40:29,  2.36s/it] 73%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                    | 10914/15000 [7:44:00<2:40:21,  2.35s/it] 73%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                    | 10915/15000 [7:44:03<2:40:20,  2.36s/it] 73%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                    | 10916/15000 [7:44:05<2:40:06,  2.35s/it] 73%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                    | 10917/15000 [7:44:07<2:39:59,  2.35s/it] 73%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                    | 10918/15000 [7:44:10<2:40:02,  2.35s/it] 73%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                    | 10919/15000 [7:44:12<2:40:05,  2.35s/it] 73%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                    | 10920/15000 [7:44:14<2:40:02,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6554, 'grad_norm': 2.09375, 'learning_rate': 1.9487944652167797e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3480.99, 'total_tokens': 89208101, 'epoch': 0.73}
+ 73%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                    | 10920/15000 [7:44:14<2:40:02,  2.35s/it] 73%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                    | 10921/15000 [7:44:17<2:40:00,  2.35s/it] 73%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                    | 10922/15000 [7:44:19<2:40:02,  2.35s/it] 73%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                    | 10923/15000 [7:44:21<2:39:52,  2.35s/it] 73%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                    | 10924/15000 [7:44:24<2:39:46,  2.35s/it] 73%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                    | 10925/15000 [7:44:26<2:39:43,  2.35s/it] 73%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                    | 10926/15000 [7:44:28<2:39:47,  2.35s/it] 73%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                    | 10927/15000 [7:44:31<2:39:50,  2.35s/it] 73%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                    | 10928/15000 [7:44:33<2:39:45,  2.35s/it] 73%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                    | 10929/15000 [7:44:35<2:39:39,  2.35s/it] 73%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                    | 10930/15000 [7:44:38<2:39:41,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.64, 'grad_norm': 1.7265625, 'learning_rate': 1.9416453442784983e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3479.12, 'total_tokens': 89289855, 'epoch': 0.73}
+ 73%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                    | 10930/15000 [7:44:38<2:39:41,  2.35s/it] 73%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                    | 10931/15000 [7:44:40<2:39:38,  2.35s/it] 73%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                    | 10932/15000 [7:44:43<2:39:39,  2.35s/it] 73%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                    | 10933/15000 [7:44:45<2:39:43,  2.36s/it] 73%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                    | 10934/15000 [7:44:47<2:39:39,  2.36s/it] 73%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                    | 10935/15000 [7:44:50<2:39:47,  2.36s/it] 73%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                    | 10936/15000 [7:44:52<2:39:34,  2.36s/it] 73%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                    | 10937/15000 [7:44:54<2:39:33,  2.36s/it] 73%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                    | 10938/15000 [7:44:57<2:39:36,  2.36s/it] 73%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                    | 10939/15000 [7:44:59<2:39:30,  2.36s/it] 73%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                    | 10940/15000 [7:45:01<2:39:26,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.7414, 'grad_norm': 1.7421875, 'learning_rate': 1.934502967774787e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3480.47, 'total_tokens': 89371591, 'epoch': 0.73}
+ 73%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                    | 10940/15000 [7:45:01<2:39:26,  2.36s/it] 73%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                    | 10941/15000 [7:45:04<2:39:23,  2.36s/it] 73%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                    | 10942/15000 [7:45:06<2:39:20,  2.36s/it] 73%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                    | 10943/15000 [7:45:08<2:39:22,  2.36s/it] 73%|███████████��████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                    | 10944/15000 [7:45:11<2:39:13,  2.36s/it] 73%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                    | 10945/15000 [7:45:13<2:39:02,  2.35s/it] 73%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                    | 10946/15000 [7:45:16<2:38:58,  2.35s/it] 73%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                    | 10947/15000 [7:45:18<2:38:53,  2.35s/it] 73%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                    | 10948/15000 [7:45:20<2:38:54,  2.35s/it] 73%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                    | 10949/15000 [7:45:23<2:38:59,  2.35s/it] 73%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                    | 10950/15000 [7:45:25<2:38:51,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6111, 'grad_norm': 1.6953125, 'learning_rate': 1.9273674061980203e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3482.97, 'total_tokens': 89453192, 'epoch': 0.73}
+ 73%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                    | 10950/15000 [7:45:25<2:38:51,  2.35s/it] 73%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                    | 10951/15000 [7:45:27<2:39:00,  2.36s/it] 73%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                    | 10952/15000 [7:45:30<2:38:59,  2.36s/it] 73%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                    | 10953/15000 [7:45:32<2:39:05,  2.36s/it] 73%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                    | 10954/15000 [7:45:34<2:38:57,  2.36s/it] 73%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                    | 10955/15000 [7:45:37<2:38:53,  2.36s/it] 73%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                    | 10956/15000 [7:45:39<2:38:51,  2.36s/it] 73%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                    | 10957/15000 [7:45:41<2:38:44,  2.36s/it] 73%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                    | 10958/15000 [7:45:44<2:38:43,  2.36s/it] 73%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                    | 10959/15000 [7:45:46<2:38:44,  2.36s/it] 73%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                    | 10960/15000 [7:45:49<2:38:34,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.5968, 'grad_norm': 1.7265625, 'learning_rate': 1.9202387299733076e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3482.22, 'total_tokens': 89534820, 'epoch': 0.73}
+ 73%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                    | 10960/15000 [7:45:49<2:38:34,  2.36s/it] 73%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                    | 10961/15000 [7:45:51<2:38:33,  2.36s/it] 73%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                    | 10962/15000 [7:45:53<2:38:27,  2.35s/it] 73%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                    | 10963/15000 [7:45:56<2:38:29,  2.36s/it] 73%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                    | 10964/15000 [7:45:58<2:38:12,  2.35s/it] 73%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                    | 10965/15000 [7:46:00<2:38:19,  2.35s/it] 73%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                    | 10966/15000 [7:46:03<2:38:16,  2.35s/it] 73%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                    | 10967/15000 [7:46:05<2:38:10,  2.35s/it] 73%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                    | 10968/15000 [7:46:07<2:38:11,  2.35s/it] 73%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                   | 10969/15000 [7:46:10<2:38:13,  2.36s/it] 73%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                   | 10970/15000 [7:46:12<2:38:07,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6666, 'grad_norm': 1.7265625, 'learning_rate': 1.9131170094578068e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3482.16, 'total_tokens': 89616482, 'epoch': 0.73}
+ 73%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                   | 10970/15000 [7:46:12<2:38:07,  2.35s/it] 73%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                   | 10971/15000 [7:46:14<2:38:12,  2.36s/it] 73%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                   | 10972/15000 [7:46:17<2:38:04,  2.35s/it] 73%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                   | 10973/15000 [7:46:19<2:38:05,  2.36s/it] 73%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                   | 10974/15000 [7:46:21<2:38:09,  2.36s/it] 73%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                   | 10975/15000 [7:46:24<2:38:03,  2.36s/it] 73%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                   | 10976/15000 [7:46:26<2:37:48,  2.35s/it] 73%|██████████████████████████████████████████���██████████████████████████████████████████████████████████████████████████████████████████████████▏                                                   | 10977/15000 [7:46:29<2:37:48,  2.35s/it] 73%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                   | 10978/15000 [7:46:31<2:37:44,  2.35s/it] 73%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                   | 10979/15000 [7:46:33<2:37:44,  2.35s/it] 73%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                   | 10980/15000 [7:46:36<2:37:39,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6634, 'grad_norm': 1.9375, 'learning_rate': 1.9060023149400237e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3480.24, 'total_tokens': 89698095, 'epoch': 0.73}
+ 73%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                   | 10980/15000 [7:46:36<2:37:39,  2.35s/it] 73%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                   | 10981/15000 [7:46:38<2:37:41,  2.35s/it] 73%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                   | 10982/15000 [7:46:40<2:37:27,  2.35s/it] 73%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                   | 10983/15000 [7:46:43<2:37:36,  2.35s/it] 73%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                   | 10984/15000 [7:46:45<2:37:20,  2.35s/it] 73%|███��█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                   | 10985/15000 [7:46:47<2:37:20,  2.35s/it] 73%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                   | 10986/15000 [7:46:50<2:37:13,  2.35s/it] 73%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                   | 10987/15000 [7:46:52<2:37:14,  2.35s/it] 73%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                   | 10988/15000 [7:46:54<2:37:20,  2.35s/it] 73%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                   | 10989/15000 [7:46:57<2:37:17,  2.35s/it] 73%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                   | 10990/15000 [7:46:59<2:37:19,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6452, 'grad_norm': 1.75, 'learning_rate': 1.8988947166391212e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3468.53, 'total_tokens': 89779598, 'epoch': 0.73}
+ 73%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                   | 10990/15000 [7:46:59<2:37:19,  2.35s/it] 73%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                   | 10991/15000 [7:47:01<2:37:21,  2.35s/it] 73%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████��▍                                                   | 10992/15000 [7:47:04<2:37:22,  2.36s/it] 73%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                   | 10993/15000 [7:47:06<2:37:20,  2.36s/it][2025-11-17 05:30:00,275] [INFO] [axolotl.utils.data.wrappers.get_dataset_wrapper:87] [PID:8163] Loading dataset: Goader/kobza-2m-jsonl with base_type: pretrain and prompt_style: None
+
+Tokenizing Prompts (num_proc=64):   0%|                                                                                                                                                                        | 0/10000 [00:00<?, ? examples/s][A
+Tokenizing Prompts (num_proc=64):   2%|██▍                                                                                                                                                           | 157/10000 [00:05<06:09, 26.66 examples/s][A
+Tokenizing Prompts (num_proc=64):   3%|████▉                                                                                                                                                         | 314/10000 [00:06<02:52, 56.31 examples/s][A
+Tokenizing Prompts (num_proc=64):   5%|███████▍                                                                                                                                                      | 471/10000 [00:07<01:53, 84.15 examples/s][A
+Tokenizing Prompts (num_proc=64):   6%|█████████▊                                                                                                                                                   | 628/10000 [00:07<01:22, 113.84 examples/s][A
+Tokenizing Prompts (num_proc=64):   8%|████████████▎                                                                                                                                                | 785/10000 [00:08<01:06, 139.37 examples/s][A
+Tokenizing Prompts (num_proc=64):   9%|██████████████▊                                                                                                                                              | 942/10000 [00:09<00:56, 160.99 examples/s][A
+Tokenizing Prompts (num_proc=64):  11%|█████████████████▏                                                                                                                                          | 1099/10000 [00:10<00:52, 170.37 examples/s][A
+Tokenizing Prompts (num_proc=64):  13%|███████████████████▌                                                                                                                                        | 1256/10000 [00:10<00:44, 194.49 examples/s][A
+Tokenizing Prompts (num_proc=64):  14%|██████████████████████                                                                                                                                      | 1413/10000 [00:11<00:42, 204.02 examples/s][A
+Tokenizing Prompts (num_proc=64):  16%|████████████████████████▍                                                                                                                                   | 1570/10000 [00:11<00:39, 213.02 examples/s][A
+Tokenizing Prompts (num_proc=64):  17%|██████████████████████████▉                                                                                                                                 | 1727/10000 [00:12<00:37, 219.69 examples/s][A
+Tokenizing Prompts (num_proc=64):  19%|█████████████████████████████▍                                                                                                                              | 1884/10000 [00:13<00:35, 225.49 examples/s][A
+Tokenizing Prompts (num_proc=64):  20%|███████████████████████████████▊                                                                                                                            | 2041/10000 [00:13<00:34, 233.37 examples/s][A
+Tokenizing Prompts (num_proc=64):  22%|██████████████████████████████████▎                                                                                                                         | 2198/10000 [00:14<00:33, 231.60 examples/s][A
+Tokenizing Prompts (num_proc=64):  24%|██████████████████���█████████████████▋                                                                                                                       | 2355/10000 [00:15<00:32, 236.41 examples/s][A
+Tokenizing Prompts (num_proc=64):  25%|███████████████████████████████████████▏                                                                                                                    | 2512/10000 [00:15<00:31, 236.91 examples/s][A
+Tokenizing Prompts (num_proc=64):  27%|█████████████████████████████████████████▌                                                                                                                  | 2668/10000 [00:16<00:30, 237.87 examples/s][A
+Tokenizing Prompts (num_proc=64):  28%|████████████████████████████████████████████                                                                                                                | 2824/10000 [00:17<00:30, 239.08 examples/s][A
+Tokenizing Prompts (num_proc=64):  30%|██████████████████████████████████████████████▍                                                                                                             | 2980/10000 [00:17<00:29, 240.50 examples/s][A
+Tokenizing Prompts (num_proc=64):  31%|████████████████████████████████████████████████▉                                                                                                           | 3136/10000 [00:18<00:34, 196.85 examples/s][A
+Tokenizing Prompts (num_proc=64):  33%|███████████████████████████████████████████████████▎                                                                                                        | 3292/10000 [00:19<00:26, 255.04 examples/s][A
+Tokenizing Prompts (num_proc=64):  34%|█████████████████████████████████████████████████████▊                                                                                                      | 3448/10000 [00:19<00:26, 248.54 examples/s][A
+Tokenizing Prompts (num_proc=64):  36%|████████████████████████████████████████████████████████▏                                                                                                   | 3604/10000 [00:20<00:27, 229.43 examples/s][A
+Tokenizing Prompts (num_proc=64):  38%|██████████████████████████████████████████████████████████▋                                                                                                 | 3760/10000 [00:21<00:30, 204.88 examples/s][A
+Tokenizing Prompts (num_proc=64):  39%|█████████████████████████████████████████████████████████████                                                                                               | 3916/10000 [00:21<00:23, 256.96 examples/s][A
+Tokenizing Prompts (num_proc=64):  41%|███████████████████████████████████████████████████████████████▌                                                                                            | 4072/10000 [00:22<00:23, 254.08 examples/s][A
+Tokenizing Prompts (num_proc=64):  42%|█████████████████████████████████████████████████████████████████▉                                                                                          | 4228/10000 [00:23<00:24, 234.93 examples/s][A
+Tokenizing Prompts (num_proc=64):  44%|████████████████████████████████████████████████████████████████████▍                                                                                       | 4384/10000 [00:23<00:23, 241.17 examples/s][A
+Tokenizing Prompts (num_proc=64):  45%|██████████████████████████████████████████████████████████████████████▊                                                                                     | 4540/10000 [00:24<00:21, 249.62 examples/s][A
+Tokenizing Prompts (num_proc=64):  47%|█████████████████████████████████████████████████████████████████████████▎                                                                                  | 4696/10000 [00:25<00:21, 242.21 examples/s][A
+Tokenizing Prompts (num_proc=64):  49%|███████████████████████████████████████████████████████████████████████████▋                                                                                | 4852/10000 [00:25<00:21, 244.72 examples/s][A
+Tokenizing Prompts (num_proc=64):  50%|██████████████████████████████████████████████████████████████████████████████                                                                              | 5008/10000 [00:26<00:21, 237.51 examples/s][A
+Tokenizing Prompts (num_proc=64):  52%|████████████████████████████████████████████████████████████████████████████████▌                                                                           | 5164/10000 [00:27<00:20, 238.84 examples/s][A
+Tokenizing Prompts (num_proc=64):  53%|██████████████████████████████████████████████████████████████████████████████████▉                                                                         | 5320/10000 [00:27<00:19, 236.69 examples/s][A
+Tokenizing Prompts (num_proc=64):  55%|█████████████████████████████████████████████████████████████████████████████████████▍                                                                      | 5476/10000 [00:28<00:19, 235.45 examples/s][A
+Tokenizing Prompts (num_proc=64):  56%|███████████████████████████████████████████████████████████████████████████████████████▊                                                                    | 5632/10000 [00:29<00:18, 240.86 examples/s][A
+Tokenizing Prompts (num_proc=64):  58%|██████████████████████████████████████████████████████████████████████████████████████████▎                                                                 | 5788/10000 [00:29<00:17, 238.64 examples/s][A
+Tokenizing Prompts (num_proc=64):  59%|████████████████████████████████████████████████████████████████████████████████████████████▋                                                               | 5944/10000 [00:30<00:17, 235.79 examples/s][A
+Tokenizing Prompts (num_proc=64):  61%|███████████████████████████████████████████████████████████████████████████████████████████████▏                                                            | 6100/10000 [00:31<00:16, 239.75 examples/s][A
+Tokenizing Prompts (num_proc=64):  63%|█████████████████████████████████████████████████████████████████████████████████████████████████▌                                                          | 6256/10000 [00:31<00:15, 239.17 examples/s][A
+Tokenizing Prompts (num_proc=64):  64%|████████████████████████████████████████████████████████████████████████████████████████████████████                                                        | 6412/10000 [00:32<00:15, 238.10 examples/s][A
+Tokenizing Prompts (num_proc=64):  66%|██████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                     | 6568/10000 [00:32<00:14, 241.00 examples/s][A
+Tokenizing Prompts (num_proc=64):  67%|████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                   | 6724/10000 [00:33<00:13, 242.77 examples/s][A
+Tokenizing Prompts (num_proc=64):  69%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                | 6880/10000 [00:34<00:12, 240.53 examples/s][A
+Tokenizing Prompts (num_proc=64):  70%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                              | 7036/10000 [00:34<00:12, 238.68 examples/s][A
+Tokenizing Prompts (num_proc=64):  72%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                           | 7192/10000 [00:35<00:12, 233.57 examples/s][A
+Tokenizing Prompts (num_proc=64):  73%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                         | 7348/10000 [00:36<00:11, 237.46 examples/s][A
+Tokenizing Prompts (num_proc=64):  75%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                       | 7504/10000 [00:36<00:10, 235.02 examples/s][A
+Tokenizing Prompts (num_proc=64):  77%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                    | 7660/10000 [00:37<00:09, 240.78 examples/s][A
+Tokenizing Prompts (num_proc=64):  78%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                  | 7816/10000 [00:38<00:09, 241.13 examples/s][A
+Tokenizing Prompts (num_proc=64):  80%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                               | 7972/10000 [00:38<00:08, 235.48 examples/s][A
+Tokenizing Prompts (num_proc=64):  81%|████████████████████████████████████████████████████████████████████████████████████████████████████████████���█████████████████▊                             | 8128/10000 [00:39<00:07, 237.28 examples/s][A
+Tokenizing Prompts (num_proc=64):  83%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                          | 8284/10000 [00:40<00:07, 238.00 examples/s][A
+Tokenizing Prompts (num_proc=64):  84%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                        | 8440/10000 [00:40<00:06, 235.36 examples/s][A
+Tokenizing Prompts (num_proc=64):  86%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                      | 8596/10000 [00:41<00:05, 243.33 examples/s][A
+Tokenizing Prompts (num_proc=64):  88%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                   | 8752/10000 [00:42<00:05, 227.46 examples/s][A
+Tokenizing Prompts (num_proc=64):  89%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                 | 8908/10000 [00:42<00:04, 237.09 examples/s][A
+Tokenizing Prompts (num_proc=64):  91%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍              | 9064/10000 [00:43<00:03, 243.08 examples/s][A
+Tokenizing Prompts (num_proc=64):  92%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊            | 9220/10000 [00:44<00:03, 239.01 examples/s][A
+Tokenizing Prompts (num_proc=64):  94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎         | 9376/10000 [00:44<00:02, 234.79 examples/s][A
+Tokenizing Prompts (num_proc=64):  95%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋       | 9532/10000 [00:45<00:01, 236.32 examples/s][A
+Tokenizing Prompts (num_proc=64):  97%|██████████████████████████████████████████████████████████████████████████���████████████████████████████████████████████████████████████████████████████▏    | 9688/10000 [00:46<00:01, 235.93 examples/s][A
+Tokenizing Prompts (num_proc=64):  98%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌  | 9844/10000 [00:46<00:00, 233.76 examples/s][A
+Tokenizing Prompts (num_proc=64): 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10000/10000 [00:47<00:00, 234.27 examples/s][ATokenizing Prompts (num_proc=64): 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10000/10000 [00:49<00:00, 201.85 examples/s]
+
+Dropping Long Sequences:   0%|                                                                                                                                                                                 | 0/10000 [00:00<?, ? examples/s][A
+Dropping Long Sequences:  10%|████████████████▌                                                                                                                                                    | 1000/10000 [00:01<00:12, 708.09 examples/s][A
+Dropping Long Sequences:  20%|████████████████████████████████▊                                                                                                                                   | 2000/10000 [00:01<00:05, 1333.95 examples/s][A
+Dropping Long Sequences:  30%|█████████████████████████████████████████████████▏                                                                                                                  | 3000/10000 [00:01<00:03, 1936.57 examples/s][A
+Dropping Long Sequences:  40%|█████████████████████████████████████████████████████████████████▌                                                                                                  | 4000/10000 [00:02<00:02, 2395.75 examples/s][A
+Dropping Long Sequences:  50%|██████████████████████████████████████████████████████████████████████████████████                                                                                  | 5000/10000 [00:02<00:01, 2746.48 examples/s][A
+Dropping Long Sequences:  60%|██████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                 | 6000/10000 [00:02<00:01, 3148.49 examples/s][A
+Dropping Long Sequences:  70%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                 | 7000/10000 [00:02<00:00, 3481.30 examples/s][A
+Dropping Long Sequences:  80%|██████████████████████████████████████████████████████████████████████████████████���████████████████████████████████████████████████▏                                | 8000/10000 [00:03<00:00, 3689.07 examples/s][A
+Dropping Long Sequences:  90%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                | 9000/10000 [00:03<00:00, 3746.82 examples/s][A
+Dropping Long Sequences: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10000/10000 [00:03<00:00, 3932.07 examples/s][ADropping Long Sequences: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10000/10000 [00:03<00:00, 2706.10 examples/s]
+
+Add position_id column (Pretraining Sample Packing):   0%|                                                                                                                                                      | 0/8757 [00:00<?, ? examples/s][A
+Add position_id column (Pretraining Sample Packing):  11%|███████████████▊                                                                                                                          | 1000/8757 [00:01<00:09, 809.11 examples/s][A
+Add position_id column (Pretraining Sample Packing):  23%|███████████████████████████████▎                                                                                                         | 2000/8757 [00:01<00:04, 1674.38 examples/s][A
+Add position_id column (Pretraining Sample Packing):  34%|██████████████████████████████████████████████▉                                                                                          | 3000/8757 [00:01<00:02, 2565.49 examples/s][A
+Add position_id column (Pretraining Sample Packing):  46%|██████████████████████████████████████████████████████████████▌                                                                          | 4000/8757 [00:01<00:01, 3364.78 examples/s][A
+Add position_id column (Pretraining Sample Packing):  57%|██████████████████████████████████████████████████████████████████████████████▏                                                          | 5000/8757 [00:01<00:00, 4144.98 examples/s][A
+Add position_id column (Pretraining Sample Packing):  69%|█████████████████████████████████████████████████████████████████████████████████████████████▊                                           | 6000/8757 [00:01<00:00, 4797.57 examples/s][A
+Add position_id column (Pretraining Sample Packing):  80%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                           | 7000/8757 [00:02<00:00, 5397.34 examples/s][A
+Add position_id column (Pretraining Sample Packing):  91%|██████████████████████████████████████████████████████████████████████████████████████████████████��██████████████████████████▏           | 8000/8757 [00:02<00:00, 5581.77 examples/s][A
+Add position_id column (Pretraining Sample Packing): 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 8757/8757 [00:02<00:00, 5886.90 examples/s][AAdd position_id column (Pretraining Sample Packing): 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 8757/8757 [00:02<00:00, 3602.79 examples/s]
+[2025-11-17 05:30:57,469] [DEBUG] [axolotl.utils.samplers.multipack.pack_parallel:177] [PID:8163] Using single process for pack_parallel, running sequentially.
+ 73%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                   | 10994/15000 [7:48:12<23:46:39, 21.37s/it] 73%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                   | 10995/15000 [7:48:14<17:25:34, 15.66s/it] 73%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                   | 10996/15000 [7:48:17<12:58:40, 11.67s/it] 73%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                   | 10997/15000 [7:48:19<9:51:55,  8.87s/it] 73%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                   | 10998/15000 [7:48:21<7:41:28,  6.92s/it] 73%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                   | 10999/15000 [7:48:24<6:10:13,  5.55s/it] 73%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                   | 11000/15000 [7:48:26<5:06:13,  4.59s/it]                                                                                                                                                                                                                                                {'loss': 2.7041, 'grad_norm': 1.828125, 'learning_rate': 1.8917942847042246e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3469.51, 'total_tokens': 89861110, 'epoch': 0.73}
+ 73%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                   | 11000/15000 [7:48:26<5:06:13,  4.59s/it] 73%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                   | 11001/15000 [7:48:28<4:21:28,  3.92s/it] 73%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                   | 11002/15000 [7:48:31<3:50:02,  3.45s/it] 73%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                   | 11003/15000 [7:48:33<3:28:11,  3.13s/it] 73%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                   | 11004/15000 [7:48:35<3:12:39,  2.89s/it] 73%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                   | 11005/15000 [7:48:38<3:01:54,  2.73s/it] 73%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                   | 11006/15000 [7:48:40<2:54:23,  2.62s/it] 73%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                   | 11007/15000 [7:48:43<2:49:08,  2.54s/it] 73%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                   | 11008/15000 [7:48:45<2:45:27,  2.49s/it] 73%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                   | 11009/15000 [7:48:47<2:42:40,  2.45s/it] 73%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                   | 11010/15000 [7:48:50<2:40:45,  2.42s/it]                                                                                                                                                                                                                                                {'loss': 2.6597, 'grad_norm': 1.734375, 'learning_rate': 1.884701089213731e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3492.44, 'total_tokens': 89942991, 'epoch': 0.73}
+ 73%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                   | 11010/15000 [7:48:50<2:40:45,  2.42s/it] 73%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                   | 11011/15000 [7:48:52<2:39:22,  2.40s/it] 73%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                   | 11012/15000 [7:48:54<2:38:35,  2.39s/it] 73%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                   | 11013/15000 [7:48:57<2:37:54,  2.38s/it] 73%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                   | 11014/15000 [7:48:59<2:37:12,  2.37s/it] 73%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                   | 11015/15000 [7:49:01<2:37:00,  2.36s/it] 73%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                   | 11016/15000 [7:49:04<2:36:54,  2.36s/it] 73%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                   | 11017/15000 [7:49:06<2:36:43,  2.36s/it] 73%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                   | 11018/15000 [7:49:08<2:36:37,  2.36s/it] 73%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                   | 11019/15000 [7:49:11<2:36:23,  2.36s/it] 73%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                   | 11020/15000 [7:49:13<2:36:16,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.6171, 'grad_norm': 1.640625, 'learning_rate': 1.8776152001746162e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3487.63, 'total_tokens': 90024827, 'epoch': 0.73}
+ 73%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                   | 11020/15000 [7:49:13<2:36:16,  2.36s/it] 73%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                   | 11021/15000 [7:49:15<2:36:08,  2.35s/it] 73%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                   | 11022/15000 [7:49:18<2:36:11,  2.36s/it] 73%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                   | 11023/15000 [7:49:20<2:35:53,  2.35s/it] 73%|████████████████████████████████████████████████████████████████████████████████████████████��████████████████████████████████████████████████▊                                                   | 11024/15000 [7:49:23<2:35:53,  2.35s/it] 74%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                   | 11025/15000 [7:49:25<2:35:42,  2.35s/it] 74%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                   | 11026/15000 [7:49:27<2:35:28,  2.35s/it] 74%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                   | 11027/15000 [7:49:30<2:35:31,  2.35s/it] 74%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                   | 11028/15000 [7:49:32<2:35:22,  2.35s/it] 74%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                   | 11029/15000 [7:49:34<2:35:29,  2.35s/it] 74%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                   | 11030/15000 [7:49:37<2:35:34,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6764, 'grad_norm': 1.640625, 'learning_rate': 1.8705366875217443e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3482.95, 'total_tokens': 90106616, 'epoch': 0.74}
+ 74%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                   | 11030/15000 [7:49:37<2:35:34,  2.35s/it] 74%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                   | 11031/15000 [7:49:39<2:35:37,  2.35s/it] 74%|█████████████████████████████████████████████████████���███████████████████████████████████████████████████████████████████████████████████████▉                                                   | 11032/15000 [7:49:41<2:35:34,  2.35s/it] 74%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                   | 11033/15000 [7:49:44<2:35:40,  2.35s/it] 74%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                   | 11034/15000 [7:49:46<2:35:30,  2.35s/it] 74%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                   | 11035/15000 [7:49:48<2:35:43,  2.36s/it] 74%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                   | 11036/15000 [7:49:51<2:35:41,  2.36s/it] 74%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                   | 11037/15000 [7:49:53<2:35:37,  2.36s/it] 74%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                   | 11038/15000 [7:49:55<2:35:32,  2.36s/it] 74%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                   | 11039/15000 [7:49:58<2:35:31,  2.36s/it] 74%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                   | 11040/15000 [7:50:00<2:35:22,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6832, 'grad_norm': 1.7109375, 'learning_rate': 1.863465621117177e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3491.71, 'total_tokens': 90188434, 'epoch': 0.74}
+ 74%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                   | 11040/15000 [7:50:00<2:35:22,  2.35s/it] 74%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                   | 11041/15000 [7:50:03<2:35:16,  2.35s/it] 74%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                   | 11042/15000 [7:50:05<2:35:08,  2.35s/it] 74%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                   | 11043/15000 [7:50:07<2:35:07,  2.35s/it] 74%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                   | 11044/15000 [7:50:10<2:35:03,  2.35s/it] 74%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                   | 11045/15000 [7:50:12<2:35:02,  2.35s/it] 74%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                  | 11046/15000 [7:50:14<2:35:04,  2.35s/it] 74%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                  | 11047/15000 [7:50:17<2:34:59,  2.35s/it] 74%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                  | 11048/15000 [7:50:19<2:34:53,  2.35s/it] 74%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                  | 11049/15000 [7:50:21<2:34:52,  2.35s/it] 74%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                  | 11050/15000 [7:50:24<2:34:58,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.7007, 'grad_norm': 1.7734375, 'learning_rate': 1.8564020707494856e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3478.56, 'total_tokens': 90270237, 'epoch': 0.74}
+ 74%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                  | 11050/15000 [7:50:24<2:34:58,  2.35s/it] 74%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                  | 11051/15000 [7:50:26<2:35:04,  2.36s/it] 74%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                  | 11052/15000 [7:50:28<2:35:02,  2.36s/it] 74%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                  | 11053/15000 [7:50:31<2:34:53,  2.35s/it] 74%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                  | 11054/15000 [7:50:33<2:34:55,  2.36s/it] 74%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                  | 11055/15000 [7:50:35<2:34:50,  2.35s/it] 74%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                  | 11056/15000 [7:50:38<2:34:45,  2.35s/it] 74%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                  | 11057/15000 [7:50:40<2:34:46,  2.36s/it] 74%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                  | 11058/15000 [7:50:43<2:34:42,  2.35s/it] 74%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                  | 11059/15000 [7:50:45<2:34:41,  2.36s/it] 74%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                  | 11060/15000 [7:50:47<2:34:44,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.688, 'grad_norm': 1.6640625, 'learning_rate': 1.8493461061330605e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3477.07, 'total_tokens': 90352021, 'epoch': 0.74}
+ 74%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                  | 11060/15000 [7:50:47<2:34:44,  2.36s/it] 74%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                  | 11061/15000 [7:50:50<2:34:39,  2.36s/it] 74%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                  | 11062/15000 [7:50:52<2:34:34,  2.36s/it] 74%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                  | 11063/15000 [7:50:54<2:34:29,  2.35s/it] 74%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                  | 11064/15000 [7:50:57<2:43:50,  2.50s/it] 74%|████████████████████████████████████████████████████��█████████████████████████████████████████████████████████████████████████████████████████▎                                                  | 11065/15000 [7:51:00<2:41:03,  2.46s/it] 74%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                  | 11066/15000 [7:51:02<2:39:12,  2.43s/it] 74%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                  | 11067/15000 [7:51:04<2:37:48,  2.41s/it] 74%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                  | 11068/15000 [7:51:07<2:36:44,  2.39s/it] 74%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                  | 11069/15000 [7:51:09<2:35:59,  2.38s/it] 74%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                  | 11070/15000 [7:51:11<2:35:27,  2.37s/it]                                                                                                                                                                                                                                                {'loss': 2.6789, 'grad_norm': 1.7578125, 'learning_rate': 1.8422977969074244e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3480.94, 'total_tokens': 90433762, 'epoch': 0.74}
+ 74%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                  | 11070/15000 [7:51:11<2:35:27,  2.37s/it] 74%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                  | 11071/15000 [7:51:14<2:34:55,  2.37s/it] 74%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                  | 11072/15000 [7:51:16<2:34:41,  2.36s/it] 74%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                  | 11073/15000 [7:51:18<2:34:38,  2.36s/it] 74%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                  | 11074/15000 [7:51:21<2:34:27,  2.36s/it] 74%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                  | 11075/15000 [7:51:23<2:34:17,  2.36s/it] 74%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                  | 11076/15000 [7:51:25<2:34:13,  2.36s/it] 74%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                  | 11077/15000 [7:51:28<2:34:12,  2.36s/it] 74%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                  | 11078/15000 [7:51:30<2:34:04,  2.36s/it] 74%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                  | 11079/15000 [7:51:33<2:34:00,  2.36s/it] 74%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                  | 11080/15000 [7:51:35<2:33:56,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.7154, 'grad_norm': 1.78125, 'learning_rate': 1.835257212636542e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3484.72, 'total_tokens': 90515590, 'epoch': 0.74}
+ 74%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                  | 11080/15000 [7:51:35<2:33:56,  2.36s/it] 74%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                  | 11081/15000 [7:51:37<2:34:03,  2.36s/it] 74%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                  | 11082/15000 [7:51:40<2:34:01,  2.36s/it] 74%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                  | 11083/15000 [7:51:42<2:33:47,  2.36s/it] 74%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                  | 11084/15000 [7:51:44<2:33:48,  2.36s/it] 74%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                  | 11085/15000 [7:51:47<2:33:48,  2.36s/it] 74%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                  | 11086/15000 [7:51:49<2:33:43,  2.36s/it] 74%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                  | 11087/15000 [7:51:51<2:33:27,  2.35s/it] 74%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                  | 11088/15000 [7:51:54<2:33:37,  2.36s/it] 74%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                  | 11089/15000 [7:51:56<2:33:30,  2.36s/it] 74%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                  | 11090/15000 [7:51:58<2:33:25,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6685, 'grad_norm': 1.71875, 'learning_rate': 1.8282244228081395e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3487.79, 'total_tokens': 90597399, 'epoch': 0.74}
+ 74%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                  | 11090/15000 [7:51:58<2:33:25,  2.35s/it] 74%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                  | 11091/15000 [7:52:01<2:33:23,  2.35s/it] 74%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                  | 11092/15000 [7:52:03<2:33:13,  2.35s/it] 74%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                  | 11093/15000 [7:52:05<2:33:13,  2.35s/it] 74%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                  | 11094/15000 [7:52:08<2:33:12,  2.35s/it] 74%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                  | 11095/15000 [7:52:10<2:33:06,  2.35s/it] 74%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                  | 11096/15000 [7:52:13<2:33:04,  2.35s/it] 74%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                  | 11097/15000 [7:52:15<2:33:02,  2.35s/it] 74%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                  | 11098/15000 [7:52:17<2:32:56,  2.35s/it] 74%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                  | 11099/15000 [7:52:20<2:32:53,  2.35s/it] 74%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                  | 11100/15000 [7:52:22<2:32:53,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.689, 'grad_norm': 1.7578125, 'learning_rate': 1.821199496833012e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3485.42, 'total_tokens': 90679184, 'epoch': 0.74}
+ 74%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                  | 11100/15000 [7:52:22<2:32:53,  2.35s/it] 74%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                  | 11101/15000 [7:52:24<2:33:01,  2.35s/it] 74%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                  | 11102/15000 [7:52:27<2:32:59,  2.35s/it] 74%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                  | 11103/15000 [7:52:29<2:33:00,  2.36s/it] 74%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                  | 11104/15000 [7:52:31<2:32:52,  2.35s/it] 74%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                  | 11105/15000 [7:52:34<2:32:47,  2.35s/it] 74%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                  | 11106/15000 [7:52:36<2:32:49,  2.35s/it] 74%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                  | 11107/15000 [7:52:38<2:32:36,  2.35s/it] 74%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                  | 11108/15000 [7:52:41<2:32:28,  2.35s/it] 74%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                  | 11109/15000 [7:52:43<2:32:33,  2.35s/it] 74%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                  | 11110/15000 [7:52:45<2:32:33,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6398, 'grad_norm': 1.734375, 'learning_rate': 1.814182504044344e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3481.89, 'total_tokens': 90760924, 'epoch': 0.74}
+ 74%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                  | 11110/15000 [7:52:46<2:32:33,  2.35s/it] 74%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                  | 11111/15000 [7:52:48<2:32:45,  2.36s/it] 74%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                  | 11112/15000 [7:52:50<2:32:48,  2.36s/it] 74%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████��█████████████▉                                                  | 11113/15000 [7:52:53<2:32:39,  2.36s/it] 74%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                  | 11114/15000 [7:52:55<2:32:26,  2.35s/it] 74%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                  | 11115/15000 [7:52:57<2:32:34,  2.36s/it] 74%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                  | 11116/15000 [7:53:00<2:32:27,  2.36s/it] 74%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                  | 11117/15000 [7:53:02<2:32:23,  2.35s/it] 74%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                  | 11118/15000 [7:53:04<2:32:22,  2.36s/it] 74%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                  | 11119/15000 [7:53:07<2:32:26,  2.36s/it] 74%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                  | 11120/15000 [7:53:09<2:32:23,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.6966, 'grad_norm': 1.7578125, 'learning_rate': 1.8071735136970202e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3482.22, 'total_tokens': 90842719, 'epoch': 0.74}
+ 74%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                  | 11120/15000 [7:53:09<2:32:23,  2.36s/it] 74%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                  | 11121/15000 [7:53:11<2:32:19,  2.36s/it] 74%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                  | 11122/15000 [7:53:14<2:32:16,  2.36s/it] 74%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                  | 11123/15000 [7:53:16<2:32:11,  2.36s/it] 74%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                 | 11124/15000 [7:53:18<2:32:08,  2.36s/it] 74%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                 | 11125/15000 [7:53:21<2:32:06,  2.36s/it] 74%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                 | 11126/15000 [7:53:23<2:32:02,  2.35s/it] 74%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                 | 11127/15000 [7:53:26<2:31:58,  2.35s/it] 74%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                 | 11128/15000 [7:53:28<2:31:52,  2.35s/it] 74%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                 | 11129/15000 [7:53:30<2:31:48,  2.35s/it] 74%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                 | 11130/15000 [7:53:33<2:31:55,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.744, 'grad_norm': 1.7578125, 'learning_rate': 1.8001725949669463e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3472.78, 'total_tokens': 90924468, 'epoch': 0.74}
+ 74%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                 | 11130/15000 [7:53:33<2:31:55,  2.36s/it] 74%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                 | 11131/15000 [7:53:35<2:31:49,  2.35s/it] 74%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                 | 11132/15000 [7:53:37<2:31:47,  2.35s/it] 74%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                 | 11133/15000 [7:53:40<2:31:34,  2.35s/it] 74%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                 | 11134/15000 [7:53:42<2:31:24,  2.35s/it] 74%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                 | 11135/15000 [7:53:44<2:31:23,  2.35s/it] 74%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                 | 11136/15000 [7:53:47<2:31:24,  2.35s/it] 74%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                 | 11137/15000 [7:53:49<2:31:22,  2.35s/it] 74%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                 | 11138/15000 [7:53:51<2:31:30,  2.35s/it] 74%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                 | 11139/15000 [7:53:54<2:31:26,  2.35s/it] 74%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                 | 11140/15000 [7:53:56<2:31:26,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6753, 'grad_norm': 1.8203125, 'learning_rate': 1.7931798169503644e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3480.97, 'total_tokens': 91006243, 'epoch': 0.74}
+ 74%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                 | 11140/15000 [7:53:56<2:31:26,  2.35s/it] 74%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                 | 11141/15000 [7:53:58<2:31:23,  2.35s/it] 74%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                 | 11142/15000 [7:54:01<2:31:28,  2.36s/it] 74%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                 | 11143/15000 [7:54:03<2:31:29,  2.36s/it] 74%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                 | 11144/15000 [7:54:06<2:31:15,  2.35s/it] 74%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                 | 11145/15000 [7:54:08<2:31:16,  2.35s/it] 74%|█████████████████████████████████████████████████████████████████████████████████████████████████████��█████████████████████████████████████████▍                                                 | 11146/15000 [7:54:10<2:31:17,  2.36s/it] 74%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                 | 11147/15000 [7:54:13<2:31:16,  2.36s/it] 74%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                 | 11148/15000 [7:54:15<2:31:09,  2.35s/it] 74%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                 | 11149/15000 [7:54:17<2:31:01,  2.35s/it] 74%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                 | 11150/15000 [7:54:20<2:30:54,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6554, 'grad_norm': 1.7734375, 'learning_rate': 1.7861952486631695e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3492.22, 'total_tokens': 91088034, 'epoch': 0.74}
+ 74%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                 | 11150/15000 [7:54:20<2:30:54,  2.35s/it] 74%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                 | 11151/15000 [7:54:22<2:30:54,  2.35s/it] 74%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                 | 11152/15000 [7:54:24<2:31:03,  2.36s/it] 74%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                 | 11153/15000 [7:54:27<2:30:55,  2.35s/it] 74%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                 | 11154/15000 [7:54:29<2:30:52,  2.35s/it] 74%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                 | 11155/15000 [7:54:31<2:30:45,  2.35s/it] 74%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                 | 11156/15000 [7:54:34<2:30:37,  2.35s/it] 74%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                 | 11157/15000 [7:54:36<2:30:30,  2.35s/it] 74%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                 | 11158/15000 [7:54:38<2:30:25,  2.35s/it] 74%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                 | 11159/15000 [7:54:41<2:30:27,  2.35s/it] 74%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                 | 11160/15000 [7:54:43<2:30:29,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6344, 'grad_norm': 1.734375, 'learning_rate': 1.7792189590402315e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3485.69, 'total_tokens': 91169846, 'epoch': 0.74}
+ 74%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                 | 11160/15000 [7:54:43<2:30:29,  2.35s/it] 74%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                 | 11161/15000 [7:54:46<2:30:29,  2.35s/it] 74%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                 | 11162/15000 [7:54:48<2:30:25,  2.35s/it] 74%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                 | 11163/15000 [7:54:50<2:30:26,  2.35s/it] 74%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                 | 11164/15000 [7:54:53<2:30:26,  2.35s/it] 74%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                 | 11165/15000 [7:54:55<2:30:26,  2.35s/it] 74%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                 | 11166/15000 [7:54:57<2:30:29,  2.36s/it] 74%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                 | 11167/15000 [7:55:00<2:30:28,  2.36s/it] 74%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                 | 11168/15000 [7:55:02<2:30:18,  2.35s/it] 74%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                 | 11169/15000 [7:55:04<2:30:24,  2.36s/it] 74%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                 | 11170/15000 [7:55:07<2:30:23,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.675, 'grad_norm': 1.9921875, 'learning_rate': 1.7722510169347113e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3478.26, 'total_tokens': 91251601, 'epoch': 0.74}
+ 74%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                 | 11170/15000 [7:55:07<2:30:23,  2.36s/it] 74%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                 | 11171/15000 [7:55:09<2:30:26,  2.36s/it] 74%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                 | 11172/15000 [7:55:11<2:30:18,  2.36s/it] 74%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                 | 11173/15000 [7:55:14<2:30:16,  2.36s/it] 74%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                 | 11174/15000 [7:55:16<2:30:07,  2.35s/it] 74%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                 | 11175/15000 [7:55:19<2:29:56,  2.35s/it] 75%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                 | 11176/15000 [7:55:21<2:29:55,  2.35s/it] 75%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                 | 11177/15000 [7:55:23<2:29:47,  2.35s/it] 75%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                 | 11178/15000 [7:55:26<2:29:53,  2.35s/it] 75%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                 | 11179/15000 [7:55:28<2:29:57,  2.35s/it] 75%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                 | 11180/15000 [7:55:30<2:29:49,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.7335, 'grad_norm': 1.6875, 'learning_rate': 1.765291491117386e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3489.13, 'total_tokens': 91333357, 'epoch': 0.75}
+ 75%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                 | 11180/15000 [7:55:30<2:29:49,  2.35s/it] 75%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                 | 11181/15000 [7:55:33<2:29:43,  2.35s/it] 75%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                 | 11182/15000 [7:55:35<2:29:48,  2.35s/it] 75%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                 | 11183/15000 [7:55:37<2:29:51,  2.36s/it] 75%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                 | 11184/15000 [7:55:40<2:29:46,  2.36s/it] 75%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                 | 11185/15000 [7:55:42<2:29:37,  2.35s/it] 75%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                 | 11186/15000 [7:55:44<2:29:24,  2.35s/it] 75%|████████████████��██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                 | 11187/15000 [7:55:47<2:29:32,  2.35s/it] 75%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                 | 11188/15000 [7:55:49<2:29:23,  2.35s/it] 75%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                 | 11189/15000 [7:55:51<2:29:16,  2.35s/it] 75%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                 | 11190/15000 [7:55:54<2:29:13,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.7145, 'grad_norm': 1.8125, 'learning_rate': 1.7583404502759644e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3488.57, 'total_tokens': 91415094, 'epoch': 0.75}
+ 75%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                 | 11190/15000 [7:55:54<2:29:13,  2.35s/it] 75%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                 | 11191/15000 [7:55:56<2:29:14,  2.35s/it] 75%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                 | 11192/15000 [7:55:59<2:29:23,  2.35s/it] 75%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                 | 11193/15000 [7:56:01<2:29:11,  2.35s/it] 75%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████���█                                                 | 11194/15000 [7:56:03<2:29:27,  2.36s/it] 75%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                 | 11195/15000 [7:56:06<2:29:27,  2.36s/it] 75%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                 | 11196/15000 [7:56:08<2:29:23,  2.36s/it] 75%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                 | 11197/15000 [7:56:10<2:29:22,  2.36s/it] 75%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                 | 11198/15000 [7:56:13<2:29:17,  2.36s/it] 75%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                 | 11199/15000 [7:56:15<2:29:15,  2.36s/it] 75%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                 | 11200/15000 [7:56:17<2:29:11,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.6875, 'grad_norm': 1.7421875, 'learning_rate': 1.7513979630144145e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3482.58, 'total_tokens': 91496863, 'epoch': 0.75}
+ 75%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                 | 11200/15000 [7:56:17<2:29:11,  2.36s/it] 75%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                 | 11201/15000 [7:56:20<2:29:09,  2.36s/it] 75%|██████████████████████████████████████████████████████████████████████████████████████████��█████████████████████████████████████████████████████▏                                                | 11202/15000 [7:56:22<2:29:04,  2.36s/it] 75%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                | 11203/15000 [7:56:24<2:29:00,  2.35s/it] 75%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                | 11204/15000 [7:56:27<2:29:06,  2.36s/it] 75%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                | 11205/15000 [7:56:29<2:29:02,  2.36s/it] 75%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                | 11206/15000 [7:56:31<2:28:57,  2.36s/it] 75%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                | 11207/15000 [7:56:34<2:28:48,  2.35s/it] 75%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                | 11208/15000 [7:56:36<2:28:47,  2.35s/it] 75%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                | 11209/15000 [7:56:39<2:28:35,  2.35s/it] 75%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                | 11210/15000 [7:56:41<2:28:39,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6618, 'grad_norm': 1.703125, 'learning_rate': 1.7444640978522823e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3475.25, 'total_tokens': 91578543, 'epoch': 0.75}
+ 75%|█████████████████████████████████���██████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                | 11210/15000 [7:56:41<2:28:39,  2.35s/it] 75%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                | 11211/15000 [7:56:43<2:28:34,  2.35s/it] 75%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                | 11212/15000 [7:56:46<2:28:29,  2.35s/it] 75%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                | 11213/15000 [7:56:48<2:28:23,  2.35s/it] 75%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                | 11214/15000 [7:56:50<2:28:25,  2.35s/it] 75%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                | 11215/15000 [7:56:53<2:28:29,  2.35s/it] 75%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                | 11216/15000 [7:56:55<2:28:31,  2.36s/it] 75%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                | 11217/15000 [7:56:57<2:28:27,  2.35s/it] 75%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                | 11218/15000 [7:57:00<2:28:28,  2.36s/it] 75%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                | 11219/15000 [7:57:02<2:28:18,  2.35s/it] 75%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                | 11220/15000 [7:57:04<2:28:20,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.642, 'grad_norm': 1.71875, 'learning_rate': 1.737538923224017e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3480.73, 'total_tokens': 91660340, 'epoch': 0.75}
+ 75%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                | 11220/15000 [7:57:04<2:28:20,  2.35s/it] 75%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                | 11221/15000 [7:57:07<2:28:16,  2.35s/it] 75%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                | 11222/15000 [7:57:09<2:28:10,  2.35s/it] 75%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                | 11223/15000 [7:57:11<2:28:15,  2.36s/it] 75%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                | 11224/15000 [7:57:14<2:28:08,  2.35s/it] 75%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                | 11225/15000 [7:57:16<2:27:59,  2.35s/it] 75%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                | 11226/15000 [7:57:19<2:27:56,  2.35s/it] 75%|██████████████████████████████████████████████████████████████████████████████████████████��█████████████████████████████████████████████████████▍                                                | 11227/15000 [7:57:21<2:28:03,  2.35s/it] 75%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                | 11228/15000 [7:57:23<2:28:02,  2.35s/it] 75%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                | 11229/15000 [7:57:26<2:28:04,  2.36s/it] 75%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                | 11230/15000 [7:57:28<2:28:03,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.7098, 'grad_norm': 1.90625, 'learning_rate': 1.730622507478297e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3477.34, 'total_tokens': 91742061, 'epoch': 0.75}
+ 75%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                | 11230/15000 [7:57:28<2:28:03,  2.36s/it] 75%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                | 11231/15000 [7:57:30<2:27:51,  2.35s/it] 75%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                | 11232/15000 [7:57:33<2:27:52,  2.35s/it] 75%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                | 11233/15000 [7:57:35<2:27:45,  2.35s/it] 75%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                | 11234/15000 [7:57:37<2:27:48,  2.35s/it] 75%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                | 11235/15000 [7:57:40<2:27:51,  2.36s/it] 75%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                | 11236/15000 [7:57:42<2:27:42,  2.35s/it] 75%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                | 11237/15000 [7:57:44<2:27:48,  2.36s/it] 75%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                | 11238/15000 [7:57:47<2:27:46,  2.36s/it] 75%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                | 11239/15000 [7:57:49<2:27:34,  2.35s/it] 75%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                | 11240/15000 [7:57:52<2:27:32,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.683, 'grad_norm': 1.7578125, 'learning_rate': 1.723714918877354e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3482.77, 'total_tokens': 91823820, 'epoch': 0.75}
+ 75%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                | 11240/15000 [7:57:52<2:27:32,  2.35s/it] 75%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                | 11241/15000 [7:57:54<2:27:29,  2.35s/it] 75%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                | 11242/15000 [7:57:56<2:27:29,  2.35s/it] 75%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                | 11243/15000 [7:57:59<2:27:26,  2.35s/it] 75%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                | 11244/15000 [7:58:01<2:27:21,  2.35s/it] 75%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                | 11245/15000 [7:58:03<2:27:29,  2.36s/it] 75%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                | 11246/15000 [7:58:06<2:27:29,  2.36s/it] 75%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                | 11247/15000 [7:58:08<2:27:18,  2.36s/it] 75%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                | 11248/15000 [7:58:10<2:27:30,  2.36s/it] 75%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                | 11249/15000 [7:58:13<2:27:17,  2.36s/it] 75%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                | 11250/15000 [7:58:15<2:27:14,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.6991, 'grad_norm': 1.828125, 'learning_rate': 1.7168162255962984e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3481.72, 'total_tokens': 91905601, 'epoch': 0.75}
+ 75%|████████████████████████████████████████████████████████████████████████████████████████████████��███████████████████████████████████████████████▊                                                | 11250/15000 [7:58:15<2:27:14,  2.36s/it] 75%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                | 11251/15000 [7:58:17<2:27:08,  2.35s/it] 75%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                | 11252/15000 [7:58:20<2:27:07,  2.36s/it] 75%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                | 11253/15000 [7:58:22<2:27:05,  2.36s/it] 75%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                | 11254/15000 [7:58:25<2:27:07,  2.36s/it] 75%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                | 11255/15000 [7:58:27<2:27:04,  2.36s/it] 75%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                | 11256/15000 [7:58:29<2:27:03,  2.36s/it] 75%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                | 11257/15000 [7:58:32<2:27:02,  2.36s/it] 75%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                | 11258/15000 [7:58:34<2:26:52,  2.36s/it] 75%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                | 11259/15000 [7:58:36<2:26:51,  2.36s/it] 75%|█████████████████████████████████���██████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                | 11260/15000 [7:58:39<2:26:42,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.7167, 'grad_norm': 1.7890625, 'learning_rate': 1.7099264957224465e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3486.07, 'total_tokens': 91987271, 'epoch': 0.75}
+ 75%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                | 11260/15000 [7:58:39<2:26:42,  2.35s/it] 75%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                | 11261/15000 [7:58:41<2:26:45,  2.36s/it] 75%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                | 11262/15000 [7:58:43<2:26:44,  2.36s/it] 75%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                | 11263/15000 [7:58:46<2:26:46,  2.36s/it] 75%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                | 11264/15000 [7:58:48<2:26:40,  2.36s/it] 75%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                | 11265/15000 [7:58:50<2:26:40,  2.36s/it] 75%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                | 11266/15000 [7:58:53<2:26:42,  2.36s/it] 75%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                | 11267/15000 [7:58:55<2:26:41,  2.36s/it] 75%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                | 11268/15000 [7:58:57<2:26:30,  2.36s/it] 75%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                | 11269/15000 [7:59:00<2:26:19,  2.35s/it] 75%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                | 11270/15000 [7:59:02<2:26:13,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6815, 'grad_norm': 1.6328125, 'learning_rate': 1.703045797254652e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3489.04, 'total_tokens': 92069032, 'epoch': 0.75}
+ 75%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                | 11270/15000 [7:59:02<2:26:13,  2.35s/it] 75%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                | 11271/15000 [7:59:05<2:26:12,  2.35s/it] 75%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                | 11272/15000 [7:59:07<2:26:04,  2.35s/it] 75%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                | 11273/15000 [7:59:09<2:26:08,  2.35s/it] 75%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                | 11274/15000 [7:59:12<2:26:14,  2.35s/it] 75%|███████████████████████████████████████████████████████████████████████████████████████████████���█████████████████████████████████████████████████                                                | 11275/15000 [7:59:14<2:26:07,  2.35s/it] 75%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                | 11276/15000 [7:59:16<2:26:10,  2.36s/it] 75%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                | 11277/15000 [7:59:19<2:26:07,  2.35s/it] 75%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                | 11278/15000 [7:59:21<2:25:53,  2.35s/it] 75%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                | 11279/15000 [7:59:23<2:25:58,  2.35s/it] 75%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                               | 11280/15000 [7:59:26<2:26:00,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.7115, 'grad_norm': 1.796875, 'learning_rate': 1.6961741981026308e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3476.6, 'total_tokens': 92150777, 'epoch': 0.75}
+ 75%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                               | 11280/15000 [7:59:26<2:26:00,  2.36s/it] 75%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                               | 11281/15000 [7:59:28<2:26:04,  2.36s/it] 75%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                               | 11282/15000 [7:59:30<2:26:05,  2.36s/it] 75%|███████████████████████████████████��█████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                               | 11283/15000 [7:59:33<2:25:58,  2.36s/it] 75%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                               | 11284/15000 [7:59:35<2:25:55,  2.36s/it] 75%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                               | 11285/15000 [7:59:38<2:25:53,  2.36s/it] 75%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                               | 11286/15000 [7:59:40<2:25:50,  2.36s/it] 75%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                               | 11287/15000 [7:59:42<2:25:45,  2.36s/it] 75%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                               | 11288/15000 [7:59:45<2:25:34,  2.35s/it] 75%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                               | 11289/15000 [7:59:47<2:25:28,  2.35s/it] 75%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                               | 11290/15000 [7:59:49<2:25:15,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.5597, 'grad_norm': 1.8359375, 'learning_rate': 1.6893117660862924e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3500.2, 'total_tokens': 92232534, 'epoch': 0.75}
+ 75%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                               | 11290/15000 [7:59:49<2:25:15,  2.35s/it] 75%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                               | 11291/15000 [7:59:52<2:25:21,  2.35s/it] 75%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                               | 11292/15000 [7:59:54<2:25:24,  2.35s/it] 75%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                               | 11293/15000 [7:59:56<2:25:29,  2.35s/it] 75%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                               | 11294/15000 [7:59:59<2:25:27,  2.35s/it] 75%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                               | 11295/15000 [8:00:01<2:25:17,  2.35s/it] 75%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                               | 11296/15000 [8:00:03<2:25:09,  2.35s/it] 75%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                               | 11297/15000 [8:00:06<2:25:12,  2.35s/it] 75%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                               | 11298/15000 [8:00:08<2:25:12,  2.35s/it] 75%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                               | 11299/15000 [8:00:10<2:25:13,  2.35s/it] 75%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                               | 11300/15000 [8:00:13<2:25:16,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.6492, 'grad_norm': 1.7109375, 'learning_rate': 1.6824585689350697e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3473.64, 'total_tokens': 92314236, 'epoch': 0.75}
+ 75%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                               | 11300/15000 [8:00:13<2:25:16,  2.36s/it] 75%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                               | 11301/15000 [8:00:15<2:25:04,  2.35s/it] 75%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                               | 11302/15000 [8:00:18<2:25:03,  2.35s/it] 75%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                               | 11303/15000 [8:00:20<2:24:53,  2.35s/it] 75%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                               | 11304/15000 [8:00:22<2:24:57,  2.35s/it] 75%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                               | 11305/15000 [8:00:25<2:24:57,  2.35s/it] 75%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                               | 11306/15000 [8:00:27<2:24:53,  2.35s/it] 75%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                               | 11307/15000 [8:00:29<2:24:46,  2.35s/it] 75%|████████████████���████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                               | 11308/15000 [8:00:32<2:24:36,  2.35s/it] 75%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                               | 11309/15000 [8:00:34<2:24:40,  2.35s/it] 75%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                               | 11310/15000 [8:00:36<2:24:37,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.7064, 'grad_norm': 2.0625, 'learning_rate': 1.6756146742872523e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3486.18, 'total_tokens': 92395945, 'epoch': 0.75}
+ 75%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                               | 11310/15000 [8:00:36<2:24:37,  2.35s/it] 75%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                               | 11311/15000 [8:00:39<2:24:40,  2.35s/it] 75%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                               | 11312/15000 [8:00:41<2:24:43,  2.35s/it] 75%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                               | 11313/15000 [8:00:43<2:24:35,  2.35s/it] 75%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                               | 11314/15000 [8:00:46<2:24:35,  2.35s/it] 75%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████���█████████████▌                                               | 11315/15000 [8:00:48<2:24:35,  2.35s/it] 75%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                               | 11316/15000 [8:00:50<2:24:33,  2.35s/it] 75%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                               | 11317/15000 [8:00:53<2:24:42,  2.36s/it] 75%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                               | 11318/15000 [8:00:55<2:24:38,  2.36s/it] 75%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                               | 11319/15000 [8:00:58<2:24:35,  2.36s/it] 75%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                               | 11320/15000 [8:01:00<2:24:42,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.6914, 'grad_norm': 1.75, 'learning_rate': 1.6687801496893175e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3462.89, 'total_tokens': 92477615, 'epoch': 0.75}
+ 75%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                               | 11320/15000 [8:01:00<2:24:42,  2.36s/it] 75%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                               | 11321/15000 [8:01:02<2:24:42,  2.36s/it] 75%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                               | 11322/15000 [8:01:05<2:24:38,  2.36s/it] 75%|█████████████████████████████████████████████████████████████████████���███████████████████████████████████████████████████████████████████████████▋                                               | 11323/15000 [8:01:07<2:24:39,  2.36s/it] 75%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                               | 11324/15000 [8:01:09<2:24:36,  2.36s/it] 76%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                               | 11325/15000 [8:01:12<2:33:25,  2.50s/it] 76%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                               | 11326/15000 [8:01:15<2:30:38,  2.46s/it] 76%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                               | 11327/15000 [8:01:17<2:28:47,  2.43s/it] 76%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                               | 11328/15000 [8:01:19<2:27:28,  2.41s/it] 76%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                               | 11329/15000 [8:01:22<2:26:28,  2.39s/it] 76%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                               | 11330/15000 [8:01:24<2:25:47,  2.38s/it]                                                                                                                                                                                                                                                {'loss': 2.7123, 'grad_norm': 1.671875, 'learning_rate': 1.6619550625952634e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3466.84, 'total_tokens': 92559167, 'epoch': 0.76}
+ 76%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                               | 11330/15000 [8:01:24<2:25:47,  2.38s/it] 76%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                               | 11331/15000 [8:01:26<2:25:12,  2.37s/it] 76%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                               | 11332/15000 [8:01:29<2:24:50,  2.37s/it] 76%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                               | 11333/15000 [8:01:31<2:24:29,  2.36s/it] 76%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                               | 11334/15000 [8:01:33<2:24:18,  2.36s/it] 76%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                               | 11335/15000 [8:01:36<2:23:59,  2.36s/it] 76%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                               | 11336/15000 [8:01:38<2:24:01,  2.36s/it] 76%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                               | 11337/15000 [8:01:40<2:24:02,  2.36s/it] 76%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                               | 11338/15000 [8:01:43<2:23:58,  2.36s/it] 76%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                               | 11339/15000 [8:01:45<2:23:45,  2.36s/it] 76%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████��███████████████████████████████▉                                               | 11340/15000 [8:01:48<2:23:41,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.6611, 'grad_norm': 1.765625, 'learning_rate': 1.655139480365945e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3474.42, 'total_tokens': 92640751, 'epoch': 0.76}
+ 76%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                               | 11340/15000 [8:01:48<2:23:41,  2.36s/it] 76%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                               | 11341/15000 [8:01:50<2:23:47,  2.36s/it] 76%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                               | 11342/15000 [8:01:52<2:23:41,  2.36s/it] 76%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                               | 11343/15000 [8:01:55<2:23:38,  2.36s/it] 76%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                               | 11344/15000 [8:01:57<2:23:36,  2.36s/it] 76%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                               | 11345/15000 [8:01:59<2:23:40,  2.36s/it] 76%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                               | 11346/15000 [8:02:02<2:23:35,  2.36s/it] 76%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                               | 11347/15000 [8:02:04<2:23:34,  2.36s/it] 76%|██████████████████████████████████████████████████��███████████████████████████████████████████████████████████████████████████████████████████████                                               | 11348/15000 [8:02:06<2:23:20,  2.36s/it] 76%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                               | 11349/15000 [8:02:09<2:23:12,  2.35s/it][2025-11-17 05:45:02,843] [INFO] [axolotl.utils.data.wrappers.get_dataset_wrapper:87] [PID:8163] Loading dataset: Goader/kobza-2m-jsonl with base_type: pretrain and prompt_style: None
+
+Tokenizing Prompts (num_proc=64):   0%|                                                                                                                                                                        | 0/10000 [00:00<?, ? examples/s][A
+Tokenizing Prompts (num_proc=64):   2%|██▍                                                                                                                                                           | 157/10000 [00:05<06:09, 26.63 examples/s][A
+Tokenizing Prompts (num_proc=64):   3%|████▉                                                                                                                                                         | 314/10000 [00:06<02:53, 55.89 examples/s][A
+Tokenizing Prompts (num_proc=64):   5%|███████▍                                                                                                                                                      | 471/10000 [00:07<01:52, 84.35 examples/s][A
+Tokenizing Prompts (num_proc=64):   6%|█████████▊                                                                                                                                                   | 628/10000 [00:08<01:25, 109.35 examples/s][A
+Tokenizing Prompts (num_proc=64):   8%|████████████▎                                                                                                                                                | 785/10000 [00:08<01:07, 136.28 examples/s][A
+Tokenizing Prompts (num_proc=64):   9%|██████████████▊                                                                                                                                              | 942/10000 [00:09<00:57, 158.69 examples/s][A
+Tokenizing Prompts (num_proc=64):  11%|█████████████████▏                                                                                                                                          | 1099/10000 [00:10<00:52, 168.64 examples/s][A
+Tokenizing Prompts (num_proc=64):  13%|███████████████████▌                                                                                                                                        | 1256/10000 [00:10<00:46, 186.33 examples/s][A
+Tokenizing Prompts (num_proc=64):  14%|██████████████████████                                                                                                                                      | 1413/10000 [00:11<00:44, 194.96 examples/s][A
+Tokenizing Prompts (num_proc=64):  16%|████████████████████████▍                                                                                                                                   | 1570/10000 [00:12<00:41, 202.45 examples/s][A
+Tokenizing Prompts (num_proc=64):  17%|██████████████████████████▉                                                                                                                                 | 1727/10000 [00:12<00:39, 209.71 examples/s][A
+Tokenizing Prompts (num_proc=64):  19%|█████████████████████████████▍                                                                                                                              | 1884/10000 [00:14<00:44, 181.85 examples/s][A
+Tokenizing Prompts (num_proc=64):  20%|███████████████████████████████▊                                                                                                                            | 2041/10000 [00:14<00:34, 232.20 examples/s][A
+Tokenizing Prompts (num_proc=64):  22%|████████████████████████████���█████▎                                                                                                                         | 2198/10000 [00:15<00:34, 225.14 examples/s][A
+Tokenizing Prompts (num_proc=64):  24%|████████████████████████████████████▋                                                                                                                       | 2355/10000 [00:16<00:39, 195.29 examples/s][A
+Tokenizing Prompts (num_proc=64):  25%|███████████████████████████████████████▏                                                                                                                    | 2512/10000 [00:16<00:29, 252.02 examples/s][A
+Tokenizing Prompts (num_proc=64):  27%|█████████████████████████████████████████▌                                                                                                                  | 2668/10000 [00:17<00:37, 194.18 examples/s][A
+Tokenizing Prompts (num_proc=64):  28%|████████████████████████████████████████████                                                                                                                | 2824/10000 [00:18<00:30, 237.53 examples/s][A
+Tokenizing Prompts (num_proc=64):  30%|██████████████████████████████████████████████▍                                                                                                             | 2980/10000 [00:18<00:35, 199.15 examples/s][A
+Tokenizing Prompts (num_proc=64):  31%|████████████████████████████████████████████████▉                                                                                                           | 3136/10000 [00:19<00:25, 267.46 examples/s][A
+Tokenizing Prompts (num_proc=64):  33%|███████████████████████████████████████████████████▎                                                                                                        | 3292/10000 [00:20<00:33, 197.43 examples/s][A
+Tokenizing Prompts (num_proc=64):  34%|█████████████████████████████████████████████████████▊                                                                                                      | 3448/10000 [00:21<00:31, 207.95 examples/s][A
+Tokenizing Prompts (num_proc=64):  36%|████████████████████████████████████████████████████████▏                                                                                                   | 3604/10000 [00:21<00:23, 266.65 examples/s][A
+Tokenizing Prompts (num_proc=64):  38%|██████████████████████████████████████████████████████████▋                                                                                                 | 3760/10000 [00:21<00:24, 256.18 examples/s][A
+Tokenizing Prompts (num_proc=64):  39%|█████████████████████████████████████████████████████████████                                                                                               | 3916/10000 [00:22<00:24, 243.72 examples/s][A
+Tokenizing Prompts (num_proc=64):  41%|███████████████████████████████████████████████████████████████▌                                                                                            | 4072/10000 [00:23<00:30, 195.99 examples/s][A
+Tokenizing Prompts (num_proc=64):  42%|█████████████████████████████████████████████████████████████████▉                                                                                          | 4228/10000 [00:23<00:22, 253.06 examples/s][A
+Tokenizing Prompts (num_proc=64):  44%|████████████████████████████████████████████████████████████████████▍                                                                                       | 4384/10000 [00:24<00:22, 246.24 examples/s][A
+Tokenizing Prompts (num_proc=64):  45%|██████████████████████████████████████████████████████████████████████▊                                                                                     | 4540/10000 [00:25<00:27, 197.22 examples/s][A
+Tokenizing Prompts (num_proc=64):  47%|█████████████████████████████████████████████████████████████████████████▎                                                                                  | 4696/10000 [00:26<00:22, 239.41 examples/s][A
+Tokenizing Prompts (num_proc=64):  49%|███████████████████████████████████████████████████████████████████████████▋                                                                                | 4852/10000 [00:26<00:20, 245.97 examples/s][A
+Tokenizing Prompts (num_proc=64):  50%|██████████████████████████████████████████████████████████████████████████████                                                                              | 5008/10000 [00:27<00:22, 223.15 examples/s][A
+Tokenizing Prompts (num_proc=64):  52%|████████████████████████████████████████████████████████████████████████████████▌                                                                           | 5164/10000 [00:28<00:22, 216.18 examples/s][A
+Tokenizing Prompts (num_proc=64):  53%|██████████████████████████████████████████████████████████████████████████████████▉                                                                         | 5320/10000 [00:29<00:22, 208.87 examples/s][A
+Tokenizing Prompts (num_proc=64):  55%|█████████████████████████████████████████████████████████████████████████████████████▍                                                                      | 5476/10000 [00:30<00:27, 166.37 examples/s][A
+Tokenizing Prompts (num_proc=64):  56%|███████████████████████████████████████████████████████████████████████████████████████▊                                                                    | 5632/10000 [00:31<00:24, 177.01 examples/s][A
+Tokenizing Prompts (num_proc=64):  58%|██████████████████████████████████████████████████████████████████████████████████████████▎                                                                 | 5788/10000 [00:32<00:20, 204.84 examples/s][A
+Tokenizing Prompts (num_proc=64):  59%|████████████████████████████████████████████████████████████████████████████████████████████▋                                                               | 5944/10000 [00:32<00:16, 243.27 examples/s][A
+Tokenizing Prompts (num_proc=64):  61%|███████████████████████████████████████████████████████████████████████████████████████████████▏                                                            | 6100/10000 [00:33<00:20, 186.72 examples/s][A
+Tokenizing Prompts (num_proc=64):  63%|█████████████████████████████████████████████████████████████████████████████████████████████████▌                                                          | 6256/10000 [00:33<00:15, 237.73 examples/s][A
+Tokenizing Prompts (num_proc=64):  64%|█████████████████████████████████��██████████████████████████████████████████████████████████████████                                                        | 6412/10000 [00:34<00:14, 243.12 examples/s][A
+Tokenizing Prompts (num_proc=64):  66%|██████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                     | 6568/10000 [00:35<00:17, 194.52 examples/s][A
+Tokenizing Prompts (num_proc=64):  67%|████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                   | 6724/10000 [00:36<00:16, 202.96 examples/s][A
+Tokenizing Prompts (num_proc=64):  69%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                | 6880/10000 [00:36<00:14, 208.85 examples/s][A
+Tokenizing Prompts (num_proc=64):  70%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                              | 7036/10000 [00:37<00:13, 216.47 examples/s][A
+Tokenizing Prompts (num_proc=64):  72%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                           | 7192/10000 [00:38<00:12, 218.93 examples/s][A
+Tokenizing Prompts (num_proc=64):  73%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                         | 7348/10000 [00:38<00:12, 220.52 examples/s][A
+Tokenizing Prompts (num_proc=64):  75%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                       | 7504/10000 [00:39<00:11, 217.97 examples/s][A
+Tokenizing Prompts (num_proc=64):  77%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                    | 7660/10000 [00:40<00:10, 219.32 examples/s][A
+Tokenizing Prompts (num_proc=64):  78%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                  | 7816/10000 [00:40<00:07, 284.93 examples/s][A
+Tokenizing Prompts (num_proc=64):  80%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                               | 7972/10000 [00:41<00:09, 211.00 examples/s][A
+Tokenizing Prompts (num_proc=64):  81%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                             | 8128/10000 [00:41<00:07, 264.03 examples/s][A
+Tokenizing Prompts (num_proc=64):  83%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                          | 8284/10000 [00:43<00:08, 207.46 examples/s][A
+Tokenizing Prompts (num_proc=64):  84%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                        | 8440/10000 [00:43<00:05, 268.61 examples/s][A
+Tokenizing Prompts (num_proc=64):  86%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                      | 8596/10000 [00:43<00:05, 255.49 examples/s][A
+Tokenizing Prompts (num_proc=64):  88%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                   | 8752/10000 [00:44<00:05, 234.87 examples/s][A
+Tokenizing Prompts (num_proc=64):  89%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                 | 8908/10000 [00:45<00:05, 189.61 examples/s][A
+Tokenizing Prompts (num_proc=64):  91%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍              | 9064/10000 [00:46<00:04, 201.24 examples/s][A
+Tokenizing Prompts (num_proc=64):  92%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊            | 9220/10000 [00:46<00:03, 255.57 examples/s][A
+Tokenizing Prompts (num_proc=64):  94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎         | 9376/10000 [00:47<00:02, 253.44 examples/s][A
+Tokenizing Prompts (num_proc=64):  95%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋       | 9532/10000 [00:48<00:01, 234.57 examples/s][A
+Tokenizing Prompts (num_proc=64):  97%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏    | 9688/10000 [00:48<00:01, 235.42 examples/s][A
+Tokenizing Prompts (num_proc=64):  98%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌  | 9844/10000 [00:49<00:00, 234.64 examples/s][A
+Tokenizing Prompts (num_proc=64): 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10000/10000 [00:50<00:00, 210.01 examples/s][ATokenizing Prompts (num_proc=64): 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10000/10000 [00:52<00:00, 192.01 examples/s]
+
+Dropping Long Sequences:   0%|                                                                                                                                                                                 | 0/10000 [00:00<?, ? examples/s][A
+Dropping Long Sequences:  10%|████████████████▌                                                                                                                                                    | 1000/10000 [00:01<00:13, 666.39 examples/s][A
+Dropping Long Sequences:  20%|████████████████████████████████▊                                                                                                                                   | 2000/10000 [00:01<00:06, 1271.78 examples/s][A
+Dropping Long Sequences:  30%|█████████████████████████████████████████████████▏                                                                                                                  | 3000/10000 [00:02<00:03, 1809.33 examples/s][A
+Dropping Long Sequences:  40%|█████████████████████████████████████████████████████████████████▌                                                                                                  | 4000/10000 [00:02<00:02, 2313.11 examples/s][A
+Dropping Long Sequences:  50%|██████████████████████████████████████████████████████████████████████████████████                                                                                  | 5000/10000 [00:02<00:01, 2758.89 examples/s][A
+Dropping Long Sequences:  60%|██████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                 | 6000/10000 [00:02<00:01, 3035.50 examples/s][A
+Dropping Long Sequences:  70%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                 | 7000/10000 [00:03<00:00, 3209.14 examples/s][A
+Dropping Long Sequences:  80%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                | 8000/10000 [00:03<00:00, 3455.23 examples/s][A
+Dropping Long Sequences:  90%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                | 9000/10000 [00:03<00:00, 3475.17 examples/s][A
+Dropping Long Sequences: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10000/10000 [00:03<00:00, 3497.77 examples/s][ADropping Long Sequences: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10000/10000 [00:03<00:00, 2521.54 examples/s]
+
+Add position_id column (Pretraining Sample Packing):   0%|                                                                                                                                                      | 0/8686 [00:00<?, ? examples/s][A
+Add position_id column (Pretraining Sample Packing):  12%|███████████████▉                                                                                                                          | 1000/8686 [00:01<00:10, 760.18 examples/s][A
+Add position_id column (Pretraining Sample Packing):  23%|███████████████████████████████▌                                                                                                         | 2000/8686 [00:01<00:04, 1585.72 examples/s][A
+Add position_id column (Pretraining Sample Packing):  35%|███████████████████████████████████████████████▎                                                                                         | 3000/8686 [00:01<00:02, 2436.81 examples/s][A
+Add position_id column (Pretraining Sample Packing):  46%|███████████████████████████████████████████████████████████████                                                                          | 4000/8686 [00:01<00:01, 3209.34 examples/s][A
+Add position_id column (Pretraining Sample Packing):  58%|██████████████████████████████████████████████████████████████████████████████▊                                                          | 5000/8686 [00:01<00:00, 3968.75 examples/s][A
+Add position_id column (Pretraining Sample Packing):  69%|██████████████████████████████████████████████████████████████████████████████████████████████▋                                          | 6000/8686 [00:02<00:00, 4557.02 examples/s][A
+Add position_id column (Pretraining Sample Packing):  81%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                          | 7000/8686 [00:02<00:00, 5140.43 examples/s][A
+Add position_id column (Pretraining Sample Packing):  92%|█���████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏          | 8000/8686 [00:02<00:00, 5411.22 examples/s][AAdd position_id column (Pretraining Sample Packing): 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 8686/8686 [00:02<00:00, 3407.06 examples/s]
+[2025-11-17 05:46:03,168] [DEBUG] [axolotl.utils.samplers.multipack.pack_parallel:177] [PID:8163] Using single process for pack_parallel, running sequentially.
+ 76%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                              | 11350/15000 [8:03:17<22:34:04, 22.26s/it]                                                                                                                                                                                                                                                {'loss': 2.6556, 'grad_norm': 2.015625, 'learning_rate': 1.6483334702684067e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3818.29, 'total_tokens': 92720346, 'epoch': 0.76}
+ 76%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                              | 11350/15000 [8:03:17<22:34:04, 22.26s/it] 76%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                              | 11351/15000 [8:03:20<16:30:35, 16.29s/it] 76%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                              | 11352/15000 [8:03:22<12:16:01, 12.11s/it] 76%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                               | 11353/15000 [8:03:24<9:17:53,  9.18s/it] 76%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                               | 11354/15000 [8:03:27<7:13:17,  7.13s/it] 76%|████████████████████████████████████████████████████████████████████████████████████████████████��█████████████████████████████████████████████████                                               | 11355/15000 [8:03:29<5:46:14,  5.70s/it] 76%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                               | 11356/15000 [8:03:32<4:45:06,  4.69s/it] 76%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                              | 11357/15000 [8:03:34<4:02:24,  3.99s/it] 76%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                              | 11358/15000 [8:03:36<3:32:31,  3.50s/it] 76%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                              | 11359/15000 [8:03:39<3:11:29,  3.16s/it] 76%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                              | 11360/15000 [8:03:41<2:56:47,  2.91s/it]                                                                                                                                                                                                                                                {'loss': 2.6525, 'grad_norm': 1.796875, 'learning_rate': 1.6415370994752203e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3492.02, 'total_tokens': 92802204, 'epoch': 0.76}
+ 76%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                              | 11360/15000 [8:03:41<2:56:47,  2.91s/it] 76%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                              | 11361/15000 [8:03:43<2:46:37,  2.75s/it] 76%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                              | 11362/15000 [8:03:46<2:39:18,  2.63s/it] 76%|████████████████████████████��█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                              | 11363/15000 [8:03:48<2:34:19,  2.55s/it] 76%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                              | 11364/15000 [8:03:50<2:30:53,  2.49s/it] 76%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                              | 11365/15000 [8:03:53<2:28:23,  2.45s/it] 76%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                              | 11366/15000 [8:03:55<2:26:36,  2.42s/it] 76%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                              | 11367/15000 [8:03:57<2:25:22,  2.40s/it] 76%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                              | 11368/15000 [8:04:00<2:24:31,  2.39s/it] 76%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                              | 11369/15000 [8:04:02<2:23:49,  2.38s/it] 76%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                              | 11370/15000 [8:04:05<2:23:25,  2.37s/it]                                                                                                                                                                                                                                                {'loss': 2.5862, 'grad_norm': 1.75, 'learning_rate': 1.634750435063822e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3484.57, 'total_tokens': 92884071, 'epoch': 0.76}
+ 76%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████���██████▎                                              | 11370/15000 [8:04:05<2:23:25,  2.37s/it] 76%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                              | 11371/15000 [8:04:07<2:22:56,  2.36s/it] 76%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                              | 11372/15000 [8:04:09<2:22:39,  2.36s/it] 76%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                              | 11373/15000 [8:04:12<2:22:35,  2.36s/it] 76%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                              | 11374/15000 [8:04:14<2:22:26,  2.36s/it] 76%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                              | 11375/15000 [8:04:16<2:22:26,  2.36s/it] 76%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                              | 11376/15000 [8:04:19<2:22:18,  2.36s/it] 76%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                              | 11377/15000 [8:04:21<2:22:21,  2.36s/it] 76%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                              | 11378/15000 [8:04:23<2:22:12,  2.36s/it] 76%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                              | 11379/15000 [8:04:26<2:22:04,  2.35s/it] 76%|██████████████████████████████████████████████████████████████��███████████████████████████████████████████████████████████████████████████████████▍                                              | 11380/15000 [8:04:28<2:22:01,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6873, 'grad_norm': 1.953125, 'learning_rate': 1.6279735440158504e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3486.89, 'total_tokens': 92965903, 'epoch': 0.76}
+ 76%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                              | 11380/15000 [8:04:28<2:22:01,  2.35s/it] 76%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                              | 11381/15000 [8:04:30<2:21:46,  2.35s/it] 76%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                              | 11382/15000 [8:04:33<2:21:45,  2.35s/it] 76%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                              | 11383/15000 [8:04:35<2:21:46,  2.35s/it] 76%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                              | 11384/15000 [8:04:37<2:21:49,  2.35s/it] 76%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                              | 11385/15000 [8:04:40<2:21:47,  2.35s/it] 76%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                              | 11386/15000 [8:04:42<2:21:48,  2.35s/it] 76%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                              | 11387/15000 [8:04:45<2:21:40,  2.35s/it] 76%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                              | 11388/15000 [8:04:47<2:21:45,  2.35s/it] 76%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                              | 11389/15000 [8:04:49<2:21:41,  2.35s/it] 76%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                              | 11390/15000 [8:04:52<2:21:42,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.6515, 'grad_norm': 1.71875, 'learning_rate': 1.6212064932164836e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3482.78, 'total_tokens': 93047745, 'epoch': 0.76}
+ 76%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                              | 11390/15000 [8:04:52<2:21:42,  2.36s/it] 76%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                              | 11391/15000 [8:04:54<2:21:46,  2.36s/it] 76%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                              | 11392/15000 [8:04:56<2:21:38,  2.36s/it] 76%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                              | 11393/15000 [8:04:59<2:21:30,  2.35s/it] 76%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                              | 11394/15000 [8:05:01<2:21:32,  2.36s/it] 76%|██████████████████████████████████████████████████████████████████████████████████████████████████████��███████████████████████████████████████████▌                                              | 11395/15000 [8:05:03<2:21:26,  2.35s/it] 76%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                              | 11396/15000 [8:05:06<2:21:29,  2.36s/it] 76%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                              | 11397/15000 [8:05:08<2:21:27,  2.36s/it] 76%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                              | 11398/15000 [8:05:10<2:21:32,  2.36s/it] 76%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                              | 11399/15000 [8:05:13<2:21:32,  2.36s/it] 76%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                              | 11400/15000 [8:05:15<2:21:33,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.6637, 'grad_norm': 1.78125, 'learning_rate': 1.6144493494537796e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3474.6, 'total_tokens': 93129567, 'epoch': 0.76}
+ 76%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                              | 11400/15000 [8:05:15<2:21:33,  2.36s/it] 76%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                              | 11401/15000 [8:05:18<2:21:26,  2.36s/it] 76%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                              | 11402/15000 [8:05:20<2:21:21,  2.36s/it] 76%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                              | 11403/15000 [8:05:22<2:21:15,  2.36s/it] 76%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                              | 11404/15000 [8:05:25<2:21:07,  2.35s/it] 76%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                              | 11405/15000 [8:05:27<2:21:00,  2.35s/it] 76%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                              | 11406/15000 [8:05:29<2:20:58,  2.35s/it] 76%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                              | 11407/15000 [8:05:32<2:20:50,  2.35s/it] 76%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                              | 11408/15000 [8:05:34<2:20:55,  2.35s/it] 76%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                              | 11409/15000 [8:05:36<2:20:53,  2.35s/it] 76%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                              | 11410/15000 [8:05:39<2:20:59,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.647, 'grad_norm': 1.75, 'learning_rate': 1.6077021794180222e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3474.63, 'total_tokens': 93211391, 'epoch': 0.76}
+ 76%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████��█▊                                              | 11410/15000 [8:05:39<2:20:59,  2.36s/it] 76%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                              | 11411/15000 [8:05:41<2:20:55,  2.36s/it] 76%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                              | 11412/15000 [8:05:43<2:20:47,  2.35s/it] 76%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                              | 11413/15000 [8:05:46<2:20:44,  2.35s/it] 76%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                              | 11414/15000 [8:05:48<2:20:35,  2.35s/it] 76%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                              | 11415/15000 [8:05:50<2:20:40,  2.35s/it] 76%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                              | 11416/15000 [8:05:53<2:20:42,  2.36s/it] 76%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                              | 11417/15000 [8:05:55<2:20:44,  2.36s/it] 76%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                              | 11418/15000 [8:05:58<2:20:41,  2.36s/it] 76%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                              | 11419/15000 [8:06:00<2:20:42,  2.36s/it] 76%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                              | 11420/15000 [8:06:02<2:20:35,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.7252, 'grad_norm': 1.7734375, 'learning_rate': 1.6009650497010527e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3488.17, 'total_tokens': 93293228, 'epoch': 0.76}
+ 76%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                              | 11420/15000 [8:06:02<2:20:35,  2.36s/it] 76%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                              | 11421/15000 [8:06:05<2:20:44,  2.36s/it] 76%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                              | 11422/15000 [8:06:07<2:20:44,  2.36s/it] 76%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                              | 11423/15000 [8:06:09<2:20:26,  2.36s/it] 76%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                              | 11424/15000 [8:06:12<2:20:20,  2.35s/it] 76%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                              | 11425/15000 [8:06:14<2:20:08,  2.35s/it] 76%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                              | 11426/15000 [8:06:16<2:20:02,  2.35s/it] 76%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                              | 11427/15000 [8:06:19<2:19:55,  2.35s/it] 76%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                              | 11428/15000 [8:06:21<2:19:57,  2.35s/it] 76%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                              | 11429/15000 [8:06:23<2:20:02,  2.35s/it] 76%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                              | 11430/15000 [8:06:26<2:20:00,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.7057, 'grad_norm': 1.7109375, 'learning_rate': 1.5942380267956244e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3488.47, 'total_tokens': 93375081, 'epoch': 0.76}
+ 76%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                              | 11430/15000 [8:06:26<2:20:00,  2.35s/it] 76%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                              | 11431/15000 [8:06:28<2:20:03,  2.35s/it] 76%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                              | 11432/15000 [8:06:30<2:19:58,  2.35s/it] 76%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                              | 11433/15000 [8:06:33<2:19:53,  2.35s/it] 76%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                              | 11434/15000 [8:06:35<2:19:50,  2.35s/it] 76%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                             | 11435/15000 [8:06:38<2:19:47,  2.35s/it] 76%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                             | 11436/15000 [8:06:40<2:19:53,  2.35s/it] 76%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                             | 11437/15000 [8:06:42<2:19:45,  2.35s/it] 76%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                             | 11438/15000 [8:06:45<2:19:45,  2.35s/it] 76%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                             | 11439/15000 [8:06:47<2:19:40,  2.35s/it] 76%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                             | 11440/15000 [8:06:49<2:19:38,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.7, 'grad_norm': 1.71875, 'learning_rate': 1.587521177094735e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3482.74, 'total_tokens': 93456835, 'epoch': 0.76}
+ 76%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                             | 11440/15000 [8:06:49<2:19:38,  2.35s/it] 76%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                             | 11441/15000 [8:06:52<2:19:34,  2.35s/it] 76%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                             | 11442/15000 [8:06:54<2:19:39,  2.36s/it] 76%|█████████████████████████████████���█████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                             | 11443/15000 [8:06:56<2:19:30,  2.35s/it] 76%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                             | 11444/15000 [8:06:59<2:19:26,  2.35s/it] 76%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                             | 11445/15000 [8:07:01<2:19:33,  2.36s/it] 76%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                             | 11446/15000 [8:07:03<2:19:29,  2.35s/it] 76%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                             | 11447/15000 [8:07:06<2:19:17,  2.35s/it] 76%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                             | 11448/15000 [8:07:08<2:19:14,  2.35s/it] 76%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                             | 11449/15000 [8:07:10<2:19:15,  2.35s/it] 76%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                             | 11450/15000 [8:07:13<2:19:19,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6844, 'grad_norm': 1.8046875, 'learning_rate': 1.5808145668909815e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3478.02, 'total_tokens': 93538625, 'epoch': 0.76}
+ 76%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████��██████████▎                                             | 11450/15000 [8:07:13<2:19:19,  2.35s/it] 76%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                             | 11451/15000 [8:07:15<2:19:20,  2.36s/it] 76%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                             | 11452/15000 [8:07:18<2:19:16,  2.36s/it] 76%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                             | 11453/15000 [8:07:20<2:19:04,  2.35s/it] 76%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                             | 11454/15000 [8:07:22<2:18:58,  2.35s/it] 76%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                             | 11455/15000 [8:07:25<2:19:08,  2.36s/it] 76%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                             | 11456/15000 [8:07:27<2:19:08,  2.36s/it] 76%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                             | 11457/15000 [8:07:29<2:19:00,  2.35s/it] 76%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                             | 11458/15000 [8:07:32<2:18:57,  2.35s/it] 76%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                             | 11459/15000 [8:07:34<2:18:52,  2.35s/it] 76%|█████████████████████████████████████████████████████���█████████████████████████████████████████████████████████████████████████████████████████████▍                                             | 11460/15000 [8:07:36<2:18:47,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6647, 'grad_norm': 1.7109375, 'learning_rate': 1.5741182623758974e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3487.44, 'total_tokens': 93620371, 'epoch': 0.76}
+ 76%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                             | 11460/15000 [8:07:36<2:18:47,  2.35s/it] 76%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                             | 11461/15000 [8:07:39<2:18:52,  2.35s/it] 76%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                             | 11462/15000 [8:07:41<2:18:53,  2.36s/it] 76%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                             | 11463/15000 [8:07:43<2:18:39,  2.35s/it] 76%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                             | 11464/15000 [8:07:46<2:18:37,  2.35s/it] 76%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                             | 11465/15000 [8:07:48<2:18:30,  2.35s/it] 76%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                             | 11466/15000 [8:07:51<2:18:36,  2.35s/it] 76%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                             | 11467/15000 [8:07:53<2:18:35,  2.35s/it] 76%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                             | 11468/15000 [8:07:55<2:18:37,  2.35s/it] 76%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                             | 11469/15000 [8:07:58<2:18:33,  2.35s/it] 76%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                             | 11470/15000 [8:08:00<2:18:29,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6528, 'grad_norm': 1.6796875, 'learning_rate': 1.567432329639306e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3483.45, 'total_tokens': 93702084, 'epoch': 0.76}
+ 76%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                             | 11470/15000 [8:08:00<2:18:29,  2.35s/it] 76%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                             | 11471/15000 [8:08:02<2:18:32,  2.36s/it] 76%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                             | 11472/15000 [8:08:05<2:18:37,  2.36s/it] 76%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                             | 11473/15000 [8:08:07<2:18:38,  2.36s/it] 76%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                             | 11474/15000 [8:08:09<2:18:29,  2.36s/it] 76%|█████████████████████████████████████████████████████████████████████████████████���█████████████████████████████████████████████████████████████████▋                                             | 11475/15000 [8:08:12<2:18:19,  2.35s/it] 77%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                             | 11476/15000 [8:08:14<2:18:14,  2.35s/it] 77%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                             | 11477/15000 [8:08:16<2:18:11,  2.35s/it] 77%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                             | 11478/15000 [8:08:19<2:18:07,  2.35s/it] 77%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                             | 11479/15000 [8:08:21<2:18:05,  2.35s/it] 77%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                             | 11480/15000 [8:08:23<2:18:10,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.7186, 'grad_norm': 1.65625, 'learning_rate': 1.560756834668664e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3473.52, 'total_tokens': 93783818, 'epoch': 0.77}
+ 77%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                             | 11480/15000 [8:08:23<2:18:10,  2.36s/it] 77%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                             | 11481/15000 [8:08:26<2:18:07,  2.36s/it] 77%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                             | 11482/15000 [8:08:28<2:18:00,  2.35s/it] 77%|██████��████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                             | 11483/15000 [8:08:31<2:17:55,  2.35s/it] 77%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                             | 11484/15000 [8:08:33<2:18:01,  2.36s/it] 77%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                             | 11485/15000 [8:08:35<2:17:54,  2.35s/it] 77%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                             | 11486/15000 [8:08:38<2:17:50,  2.35s/it] 77%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                             | 11487/15000 [8:08:40<2:17:49,  2.35s/it] 77%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                             | 11488/15000 [8:08:42<2:17:49,  2.35s/it] 77%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                             | 11489/15000 [8:08:45<2:17:45,  2.35s/it] 77%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                             | 11490/15000 [8:08:47<2:17:37,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6341, 'grad_norm': 1.765625, 'learning_rate': 1.55409184334841e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3491.85, 'total_tokens': 93865601, 'epoch': 0.77}
+ 77%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                             | 11490/15000 [8:08:47<2:17:37,  2.35s/it] 77%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                             | 11491/15000 [8:08:49<2:17:36,  2.35s/it] 77%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                             | 11492/15000 [8:08:52<2:17:32,  2.35s/it] 77%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                             | 11493/15000 [8:08:54<2:17:28,  2.35s/it] 77%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                             | 11494/15000 [8:08:56<2:17:17,  2.35s/it] 77%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                             | 11495/15000 [8:08:59<2:17:28,  2.35s/it] 77%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                             | 11496/15000 [8:09:01<2:17:29,  2.35s/it] 77%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                             | 11497/15000 [8:09:03<2:17:29,  2.35s/it] 77%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                             | 11498/15000 [8:09:06<2:17:18,  2.35s/it] 77%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                             | 11499/15000 [8:09:08<2:17:25,  2.36s/it] 77%|███████████████████████████��███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                             | 11500/15000 [8:09:11<2:17:24,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.612, 'grad_norm': 1.640625, 'learning_rate': 1.547437421459321e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3481.83, 'total_tokens': 93947408, 'epoch': 0.77}
+ 77%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                             | 11500/15000 [8:09:11<2:17:24,  2.36s/it] 77%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                             | 11501/15000 [8:09:13<2:17:20,  2.36s/it] 77%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                             | 11502/15000 [8:09:15<2:17:17,  2.35s/it] 77%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                             | 11503/15000 [8:09:18<2:17:14,  2.35s/it] 77%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                             | 11504/15000 [8:09:20<2:17:06,  2.35s/it] 77%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                             | 11505/15000 [8:09:22<2:17:09,  2.35s/it] 77%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                             | 11506/15000 [8:09:25<2:17:07,  2.35s/it] 77%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                             | 11507/15000 [8:09:27<2:17:00,  2.35s/it] 77%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                             | 11508/15000 [8:09:29<2:16:56,  2.35s/it] 77%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                             | 11509/15000 [8:09:32<2:16:59,  2.35s/it] 77%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                             | 11510/15000 [8:09:34<2:16:56,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.7285, 'grad_norm': 1.8671875, 'learning_rate': 1.5407936346778508e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3485.04, 'total_tokens': 94029214, 'epoch': 0.77}
+ 77%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                             | 11510/15000 [8:09:34<2:16:56,  2.35s/it] 77%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                             | 11511/15000 [8:09:36<2:16:51,  2.35s/it] 77%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                             | 11512/15000 [8:09:39<2:16:53,  2.35s/it] 77%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                            | 11513/15000 [8:09:41<2:16:43,  2.35s/it] 77%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                            | 11514/15000 [8:09:44<2:16:41,  2.35s/it] 77%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                            | 11515/15000 [8:09:46<2:16:38,  2.35s/it] 77%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                            | 11516/15000 [8:09:48<2:16:47,  2.36s/it] 77%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                            | 11517/15000 [8:09:51<2:16:44,  2.36s/it] 77%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                            | 11518/15000 [8:09:53<2:16:47,  2.36s/it] 77%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                            | 11519/15000 [8:09:55<2:16:44,  2.36s/it] 77%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                            | 11520/15000 [8:09:58<2:16:43,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.6378, 'grad_norm': 1.6875, 'learning_rate': 1.5341605485754963e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3477.48, 'total_tokens': 94110990, 'epoch': 0.77}
+ 77%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                            | 11520/15000 [8:09:58<2:16:43,  2.36s/it] 77%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                            | 11521/15000 [8:10:00<2:16:31,  2.35s/it] 77%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                            | 11522/15000 [8:10:02<2:16:23,  2.35s/it] 77%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                            | 11523/15000 [8:10:05<2:16:18,  2.35s/it] 77%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                            | 11524/15000 [8:10:07<2:16:18,  2.35s/it] 77%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                            | 11525/15000 [8:10:09<2:16:11,  2.35s/it] 77%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                            | 11526/15000 [8:10:12<2:16:11,  2.35s/it] 77%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                            | 11527/15000 [8:10:14<2:15:55,  2.35s/it] 77%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                            | 11528/15000 [8:10:16<2:16:04,  2.35s/it] 77%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                            | 11529/15000 [8:10:19<2:16:12,  2.35s/it] 77%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                            | 11530/15000 [8:10:21<2:16:08,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.644, 'grad_norm': 1.859375, 'learning_rate': 1.5275382286181357e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3484.32, 'total_tokens': 94192730, 'epoch': 0.77}
+ 77%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                            | 11530/15000 [8:10:21<2:16:08,  2.35s/it] 77%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                            | 11531/15000 [8:10:24<2:16:07,  2.35s/it] 77%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                            | 11532/15000 [8:10:26<2:16:03,  2.35s/it] 77%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                            | 11533/15000 [8:10:28<2:16:04,  2.35s/it] 77%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                            | 11534/15000 [8:10:31<2:16:03,  2.36s/it] 77%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                            | 11535/15000 [8:10:33<2:16:02,  2.36s/it] 77%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                            | 11536/15000 [8:10:35<2:15:52,  2.35s/it] 77%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                            | 11537/15000 [8:10:38<2:15:49,  2.35s/it] 77%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                            | 11538/15000 [8:10:40<2:15:55,  2.36s/it] 77%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                            | 11539/15000 [8:10:42<2:15:52,  2.36s/it] 77%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                            | 11540/15000 [8:10:45<2:15:44,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.7751, 'grad_norm': 2.0, 'learning_rate': 1.520926740165397e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3490.48, 'total_tokens': 94274504, 'epoch': 0.77}
+ 77%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                            | 11540/15000 [8:10:45<2:15:44,  2.35s/it] 77%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                            | 11541/15000 [8:10:47<2:15:31,  2.35s/it] 77%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                            | 11542/15000 [8:10:49<2:15:22,  2.35s/it] 77%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                            | 11543/15000 [8:10:52<2:15:29,  2.35s/it] 77%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                            | 11544/15000 [8:10:54<2:15:36,  2.35s/it] 77%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                            | 11545/15000 [8:10:56<2:15:31,  2.35s/it] 77%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                            | 11546/15000 [8:10:59<2:15:34,  2.35s/it] 77%|███████████████████████████████████████████████████████████████████████████████████���████████████████████████████████████████████████████████████████▌                                            | 11547/15000 [8:11:01<2:15:32,  2.36s/it] 77%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                            | 11548/15000 [8:11:04<2:15:27,  2.35s/it] 77%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                            | 11549/15000 [8:11:06<2:15:22,  2.35s/it] 77%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                            | 11550/15000 [8:11:08<2:15:13,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6774, 'grad_norm': 1.796875, 'learning_rate': 1.5143261484699992e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3491.56, 'total_tokens': 94356219, 'epoch': 0.77}
+ 77%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                            | 11550/15000 [8:11:08<2:15:13,  2.35s/it] 77%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                            | 11551/15000 [8:11:11<2:15:20,  2.35s/it] 77%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                            | 11552/15000 [8:11:13<2:15:27,  2.36s/it] 77%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                            | 11553/15000 [8:11:15<2:15:18,  2.36s/it] 77%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                            | 11554/15000 [8:11:18<2:15:13,  2.35s/it] 77%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                            | 11555/15000 [8:11:20<2:15:09,  2.35s/it] 77%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                            | 11556/15000 [8:11:22<2:15:14,  2.36s/it] 77%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                            | 11557/15000 [8:11:25<2:15:02,  2.35s/it] 77%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                            | 11558/15000 [8:11:27<2:14:56,  2.35s/it] 77%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                            | 11559/15000 [8:11:29<2:14:52,  2.35s/it] 77%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                            | 11560/15000 [8:11:32<2:14:51,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6652, 'grad_norm': 1.71875, 'learning_rate': 1.50773651867712e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3483.38, 'total_tokens': 94437935, 'epoch': 0.77}
+ 77%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                            | 11560/15000 [8:11:32<2:14:51,  2.35s/it] 77%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                            | 11561/15000 [8:11:34<2:14:44,  2.35s/it] 77%|█████████████████████████████████████████████████████████████████████████████████████████████████████���██████████████████████████████████████████████▊                                            | 11562/15000 [8:11:36<2:14:49,  2.35s/it] 77%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                            | 11563/15000 [8:11:39<2:14:43,  2.35s/it] 77%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                            | 11564/15000 [8:11:41<2:14:43,  2.35s/it] 77%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                            | 11565/15000 [8:11:44<2:14:46,  2.35s/it] 77%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                            | 11566/15000 [8:11:46<2:14:40,  2.35s/it] 77%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                            | 11567/15000 [8:11:48<2:14:34,  2.35s/it] 77%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                            | 11568/15000 [8:11:51<2:14:33,  2.35s/it] 77%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                            | 11569/15000 [8:11:53<2:14:40,  2.36s/it] 77%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                            | 11570/15000 [8:11:55<2:14:39,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.6502, 'grad_norm': 2.0625, 'learning_rate': 1.501157915823743e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3481.15, 'total_tokens': 94519699, 'epoch': 0.77}
+ 77%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                            | 11570/15000 [8:11:55<2:14:39,  2.36s/it] 77%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                            | 11571/15000 [8:11:58<2:14:29,  2.35s/it] 77%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                            | 11572/15000 [8:12:00<2:14:33,  2.36s/it] 77%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                            | 11573/15000 [8:12:02<2:14:38,  2.36s/it] 77%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                            | 11574/15000 [8:12:05<2:14:37,  2.36s/it] 77%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                            | 11575/15000 [8:12:07<2:14:26,  2.36s/it] 77%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                            | 11576/15000 [8:12:10<2:22:24,  2.50s/it] 77%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                            | 11577/15000 [8:12:12<2:20:00,  2.45s/it] 77%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                            | 11578/15000 [8:12:15<2:18:14,  2.42s/it] 77%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████��█████████████████████████████████████▉                                            | 11579/15000 [8:12:17<2:16:57,  2.40s/it] 77%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                            | 11580/15000 [8:12:19<2:16:03,  2.39s/it]                                                                                                                                                                                                                                                {'loss': 2.6224, 'grad_norm': 1.7578125, 'learning_rate': 1.4945904048380241e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3487.21, 'total_tokens': 94601477, 'epoch': 0.77}
+ 77%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                            | 11580/15000 [8:12:19<2:16:03,  2.39s/it] 77%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                            | 11581/15000 [8:12:22<2:15:36,  2.38s/it] 77%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                            | 11582/15000 [8:12:24<2:15:12,  2.37s/it] 77%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                            | 11583/15000 [8:12:26<2:14:53,  2.37s/it] 77%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                            | 11584/15000 [8:12:29<2:14:36,  2.36s/it] 77%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                            | 11585/15000 [8:12:31<2:14:21,  2.36s/it] 77%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                            | 11586/15000 [8:12:33<2:14:19,  2.36s/it] 77%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                            | 11587/15000 [8:12:36<2:14:08,  2.36s/it] 77%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                            | 11588/15000 [8:12:38<2:14:03,  2.36s/it] 77%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                            | 11589/15000 [8:12:41<2:13:56,  2.36s/it] 77%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                            | 11590/15000 [8:12:43<2:13:53,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.6643, 'grad_norm': 1.734375, 'learning_rate': 1.488034050538645e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3484.24, 'total_tokens': 94683276, 'epoch': 0.77}
+ 77%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                            | 11590/15000 [8:12:43<2:13:53,  2.36s/it] 77%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                           | 11591/15000 [8:12:45<2:13:56,  2.36s/it] 77%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                           | 11592/15000 [8:12:48<2:13:44,  2.35s/it] 77%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                           | 11593/15000 [8:12:50<2:13:34,  2.35s/it] 77%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████��███████████████████████▏                                           | 11594/15000 [8:12:52<2:13:31,  2.35s/it] 77%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                           | 11595/15000 [8:12:55<2:13:36,  2.35s/it] 77%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                           | 11596/15000 [8:12:57<2:13:38,  2.36s/it] 77%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                           | 11597/15000 [8:12:59<2:13:32,  2.35s/it] 77%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                           | 11598/15000 [8:13:02<2:13:25,  2.35s/it] 77%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                           | 11599/15000 [8:13:04<2:13:21,  2.35s/it] 77%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                           | 11600/15000 [8:13:06<2:13:18,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.709, 'grad_norm': 1.7890625, 'learning_rate': 1.481488917634174e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3486.27, 'total_tokens': 94765019, 'epoch': 0.77}
+ 77%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                           | 11600/15000 [8:13:06<2:13:18,  2.35s/it] 77%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                           | 11601/15000 [8:13:09<2:13:25,  2.36s/it] 77%|██████████████████████████████████████��██████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                           | 11602/15000 [8:13:11<2:13:13,  2.35s/it] 77%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                           | 11603/15000 [8:13:13<2:13:07,  2.35s/it] 77%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                           | 11604/15000 [8:13:16<2:13:07,  2.35s/it] 77%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                           | 11605/15000 [8:13:18<2:13:04,  2.35s/it] 77%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                           | 11606/15000 [8:13:21<2:13:00,  2.35s/it] 77%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                           | 11607/15000 [8:13:23<2:13:05,  2.35s/it] 77%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                           | 11608/15000 [8:13:25<2:13:00,  2.35s/it] 77%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                           | 11609/15000 [8:13:28<2:12:55,  2.35s/it] 77%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                           | 11610/15000 [8:13:30<2:12:55,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6231, 'grad_norm': 1.796875, 'learning_rate': 1.4749550707224334e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3480.89, 'total_tokens': 94846718, 'epoch': 0.77}
+ 77%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                           | 11610/15000 [8:13:30<2:12:55,  2.35s/it] 77%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                           | 11611/15000 [8:13:32<2:12:54,  2.35s/it] 77%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                           | 11612/15000 [8:13:35<2:12:47,  2.35s/it] 77%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                           | 11613/15000 [8:13:37<2:12:55,  2.35s/it] 77%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                           | 11614/15000 [8:13:39<2:12:51,  2.35s/it] 77%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                           | 11615/15000 [8:13:42<2:12:49,  2.35s/it] 77%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                           | 11616/15000 [8:13:44<2:12:43,  2.35s/it] 77%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                           | 11617/15000 [8:13:46<2:12:35,  2.35s/it] 77%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                           | 11618/15000 [8:13:49<2:12:41,  2.35s/it] 77%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                           | 11619/15000 [8:13:51<2:12:38,  2.35s/it] 77%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                           | 11620/15000 [8:13:53<2:12:40,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.6597, 'grad_norm': 1.7578125, 'learning_rate': 1.4684325742898514e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3477.09, 'total_tokens': 94928451, 'epoch': 0.77}
+ 77%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                           | 11620/15000 [8:13:54<2:12:40,  2.36s/it] 77%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                           | 11621/15000 [8:13:56<2:12:39,  2.36s/it] 77%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                           | 11622/15000 [8:13:58<2:12:39,  2.36s/it] 77%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                           | 11623/15000 [8:14:01<2:12:29,  2.35s/it] 77%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                           | 11624/15000 [8:14:03<2:12:23,  2.35s/it] 78%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                           | 11625/15000 [8:14:05<2:12:23,  2.35s/it] 78%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████��█████████████████████▌                                           | 11626/15000 [8:14:08<2:12:17,  2.35s/it] 78%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                           | 11627/15000 [8:14:10<2:12:17,  2.35s/it] 78%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                           | 11628/15000 [8:14:12<2:12:14,  2.35s/it] 78%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                           | 11629/15000 [8:14:15<2:12:17,  2.35s/it] 78%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                           | 11630/15000 [8:14:17<2:12:10,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.7318, 'grad_norm': 1.7734375, 'learning_rate': 1.4619214927108368e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3491.23, 'total_tokens': 95010241, 'epoch': 0.78}
+ 78%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                           | 11630/15000 [8:14:17<2:12:10,  2.35s/it] 78%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                           | 11631/15000 [8:14:19<2:12:03,  2.35s/it] 78%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                           | 11632/15000 [8:14:22<2:12:06,  2.35s/it] 78%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                           | 11633/15000 [8:14:24<2:12:09,  2.36s/it] 78%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                           | 11634/15000 [8:14:26<2:12:07,  2.36s/it] 78%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                           | 11635/15000 [8:14:29<2:12:01,  2.35s/it] 78%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                           | 11636/15000 [8:14:31<2:12:03,  2.36s/it] 78%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                           | 11637/15000 [8:14:34<2:11:57,  2.35s/it] 78%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                           | 11638/15000 [8:14:36<2:11:55,  2.35s/it] 78%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                           | 11639/15000 [8:14:38<2:11:58,  2.36s/it] 78%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                           | 11640/15000 [8:14:41<2:11:54,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.697, 'grad_norm': 1.765625, 'learning_rate': 1.4554218902471348e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3478.27, 'total_tokens': 95091902, 'epoch': 0.78}
+ 78%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                           | 11640/15000 [8:14:41<2:11:54,  2.36s/it] 78%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████���███████████████▊                                           | 11641/15000 [8:14:43<2:11:51,  2.36s/it] 78%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                           | 11642/15000 [8:14:45<2:11:50,  2.36s/it] 78%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                           | 11643/15000 [8:14:48<2:11:40,  2.35s/it] 78%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                           | 11644/15000 [8:14:50<2:11:32,  2.35s/it] 78%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                           | 11645/15000 [8:14:52<2:11:35,  2.35s/it] 78%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                           | 11646/15000 [8:14:55<2:11:28,  2.35s/it] 78%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                           | 11647/15000 [8:14:57<2:11:20,  2.35s/it] 78%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                           | 11648/15000 [8:14:59<2:11:23,  2.35s/it] 78%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                           | 11649/15000 [8:15:02<2:11:28,  2.35s/it] 78%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                           | 11650/15000 [8:15:04<2:11:26,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6871, 'grad_norm': 1.6953125, 'learning_rate': 1.4489338310471993e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3478.48, 'total_tokens': 95173577, 'epoch': 0.78}
+ 78%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                           | 11650/15000 [8:15:04<2:11:26,  2.35s/it] 78%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                           | 11651/15000 [8:15:06<2:11:26,  2.35s/it] 78%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                           | 11652/15000 [8:15:09<2:11:23,  2.35s/it] 78%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                           | 11653/15000 [8:15:11<2:11:27,  2.36s/it] 78%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                           | 11654/15000 [8:15:14<2:11:20,  2.36s/it] 78%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                           | 11655/15000 [8:15:16<2:11:21,  2.36s/it] 78%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                           | 11656/15000 [8:15:18<2:11:20,  2.36s/it] 78%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                           | 11657/15000 [8:15:21<2:11:16,  2.36s/it] 78%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████���███████████████████▉                                           | 11658/15000 [8:15:23<2:11:12,  2.36s/it] 78%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                           | 11659/15000 [8:15:25<2:11:08,  2.36s/it] 78%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                           | 11660/15000 [8:15:28<2:11:12,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.7226, 'grad_norm': 1.8984375, 'learning_rate': 1.4424573791455528e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3466.99, 'total_tokens': 95255208, 'epoch': 0.78}
+ 78%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                           | 11660/15000 [8:15:28<2:11:12,  2.36s/it] 78%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                           | 11661/15000 [8:15:30<2:11:07,  2.36s/it] 78%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                           | 11662/15000 [8:15:32<2:10:58,  2.35s/it] 78%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                           | 11663/15000 [8:15:35<2:10:59,  2.36s/it] 78%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                           | 11664/15000 [8:15:37<2:11:02,  2.36s/it] 78%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                           | 11665/15000 [8:15:39<2:10:55,  2.36s/it] 78%|█████████████████████████████████████████��████████████████████████████████████████████████████████████████████████████████████████████████████████████                                           | 11666/15000 [8:15:42<2:10:51,  2.35s/it] 78%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                           | 11667/15000 [8:15:44<2:10:51,  2.36s/it] 78%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                          | 11668/15000 [8:15:47<2:10:45,  2.35s/it] 78%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                          | 11669/15000 [8:15:49<2:10:37,  2.35s/it] 78%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                          | 11670/15000 [8:15:51<2:10:35,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.7455, 'grad_norm': 1.6796875, 'learning_rate': 1.4359925984621636e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3480.29, 'total_tokens': 95336864, 'epoch': 0.78}
+ 78%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                          | 11670/15000 [8:15:51<2:10:35,  2.35s/it] 78%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                          | 11671/15000 [8:15:54<2:10:41,  2.36s/it] 78%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                          | 11672/15000 [8:15:56<2:10:38,  2.36s/it] 78%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████���███████████████████▏                                          | 11673/15000 [8:15:58<2:10:32,  2.35s/it] 78%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                          | 11674/15000 [8:16:01<2:10:28,  2.35s/it] 78%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                          | 11675/15000 [8:16:03<2:10:26,  2.35s/it] 78%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                          | 11676/15000 [8:16:05<2:10:19,  2.35s/it] 78%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                          | 11677/15000 [8:16:08<2:10:20,  2.35s/it] 78%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                          | 11678/15000 [8:16:10<2:10:08,  2.35s/it] 78%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                          | 11679/15000 [8:16:12<2:10:09,  2.35s/it] 78%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                          | 11680/15000 [8:16:15<2:10:11,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6348, 'grad_norm': 1.71875, 'learning_rate': 1.429539552801806e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3475.95, 'total_tokens': 95418514, 'epoch': 0.78}
+ 78%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                          | 11680/15000 [8:16:15<2:10:11,  2.35s/it] 78%|█████████████████████████████████████��████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                          | 11681/15000 [8:16:17<2:10:11,  2.35s/it] 78%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                          | 11682/15000 [8:16:19<2:10:09,  2.35s/it] 78%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                          | 11683/15000 [8:16:22<2:10:06,  2.35s/it] 78%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                          | 11684/15000 [8:16:24<2:10:01,  2.35s/it] 78%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                          | 11685/15000 [8:16:27<2:10:00,  2.35s/it] 78%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                          | 11686/15000 [8:16:29<2:10:02,  2.35s/it] 78%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                          | 11687/15000 [8:16:31<2:10:02,  2.36s/it] 78%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                          | 11688/15000 [8:16:34<2:09:53,  2.35s/it] 78%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                          | 11689/15000 [8:16:36<2:09:48,  2.35s/it] 78%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████���██████████████████████████████████▍                                          | 11690/15000 [8:16:38<2:09:44,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6626, 'grad_norm': 1.7109375, 'learning_rate': 1.4230983058534342e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3482.32, 'total_tokens': 95500126, 'epoch': 0.78}
+ 78%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                          | 11690/15000 [8:16:38<2:09:44,  2.35s/it] 78%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                          | 11691/15000 [8:16:41<2:09:42,  2.35s/it] 78%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                          | 11692/15000 [8:16:43<2:09:43,  2.35s/it] 78%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                          | 11693/15000 [8:16:45<2:09:48,  2.36s/it] 78%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                          | 11694/15000 [8:16:48<2:09:46,  2.36s/it] 78%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                          | 11695/15000 [8:16:50<2:09:39,  2.35s/it] 78%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                          | 11696/15000 [8:16:52<2:09:43,  2.36s/it] 78%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                          | 11697/15000 [8:16:55<2:09:33,  2.35s/it] 78%|█████████████████████��████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                          | 11698/15000 [8:16:57<2:09:31,  2.35s/it] 78%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                          | 11699/15000 [8:16:59<2:09:26,  2.35s/it] 78%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                          | 11700/15000 [8:17:02<2:09:27,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6005, 'grad_norm': 1.71875, 'learning_rate': 1.4166689211895572e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3462.3, 'total_tokens': 95581437, 'epoch': 0.78}
+ 78%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                          | 11700/15000 [8:17:02<2:09:27,  2.35s/it][2025-11-17 05:59:55,307] [INFO] [axolotl.utils.data.wrappers.get_dataset_wrapper:87] [PID:8163] Loading dataset: Goader/kobza-2m-jsonl with base_type: pretrain and prompt_style: None
+
+Tokenizing Prompts (num_proc=64):   0%|                                                                                                                                                                        | 0/10000 [00:00<?, ? examples/s][A
+Tokenizing Prompts (num_proc=64):   2%|██▍                                                                                                                                                           | 157/10000 [00:06<06:34, 24.92 examples/s][A
+Tokenizing Prompts (num_proc=64):   3%|████▉                                                                                                                                                         | 314/10000 [00:06<03:05, 52.35 examples/s][A
+Tokenizing Prompts (num_proc=64):   5%|███████▍                                                                                                                                                      | 471/10000 [00:07<01:45, 90.36 examples/s][A
+Tokenizing Prompts (num_proc=64):   6%|█████████▊                                                                                                                                                   | 628/10000 [00:08<01:29, 105.10 examples/s][A
+Tokenizing Prompts (num_proc=64):   8%|████████████▎                                                                                                                                                | 785/10000 [00:09<01:16, 119.80 examples/s][A
+Tokenizing Prompts (num_proc=64):   9%|██████████████▊                                                                                                                                              | 942/10000 [00:09<00:51, 174.52 examples/s][A
+Tokenizing Prompts (num_proc=64):  11%|█████████████████▏                                                                                                                                          | 1099/10000 [00:10<00:44, 198.26 examples/s][A
+Tokenizing Prompts (num_proc=64):  13%|███████████████████▌                                                                                                                                        | 1256/10000 [00:10<00:42, 205.91 examples/s][A
+Tokenizing Prompts (num_proc=64):  14%|██████████████████████                                                                                                                                      | 1413/10000 [00:11<00:40, 210.24 examples/s][A
+Tokenizing Prompts (num_proc=64):  16%|████████████████████████▍                                                                                                                                   | 1570/10000 [00:12<00:38, 217.83 examples/s][A
+Tokenizing Prompts (num_proc=64):  17%|██████████████████████████▉                                                                                                                                 | 1727/10000 [00:12<00:38, 217.53 examples/s][A
+Tokenizing Prompts (num_proc=64):  19%|█████████████████████████████▍                                                                                                                              | 1884/10000 [00:13<00:36, 221.06 examples/s][A
+Tokenizing Prompts (num_proc=64):  20%|███████████████████████████████▊                                                                                                                            | 2041/10000 [00:14<00:36, 216.88 examples/s][A
+Tokenizing Prompts (num_proc=64):  22%|██████████████████████████████████▎                                                                                                                         | 2198/10000 [00:14<00:34, 223.83 examples/s][A
+Tokenizing Prompts (num_proc=64):  24%|████████████████████████████████████▋                                                                                                                       | 2355/10000 [00:15<00:32, 232.28 examples/s][A
+Tokenizing Prompts (num_proc=64):  25%|███████████████████████████████████████▏                                                                                                                    | 2512/10000 [00:16<00:31, 234.02 examples/s][A
+Tokenizing Prompts (num_proc=64):  27%|█████████████████████████████████████████▌                                                                                                                  | 2668/10000 [00:17<00:33, 222.12 examples/s][A
+Tokenizing Prompts (num_proc=64):  28%|████████████████████████████████████████████                                                                                                                | 2824/10000 [00:17<00:31, 230.11 examples/s][A
+Tokenizing Prompts (num_proc=64):  30%|██████████████████████████████████████████████▍                                                                                                             | 2980/10000 [00:18<00:30, 233.65 examples/s][A
+Tokenizing Prompts (num_proc=64):  31%|████████████████████████████████████████████████▉                                                                                                           | 3136/10000 [00:18<00:29, 229.63 examples/s][A
+Tokenizing Prompts (num_proc=64):  33%|███████████████████████████████████████████████████▎                                                                                                        | 3292/10000 [00:19<00:28, 233.86 examples/s][A
+Tokenizing Prompts (num_proc=64):  34%|█████████████████████████████████████████████████████▊                                                                                                      | 3448/10000 [00:20<00:28, 226.98 examples/s][A
+Tokenizing Prompts (num_proc=64):  36%|████████████████████████████████████████████████████████▏                                                                                                   | 3604/10000 [00:20<00:28, 226.67 examples/s][A
+Tokenizing Prompts (num_proc=64):  38%|██████████████████████████████████████████���███████████████▋                                                                                                 | 3760/10000 [00:21<00:27, 226.49 examples/s][A
+Tokenizing Prompts (num_proc=64):  39%|█████████████████████████████████████████████████████████████                                                                                               | 3916/10000 [00:22<00:26, 231.33 examples/s][A
+Tokenizing Prompts (num_proc=64):  41%|███████████████████████████████████████████████████████████████▌                                                                                            | 4072/10000 [00:23<00:26, 221.14 examples/s][A
+Tokenizing Prompts (num_proc=64):  42%|█████████████████████████████████████████████████████████████████▉                                                                                          | 4228/10000 [00:23<00:26, 216.43 examples/s][A
+Tokenizing Prompts (num_proc=64):  44%|████████████████████████████████████████████████████████████████████▍                                                                                       | 4384/10000 [00:24<00:24, 225.16 examples/s][A
+Tokenizing Prompts (num_proc=64):  45%|██████████████████████████████████████████████████████████████████████▊                                                                                     | 4540/10000 [00:25<00:23, 236.66 examples/s][A
+Tokenizing Prompts (num_proc=64):  47%|█████████████████████████████████████████████████████████████████████████▎                                                                                  | 4696/10000 [00:25<00:23, 225.76 examples/s][A
+Tokenizing Prompts (num_proc=64):  49%|███████████████████████████████████████████████████████████████████████████▋                                                                                | 4852/10000 [00:26<00:22, 231.39 examples/s][A
+Tokenizing Prompts (num_proc=64):  50%|██████████████████████████████████████████████████████████████████████████████                                                                              | 5008/10000 [00:27<00:21, 234.19 examples/s][A
+Tokenizing Prompts (num_proc=64):  52%|████████████████████████████████████████████████████████████████████████████████▌                                                                           | 5164/10000 [00:27<00:20, 230.58 examples/s][A
+Tokenizing Prompts (num_proc=64):  53%|██████████████████████████████████████████████████████████████████████████████████▉                                                                         | 5320/10000 [00:28<00:20, 233.35 examples/s][A
+Tokenizing Prompts (num_proc=64):  55%|█████████████████████████████████████████████████████████████████████████████████████▍                                                                      | 5476/10000 [00:29<00:20, 221.25 examples/s][A
+Tokenizing Prompts (num_proc=64):  56%|███████████████████████████████████████████████████████████████████████████████████████▊                                                                    | 5632/10000 [00:30<00:22, 194.56 examples/s][A
+Tokenizing Prompts (num_proc=64):  58%|█████████████████████████████████████████████��████████████████████████████████████████████▎                                                                 | 5788/10000 [00:30<00:17, 244.99 examples/s][A
+Tokenizing Prompts (num_proc=64):  59%|████████████████████████████████████████████████████████████████████████████████████████████▋                                                               | 5944/10000 [00:31<00:16, 238.94 examples/s][A
+Tokenizing Prompts (num_proc=64):  61%|███████████████████████████████████████████████████████████████████████████████████████████████▏                                                            | 6100/10000 [00:32<00:19, 195.86 examples/s][A
+Tokenizing Prompts (num_proc=64):  63%|█████████████████████████████████████████████████████████████████████████████████████████████████▌                                                          | 6256/10000 [00:33<00:18, 203.81 examples/s][A
+Tokenizing Prompts (num_proc=64):  64%|████████████████████████████████████████████████████████████████████████████████████████████████████                                                        | 6412/10000 [00:33<00:17, 209.65 examples/s][A
+Tokenizing Prompts (num_proc=64):  66%|██████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                     | 6568/10000 [00:34<00:15, 214.75 examples/s][A
+Tokenizing Prompts (num_proc=64):  67%|████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                   | 6724/10000 [00:34<00:12, 271.11 examples/s][A
+Tokenizing Prompts (num_proc=64):  69%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                | 6880/10000 [00:35<00:12, 251.85 examples/s][A
+Tokenizing Prompts (num_proc=64):  70%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                              | 7036/10000 [00:35<00:11, 253.04 examples/s][A
+Tokenizing Prompts (num_proc=64):  72%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                           | 7192/10000 [00:37<00:15, 179.14 examples/s][A
+Tokenizing Prompts (num_proc=64):  73%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                         | 7348/10000 [00:37<00:13, 203.37 examples/s][A
+Tokenizing Prompts (num_proc=64):  75%|███████████████████████████████████████████████████████████████████████████████████████████████��█████████████████████                                       | 7504/10000 [00:38<00:09, 258.41 examples/s][A
+Tokenizing Prompts (num_proc=64):  77%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                    | 7660/10000 [00:38<00:09, 248.15 examples/s][A
+Tokenizing Prompts (num_proc=64):  78%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                  | 7816/10000 [00:39<00:09, 238.71 examples/s][A
+Tokenizing Prompts (num_proc=64):  80%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                               | 7972/10000 [00:40<00:08, 236.48 examples/s][A
+Tokenizing Prompts (num_proc=64):  81%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                             | 8128/10000 [00:41<00:09, 191.55 examples/s][A
+Tokenizing Prompts (num_proc=64):  83%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                          | 8284/10000 [00:41<00:06, 245.57 examples/s][A
+Tokenizing Prompts (num_proc=64):  84%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                        | 8440/10000 [00:42<00:06, 241.86 examples/s][A
+Tokenizing Prompts (num_proc=64):  86%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                      | 8596/10000 [00:43<00:06, 232.21 examples/s][A
+Tokenizing Prompts (num_proc=64):  88%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                   | 8752/10000 [00:43<00:05, 228.93 examples/s][A
+Tokenizing Prompts (num_proc=64):  89%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                 | 8908/10000 [00:44<00:05, 190.02 examples/s][A
+Tokenizing Prompts (num_proc=64):  91%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍              | 9064/10000 [00:45<00:04, 225.48 examples/s][A
+Tokenizing Prompts (num_proc=64):  92%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊            | 9220/10000 [00:45<00:03, 240.06 examples/s][A
+Tokenizing Prompts (num_proc=64):  94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎         | 9376/10000 [00:46<00:02, 230.77 examples/s][A
+Tokenizing Prompts (num_proc=64):  95%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋       | 9532/10000 [00:47<00:01, 237.36 examples/s][A
+Tokenizing Prompts (num_proc=64):  97%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏    | 9688/10000 [00:47<00:01, 232.20 examples/s][A
+Tokenizing Prompts (num_proc=64):  98%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌  | 9844/10000 [00:48<00:00, 232.35 examples/s][A
+Tokenizing Prompts (num_proc=64): 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10000/10000 [00:49<00:00, 223.56 examples/s][ATokenizing Prompts (num_proc=64): 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10000/10000 [00:51<00:00, 194.75 examples/s]
+
+Dropping Long Sequences:   0%|                                                                                                                                                                                 | 0/10003 [00:00<?, ? examples/s][A
+Dropping Long Sequences:  10%|████████████████▍                                                                                                                                                    | 1000/10003 [00:01<00:14, 624.36 examples/s][A
+Dropping Long Sequences:  20%|████████████████████████████████▊                                                                                                                                   | 2000/10003 [00:01<00:06, 1227.76 examples/s][A
+Dropping Long Sequences:  30%|█████████████████████████████████████████████████▏                                                                                                                  | 3000/10003 [00:02<00:03, 1793.91 examples/s][A
+Dropping Long Sequences:  40%|█████████████████████████████████████████████████████████████████▌                                                                                                  | 4000/10003 [00:02<00:02, 2302.08 examples/s][A
+Dropping Long Sequences:  50%|█████████████████████████████████████████████████████████████████████████████████▉                                                                                  | 5000/10003 [00:02<00:01, 2661.61 examples/s][A
+Dropping Long Sequences:  60%|██████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                 | 6000/10003 [00:02<00:01, 2969.35 examples/s][A
+Dropping Long Sequences:  70%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                 | 7000/10003 [00:03<00:00, 3003.13 examples/s][A
+Dropping Long Sequences:  80%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                | 8000/10003 [00:03<00:00, 3222.93 examples/s][A
+Dropping Long Sequences:  90%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                | 9000/10003 [00:03<00:00, 3280.01 examples/s][A
+Dropping Long Sequences: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉| 10000/10003 [00:04<00:00, 3298.09 examples/s][ADropping Long Sequences: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10003/10003 [00:04<00:00, 2412.02 examples/s]
+
+Add position_id column (Pretraining Sample Packing):   0%|                                                                                                                                                      | 0/8671 [00:00<?, ? examples/s][A
+Add position_id column (Pretraining Sample Packing):  12%|███████████████▉                                                                                                                          | 1000/8671 [00:01<00:10, 750.39 examples/s][A
+Add position_id column (Pretraining Sample Packing):  23%|███████████████████████████████▌                                                                                                         | 2000/8671 [00:01<00:04, 1565.97 examples/s][A
+Add position_id column (Pretraining Sample Packing):  35%|███████████████████████████████████████████████▍                                                                                         | 3000/8671 [00:01<00:02, 2408.77 examples/s][A
+Add position_id column (Pretraining Sample Packing):  46%|███████████████████████████████████████████████████████████████▏                                                                         | 4000/8671 [00:01<00:01, 3168.95 examples/s][A
+Add position_id column (Pretraining Sample Packing):  58%|██████████████████████████████████████████████████████████████████████████████▉                                                          | 5000/8671 [00:01<00:00, 3931.90 examples/s][A
+Add position_id column (Pretraining Sample Packing):  69%|██████████████████████████████████████████████████████████████████████████████████████████████▊                                          | 6000/8671 [00:02<00:00, 4627.53 examples/s][A
+Add position_id column (Pretraining Sample Packing):  81%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                          | 7000/8671 [00:02<00:00, 5197.61 examples/s][A
+Add position_id column (Pretraining Sample Packing):  92%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍          | 8000/8671 [00:02<00:00, 5482.50 examples/s][AAdd position_id column (Pretraining Sample Packing): 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 8671/8671 [00:02<00:00, 3410.59 examples/s]
+[2025-11-17 06:00:55,072] [DEBUG] [axolotl.utils.samplers.multipack.pack_parallel:177] [PID:8163] Using single process for pack_parallel, running sequentially.
+ 78%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                          | 11701/15000 [8:18:09<20:03:39, 21.89s/it] 78%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                          | 11702/15000 [8:18:12<14:41:07, 16.03s/it] 78%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                          | 11703/15000 [8:18:14<10:55:21, 11.93s/it] 78%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                          | 11704/15000 [8:18:16<8:17:23,  9.05s/it] 78%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                          | 11705/15000 [8:18:19<6:26:44,  7.04s/it] 78%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                          | 11706/15000 [8:18:21<5:09:32,  5.64s/it] 78%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                          | 11707/15000 [8:18:23<4:15:20,  4.65s/it] 78%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                          | 11708/15000 [8:18:26<3:37:30,  3.96s/it] 78%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                          | 11709/15000 [8:18:28<3:10:50,  3.48s/it] 78%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                          | 11710/15000 [8:18:30<2:52:10,  3.14s/it]                                                                                                                                                                                                                                                {'loss': 2.6394, 'grad_norm': 1.734375, 'learning_rate': 1.4102514622656043e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3432.6, 'total_tokens': 95661801, 'epoch': 0.78}
+ 78%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                          | 11710/15000 [8:18:30<2:52:10,  3.14s/it] 78%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                          | 11711/15000 [8:18:33<2:39:16,  2.91s/it] 78%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                          | 11712/15000 [8:18:35<2:30:13,  2.74s/it] 78%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                          | 11713/15000 [8:18:38<2:23:44,  2.62s/it] 78%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                          | 11714/15000 [8:18:40<2:19:11,  2.54s/it] 78%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                          | 11715/15000 [8:18:42<2:16:06,  2.49s/it] 78%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                          | 11716/15000 [8:18:45<2:13:58,  2.45s/it] 78%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                          | 11717/15000 [8:18:47<2:12:18,  2.42s/it] 78%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                          | 11718/15000 [8:18:49<2:11:07,  2.40s/it] 78%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                          | 11719/15000 [8:18:52<2:10:28,  2.39s/it] 78%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                          | 11720/15000 [8:18:54<2:09:51,  2.38s/it]                                                                                                                                                                                                                                                {'loss': 2.6245, 'grad_norm': 1.78125, 'learning_rate': 1.4038459924193059e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3492.59, 'total_tokens': 95743643, 'epoch': 0.78}
+ 78%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                          | 11720/15000 [8:18:54<2:09:51,  2.38s/it] 78%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                          | 11721/15000 [8:18:56<2:09:39,  2.37s/it] 78%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                          | 11722/15000 [8:18:59<2:09:26,  2.37s/it] 78%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                          | 11723/15000 [8:19:01<2:09:06,  2.36s/it] 78%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                          | 11724/15000 [8:19:03<2:08:52,  2.36s/it] 78%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                          | 11725/15000 [8:19:06<2:08:41,  2.36s/it] 78%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                          | 11726/15000 [8:19:08<2:08:31,  2.36s/it] 78%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                          | 11727/15000 [8:19:11<2:08:29,  2.36s/it] 78%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                          | 11728/15000 [8:19:13<2:08:25,  2.36s/it] 78%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████��██████████████████████████████████▉                                          | 11729/15000 [8:19:15<2:08:20,  2.35s/it] 78%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                          | 11730/15000 [8:19:18<2:08:15,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.625, 'grad_norm': 1.796875, 'learning_rate': 1.3974525748700614e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3490.2, 'total_tokens': 95825467, 'epoch': 0.78}
+ 78%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                          | 11730/15000 [8:19:18<2:08:15,  2.35s/it] 78%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                          | 11731/15000 [8:19:20<2:08:16,  2.35s/it] 78%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                          | 11732/15000 [8:19:22<2:08:16,  2.36s/it] 78%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                          | 11733/15000 [8:19:25<2:08:15,  2.36s/it] 78%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                          | 11734/15000 [8:19:27<2:08:07,  2.35s/it] 78%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                          | 11735/15000 [8:19:29<2:07:57,  2.35s/it] 78%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                          | 11736/15000 [8:19:32<2:07:57,  2.35s/it] 78%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                          | 11737/15000 [8:19:34<2:07:51,  2.35s/it] 78%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                          | 11738/15000 [8:19:36<2:07:51,  2.35s/it] 78%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                          | 11739/15000 [8:19:39<2:07:47,  2.35s/it] 78%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                          | 11740/15000 [8:19:41<2:07:53,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6521, 'grad_norm': 1.7265625, 'learning_rate': 1.3910712727183232e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3477.23, 'total_tokens': 95907266, 'epoch': 0.78}
+ 78%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                          | 11740/15000 [8:19:41<2:07:53,  2.35s/it] 78%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                          | 11741/15000 [8:19:43<2:07:57,  2.36s/it] 78%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                          | 11742/15000 [8:19:46<2:07:44,  2.35s/it] 78%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                          | 11743/15000 [8:19:48<2:07:42,  2.35s/it] 78%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████���████████████████████████████████████████                                          | 11744/15000 [8:19:50<2:07:35,  2.35s/it] 78%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                          | 11745/15000 [8:19:53<2:07:35,  2.35s/it] 78%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                         | 11746/15000 [8:19:55<2:07:33,  2.35s/it] 78%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                         | 11747/15000 [8:19:58<2:07:38,  2.35s/it] 78%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                         | 11748/15000 [8:20:00<2:07:27,  2.35s/it] 78%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                         | 11749/15000 [8:20:02<2:07:32,  2.35s/it] 78%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                         | 11750/15000 [8:20:05<2:07:24,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.657, 'grad_norm': 1.703125, 'learning_rate': 1.384702148944965e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3491.7, 'total_tokens': 95989032, 'epoch': 0.78}
+ 78%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                         | 11750/15000 [8:20:05<2:07:24,  2.35s/it] 78%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                         | 11751/15000 [8:20:07<2:07:26,  2.35s/it] 78%|█████████████���█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                         | 11752/15000 [8:20:09<2:07:18,  2.35s/it] 78%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                         | 11753/15000 [8:20:12<2:07:21,  2.35s/it] 78%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                         | 11754/15000 [8:20:14<2:07:07,  2.35s/it] 78%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                         | 11755/15000 [8:20:16<2:07:15,  2.35s/it] 78%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                         | 11756/15000 [8:20:19<2:07:17,  2.35s/it] 78%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                         | 11757/15000 [8:20:21<2:07:12,  2.35s/it] 78%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                         | 11758/15000 [8:20:23<2:07:16,  2.36s/it] 78%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                         | 11759/15000 [8:20:26<2:07:09,  2.35s/it] 78%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                         | 11760/15000 [8:20:28<2:07:11,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.6925, 'grad_norm': 1.8359375, 'learning_rate': 1.37834526641067e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3479.38, 'total_tokens': 96070837, 'epoch': 0.78}
+ 78%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                         | 11760/15000 [8:20:28<2:07:11,  2.36s/it] 78%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                         | 11761/15000 [8:20:31<2:07:11,  2.36s/it] 78%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                         | 11762/15000 [8:20:33<2:07:07,  2.36s/it] 78%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                         | 11763/15000 [8:20:35<2:07:07,  2.36s/it] 78%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                         | 11764/15000 [8:20:38<2:07:02,  2.36s/it] 78%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                         | 11765/15000 [8:20:40<2:06:52,  2.35s/it] 78%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                         | 11766/15000 [8:20:42<2:06:42,  2.35s/it] 78%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                         | 11767/15000 [8:20:45<2:06:35,  2.35s/it] 78%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                         | 11768/15000 [8:20:47<2:06:42,  2.35s/it] 78%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                         | 11769/15000 [8:20:49<2:06:45,  2.35s/it] 78%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                         | 11770/15000 [8:20:52<2:06:44,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6834, 'grad_norm': 1.7734375, 'learning_rate': 1.3720006878552989e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3481.52, 'total_tokens': 96152587, 'epoch': 0.78}
+ 78%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                         | 11770/15000 [8:20:52<2:06:44,  2.35s/it] 78%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                         | 11771/15000 [8:20:54<2:06:45,  2.36s/it] 78%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                         | 11772/15000 [8:20:56<2:06:37,  2.35s/it] 78%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                         | 11773/15000 [8:20:59<2:06:36,  2.35s/it] 78%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                         | 11774/15000 [8:21:01<2:06:33,  2.35s/it] 78%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                         | 11775/15000 [8:21:03<2:06:32,  2.35s/it] 79%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                         | 11776/15000 [8:21:06<2:06:37,  2.36s/it] 79%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                         | 11777/15000 [8:21:08<2:06:39,  2.36s/it] 79%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                         | 11778/15000 [8:21:11<2:06:41,  2.36s/it] 79%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                         | 11779/15000 [8:21:13<2:06:26,  2.36s/it] 79%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                         | 11780/15000 [8:21:15<2:06:32,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.7688, 'grad_norm': 1.7265625, 'learning_rate': 1.3656684758972833e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3471.25, 'total_tokens': 96234396, 'epoch': 0.79}
+ 79%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                         | 11780/15000 [8:21:15<2:06:32,  2.36s/it] 79%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                         | 11781/15000 [8:21:18<2:06:29,  2.36s/it] 79%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                         | 11782/15000 [8:21:20<2:06:23,  2.36s/it] 79%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                         | 11783/15000 [8:21:22<2:06:09,  2.35s/it] 79%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                         | 11784/15000 [8:21:25<2:06:02,  2.35s/it] 79%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                         | 11785/15000 [8:21:27<2:05:57,  2.35s/it] 79%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                         | 11786/15000 [8:21:29<2:06:04,  2.35s/it] 79%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                         | 11787/15000 [8:21:32<2:06:00,  2.35s/it] 79%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                         | 11788/15000 [8:21:34<2:06:02,  2.35s/it] 79%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                         | 11789/15000 [8:21:36<2:06:01,  2.35s/it] 79%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                         | 11790/15000 [8:21:39<2:05:54,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6402, 'grad_norm': 1.828125, 'learning_rate': 1.3593486930329969e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3491.37, 'total_tokens': 96316197, 'epoch': 0.79}
+ 79%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                         | 11790/15000 [8:21:39<2:05:54,  2.35s/it] 79%|██████████████████████████████████████████████████��████████████████████████████████████████████████████████████████████████████████████████████████████▋                                         | 11791/15000 [8:21:41<2:05:52,  2.35s/it] 79%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                         | 11792/15000 [8:21:43<2:05:47,  2.35s/it] 79%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                         | 11793/15000 [8:21:46<2:05:52,  2.36s/it] 79%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                         | 11794/15000 [8:21:48<2:05:52,  2.36s/it] 79%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                         | 11795/15000 [8:21:51<2:05:54,  2.36s/it] 79%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                         | 11796/15000 [8:21:53<2:05:54,  2.36s/it] 79%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                         | 11797/15000 [8:21:55<2:05:49,  2.36s/it] 79%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                         | 11798/15000 [8:21:58<2:05:45,  2.36s/it] 79%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                         | 11799/15000 [8:22:00<2:05:40,  2.36s/it] 79%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████���████████████████████████████▊                                         | 11800/15000 [8:22:02<2:05:41,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.7414, 'grad_norm': 1.8203125, 'learning_rate': 1.3530414016361473e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3477.29, 'total_tokens': 96398003, 'epoch': 0.79}
+ 79%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                         | 11800/15000 [8:22:02<2:05:41,  2.36s/it] 79%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                         | 11801/15000 [8:22:05<2:05:38,  2.36s/it] 79%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                         | 11802/15000 [8:22:07<2:05:28,  2.35s/it] 79%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                         | 11803/15000 [8:22:09<2:05:25,  2.35s/it] 79%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                         | 11804/15000 [8:22:12<2:05:22,  2.35s/it] 79%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                         | 11805/15000 [8:22:14<2:05:20,  2.35s/it] 79%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                         | 11806/15000 [8:22:16<2:05:21,  2.35s/it] 79%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                         | 11807/15000 [8:22:19<2:05:20,  2.36s/it] 79%|██████████████████████��████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                         | 11808/15000 [8:22:21<2:05:20,  2.36s/it] 79%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                         | 11809/15000 [8:22:24<2:05:19,  2.36s/it] 79%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                         | 11810/15000 [8:22:26<2:05:16,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.6917, 'grad_norm': 1.75, 'learning_rate': 1.346746663957153e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3480.64, 'total_tokens': 96479759, 'epoch': 0.79}
+ 79%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                         | 11810/15000 [8:22:26<2:05:16,  2.36s/it] 79%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                         | 11811/15000 [8:22:28<2:05:13,  2.36s/it] 79%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                         | 11812/15000 [8:22:31<2:05:07,  2.35s/it] 79%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                         | 11813/15000 [8:22:33<2:04:55,  2.35s/it] 79%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                         | 11814/15000 [8:22:35<2:04:57,  2.35s/it] 79%|██████████████████████████████████████████████████████████████████████████████████████████████████████████��█████████████████████████████████████████████                                         | 11815/15000 [8:22:38<2:04:59,  2.35s/it] 79%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                         | 11816/15000 [8:22:40<2:04:55,  2.35s/it] 79%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                         | 11817/15000 [8:22:42<2:04:52,  2.35s/it] 79%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                         | 11818/15000 [8:22:45<2:04:49,  2.35s/it] 79%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                         | 11819/15000 [8:22:47<2:04:46,  2.35s/it] 79%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                         | 11820/15000 [8:22:49<2:04:44,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6591, 'grad_norm': 1.6640625, 'learning_rate': 1.3404645421225326e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3487.74, 'total_tokens': 96561603, 'epoch': 0.79}
+ 79%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                         | 11820/15000 [8:22:49<2:04:44,  2.35s/it] 79%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                         | 11821/15000 [8:22:52<2:04:43,  2.35s/it] 79%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                         | 11822/15000 [8:22:54<2:04:33,  2.35s/it] 79%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                         | 11823/15000 [8:22:56<2:04:34,  2.35s/it] 79%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                        | 11824/15000 [8:22:59<2:04:32,  2.35s/it] 79%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                        | 11825/15000 [8:23:01<2:04:32,  2.35s/it] 79%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                        | 11826/15000 [8:23:04<2:04:26,  2.35s/it] 79%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                        | 11827/15000 [8:23:06<2:04:20,  2.35s/it] 79%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                        | 11828/15000 [8:23:08<2:04:22,  2.35s/it] 79%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                        | 11829/15000 [8:23:11<2:12:01,  2.50s/it] 79%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                        | 11830/15000 [8:23:13<2:09:44,  2.46s/it]                                                                                                                                                                                                                                                {'loss': 2.6573, 'grad_norm': 1.6875, 'learning_rate': 1.3341950981342944e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3477.83, 'total_tokens': 96643352, 'epoch': 0.79}
+ 79%|█████████████████████████████████████████████████████████████████████████████████████���██████████████████████████████████████████████████████████████████▏                                        | 11830/15000 [8:23:13<2:09:44,  2.46s/it] 79%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                        | 11831/15000 [8:23:16<2:08:00,  2.42s/it] 79%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                        | 11832/15000 [8:23:18<2:06:50,  2.40s/it] 79%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                        | 11833/15000 [8:23:21<2:06:00,  2.39s/it] 79%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                        | 11834/15000 [8:23:23<2:05:21,  2.38s/it] 79%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                        | 11835/15000 [8:23:25<2:04:56,  2.37s/it] 79%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                        | 11836/15000 [8:23:28<2:04:40,  2.36s/it] 79%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                        | 11837/15000 [8:23:30<2:04:22,  2.36s/it] 79%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                        | 11838/15000 [8:23:32<2:04:13,  2.36s/it] 79%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                        | 11839/15000 [8:23:35<2:04:03,  2.35s/it] 79%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                        | 11840/15000 [8:23:37<2:03:59,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.7338, 'grad_norm': 1.8125, 'learning_rate': 1.327938393869318e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3486.99, 'total_tokens': 96725164, 'epoch': 0.79}
+ 79%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                        | 11840/15000 [8:23:37<2:03:59,  2.35s/it] 79%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                        | 11841/15000 [8:23:39<2:03:57,  2.35s/it] 79%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                        | 11842/15000 [8:23:42<2:03:49,  2.35s/it] 79%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                        | 11843/15000 [8:23:44<2:03:48,  2.35s/it] 79%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                        | 11844/15000 [8:23:46<2:03:44,  2.35s/it] 79%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                        | 11845/15000 [8:23:49<2:03:40,  2.35s/it] 79%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                        | 11846/15000 [8:23:51<2:03:48,  2.36s/it] 79%|██████████████████████████████████████████████��█████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                        | 11847/15000 [8:23:53<2:03:44,  2.35s/it] 79%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                        | 11848/15000 [8:23:56<2:03:36,  2.35s/it] 79%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                        | 11849/15000 [8:23:58<2:03:27,  2.35s/it] 79%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                        | 11850/15000 [8:24:00<2:03:25,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6054, 'grad_norm': 1.671875, 'learning_rate': 1.3216944910787498e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3490.11, 'total_tokens': 96806964, 'epoch': 0.79}
+ 79%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                        | 11850/15000 [8:24:00<2:03:25,  2.35s/it] 79%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                        | 11851/15000 [8:24:03<2:03:27,  2.35s/it] 79%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                        | 11852/15000 [8:24:05<2:03:18,  2.35s/it] 79%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                        | 11853/15000 [8:24:08<2:03:27,  2.35s/it] 79%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████��████████████████████████████▌                                        | 11854/15000 [8:24:10<2:03:26,  2.35s/it] 79%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                        | 11855/15000 [8:24:12<2:03:14,  2.35s/it] 79%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                        | 11856/15000 [8:24:15<2:03:09,  2.35s/it] 79%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                        | 11857/15000 [8:24:17<2:03:09,  2.35s/it] 79%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                        | 11858/15000 [8:24:19<2:03:09,  2.35s/it] 79%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                        | 11859/15000 [8:24:22<2:03:01,  2.35s/it] 79%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                        | 11860/15000 [8:24:24<2:03:01,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6766, 'grad_norm': 1.8046875, 'learning_rate': 1.3154634513873882e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3489.54, 'total_tokens': 96888809, 'epoch': 0.79}
+ 79%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                        | 11860/15000 [8:24:24<2:03:01,  2.35s/it] 79%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                        | 11861/15000 [8:24:26<2:03:04,  2.35s/it] 79%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                        | 11862/15000 [8:24:29<2:02:57,  2.35s/it] 79%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                        | 11863/15000 [8:24:31<2:02:57,  2.35s/it] 79%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                        | 11864/15000 [8:24:33<2:02:58,  2.35s/it] 79%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                        | 11865/15000 [8:24:36<2:03:02,  2.35s/it] 79%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                        | 11866/15000 [8:24:38<2:02:57,  2.35s/it] 79%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                        | 11867/15000 [8:24:40<2:02:55,  2.35s/it] 79%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                        | 11868/15000 [8:24:43<2:02:49,  2.35s/it] 79%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                        | 11869/15000 [8:24:45<2:02:45,  2.35s/it] 79%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                        | 11870/15000 [8:24:48<2:02:51,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.5885, 'grad_norm': 1.796875, 'learning_rate': 1.309245336293081e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3474.58, 'total_tokens': 96970613, 'epoch': 0.79}
+ 79%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                        | 11870/15000 [8:24:48<2:02:51,  2.36s/it] 79%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                        | 11871/15000 [8:24:50<2:02:50,  2.36s/it] 79%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                        | 11872/15000 [8:24:52<2:02:42,  2.35s/it] 79%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                        | 11873/15000 [8:24:55<2:02:40,  2.35s/it] 79%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                        | 11874/15000 [8:24:57<2:02:43,  2.36s/it] 79%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                        | 11875/15000 [8:24:59<2:02:40,  2.36s/it] 79%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                        | 11876/15000 [8:25:02<2:02:35,  2.35s/it] 79%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                        | 11877/15000 [8:25:04<2:02:29,  2.35s/it] 79%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                        | 11878/15000 [8:25:06<2:02:28,  2.35s/it] 79%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                        | 11879/15000 [8:25:09<2:02:30,  2.36s/it] 79%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                        | 11880/15000 [8:25:11<2:02:29,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.6718, 'grad_norm': 1.96875, 'learning_rate': 1.3030402071661115e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3481.63, 'total_tokens': 97052410, 'epoch': 0.79}
+ 79%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                        | 11880/15000 [8:25:11<2:02:29,  2.36s/it] 79%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                        | 11881/15000 [8:25:13<2:02:29,  2.36s/it] 79%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                        | 11882/15000 [8:25:16<2:02:26,  2.36s/it] 79%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                        | 11883/15000 [8:25:18<2:02:30,  2.36s/it] 79%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                        | 11884/15000 [8:25:21<2:02:26,  2.36s/it] 79%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                        | 11885/15000 [8:25:23<2:02:19,  2.36s/it] 79%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                        | 11886/15000 [8:25:25<2:02:12,  2.35s/it] 79%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                        | 11887/15000 [8:25:28<2:02:11,  2.35s/it] 79%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                        | 11888/15000 [8:25:30<2:02:12,  2.36s/it] 79%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                        | 11889/15000 [8:25:32<2:02:07,  2.36s/it] 79%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                        | 11890/15000 [8:25:35<2:02:12,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.6439, 'grad_norm': 1.703125, 'learning_rate': 1.296848125248602e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3471.31, 'total_tokens': 97134186, 'epoch': 0.79}
+ 79%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                        | 11890/15000 [8:25:35<2:02:12,  2.36s/it] 79%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                        | 11891/15000 [8:25:37<2:02:07,  2.36s/it] 79%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                        | 11892/15000 [8:25:39<2:01:51,  2.35s/it] 79%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████���███████████████████                                        | 11893/15000 [8:25:42<2:01:49,  2.35s/it] 79%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                        | 11894/15000 [8:25:44<2:01:52,  2.35s/it] 79%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                        | 11895/15000 [8:25:46<2:01:48,  2.35s/it] 79%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                        | 11896/15000 [8:25:49<2:01:51,  2.36s/it] 79%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                        | 11897/15000 [8:25:51<2:01:44,  2.35s/it] 79%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                        | 11898/15000 [8:25:53<2:01:47,  2.36s/it] 79%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                        | 11899/15000 [8:25:56<2:01:48,  2.36s/it] 79%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                        | 11900/15000 [8:25:58<2:01:47,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.6208, 'grad_norm': 1.6953125, 'learning_rate': 1.2906691516538996e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3473.04, 'total_tokens': 97215865, 'epoch': 0.79}
+ 79%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                        | 11900/15000 [8:25:58<2:01:47,  2.36s/it] 79%|███████████████████████████��█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                       | 11901/15000 [8:26:01<2:01:43,  2.36s/it] 79%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                       | 11902/15000 [8:26:03<2:01:42,  2.36s/it] 79%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                       | 11903/15000 [8:26:05<2:01:37,  2.36s/it] 79%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                       | 11904/15000 [8:26:08<2:01:38,  2.36s/it] 79%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                       | 11905/15000 [8:26:10<2:01:34,  2.36s/it] 79%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                       | 11906/15000 [8:26:12<2:01:28,  2.36s/it] 79%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                       | 11907/15000 [8:26:15<2:01:31,  2.36s/it] 79%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                       | 11908/15000 [8:26:17<2:01:31,  2.36s/it] 79%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                       | 11909/15000 [8:26:19<2:01:28,  2.36s/it] 79%|███████████████████████████████████████████████████████████████████████████████████████���█████████████████████████████████████████████████████████████████▏                                       | 11910/15000 [8:26:22<2:01:28,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.6914, 'grad_norm': 1.7734375, 'learning_rate': 1.2845033473659784e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3472.13, 'total_tokens': 97297577, 'epoch': 0.79}
+ 79%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                       | 11910/15000 [8:26:22<2:01:28,  2.36s/it] 79%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                       | 11911/15000 [8:26:24<2:01:27,  2.36s/it] 79%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                       | 11912/15000 [8:26:26<2:01:21,  2.36s/it] 79%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                       | 11913/15000 [8:26:29<2:01:17,  2.36s/it] 79%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                       | 11914/15000 [8:26:31<2:01:14,  2.36s/it] 79%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                       | 11915/15000 [8:26:34<2:01:10,  2.36s/it] 79%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                       | 11916/15000 [8:26:36<2:01:02,  2.35s/it] 79%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                       | 11917/15000 [8:26:38<2:00:57,  2.35s/it] 79%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                       | 11918/15000 [8:26:41<2:00:50,  2.35s/it] 79%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                       | 11919/15000 [8:26:43<2:00:51,  2.35s/it] 79%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                       | 11920/15000 [8:26:45<2:00:48,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6485, 'grad_norm': 1.71875, 'learning_rate': 1.278350773238839e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3479.24, 'total_tokens': 97379210, 'epoch': 0.79}
+ 79%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                       | 11920/15000 [8:26:45<2:00:48,  2.35s/it] 79%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                       | 11921/15000 [8:26:48<2:00:45,  2.35s/it] 79%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                       | 11922/15000 [8:26:50<2:00:45,  2.35s/it] 79%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                       | 11923/15000 [8:26:52<2:00:43,  2.35s/it] 79%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                       | 11924/15000 [8:26:55<2:00:43,  2.35s/it] 80%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                       | 11925/15000 [8:26:57<2:00:40,  2.35s/it] 80%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                       | 11926/15000 [8:26:59<2:00:32,  2.35s/it] 80%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                       | 11927/15000 [8:27:02<2:00:32,  2.35s/it] 80%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                       | 11928/15000 [8:27:04<2:00:28,  2.35s/it] 80%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                       | 11929/15000 [8:27:07<2:00:22,  2.35s/it] 80%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                       | 11930/15000 [8:27:09<2:00:16,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6532, 'grad_norm': 1.71875, 'learning_rate': 1.2722114899959026e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3490.44, 'total_tokens': 97460925, 'epoch': 0.8}
+ 80%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                       | 11930/15000 [8:27:09<2:00:16,  2.35s/it] 80%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                       | 11931/15000 [8:27:11<2:00:19,  2.35s/it] 80%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████���████████████████████████████████▌                                       | 11932/15000 [8:27:14<2:00:20,  2.35s/it] 80%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                       | 11933/15000 [8:27:16<2:00:16,  2.35s/it] 80%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                       | 11934/15000 [8:27:18<2:00:11,  2.35s/it] 80%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                       | 11935/15000 [8:27:21<2:00:09,  2.35s/it] 80%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                       | 11936/15000 [8:27:23<2:00:11,  2.35s/it] 80%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                       | 11937/15000 [8:27:25<2:00:09,  2.35s/it] 80%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                       | 11938/15000 [8:27:28<2:00:07,  2.35s/it] 80%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                       | 11939/15000 [8:27:30<2:00:10,  2.36s/it] 80%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                       | 11940/15000 [8:27:32<2:00:03,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6796, 'grad_norm': 1.7734375, 'learning_rate': 1.2660855582294182e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3485.45, 'total_tokens': 97542628, 'epoch': 0.8}
+ 80%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                       | 11940/15000 [8:27:32<2:00:03,  2.35s/it] 80%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                       | 11941/15000 [8:27:35<2:00:09,  2.36s/it] 80%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                       | 11942/15000 [8:27:37<2:00:13,  2.36s/it] 80%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                       | 11943/15000 [8:27:39<2:00:03,  2.36s/it] 80%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                       | 11944/15000 [8:27:42<2:00:00,  2.36s/it] 80%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                       | 11945/15000 [8:27:44<2:00:00,  2.36s/it] 80%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                       | 11946/15000 [8:27:47<2:00:03,  2.36s/it] 80%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                       | 11947/15000 [8:27:49<1:59:49,  2.35s/it] 80%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                       | 11948/15000 [8:27:51<1:59:48,  2.36s/it] 80%|████████████████████████████████████████████████████████████████████��████████████████████████████████████████████████████████████████████████████████████▋                                       | 11949/15000 [8:27:54<1:59:44,  2.35s/it] 80%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                       | 11950/15000 [8:27:56<1:59:42,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6759, 'grad_norm': 1.7109375, 'learning_rate': 1.2599730383998571e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3478.34, 'total_tokens': 97624291, 'epoch': 0.8}
+ 80%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                       | 11950/15000 [8:27:56<1:59:42,  2.35s/it] 80%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                       | 11951/15000 [8:27:58<1:59:45,  2.36s/it] 80%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                       | 11952/15000 [8:28:01<1:59:35,  2.35s/it] 80%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                       | 11953/15000 [8:28:03<1:59:30,  2.35s/it] 80%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                       | 11954/15000 [8:28:05<1:59:29,  2.35s/it] 80%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                       | 11955/15000 [8:28:08<1:59:25,  2.35s/it] 80%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████���████████████▊                                       | 11956/15000 [8:28:10<1:59:19,  2.35s/it] 80%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                       | 11957/15000 [8:28:12<1:59:22,  2.35s/it] 80%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                       | 11958/15000 [8:28:15<1:59:18,  2.35s/it] 80%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                       | 11959/15000 [8:28:17<1:59:21,  2.36s/it] 80%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                       | 11960/15000 [8:28:19<1:59:14,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6105, 'grad_norm': 1.75, 'learning_rate': 1.2538739908353243e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3483.18, 'total_tokens': 97705896, 'epoch': 0.8}
+ 80%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                       | 11960/15000 [8:28:20<1:59:14,  2.35s/it] 80%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                       | 11961/15000 [8:28:22<1:59:18,  2.36s/it] 80%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                       | 11962/15000 [8:28:24<1:59:14,  2.35s/it] 80%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                       | 11963/15000 [8:28:27<1:59:01,  2.35s/it] 80%|██████████████████████████████��██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                       | 11964/15000 [8:28:29<1:59:04,  2.35s/it] 80%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                       | 11965/15000 [8:28:31<1:59:02,  2.35s/it] 80%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                       | 11966/15000 [8:28:34<1:58:49,  2.35s/it] 80%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                       | 11967/15000 [8:28:36<1:58:54,  2.35s/it] 80%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                       | 11968/15000 [8:28:38<1:58:55,  2.35s/it] 80%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                       | 11969/15000 [8:28:41<1:58:52,  2.35s/it] 80%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                       | 11970/15000 [8:28:43<1:58:52,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6442, 'grad_norm': 1.734375, 'learning_rate': 1.2477884757309547e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3481.78, 'total_tokens': 97787640, 'epoch': 0.8}
+ 80%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                       | 11970/15000 [8:28:43<1:58:52,  2.35s/it] 80%|██████████████████████████████████████████████████████████████████████████████████████████████████████��███████████████████████████████████████████████████                                       | 11971/15000 [8:28:45<1:58:53,  2.36s/it] 80%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                       | 11972/15000 [8:28:48<1:58:55,  2.36s/it] 80%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                       | 11973/15000 [8:28:50<1:58:52,  2.36s/it] 80%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                       | 11974/15000 [8:28:52<1:58:50,  2.36s/it] 80%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                       | 11975/15000 [8:28:55<1:58:40,  2.35s/it] 80%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                       | 11976/15000 [8:28:57<1:58:31,  2.35s/it] 80%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                       | 11977/15000 [8:29:00<1:58:36,  2.35s/it] 80%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                       | 11978/15000 [8:29:02<1:58:42,  2.36s/it] 80%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                      | 11979/15000 [8:29:04<1:58:38,  2.36s/it] 80%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                      | 11980/15000 [8:29:07<1:58:26,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6163, 'grad_norm': 1.8046875, 'learning_rate': 1.241716553148328e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3498.12, 'total_tokens': 97869449, 'epoch': 0.8}
+ 80%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                      | 11980/15000 [8:29:07<1:58:26,  2.35s/it] 80%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                      | 11981/15000 [8:29:09<1:58:23,  2.35s/it] 80%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                      | 11982/15000 [8:29:11<1:58:20,  2.35s/it] 80%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                      | 11983/15000 [8:29:14<1:58:23,  2.35s/it] 80%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                      | 11984/15000 [8:29:16<1:58:19,  2.35s/it] 80%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                      | 11985/15000 [8:29:18<1:58:05,  2.35s/it] 80%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                      | 11986/15000 [8:29:21<1:58:05,  2.35s/it] 80%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                      | 11987/15000 [8:29:23<1:58:01,  2.35s/it] 80%|████████████████████████████████████████████��█████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                      | 11988/15000 [8:29:25<1:58:00,  2.35s/it] 80%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                      | 11989/15000 [8:29:28<1:57:58,  2.35s/it] 80%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                      | 11990/15000 [8:29:30<1:57:57,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6973, 'grad_norm': 1.8828125, 'learning_rate': 1.2356582830148677e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3485.82, 'total_tokens': 97951173, 'epoch': 0.8}
+ 80%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                      | 11990/15000 [8:29:30<1:57:57,  2.35s/it] 80%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                      | 11991/15000 [8:29:32<1:57:57,  2.35s/it] 80%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                      | 11992/15000 [8:29:35<1:57:56,  2.35s/it] 80%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                      | 11993/15000 [8:29:37<1:57:59,  2.35s/it] 80%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                      | 11994/15000 [8:29:40<1:57:49,  2.35s/it] 80%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                      | 11995/15000 [8:29:42<1:57:49,  2.35s/it] 80%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                      | 11996/15000 [8:29:44<1:57:41,  2.35s/it] 80%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                      | 11997/15000 [8:29:47<1:57:53,  2.36s/it] 80%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                      | 11998/15000 [8:29:49<1:57:48,  2.35s/it] 80%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                      | 11999/15000 [8:29:51<1:57:44,  2.35s/it] 80%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                      | 12000/15000 [8:29:54<1:57:37,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6223, 'grad_norm': 1.8203125, 'learning_rate': 1.229613725123253e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3487.55, 'total_tokens': 98032873, 'epoch': 0.8}
+ 80%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                      | 12000/15000 [8:29:54<1:57:37,  2.35s/it] 80%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                      | 12001/15000 [8:29:56<1:57:36,  2.35s/it] 80%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                      | 12002/15000 [8:29:58<1:57:38,  2.35s/it] 80%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                      | 12003/15000 [8:30:01<1:57:30,  2.35s/it] 80%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                      | 12004/15000 [8:30:03<1:57:36,  2.36s/it] 80%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                      | 12005/15000 [8:30:05<1:57:28,  2.35s/it] 80%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                      | 12006/15000 [8:30:08<1:57:29,  2.35s/it] 80%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                      | 12007/15000 [8:30:10<1:57:21,  2.35s/it] 80%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                      | 12008/15000 [8:30:12<1:57:20,  2.35s/it] 80%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                      | 12009/15000 [8:30:15<1:57:19,  2.35s/it] 80%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                      | 12010/15000 [8:30:17<1:57:25,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.6523, 'grad_norm': 1.7421875, 'learning_rate': 1.2235829391308324e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3466.94, 'total_tokens': 98114562, 'epoch': 0.8}
+ 80%|████████████████████████████████████████████████████████████���█████████████████████████████████████████████████████████████████████████████████████████████▌                                      | 12010/15000 [8:30:17<1:57:25,  2.36s/it] 80%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                      | 12011/15000 [8:30:20<1:57:19,  2.36s/it] 80%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                      | 12012/15000 [8:30:22<1:57:16,  2.35s/it] 80%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                      | 12013/15000 [8:30:24<1:57:14,  2.35s/it] 80%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                      | 12014/15000 [8:30:27<1:57:18,  2.36s/it] 80%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                      | 12015/15000 [8:30:29<1:57:10,  2.36s/it] 80%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                      | 12016/15000 [8:30:31<1:57:02,  2.35s/it] 80%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                      | 12017/15000 [8:30:34<1:57:04,  2.35s/it] 80%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                      | 12018/15000 [8:30:36<1:57:01,  2.35s/it] 80%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                      | 12019/15000 [8:30:38<1:57:03,  2.36s/it] 80%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                      | 12020/15000 [8:30:41<1:56:57,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6384, 'grad_norm': 1.796875, 'learning_rate': 1.2175659845590264e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3481.13, 'total_tokens': 98196209, 'epoch': 0.8}
+ 80%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                      | 12020/15000 [8:30:41<1:56:57,  2.35s/it] 80%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                      | 12021/15000 [8:30:43<1:56:56,  2.36s/it] 80%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                      | 12022/15000 [8:30:45<1:56:54,  2.36s/it] 80%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                      | 12023/15000 [8:30:48<1:56:46,  2.35s/it] 80%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                      | 12024/15000 [8:30:50<1:56:47,  2.35s/it] 80%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                      | 12025/15000 [8:30:52<1:56:46,  2.36s/it] 80%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                      | 12026/15000 [8:30:55<1:56:46,  2.36s/it] 80%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                      | 12027/15000 [8:30:57<1:56:39,  2.35s/it] 80%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                      | 12028/15000 [8:31:00<1:56:38,  2.35s/it] 80%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                      | 12029/15000 [8:31:02<1:56:40,  2.36s/it] 80%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                      | 12030/15000 [8:31:04<1:56:34,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.5823, 'grad_norm': 1.890625, 'learning_rate': 1.2115629207927499e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3483.25, 'total_tokens': 98277879, 'epoch': 0.8}
+ 80%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                      | 12030/15000 [8:31:04<1:56:34,  2.35s/it] 80%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                      | 12031/15000 [8:31:07<1:56:31,  2.35s/it] 80%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                      | 12032/15000 [8:31:09<1:56:35,  2.36s/it] 80%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                      | 12033/15000 [8:31:11<1:56:38,  2.36s/it] 80%|███████████████████████████████████████████████████████████████��██████████████████████████████████████████████████████████████████████████████████████████▊                                      | 12034/15000 [8:31:14<1:56:26,  2.36s/it] 80%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                      | 12035/15000 [8:31:16<1:56:29,  2.36s/it] 80%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                      | 12036/15000 [8:31:18<1:56:25,  2.36s/it] 80%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                      | 12037/15000 [8:31:21<1:56:17,  2.35s/it] 80%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                      | 12038/15000 [8:31:23<1:56:08,  2.35s/it] 80%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                      | 12039/15000 [8:31:25<1:56:11,  2.35s/it] 80%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                      | 12040/15000 [8:31:28<1:56:09,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6653, 'grad_norm': 1.7421875, 'learning_rate': 1.205573807079816e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3476.6, 'total_tokens': 98359526, 'epoch': 0.8}
+ 80%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                      | 12040/15000 [8:31:28<1:56:09,  2.35s/it] 80%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████��███████████████████████▉                                      | 12041/15000 [8:31:30<1:56:01,  2.35s/it] 80%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                      | 12042/15000 [8:31:33<1:56:04,  2.35s/it] 80%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                      | 12043/15000 [8:31:35<1:56:11,  2.36s/it] 80%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                      | 12044/15000 [8:31:37<1:56:01,  2.36s/it] 80%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                      | 12045/15000 [8:31:40<1:55:51,  2.35s/it] 80%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                      | 12046/15000 [8:31:42<1:55:47,  2.35s/it] 80%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                      | 12047/15000 [8:31:44<1:55:55,  2.36s/it] 80%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                      | 12048/15000 [8:31:47<1:55:53,  2.36s/it] 80%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                      | 12049/15000 [8:31:49<1:55:48,  2.35s/it] 80%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                      | 12050/15000 [8:31:51<1:55:43,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.7064, 'grad_norm': 1.7890625, 'learning_rate': 1.1995987025303623e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3478.77, 'total_tokens': 98441070, 'epoch': 0.8}
+ 80%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                      | 12050/15000 [8:31:51<1:55:43,  2.35s/it] 80%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                      | 12051/15000 [8:31:54<1:55:48,  2.36s/it] 80%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                      | 12052/15000 [8:31:56<1:55:50,  2.36s/it][2025-11-17 06:14:50,968] [INFO] [axolotl.utils.data.wrappers.get_dataset_wrapper:87] [PID:8163] Loading dataset: Goader/kobza-2m-jsonl with base_type: pretrain and prompt_style: None
+
+Tokenizing Prompts (num_proc=64):   0%|                                                                                                                                                                        | 0/10000 [00:00<?, ? examples/s][A
+Tokenizing Prompts (num_proc=64):   2%|██▍                                                                                                                                                           | 157/10000 [00:06<06:12, 26.45 examples/s][A
+Tokenizing Prompts (num_proc=64):   3%|████▉                                                                                                                                                         | 314/10000 [00:06<02:53, 55.84 examples/s][A
+Tokenizing Prompts (num_proc=64):   5%|███████▍                                                                                                                                                      | 471/10000 [00:07<01:52, 84.40 examples/s][A
+Tokenizing Prompts (num_proc=64):   6%|█████████▊                                                                                                                                                   | 628/10000 [00:07<01:20, 116.84 examples/s][A
+Tokenizing Prompts (num_proc=64):   8%|████████████▎                                                                                                                                                | 785/10000 [00:08<01:04, 143.28 examples/s][A
+Tokenizing Prompts (num_proc=64):   9%|██████████████▊                                                                                                                                              | 942/10000 [00:09<00:57, 158.49 examples/s][A
+Tokenizing Prompts (num_proc=64):  11%|█████████████████▏                                                                                                                                          | 1099/10000 [00:10<00:51, 171.81 examples/s][A
+Tokenizing Prompts (num_proc=64):  13%|███████████████████▌                                                                                                                                        | 1256/10000 [00:10<00:46, 189.37 examples/s][A
+Tokenizing Prompts (num_proc=64):  14%|██████████████████████                                                                                                                                      | 1413/10000 [00:11<00:43, 198.85 examples/s][A
+Tokenizing Prompts (num_proc=64):  16%|███████████████��████████▍                                                                                                                                   | 1570/10000 [00:12<00:40, 205.80 examples/s][A
+Tokenizing Prompts (num_proc=64):  17%|██████████████████████████▉                                                                                                                                 | 1727/10000 [00:12<00:37, 218.46 examples/s][A
+Tokenizing Prompts (num_proc=64):  19%|█████████████████████████████▍                                                                                                                              | 1884/10000 [00:13<00:37, 213.80 examples/s][A
+Tokenizing Prompts (num_proc=64):  20%|███████████████████████████████▊                                                                                                                            | 2041/10000 [00:14<00:37, 213.02 examples/s][A
+Tokenizing Prompts (num_proc=64):  22%|██████████████████████████████████▎                                                                                                                         | 2198/10000 [00:14<00:35, 219.45 examples/s][A
+Tokenizing Prompts (num_proc=64):  24%|████████████████████████████████████▋                                                                                                                       | 2355/10000 [00:16<00:41, 182.27 examples/s][A
+Tokenizing Prompts (num_proc=64):  25%|███████████████████████████████████████▏                                                                                                                    | 2512/10000 [00:16<00:31, 234.86 examples/s][A
+Tokenizing Prompts (num_proc=64):  27%|█████████████████████████████████████████▌                                                                                                                  | 2668/10000 [00:16<00:31, 232.61 examples/s][A
+Tokenizing Prompts (num_proc=64):  28%|████████████████████████████████████████████                                                                                                                | 2824/10000 [00:17<00:31, 228.95 examples/s][A
+Tokenizing Prompts (num_proc=64):  30%|██████████████████████████████████████████████▍                                                                                                             | 2980/10000 [00:18<00:37, 185.85 examples/s][A
+Tokenizing Prompts (num_proc=64):  31%|████████████████████████████████████████████████▉                                                                                                           | 3136/10000 [00:19<00:34, 197.54 examples/s][A
+Tokenizing Prompts (num_proc=64):  33%|███████████████████████████████████████████████████▎                                                                                                        | 3292/10000 [00:19<00:26, 254.62 examples/s][A
+Tokenizing Prompts (num_proc=64):  34%|█████████████████████████████████████████████████████▊                                                                                                      | 3448/10000 [00:20<00:26, 244.30 examples/s][A
+Tokenizing Prompts (num_proc=64):  36%|████████████████████████████████████████████████████████▏                                                                                                   | 3604/10000 [00:21<00:26, 238.52 examples/s][A
+Tokenizing Prompts (num_proc=64):  38%|██████████████████████████████████████████████████████████▋                                                                                                 | 3760/10000 [00:21<00:26, 231.48 examples/s][A
+Tokenizing Prompts (num_proc=64):  39%|█████████████████████████████████████████████████████████████                                                                                               | 3916/10000 [00:22<00:25, 235.18 examples/s][A
+Tokenizing Prompts (num_proc=64):  41%|███████████████████████████████████████████████████████████████▌                                                                                            | 4072/10000 [00:23<00:25, 231.35 examples/s][A
+Tokenizing Prompts (num_proc=64):  42%|█████████████████████████████████████████████████████████████████▉                                                                                          | 4228/10000 [00:23<00:25, 228.37 examples/s][A
+Tokenizing Prompts (num_proc=64):  44%|████████████████████████████████████████████████████████████████████▍                                                                                       | 4384/10000 [00:24<00:24, 227.15 examples/s][A
+Tokenizing Prompts (num_proc=64):  45%|██████████████████████████████████████████████████████████████████████▊                                                                                     | 4540/10000 [00:25<00:23, 228.91 examples/s][A
+Tokenizing Prompts (num_proc=64):  47%|█████████████████████████████████████████████████████████████████████████▎                                                                                  | 4696/10000 [00:26<00:28, 189.19 examples/s][A
+Tokenizing Prompts (num_proc=64):  49%|███████████████████████████████████████████████████████████████████████████▋                                                                                | 4852/10000 [00:27<00:25, 200.80 examples/s][A
+Tokenizing Prompts (num_proc=64):  50%|██████████████████████████████████████████████████████████████████████████████                                                                              | 5008/10000 [00:27<00:23, 208.39 examples/s][A
+Tokenizing Prompts (num_proc=64):  52%|████████████████████████████████████████████████████████████████████████████████▌                                                                           | 5164/10000 [00:28<00:18, 261.12 examples/s][A
+Tokenizing Prompts (num_proc=64):  53%|██████████████████████████████████████████████████████████████████████████████████▉                                                                         | 5320/10000 [00:28<00:18, 250.84 examples/s][A
+Tokenizing Prompts (num_proc=64):  55%|█████████████████████████████████████████████████████████████████████████████████████▍                                                                      | 5476/10000 [00:29<00:18, 243.46 examples/s][A
+Tokenizing Prompts (num_proc=64):  56%|███████████████████████████████████████████████████████████████████████████████████████▊                                                                    | 5632/10000 [00:30<00:22, 196.09 examples/s][A
+Tokenizing Prompts (num_proc=64):  58%|██████████████████████████████████████████████████████████████████████████████████████████▎                                                                 | 5788/10000 [00:30<00:18, 232.79 examples/s][A
+Tokenizing Prompts (num_proc=64):  59%|██████████████████████████████████████████████████████���█████████████████████████████████████▋                                                               | 5944/10000 [00:31<00:19, 205.72 examples/s][A
+Tokenizing Prompts (num_proc=64):  61%|███████████████████████████████████████████████████████████████████████████████████████████████▏                                                            | 6100/10000 [00:32<00:15, 258.11 examples/s][A
+Tokenizing Prompts (num_proc=64):  63%|█████████████████████████████████████████████████████████████████████████████████████████████████▌                                                          | 6256/10000 [00:32<00:15, 234.26 examples/s][A
+Tokenizing Prompts (num_proc=64):  64%|████████████████████████████████████████████████████████████████████████████████████████████████████                                                        | 6412/10000 [00:33<00:15, 237.28 examples/s][A
+Tokenizing Prompts (num_proc=64):  66%|██████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                     | 6568/10000 [00:34<00:16, 204.65 examples/s][A
+Tokenizing Prompts (num_proc=64):  67%|████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                   | 6724/10000 [00:35<00:15, 210.26 examples/s][A
+Tokenizing Prompts (num_proc=64):  69%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                | 6880/10000 [00:36<00:14, 213.63 examples/s][A
+Tokenizing Prompts (num_proc=64):  70%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                              | 7036/10000 [00:36<00:13, 219.84 examples/s][A
+Tokenizing Prompts (num_proc=64):  72%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                           | 7192/10000 [00:36<00:10, 273.04 examples/s][A
+Tokenizing Prompts (num_proc=64):  73%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                         | 7348/10000 [00:37<00:10, 260.06 examples/s][A
+Tokenizing Prompts (num_proc=64):  75%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                       | 7504/10000 [00:38<00:10, 240.57 examples/s][A
+Tokenizing Prompts (num_proc=64):  77%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                    | 7660/10000 [00:38<00:09, 244.14 examples/s][A
+Tokenizing Prompts (num_proc=64):  78%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                  | 7816/10000 [00:39<00:09, 241.91 examples/s][A
+Tokenizing Prompts (num_proc=64):  80%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                               | 7972/10000 [00:41<00:11, 175.76 examples/s][A
+Tokenizing Prompts (num_proc=64):  83%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                          | 8284/10000 [00:41<00:07, 233.98 examples/s][A
+Tokenizing Prompts (num_proc=64):  84%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                        | 8440/10000 [00:42<00:06, 236.80 examples/s][A
+Tokenizing Prompts (num_proc=64):  86%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                      | 8596/10000 [00:43<00:05, 240.95 examples/s][A
+Tokenizing Prompts (num_proc=64):  88%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                   | 8752/10000 [00:43<00:05, 233.62 examples/s][A
+Tokenizing Prompts (num_proc=64):  89%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                 | 8908/10000 [00:44<00:04, 234.39 examples/s][A
+Tokenizing Prompts (num_proc=64):  91%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍              | 9064/10000 [00:45<00:04, 230.09 examples/s][A
+Tokenizing Prompts (num_proc=64):  92%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊            | 9220/10000 [00:46<00:03, 212.92 examples/s][A
+Tokenizing Prompts (num_proc=64):  94%|██████████████████████████████████████████████████████████████████████████████████████████���███████████████████████████████████████████████████████▎         | 9376/10000 [00:46<00:02, 237.77 examples/s][A
+Tokenizing Prompts (num_proc=64):  95%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋       | 9532/10000 [00:47<00:02, 231.71 examples/s][A
+Tokenizing Prompts (num_proc=64):  97%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏    | 9688/10000 [00:48<00:01, 224.37 examples/s][A
+Tokenizing Prompts (num_proc=64):  98%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌  | 9844/10000 [00:48<00:00, 229.79 examples/s][A
+Tokenizing Prompts (num_proc=64): 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10000/10000 [00:49<00:00, 232.57 examples/s][ATokenizing Prompts (num_proc=64): 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10000/10000 [00:51<00:00, 194.09 examples/s]
+
+Dropping Long Sequences:   0%|                                                                                                                                                                                 | 0/10001 [00:00<?, ? examples/s][A
+Dropping Long Sequences:  10%|████████████████▍                                                                                                                                                    | 1000/10001 [00:01<00:13, 662.56 examples/s][A
+Dropping Long Sequences:  20%|████████████████████████████████▊                                                                                                                                   | 2000/10001 [00:01<00:06, 1284.98 examples/s][A
+Dropping Long Sequences:  30%|█████████████████████████████████████████████████▏                                                                                                                  | 3000/10001 [00:02<00:03, 1837.78 examples/s][A
+Dropping Long Sequences:  40%|█████████████████████████████████████████████████████████████████▌                                                                                                  | 4000/10001 [00:02<00:02, 2385.78 examples/s][A
+Dropping Long Sequences:  50%|█████████████████████████████████████████████████████████████████████████████████▉                                                                                  | 5000/10001 [00:02<00:01, 2734.11 examples/s][A
+Dropping Long Sequences:  60%|███████████████████████████████████████████��██████████████████████████████████████████████████████▍                                                                 | 6000/10001 [00:02<00:01, 2901.56 examples/s][A
+Dropping Long Sequences:  70%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                 | 7000/10001 [00:03<00:00, 3043.56 examples/s][A
+Dropping Long Sequences:  80%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                | 8000/10001 [00:03<00:00, 3277.99 examples/s][A
+Dropping Long Sequences:  90%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                | 9000/10001 [00:03<00:00, 3463.40 examples/s][A
+Dropping Long Sequences: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉| 10000/10001 [00:03<00:00, 3558.04 examples/s][ADropping Long Sequences: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10001/10001 [00:03<00:00, 2518.16 examples/s]
+
+Add position_id column (Pretraining Sample Packing):   0%|                                                                                                                                                      | 0/8714 [00:00<?, ? examples/s][A
+Add position_id column (Pretraining Sample Packing):  11%|███████████████▊                                                                                                                          | 1000/8714 [00:01<00:09, 776.19 examples/s][A
+Add position_id column (Pretraining Sample Packing):  23%|███████████████████████████████▍                                                                                                         | 2000/8714 [00:01<00:04, 1618.52 examples/s][A
+Add position_id column (Pretraining Sample Packing):  34%|███████████████████████████████████████████████▏                                                                                         | 3000/8714 [00:01<00:02, 2491.15 examples/s][A
+Add position_id column (Pretraining Sample Packing):  46%|██████████████████████████████████████████████████████████████▉                                                                          | 4000/8714 [00:01<00:01, 3265.91 examples/s][A
+Add position_id column (Pretraining Sample Packing):  57%|██████████████████████████████████████████████████████████████████████████████▌                                                          | 5000/8714 [00:01<00:00, 4039.86 examples/s][A
+Add position_id column (Pretraining Sample Packing):  69%|████████████████████████████████████████████████████��█████████████████████████████████████████▎                                          | 6000/8714 [00:02<00:00, 4647.88 examples/s][A
+Add position_id column (Pretraining Sample Packing):  80%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████                           | 7000/8714 [00:02<00:00, 5182.52 examples/s][A
+Add position_id column (Pretraining Sample Packing):  92%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊           | 8000/8714 [00:02<00:00, 5372.19 examples/s][AAdd position_id column (Pretraining Sample Packing): 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 8714/8714 [00:02<00:00, 3455.20 examples/s]
+[2025-11-17 06:15:50,582] [DEBUG] [axolotl.utils.samplers.multipack.pack_parallel:177] [PID:8163] Using single process for pack_parallel, running sequentially.
+ 80%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                     | 12053/15000 [8:33:05<18:17:36, 22.35s/it] 80%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                     | 12054/15000 [8:33:07<13:22:37, 16.35s/it] 80%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                      | 12055/15000 [8:33:10<9:56:19, 12.15s/it] 80%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                      | 12056/15000 [8:33:12<7:31:58,  9.21s/it] 80%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                     | 12057/15000 [8:33:14<5:50:50,  7.15s/it] 80%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                     | 12058/15000 [8:33:17<4:40:12,  5.71s/it] 80%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                     | 12059/15000 [8:33:19<3:50:42,  4.71s/it] 80%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                     | 12060/15000 [8:33:22<3:16:07,  4.00s/it]                                                                                                                                                                                                                                                {'loss': 2.6694, 'grad_norm': 1.765625, 'learning_rate': 1.1936376661162557e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3462.82, 'total_tokens': 98522530, 'epoch': 0.8}
+ 80%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                     | 12060/15000 [8:33:22<3:16:07,  4.00s/it] 80%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                     | 12061/15000 [8:33:24<2:51:48,  3.51s/it] 80%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                     | 12062/15000 [8:33:26<2:34:51,  3.16s/it] 80%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                     | 12063/15000 [8:33:29<2:22:50,  2.92s/it] 80%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                     | 12064/15000 [8:33:31<2:14:26,  2.75s/it] 80%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                     | 12065/15000 [8:33:33<2:08:36,  2.63s/it] 80%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                     | 12066/15000 [8:33:36<2:04:31,  2.55s/it] 80%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                     | 12067/15000 [8:33:38<2:01:38,  2.49s/it] 80%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                     | 12068/15000 [8:33:40<1:59:40,  2.45s/it] 80%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                     | 12069/15000 [8:33:43<1:58:15,  2.42s/it] 80%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                     | 12070/15000 [8:33:45<1:57:13,  2.40s/it]                                                                                                                                                                                                                                                {'loss': 2.6181, 'grad_norm': 1.71875, 'learning_rate': 1.1876907566705205e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3488.88, 'total_tokens': 98604403, 'epoch': 0.8}
+ 80%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                     | 12070/15000 [8:33:45<1:57:13,  2.40s/it] 80%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                     | 12071/15000 [8:33:47<1:56:31,  2.39s/it] 80%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                     | 12072/15000 [8:33:50<1:55:59,  2.38s/it] 80%|████████████████████████████████████████████████████████████████████████████████████████████████████████��██████████████████████████████████████████████████▎                                     | 12073/15000 [8:33:52<1:55:40,  2.37s/it] 80%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                     | 12074/15000 [8:33:55<1:55:22,  2.37s/it] 80%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                     | 12075/15000 [8:33:57<1:55:13,  2.36s/it] 81%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                     | 12076/15000 [8:33:59<1:55:01,  2.36s/it] 81%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                     | 12077/15000 [8:34:02<1:54:59,  2.36s/it] 81%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                     | 12078/15000 [8:34:04<1:54:54,  2.36s/it] 81%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                     | 12079/15000 [8:34:06<1:54:47,  2.36s/it] 81%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                     | 12080/15000 [8:34:09<1:54:42,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.6736, 'grad_norm': 1.78125, 'learning_rate': 1.1817580328867525e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3486.53, 'total_tokens': 98686248, 'epoch': 0.81}
+ 81%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                     | 12080/15000 [8:34:09<1:54:42,  2.36s/it] 81%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                     | 12081/15000 [8:34:11<1:54:34,  2.35s/it] 81%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                     | 12082/15000 [8:34:13<1:54:33,  2.36s/it] 81%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                     | 12083/15000 [8:34:16<1:54:29,  2.35s/it] 81%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                     | 12084/15000 [8:34:19<2:01:25,  2.50s/it] 81%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                     | 12085/15000 [8:34:21<1:59:17,  2.46s/it] 81%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                     | 12086/15000 [8:34:23<1:57:45,  2.42s/it] 81%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                     | 12087/15000 [8:34:26<1:56:36,  2.40s/it] 81%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                     | 12088/15000 [8:34:28<1:55:54,  2.39s/it] 81%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                     | 12089/15000 [8:34:30<1:55:19,  2.38s/it] 81%|█████████████████████████████���█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                     | 12090/15000 [8:34:33<1:55:01,  2.37s/it]                                                                                                                                                                                                                                                {'loss': 2.6421, 'grad_norm': 1.6328125, 'learning_rate': 1.1758395533185384e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3475.71, 'total_tokens': 98767988, 'epoch': 0.81}
+ 81%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                     | 12090/15000 [8:34:33<1:55:01,  2.37s/it] 81%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                     | 12091/15000 [8:34:35<1:54:48,  2.37s/it] 81%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                     | 12092/15000 [8:34:37<1:54:29,  2.36s/it] 81%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                     | 12093/15000 [8:34:40<1:54:14,  2.36s/it] 81%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                     | 12094/15000 [8:34:42<1:54:02,  2.35s/it] 81%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                     | 12095/15000 [8:34:44<1:53:57,  2.35s/it] 81%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                     | 12096/15000 [8:34:47<1:53:52,  2.35s/it] 81%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                     | 12097/15000 [8:34:49<1:53:51,  2.35s/it] 81%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                     | 12098/15000 [8:34:51<1:53:44,  2.35s/it] 81%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                     | 12099/15000 [8:34:54<1:53:42,  2.35s/it] 81%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                     | 12100/15000 [8:34:56<1:53:38,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6665, 'grad_norm': 1.796875, 'learning_rate': 1.1699353763788845e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3491.53, 'total_tokens': 98849815, 'epoch': 0.81}
+ 81%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                     | 12100/15000 [8:34:56<1:53:38,  2.35s/it] 81%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                     | 12101/15000 [8:34:59<1:53:42,  2.35s/it] 81%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                     | 12102/15000 [8:35:01<1:53:44,  2.35s/it] 81%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                     | 12103/15000 [8:35:03<1:53:46,  2.36s/it] 81%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                     | 12104/15000 [8:35:06<1:53:41,  2.36s/it] 81%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                     | 12105/15000 [8:35:08<1:53:36,  2.35s/it] 81%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                     | 12106/15000 [8:35:10<1:53:30,  2.35s/it] 81%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                     | 12107/15000 [8:35:13<1:53:23,  2.35s/it] 81%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                     | 12108/15000 [8:35:15<1:53:21,  2.35s/it] 81%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                     | 12109/15000 [8:35:17<1:53:19,  2.35s/it] 81%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                     | 12110/15000 [8:35:20<1:53:18,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.8238, 'grad_norm': 1.75, 'learning_rate': 1.164045560339631e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3487.23, 'total_tokens': 98931628, 'epoch': 0.81}
+ 81%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                     | 12110/15000 [8:35:20<1:53:18,  2.35s/it] 81%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                     | 12111/15000 [8:35:22<1:53:21,  2.35s/it] 81%|█████████████████████████████���█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                     | 12112/15000 [8:35:24<1:53:20,  2.35s/it] 81%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                     | 12113/15000 [8:35:27<1:53:16,  2.35s/it] 81%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                     | 12114/15000 [8:35:29<1:53:15,  2.35s/it] 81%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                     | 12115/15000 [8:35:32<1:53:21,  2.36s/it] 81%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                     | 12116/15000 [8:35:34<1:53:09,  2.35s/it] 81%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                     | 12117/15000 [8:35:36<1:53:05,  2.35s/it] 81%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                     | 12118/15000 [8:35:39<1:53:00,  2.35s/it] 81%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                     | 12119/15000 [8:35:41<1:53:03,  2.35s/it] 81%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                     | 12120/15000 [8:35:43<1:53:00,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6047, 'grad_norm': 1.734375, 'learning_rate': 1.158170163330887e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3485.53, 'total_tokens': 99013437, 'epoch': 0.81}
+ 81%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                     | 12120/15000 [8:35:43<1:53:00,  2.35s/it] 81%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                     | 12121/15000 [8:35:46<1:52:58,  2.35s/it] 81%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                     | 12122/15000 [8:35:48<1:52:57,  2.35s/it] 81%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                     | 12123/15000 [8:35:50<1:52:59,  2.36s/it] 81%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                     | 12124/15000 [8:35:53<1:52:56,  2.36s/it] 81%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                     | 12125/15000 [8:35:55<1:52:45,  2.35s/it] 81%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                     | 12126/15000 [8:35:57<1:52:39,  2.35s/it] 81%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                     | 12127/15000 [8:36:00<1:52:38,  2.35s/it] 81%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████���█████████████████                                     | 12128/15000 [8:36:02<1:52:38,  2.35s/it] 81%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                     | 12129/15000 [8:36:04<1:52:40,  2.35s/it] 81%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                     | 12130/15000 [8:36:07<1:52:45,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.6599, 'grad_norm': 1.6328125, 'learning_rate': 1.1523092433404467e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3471.93, 'total_tokens': 99095242, 'epoch': 0.81}
+ 81%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                     | 12130/15000 [8:36:07<1:52:45,  2.36s/it] 81%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                     | 12131/15000 [8:36:09<1:52:40,  2.36s/it] 81%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                     | 12132/15000 [8:36:12<1:52:30,  2.35s/it] 81%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                     | 12133/15000 [8:36:14<1:52:26,  2.35s/it] 81%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                     | 12134/15000 [8:36:16<1:52:24,  2.35s/it] 81%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                    | 12135/15000 [8:36:19<1:52:24,  2.35s/it] 81%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                    | 12136/15000 [8:36:21<1:52:19,  2.35s/it] 81%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                    | 12137/15000 [8:36:23<1:52:19,  2.35s/it] 81%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                    | 12138/15000 [8:36:26<1:52:09,  2.35s/it] 81%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                    | 12139/15000 [8:36:28<1:52:06,  2.35s/it] 81%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                    | 12140/15000 [8:36:30<1:52:16,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.6361, 'grad_norm': 1.65625, 'learning_rate': 1.1464628582132263e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3468.65, 'total_tokens': 99177031, 'epoch': 0.81}
+ 81%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                    | 12140/15000 [8:36:30<1:52:16,  2.36s/it] 81%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                    | 12141/15000 [8:36:33<1:52:16,  2.36s/it] 81%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                    | 12142/15000 [8:36:35<1:52:11,  2.36s/it] 81%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                    | 12143/15000 [8:36:37<1:52:11,  2.36s/it] 81%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                    | 12144/15000 [8:36:40<1:52:03,  2.35s/it] 81%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                    | 12145/15000 [8:36:42<1:51:55,  2.35s/it] 81%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                    | 12146/15000 [8:36:44<1:52:00,  2.35s/it] 81%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                    | 12147/15000 [8:36:47<1:52:02,  2.36s/it] 81%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                    | 12148/15000 [8:36:49<1:52:00,  2.36s/it] 81%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                    | 12149/15000 [8:36:52<1:51:57,  2.36s/it] 81%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                    | 12150/15000 [8:36:54<1:51:53,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.7017, 'grad_norm': 1.703125, 'learning_rate': 1.1406310656506847e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3483.81, 'total_tokens': 99258811, 'epoch': 0.81}
+ 81%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████��██████████████████████████████▎                                    | 12150/15000 [8:36:54<1:51:53,  2.36s/it] 81%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                    | 12151/15000 [8:36:56<1:51:55,  2.36s/it] 81%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                    | 12152/15000 [8:36:59<1:51:48,  2.36s/it] 81%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                    | 12153/15000 [8:37:01<1:51:45,  2.36s/it] 81%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                    | 12154/15000 [8:37:03<1:51:42,  2.36s/it] 81%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                    | 12155/15000 [8:37:06<1:51:32,  2.35s/it] 81%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                    | 12156/15000 [8:37:08<1:51:36,  2.35s/it] 81%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                    | 12157/15000 [8:37:10<1:51:40,  2.36s/it] 81%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                    | 12158/15000 [8:37:13<1:51:40,  2.36s/it] 81%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                    | 12159/15000 [8:37:15<1:51:31,  2.36s/it] 81%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                    | 12160/15000 [8:37:17<1:51:26,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6936, 'grad_norm': 1.6953125, 'learning_rate': 1.1348139232102622e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3487.83, 'total_tokens': 99340624, 'epoch': 0.81}
+ 81%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                    | 12160/15000 [8:37:17<1:51:26,  2.35s/it] 81%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                    | 12161/15000 [8:37:20<1:51:28,  2.36s/it] 81%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                    | 12162/15000 [8:37:22<1:51:23,  2.36s/it] 81%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                    | 12163/15000 [8:37:25<1:51:10,  2.35s/it] 81%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                    | 12164/15000 [8:37:27<1:51:08,  2.35s/it] 81%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                    | 12165/15000 [8:37:29<1:51:11,  2.35s/it] 81%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                    | 12166/15000 [8:37:32<1:51:07,  2.35s/it] 81%|█████████████████████████████████████��██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                    | 12167/15000 [8:37:34<1:51:10,  2.35s/it] 81%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                    | 12168/15000 [8:37:36<1:51:10,  2.36s/it] 81%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                    | 12169/15000 [8:37:39<1:51:05,  2.35s/it] 81%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                    | 12170/15000 [8:37:41<1:51:01,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6947, 'grad_norm': 1.671875, 'learning_rate': 1.1290114883048045e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3486.3, 'total_tokens': 99422419, 'epoch': 0.81}
+ 81%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                    | 12170/15000 [8:37:41<1:51:01,  2.35s/it] 81%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                    | 12171/15000 [8:37:43<1:51:07,  2.36s/it] 81%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                    | 12172/15000 [8:37:46<1:50:57,  2.35s/it] 81%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                    | 12173/15000 [8:37:48<1:50:53,  2.35s/it] 81%|█████████████████████████████████████████████████████████████████████████████████████████████��██████████████████████████████████████████████████████████████▋                                    | 12174/15000 [8:37:50<1:50:45,  2.35s/it] 81%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                    | 12175/15000 [8:37:53<1:50:45,  2.35s/it] 81%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                    | 12176/15000 [8:37:55<1:50:39,  2.35s/it] 81%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                    | 12177/15000 [8:37:57<1:50:35,  2.35s/it] 81%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                    | 12178/15000 [8:38:00<1:50:30,  2.35s/it] 81%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                    | 12179/15000 [8:38:02<1:50:34,  2.35s/it] 81%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                    | 12180/15000 [8:38:05<1:50:28,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.599, 'grad_norm': 1.796875, 'learning_rate': 1.1232238182020028e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3493.04, 'total_tokens': 99504197, 'epoch': 0.81}
+ 81%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                    | 12180/15000 [8:38:05<1:50:28,  2.35s/it] 81%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████��██████▋                                    | 12181/15000 [8:38:07<1:50:26,  2.35s/it] 81%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                    | 12182/15000 [8:38:09<1:50:26,  2.35s/it] 81%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                    | 12183/15000 [8:38:12<1:50:28,  2.35s/it] 81%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                    | 12184/15000 [8:38:14<1:50:29,  2.35s/it] 81%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                    | 12185/15000 [8:38:16<1:50:26,  2.35s/it] 81%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                    | 12186/15000 [8:38:19<1:50:24,  2.35s/it] 81%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                    | 12187/15000 [8:38:21<1:50:17,  2.35s/it] 81%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                    | 12188/15000 [8:38:23<1:50:20,  2.35s/it] 81%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                    | 12189/15000 [8:38:26<1:50:18,  2.35s/it] 81%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                    | 12190/15000 [8:38:28<1:50:16,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6603, 'grad_norm': 1.7421875, 'learning_rate': 1.1174509700238239e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3484.7, 'total_tokens': 99585996, 'epoch': 0.81}
+ 81%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                    | 12190/15000 [8:38:28<1:50:16,  2.35s/it] 81%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                    | 12191/15000 [8:38:30<1:50:14,  2.35s/it] 81%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                    | 12192/15000 [8:38:33<1:50:18,  2.36s/it] 81%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                    | 12193/15000 [8:38:35<1:50:09,  2.35s/it] 81%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                    | 12194/15000 [8:38:37<1:50:01,  2.35s/it] 81%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                    | 12195/15000 [8:38:40<1:50:01,  2.35s/it] 81%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                    | 12196/15000 [8:38:42<1:49:56,  2.35s/it] 81%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                    | 12197/15000 [8:38:45<1:49:59,  2.35s/it] 81%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                    | 12198/15000 [8:38:47<1:49:55,  2.35s/it] 81%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                    | 12199/15000 [8:38:49<1:49:57,  2.36s/it] 81%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                    | 12200/15000 [8:38:52<1:49:53,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6156, 'grad_norm': 1.7734375, 'learning_rate': 1.1116930007459478e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3486.18, 'total_tokens': 99667783, 'epoch': 0.81}
+ 81%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                    | 12200/15000 [8:38:52<1:49:53,  2.35s/it] 81%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                    | 12201/15000 [8:38:54<1:49:50,  2.35s/it] 81%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                    | 12202/15000 [8:38:56<1:49:43,  2.35s/it] 81%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                    | 12203/15000 [8:38:59<1:49:40,  2.35s/it] 81%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                    | 12204/15000 [8:39:01<1:49:36,  2.35s/it] 81%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████���███████████████████████████████████████                                    | 12205/15000 [8:39:03<1:49:43,  2.36s/it] 81%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                    | 12206/15000 [8:39:06<1:49:37,  2.35s/it] 81%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                    | 12207/15000 [8:39:08<1:49:39,  2.36s/it] 81%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                    | 12208/15000 [8:39:10<1:49:40,  2.36s/it] 81%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                    | 12209/15000 [8:39:13<1:49:32,  2.35s/it] 81%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                    | 12210/15000 [8:39:15<1:49:35,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.6761, 'grad_norm': 1.8984375, 'learning_rate': 1.1059499671972085e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3473.74, 'total_tokens': 99749587, 'epoch': 0.81}
+ 81%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                    | 12210/15000 [8:39:15<1:49:35,  2.36s/it] 81%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                    | 12211/15000 [8:39:17<1:49:35,  2.36s/it] 81%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                   | 12212/15000 [8:39:20<1:49:38,  2.36s/it] 81%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                   | 12213/15000 [8:39:22<1:49:21,  2.35s/it] 81%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                   | 12214/15000 [8:39:25<1:49:13,  2.35s/it] 81%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                   | 12215/15000 [8:39:27<1:49:14,  2.35s/it] 81%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                   | 12216/15000 [8:39:29<1:49:07,  2.35s/it] 81%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                   | 12217/15000 [8:39:32<1:49:03,  2.35s/it] 81%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                   | 12218/15000 [8:39:34<1:49:04,  2.35s/it] 81%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                   | 12219/15000 [8:39:36<1:49:03,  2.35s/it] 81%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                   | 12220/15000 [8:39:39<1:49:05,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.5257, 'grad_norm': 1.78125, 'learning_rate': 1.1002219260590269e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3479.97, 'total_tokens': 99831393, 'epoch': 0.81}
+ 81%|█████████████████████████████████████��███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                   | 12220/15000 [8:39:39<1:49:05,  2.35s/it] 81%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                   | 12221/15000 [8:39:41<1:49:01,  2.35s/it] 81%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                   | 12222/15000 [8:39:43<1:48:56,  2.35s/it] 81%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                   | 12223/15000 [8:39:46<1:48:54,  2.35s/it] 81%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                   | 12224/15000 [8:39:48<1:48:50,  2.35s/it] 82%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                   | 12225/15000 [8:39:50<1:48:49,  2.35s/it] 82%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                   | 12226/15000 [8:39:53<1:48:47,  2.35s/it] 82%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                   | 12227/15000 [8:39:55<1:48:46,  2.35s/it] 82%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                   | 12228/15000 [8:39:57<1:48:45,  2.35s/it] 82%|█████████████████████████████████████████████████████████████████████████���███████████████████████████████████████████████████████████████████████████████████▎                                   | 12229/15000 [8:40:00<1:48:41,  2.35s/it] 82%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                   | 12230/15000 [8:40:02<1:48:37,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6567, 'grad_norm': 1.7109375, 'learning_rate': 1.0945089338648578e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3487.75, 'total_tokens': 99913174, 'epoch': 0.82}
+ 82%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                   | 12230/15000 [8:40:02<1:48:37,  2.35s/it] 82%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                   | 12231/15000 [8:40:05<1:48:30,  2.35s/it] 82%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                   | 12232/15000 [8:40:07<1:48:25,  2.35s/it] 82%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                   | 12233/15000 [8:40:09<1:48:31,  2.35s/it] 82%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                   | 12234/15000 [8:40:12<1:48:26,  2.35s/it] 82%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                   | 12235/15000 [8:40:14<1:48:23,  2.35s/it] 82%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████���█████████████████████████████████▍                                   | 12236/15000 [8:40:16<1:48:24,  2.35s/it] 82%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                   | 12237/15000 [8:40:19<1:48:22,  2.35s/it] 82%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                   | 12238/15000 [8:40:21<1:48:23,  2.35s/it] 82%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                   | 12239/15000 [8:40:23<1:48:15,  2.35s/it] 82%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                   | 12240/15000 [8:40:26<1:48:13,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6492, 'grad_norm': 1.7734375, 'learning_rate': 1.0888110469996269e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3483.01, 'total_tokens': 99994911, 'epoch': 0.82}
+ 82%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                   | 12240/15000 [8:40:26<1:48:13,  2.35s/it] 82%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                   | 12241/15000 [8:40:28<1:48:15,  2.35s/it] 82%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                   | 12242/15000 [8:40:30<1:48:13,  2.35s/it] 82%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                   | 12243/15000 [8:40:33<1:48:16,  2.36s/it] 82%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                   | 12244/15000 [8:40:35<1:48:16,  2.36s/it] 82%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                   | 12245/15000 [8:40:38<1:48:09,  2.36s/it] 82%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                   | 12246/15000 [8:40:40<1:48:05,  2.36s/it] 82%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                   | 12247/15000 [8:40:42<1:48:08,  2.36s/it] 82%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                   | 12248/15000 [8:40:45<1:48:05,  2.36s/it] 82%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                   | 12249/15000 [8:40:47<1:48:06,  2.36s/it] 82%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                   | 12250/15000 [8:40:49<1:47:56,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.6614, 'grad_norm': 1.75, 'learning_rate': 1.083128321699178e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3495.35, 'total_tokens': 100076753, 'epoch': 0.82}
+ 82%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                   | 12250/15000 [8:40:49<1:47:56,  2.36s/it] 82%|███████████████████████████████████████���█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                   | 12251/15000 [8:40:52<1:48:03,  2.36s/it] 82%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                   | 12252/15000 [8:40:54<1:47:53,  2.36s/it] 82%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                   | 12253/15000 [8:40:56<1:47:45,  2.35s/it] 82%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                   | 12254/15000 [8:40:59<1:47:40,  2.35s/it] 82%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                   | 12255/15000 [8:41:01<1:47:40,  2.35s/it] 82%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                   | 12256/15000 [8:41:03<1:47:41,  2.35s/it] 82%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                   | 12257/15000 [8:41:06<1:47:40,  2.36s/it] 82%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                   | 12258/15000 [8:41:08<1:47:31,  2.35s/it] 82%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                   | 12259/15000 [8:41:10<1:47:32,  2.35s/it] 82%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                   | 12260/15000 [8:41:13<1:47:33,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.636, 'grad_norm': 1.7734375, 'learning_rate': 1.0774608140497144e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3479.45, 'total_tokens': 100158575, 'epoch': 0.82}
+ 82%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                   | 12260/15000 [8:41:13<1:47:33,  2.36s/it] 82%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                   | 12261/15000 [8:41:15<1:47:30,  2.36s/it] 82%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                   | 12262/15000 [8:41:18<1:47:26,  2.35s/it] 82%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                   | 12263/15000 [8:41:20<1:47:26,  2.36s/it] 82%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                   | 12264/15000 [8:41:22<1:47:18,  2.35s/it] 82%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                   | 12265/15000 [8:41:25<1:47:07,  2.35s/it] 82%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                   | 12266/15000 [8:41:27<1:47:09,  2.35s/it] 82%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                   | 12267/15000 [8:41:29<1:47:02,  2.35s/it] 82%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                   | 12268/15000 [8:41:32<1:47:07,  2.35s/it] 82%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                   | 12269/15000 [8:41:34<1:47:11,  2.35s/it] 82%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                   | 12270/15000 [8:41:36<1:47:10,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.7112, 'grad_norm': 1.7265625, 'learning_rate': 1.0718085799872501e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3480.88, 'total_tokens': 100240351, 'epoch': 0.82}
+ 82%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                   | 12270/15000 [8:41:36<1:47:10,  2.36s/it] 82%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                   | 12271/15000 [8:41:39<1:47:12,  2.36s/it] 82%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                   | 12272/15000 [8:41:41<1:47:08,  2.36s/it] 82%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                   | 12273/15000 [8:41:43<1:47:05,  2.36s/it] 82%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                   | 12274/15000 [8:41:46<1:47:03,  2.36s/it] 82%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                   | 12275/15000 [8:41:48<1:46:55,  2.35s/it] 82%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                   | 12276/15000 [8:41:51<1:46:52,  2.35s/it] 82%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                   | 12277/15000 [8:41:53<1:46:56,  2.36s/it] 82%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                   | 12278/15000 [8:41:55<1:46:56,  2.36s/it] 82%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                   | 12279/15000 [8:41:58<1:46:49,  2.36s/it] 82%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                   | 12280/15000 [8:42:00<1:46:42,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.5874, 'grad_norm': 1.71875, 'learning_rate': 1.0661716752970527e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3491.09, 'total_tokens': 100322139, 'epoch': 0.82}
+ 82%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                   | 12280/15000 [8:42:00<1:46:42,  2.35s/it] 82%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                   | 12281/15000 [8:42:02<1:46:41,  2.35s/it] 82%|███████████████████████████████████████���██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                   | 12282/15000 [8:42:05<1:46:39,  2.35s/it] 82%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                   | 12283/15000 [8:42:07<1:46:38,  2.36s/it] 82%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                   | 12284/15000 [8:42:09<1:46:27,  2.35s/it] 82%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                   | 12285/15000 [8:42:12<1:46:29,  2.35s/it] 82%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                   | 12286/15000 [8:42:14<1:46:21,  2.35s/it] 82%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                   | 12287/15000 [8:42:16<1:46:22,  2.35s/it] 82%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                   | 12288/15000 [8:42:19<1:46:23,  2.35s/it] 82%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                   | 12289/15000 [8:42:21<1:46:25,  2.36s/it] 82%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                  | 12290/15000 [8:42:23<1:46:22,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.7004, 'grad_norm': 1.78125, 'learning_rate': 1.0605501556130948e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3482.76, 'total_tokens': 100403897, 'epoch': 0.82}
+ 82%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                  | 12290/15000 [8:42:23<1:46:22,  2.36s/it] 82%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                  | 12291/15000 [8:42:26<1:46:20,  2.36s/it] 82%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                  | 12292/15000 [8:42:28<1:46:10,  2.35s/it] 82%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                  | 12293/15000 [8:42:31<1:46:11,  2.35s/it] 82%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                  | 12294/15000 [8:42:33<1:46:11,  2.35s/it] 82%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                  | 12295/15000 [8:42:35<1:46:17,  2.36s/it] 82%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                  | 12296/15000 [8:42:38<1:46:13,  2.36s/it] 82%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                  | 12297/15000 [8:42:40<1:46:02,  2.35s/it] 82%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████���██████████████████████████████████████▏                                  | 12298/15000 [8:42:42<1:45:59,  2.35s/it] 82%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                  | 12299/15000 [8:42:45<1:45:55,  2.35s/it] 82%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                  | 12300/15000 [8:42:47<1:45:49,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6358, 'grad_norm': 1.7890625, 'learning_rate': 1.0549440764175075e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3490.94, 'total_tokens': 100485624, 'epoch': 0.82}
+ 82%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                  | 12300/15000 [8:42:47<1:45:49,  2.35s/it] 82%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                  | 12301/15000 [8:42:49<1:45:44,  2.35s/it] 82%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                  | 12302/15000 [8:42:52<1:45:38,  2.35s/it] 82%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                  | 12303/15000 [8:42:54<1:45:45,  2.35s/it] 82%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                  | 12304/15000 [8:42:56<1:45:34,  2.35s/it] 82%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                  | 12305/15000 [8:42:59<1:45:32,  2.35s/it] 82%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                  | 12306/15000 [8:43:01<1:45:31,  2.35s/it] 82%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                  | 12307/15000 [8:43:03<1:45:33,  2.35s/it] 82%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                  | 12308/15000 [8:43:06<1:45:34,  2.35s/it] 82%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                  | 12309/15000 [8:43:08<1:45:38,  2.36s/it] 82%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                  | 12310/15000 [8:43:11<1:45:34,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.7338, 'grad_norm': 1.75, 'learning_rate': 1.0493534930400286e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3482.02, 'total_tokens': 100567338, 'epoch': 0.82}
+ 82%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                  | 12310/15000 [8:43:11<1:45:34,  2.35s/it] 82%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                  | 12311/15000 [8:43:13<1:45:35,  2.36s/it] 82%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                  | 12312/15000 [8:43:15<1:45:34,  2.36s/it] 82%|███████████████████████���██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                  | 12313/15000 [8:43:18<1:45:27,  2.35s/it] 82%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                  | 12314/15000 [8:43:20<1:45:18,  2.35s/it] 82%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                  | 12315/15000 [8:43:22<1:45:16,  2.35s/it] 82%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                  | 12316/15000 [8:43:25<1:45:21,  2.36s/it] 82%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                  | 12317/15000 [8:43:27<1:45:19,  2.36s/it] 82%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                  | 12318/15000 [8:43:29<1:45:15,  2.35s/it] 82%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                  | 12319/15000 [8:43:32<1:45:10,  2.35s/it] 82%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                  | 12320/15000 [8:43:34<1:45:07,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6639, 'grad_norm': 1.765625, 'learning_rate': 1.0437784606574596e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3484.1, 'total_tokens': 100649097, 'epoch': 0.82}
+ 82%|████████████████████████████████████████████████████████████████████���█████████████████████████████████████████████████████████████████████████████████████████▌                                  | 12320/15000 [8:43:34<1:45:07,  2.35s/it] 82%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                  | 12321/15000 [8:43:36<1:45:03,  2.35s/it] 82%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                  | 12322/15000 [8:43:39<1:45:04,  2.35s/it] 82%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                  | 12323/15000 [8:43:41<1:45:01,  2.35s/it] 82%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                  | 12324/15000 [8:43:43<1:45:00,  2.35s/it] 82%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                  | 12325/15000 [8:43:46<1:44:59,  2.35s/it] 82%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                  | 12326/15000 [8:43:48<1:44:53,  2.35s/it] 82%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                  | 12327/15000 [8:43:51<1:44:51,  2.35s/it] 82%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                  | 12328/15000 [8:43:53<1:44:49,  2.35s/it] 82%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                  | 12329/15000 [8:43:55<1:44:48,  2.35s/it] 82%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                  | 12330/15000 [8:43:58<1:44:38,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6537, 'grad_norm': 1.75, 'learning_rate': 1.038219034293118e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3493.15, 'total_tokens': 100730760, 'epoch': 0.82}
+ 82%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                  | 12330/15000 [8:43:58<1:44:38,  2.35s/it] 82%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                  | 12331/15000 [8:44:00<1:44:42,  2.35s/it] 82%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                  | 12332/15000 [8:44:02<1:44:36,  2.35s/it] 82%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                  | 12333/15000 [8:44:05<1:44:35,  2.35s/it] 82%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                  | 12334/15000 [8:44:07<1:44:38,  2.36s/it] 82%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                  | 12335/15000 [8:44:09<1:44:36,  2.36s/it] 82%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████���█████████████▋                                  | 12336/15000 [8:44:12<1:44:33,  2.35s/it] 82%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                  | 12337/15000 [8:44:14<1:44:27,  2.35s/it] 82%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                  | 12338/15000 [8:44:16<1:44:33,  2.36s/it] 82%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                  | 12339/15000 [8:44:19<1:44:25,  2.35s/it] 82%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                  | 12340/15000 [8:44:21<1:44:21,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6504, 'grad_norm': 1.734375, 'learning_rate': 1.0326752688162997e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3486.97, 'total_tokens': 100812545, 'epoch': 0.82}
+ 82%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                  | 12340/15000 [8:44:21<1:44:21,  2.35s/it] 82%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                  | 12341/15000 [8:44:23<1:44:12,  2.35s/it] 82%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                  | 12342/15000 [8:44:26<1:44:16,  2.35s/it] 82%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                  | 12343/15000 [8:44:28<1:44:17,  2.36s/it] 82%|██��███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                  | 12344/15000 [8:44:31<1:44:20,  2.36s/it] 82%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                  | 12345/15000 [8:44:33<1:50:44,  2.50s/it] 82%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                  | 12346/15000 [8:44:36<1:48:43,  2.46s/it] 82%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                  | 12347/15000 [8:44:38<1:47:14,  2.43s/it] 82%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                  | 12348/15000 [8:44:40<1:46:13,  2.40s/it] 82%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                  | 12349/15000 [8:44:43<1:45:26,  2.39s/it] 82%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                  | 12350/15000 [8:44:45<1:44:58,  2.38s/it]                                                                                                                                                                                                                                                {'loss': 2.6763, 'grad_norm': 1.7890625, 'learning_rate': 1.0271472189417294e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3484.91, 'total_tokens': 100894318, 'epoch': 0.82}
+ 82%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                  | 12350/15000 [8:44:45<1:44:58,  2.38s/it] 82%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                  | 12351/15000 [8:44:48<1:44:33,  2.37s/it] 82%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                  | 12352/15000 [8:44:50<1:44:22,  2.36s/it] 82%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                  | 12353/15000 [8:44:52<1:44:12,  2.36s/it] 82%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                  | 12354/15000 [8:44:55<1:44:03,  2.36s/it] 82%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                  | 12355/15000 [8:44:57<1:43:51,  2.36s/it] 82%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                  | 12356/15000 [8:44:59<1:43:49,  2.36s/it] 82%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                  | 12357/15000 [8:45:02<1:43:47,  2.36s/it] 82%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                  | 12358/15000 [8:45:04<1:43:47,  2.36s/it] 82%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                  | 12359/15000 [8:45:06<1:43:42,  2.36s/it] 82%|████████████████████████████████████████████████████████████████████████████��██████████████████████████████████████████████████████████████████████████████████                                  | 12360/15000 [8:45:09<1:43:42,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.7135, 'grad_norm': 2.625, 'learning_rate': 1.0216349392290302e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3474.39, 'total_tokens': 100976030, 'epoch': 0.82}
+ 82%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                  | 12360/15000 [8:45:09<1:43:42,  2.36s/it] 82%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                  | 12361/15000 [8:45:11<1:43:38,  2.36s/it] 82%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                  | 12362/15000 [8:45:13<1:43:33,  2.36s/it] 82%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                  | 12363/15000 [8:45:16<1:43:25,  2.35s/it] 82%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                  | 12364/15000 [8:45:18<1:43:22,  2.35s/it] 82%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                  | 12365/15000 [8:45:20<1:43:21,  2.35s/it] 82%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                  | 12366/15000 [8:45:23<1:43:20,  2.35s/it] 82%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████���████████████████████████████████████                                  | 12367/15000 [8:45:25<1:43:17,  2.35s/it] 82%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                 | 12368/15000 [8:45:28<1:43:13,  2.35s/it] 82%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                 | 12369/15000 [8:45:30<1:43:18,  2.36s/it] 82%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                 | 12370/15000 [8:45:32<1:43:14,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.6709, 'grad_norm': 1.734375, 'learning_rate': 1.0161384840821758e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3478.63, 'total_tokens': 101057683, 'epoch': 0.82}
+ 82%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                 | 12370/15000 [8:45:32<1:43:14,  2.36s/it] 82%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                 | 12371/15000 [8:45:35<1:43:14,  2.36s/it] 82%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                 | 12372/15000 [8:45:37<1:43:04,  2.35s/it] 82%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                 | 12373/15000 [8:45:39<1:43:01,  2.35s/it] 82%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                 | 12374/15000 [8:45:42<1:42:54,  2.35s/it] 82%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                 | 12375/15000 [8:45:44<1:42:55,  2.35s/it] 83%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                 | 12376/15000 [8:45:46<1:42:51,  2.35s/it] 83%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                 | 12377/15000 [8:45:49<1:42:55,  2.35s/it] 83%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                 | 12378/15000 [8:45:51<1:42:49,  2.35s/it] 83%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                 | 12379/15000 [8:45:53<1:42:49,  2.35s/it] 83%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                 | 12380/15000 [8:45:56<1:42:49,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.579, 'grad_norm': 1.671875, 'learning_rate': 1.0106579077489591e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3477.09, 'total_tokens': 101139367, 'epoch': 0.83}
+ 83%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                 | 12380/15000 [8:45:56<1:42:49,  2.35s/it] 83%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                 | 12381/15000 [8:45:58<1:42:55,  2.36s/it] 83%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                 | 12382/15000 [8:46:01<1:42:49,  2.36s/it] 83%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                 | 12383/15000 [8:46:03<1:42:40,  2.35s/it] 83%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                 | 12384/15000 [8:46:05<1:42:36,  2.35s/it] 83%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                 | 12385/15000 [8:46:08<1:42:32,  2.35s/it] 83%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                 | 12386/15000 [8:46:10<1:42:32,  2.35s/it] 83%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                 | 12387/15000 [8:46:12<1:42:31,  2.35s/it] 83%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                 | 12388/15000 [8:46:15<1:42:28,  2.35s/it] 83%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                 | 12389/15000 [8:46:17<1:42:26,  2.35s/it] 83%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                 | 12390/15000 [8:46:19<1:42:25,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6209, 'grad_norm': 1.703125, 'learning_rate': 1.0051932643204576e-05, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3474.68, 'total_tokens': 101220973, 'epoch': 0.83}
+ 83%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                 | 12390/15000 [8:46:19<1:42:25,  2.35s/it] 83%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                 | 12391/15000 [8:46:22<1:42:20,  2.35s/it] 83%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                 | 12392/15000 [8:46:24<1:42:12,  2.35s/it] 83%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                 | 12393/15000 [8:46:26<1:42:13,  2.35s/it] 83%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                 | 12394/15000 [8:46:29<1:42:11,  2.35s/it] 83%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                 | 12395/15000 [8:46:31<1:42:10,  2.35s/it] 83%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                 | 12396/15000 [8:46:33<1:42:09,  2.35s/it] 83%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                 | 12397/15000 [8:46:36<1:42:01,  2.35s/it] 83%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                 | 12398/15000 [8:46:38<1:42:03,  2.35s/it] 83%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                 | 12399/15000 [8:46:41<1:41:58,  2.35s/it] 83%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                 | 12400/15000 [8:46:43<1:41:57,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6509, 'grad_norm': 1.6015625, 'learning_rate': 9.997446077304939e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3478.28, 'total_tokens': 101302606, 'epoch': 0.83}
+ 83%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                 | 12400/15000 [8:46:43<1:41:57,  2.35s/it] 83%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                 | 12401/15000 [8:46:45<1:41:54,  2.35s/it] 83%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                 | 12402/15000 [8:46:48<1:41:56,  2.35s/it] 83%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                 | 12403/15000 [8:46:50<1:41:50,  2.35s/it] 83%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                 | 12404/15000 [8:46:52<1:41:56,  2.36s/it] 83%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████���█████████████████████████████████████████▌                                 | 12405/15000 [8:46:55<1:41:47,  2.35s/it] 83%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                 | 12406/15000 [8:46:57<1:41:40,  2.35s/it] 83%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                 | 12407/15000 [8:46:59<1:41:41,  2.35s/it] 83%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                 | 12408/15000 [8:47:02<1:41:35,  2.35s/it][2025-11-17 06:29:55,731] [INFO] [axolotl.utils.data.wrappers.get_dataset_wrapper:87] [PID:8163] Loading dataset: Goader/kobza-2m-jsonl with base_type: pretrain and prompt_style: None
+
+Tokenizing Prompts (num_proc=64):   0%|                                                                                                                                                                        | 0/10000 [00:00<?, ? examples/s][A
+Tokenizing Prompts (num_proc=64):   2%|██▍                                                                                                                                                           | 157/10000 [00:05<05:52, 27.93 examples/s][A
+Tokenizing Prompts (num_proc=64):   3%|████▉                                                                                                                                                         | 314/10000 [00:06<02:46, 58.09 examples/s][A
+Tokenizing Prompts (num_proc=64):   5%|███████▍                                                                                                                                                      | 471/10000 [00:07<01:49, 86.63 examples/s][A
+Tokenizing Prompts (num_proc=64):   6%|█████████▊                                                                                                                                                   | 628/10000 [00:07<01:21, 114.89 examples/s][A
+Tokenizing Prompts (num_proc=64):   8%|████████████▎                                                                                                                                                | 785/10000 [00:08<01:07, 137.40 examples/s][A
+Tokenizing Prompts (num_proc=64):   9%|██████████████▊                                                                                                                                              | 942/10000 [00:09<00:56, 160.45 examples/s][A
+Tokenizing Prompts (num_proc=64):  11%|█████████████████▏                                                                                                                                          | 1099/10000 [00:09<00:50, 175.08 examples/s][A
+Tokenizing Prompts (num_proc=64):  13%|███████████████████▌                                                                                                                                        | 1256/10000 [00:10<00:46, 189.83 examples/s][A
+Tokenizing Prompts (num_proc=64):  14%|██████████████████████                                                                                                                                      | 1413/10000 [00:11<00:42, 201.02 examples/s][A
+Tokenizing Prompts (num_proc=64):  16%|████████████████████████▍                                                                                                                                   | 1570/10000 [00:11<00:40, 209.88 examples/s][A
+Tokenizing Prompts (num_proc=64):  17%|███████��██████████████████▉                                                                                                                                 | 1727/10000 [00:12<00:38, 212.53 examples/s][A
+Tokenizing Prompts (num_proc=64):  19%|█████████████████████████████▍                                                                                                                              | 1884/10000 [00:13<00:38, 213.33 examples/s][A
+Tokenizing Prompts (num_proc=64):  20%|███████████████████████████████▊                                                                                                                            | 2041/10000 [00:13<00:36, 220.25 examples/s][A
+Tokenizing Prompts (num_proc=64):  22%|██████████████████████████████████▎                                                                                                                         | 2198/10000 [00:14<00:34, 227.63 examples/s][A
+Tokenizing Prompts (num_proc=64):  24%|████████████████████████████████████▋                                                                                                                       | 2355/10000 [00:15<00:33, 230.76 examples/s][A
+Tokenizing Prompts (num_proc=64):  25%|███████████████████████████████████████▏                                                                                                                    | 2512/10000 [00:16<00:39, 191.33 examples/s][A
+Tokenizing Prompts (num_proc=64):  27%|█████████████████████████████████████████▌                                                                                                                  | 2668/10000 [00:16<00:29, 247.56 examples/s][A
+Tokenizing Prompts (num_proc=64):  28%|████████████████████████████████████████████                                                                                                                | 2824/10000 [00:17<00:29, 239.66 examples/s][A
+Tokenizing Prompts (num_proc=64):  30%|██████████████████████████████████████████████▍                                                                                                             | 2980/10000 [00:18<00:29, 237.21 examples/s][A
+Tokenizing Prompts (num_proc=64):  31%|████████████████████████████████████████████████▉                                                                                                           | 3136/10000 [00:18<00:29, 232.20 examples/s][A
+Tokenizing Prompts (num_proc=64):  33%|███████████████████████████████████████████████████▎                                                                                                        | 3292/10000 [00:19<00:29, 226.84 examples/s][A
+Tokenizing Prompts (num_proc=64):  34%|█████████████████████████████████████████████████████▊                                                                                                      | 3448/10000 [00:19<00:26, 243.29 examples/s][A
+Tokenizing Prompts (num_proc=64):  36%|████████████████████████████████████████████████████████▏                                                                                                   | 3604/10000 [00:20<00:27, 232.26 examples/s][A
+Tokenizing Prompts (num_proc=64):  38%|██████████████████████████████████████████████████████████▋                                                                                                 | 3760/10000 [00:21<00:27, 225.18 examples/s][A
+Tokenizing Prompts (num_proc=64):  39%|█████████████████████████████████████████████████████████████                                                                                               | 3916/10000 [00:22<00:27, 220.16 examples/s][A
+Tokenizing Prompts (num_proc=64):  41%|████████████████████████████████████████���██████████████████████▌                                                                                            | 4072/10000 [00:23<00:30, 195.53 examples/s][A
+Tokenizing Prompts (num_proc=64):  42%|█████████████████████████████████████████████████████████████████▉                                                                                          | 4228/10000 [00:23<00:26, 221.06 examples/s][A
+Tokenizing Prompts (num_proc=64):  44%|████████████████████████████████████████████████████████████████████▍                                                                                       | 4384/10000 [00:24<00:26, 215.76 examples/s][A
+Tokenizing Prompts (num_proc=64):  45%|██████████████████████████████████████████████████████████████████████▊                                                                                     | 4540/10000 [00:25<00:24, 219.72 examples/s][A
+Tokenizing Prompts (num_proc=64):  47%|█████████████████████████████████████████████████████████████████████████▎                                                                                  | 4696/10000 [00:25<00:24, 213.65 examples/s][A
+Tokenizing Prompts (num_proc=64):  49%|███████████████████████████████████████████████████████████████████████████▋                                                                                | 4852/10000 [00:26<00:23, 220.57 examples/s][A
+Tokenizing Prompts (num_proc=64):  50%|██████████████████████████████████████████████████████████████████████████████                                                                              | 5008/10000 [00:27<00:22, 218.65 examples/s][A
+Tokenizing Prompts (num_proc=64):  52%|████████████████████████████████████████████████████████████████████████████████▌                                                                           | 5164/10000 [00:28<00:22, 217.67 examples/s][A
+Tokenizing Prompts (num_proc=64):  53%|██████████████████████████████████████████████████████████████████████████████████▉                                                                         | 5320/10000 [00:28<00:21, 217.09 examples/s][A
+Tokenizing Prompts (num_proc=64):  55%|█████████████████████████████████████████████████████████████████████████████████████▍                                                                      | 5476/10000 [00:29<00:20, 225.43 examples/s][A
+Tokenizing Prompts (num_proc=64):  56%|███████████████████████████████████████████████████████████████████████████████████████▊                                                                    | 5632/10000 [00:30<00:19, 224.21 examples/s][A
+Tokenizing Prompts (num_proc=64):  58%|██████████████████████████████████████████████████████████████████████████████████████████▎                                                                 | 5788/10000 [00:30<00:19, 218.34 examples/s][A
+Tokenizing Prompts (num_proc=64):  59%|████████████████████████████████████████████████████████████████████████████████████████████▋                                                               | 5944/10000 [00:31<00:19, 204.63 examples/s][A
+Tokenizing Prompts (num_proc=64):  61%|███████████████████████████████████████████████████████████████████████████████████████████████▏                                                            | 6100/10000 [00:32<00:18, 206.13 examples/s][A
+Tokenizing Prompts (num_proc=64):  63%|█████████████████████████████████████████████████████████████████████████████████████████████████▌                                                          | 6256/10000 [00:32<00:16, 227.65 examples/s][A
+Tokenizing Prompts (num_proc=64):  64%|████████████████████████████████████████████████████████████████████████████████████████████████████                                                        | 6412/10000 [00:33<00:16, 221.95 examples/s][A
+Tokenizing Prompts (num_proc=64):  66%|██████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                     | 6568/10000 [00:34<00:19, 178.85 examples/s][A
+Tokenizing Prompts (num_proc=64):  67%|████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                   | 6724/10000 [00:35<00:15, 217.86 examples/s][A
+Tokenizing Prompts (num_proc=64):  69%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                | 6880/10000 [00:35<00:13, 233.01 examples/s][A
+Tokenizing Prompts (num_proc=64):  70%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                              | 7036/10000 [00:36<00:13, 225.08 examples/s][A
+Tokenizing Prompts (num_proc=64):  72%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                           | 7192/10000 [00:37<00:12, 230.20 examples/s][A
+Tokenizing Prompts (num_proc=64):  73%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                         | 7348/10000 [00:38<00:12, 213.57 examples/s][A
+Tokenizing Prompts (num_proc=64):  75%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                       | 7504/10000 [00:38<00:11, 220.32 examples/s][A
+Tokenizing Prompts (num_proc=64):  77%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                    | 7660/10000 [00:40<00:12, 180.36 examples/s][A
+Tokenizing Prompts (num_proc=64):  78%|███████████████��█████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                  | 7816/10000 [00:40<00:09, 233.14 examples/s][A
+Tokenizing Prompts (num_proc=64):  80%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                               | 7972/10000 [00:40<00:08, 231.44 examples/s][A
+Tokenizing Prompts (num_proc=64):  81%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                             | 8128/10000 [00:42<00:10, 187.00 examples/s][A
+Tokenizing Prompts (num_proc=64):  83%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                          | 8284/10000 [00:42<00:07, 239.92 examples/s][A
+Tokenizing Prompts (num_proc=64):  84%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                        | 8440/10000 [00:43<00:08, 191.93 examples/s][A
+Tokenizing Prompts (num_proc=64):  86%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                      | 8596/10000 [00:43<00:05, 256.20 examples/s][A
+Tokenizing Prompts (num_proc=64):  88%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                   | 8752/10000 [00:44<00:05, 230.67 examples/s][A
+Tokenizing Prompts (num_proc=64):  89%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                 | 8908/10000 [00:45<00:04, 235.19 examples/s][A
+Tokenizing Prompts (num_proc=64):  91%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍              | 9064/10000 [00:45<00:03, 241.04 examples/s][A
+Tokenizing Prompts (num_proc=64):  92%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊            | 9220/10000 [00:46<00:03, 232.00 examples/s][A
+Tokenizing Prompts (num_proc=64):  94%|██████████████���███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎         | 9376/10000 [00:47<00:02, 235.29 examples/s][A
+Tokenizing Prompts (num_proc=64):  95%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋       | 9532/10000 [00:47<00:02, 233.17 examples/s][A
+Tokenizing Prompts (num_proc=64):  97%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏    | 9688/10000 [00:48<00:01, 223.35 examples/s][A
+Tokenizing Prompts (num_proc=64):  98%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌  | 9844/10000 [00:49<00:00, 228.59 examples/s][A
+Tokenizing Prompts (num_proc=64): 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10000/10000 [00:49<00:00, 231.79 examples/s][ATokenizing Prompts (num_proc=64): 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10000/10000 [00:52<00:00, 192.09 examples/s]
+
+Dropping Long Sequences:   0%|                                                                                                                                                                                 | 0/10001 [00:00<?, ? examples/s][A
+Dropping Long Sequences:  10%|████████████████▍                                                                                                                                                    | 1000/10001 [00:01<00:13, 643.92 examples/s][A
+Dropping Long Sequences:  20%|████████████████████████████████▊                                                                                                                                   | 2000/10001 [00:01<00:06, 1280.45 examples/s][A
+Dropping Long Sequences:  30%|█████████████████████████████████████████████████▏                                                                                                                  | 3000/10001 [00:02<00:03, 1857.54 examples/s][A
+Dropping Long Sequences:  40%|█████████████████████████████████████████████████████████████████▌                                                                                                  | 4000/10001 [00:02<00:02, 2307.19 examples/s][A
+Dropping Long Sequences:  50%|█████████████████████████████████████████████████████████████████████████████████▉                                                                                  | 5000/10001 [00:02<00:01, 2717.87 examples/s][A
+Dropping Long Sequences:  60%|██████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                 | 6000/10001 [00:02<00:01, 2964.41 examples/s][A
+Dropping Long Sequences:  70%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                 | 7000/10001 [00:03<00:00, 3235.71 examples/s][A
+Dropping Long Sequences:  80%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                | 8000/10001 [00:03<00:00, 3496.57 examples/s][A
+Dropping Long Sequences:  90%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                | 9000/10001 [00:03<00:00, 3648.53 examples/s][A
+Dropping Long Sequences: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉| 10000/10001 [00:03<00:00, 3761.69 examples/s][ADropping Long Sequences: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10001/10001 [00:03<00:00, 2566.17 examples/s]
+
+Add position_id column (Pretraining Sample Packing):   0%|                                                                                                                                                      | 0/8730 [00:00<?, ? examples/s][A
+Add position_id column (Pretraining Sample Packing):  11%|███████████████▊                                                                                                                          | 1000/8730 [00:01<00:09, 789.18 examples/s][A
+Add position_id column (Pretraining Sample Packing):  23%|███████████████████████████████▍                                                                                                         | 2000/8730 [00:01<00:04, 1638.89 examples/s][A
+Add position_id column (Pretraining Sample Packing):  34%|███████████████████████████████████████████████                                                                                          | 3000/8730 [00:01<00:02, 2523.25 examples/s][A
+Add position_id column (Pretraining Sample Packing):  46%|██████████████████████████████████████████████████████████████▊                                                                          | 4000/8730 [00:01<00:01, 3268.48 examples/s][A
+Add position_id column (Pretraining Sample Packing):  57%|██████████████████████████████████████████████████████████████████████████████▍                                                          | 5000/8730 [00:01<00:00, 4024.86 examples/s][A
+Add position_id column (Pretraining Sample Packing):  69%|██████████████████████████████████████████████████████████████████████████████████████████████▏                                          | 6000/8730 [00:02<00:00, 4699.35 examples/s][A
+Add position_id column (Pretraining Sample Packing):  80%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                           | 7000/8730 [00:02<00:00, 5295.84 examples/s][A
+Add position_id column (Pretraining Sample Packing):  92%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌           | 8000/8730 [00:02<00:00, 5396.67 examples/s][A
+Add position_id column (Pretraining Sample Packing): 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 8730/8730 [00:02<00:00, 5735.74 examples/s][AAdd position_id column (Pretraining Sample Packing): 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 8730/8730 [00:02<00:00, 3498.79 examples/s]
+[2025-11-17 06:30:55,854] [DEBUG] [axolotl.utils.samplers.multipack.pack_parallel:177] [PID:8163] Using single process for pack_parallel, running sequentially.
+ 83%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                 | 12409/15000 [8:48:10<16:01:16, 22.26s/it] 83%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                 | 12410/15000 [8:48:13<11:43:04, 16.29s/it]                                                                                                                                                                                                                                                {'loss': 2.6859, 'grad_norm': 1.7578125, 'learning_rate': 9.943119917551105e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3438.17, 'total_tokens': 101383194, 'epoch': 0.83}
+ 83%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                 | 12410/15000 [8:48:13<11:43:04, 16.29s/it] 83%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                 | 12411/15000 [8:48:15<8:42:29, 12.11s/it] 83%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                 | 12412/15000 [8:48:17<6:36:00,  9.18s/it] 83%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                 | 12413/15000 [8:48:20<5:07:32,  7.13s/it] 83%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                 | 12414/15000 [8:48:22<4:05:37,  5.70s/it] 83%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                 | 12415/15000 [8:48:25<3:22:18,  4.70s/it] 83%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                 | 12416/15000 [8:48:27<2:51:49,  3.99s/it] 83%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                 | 12417/15000 [8:48:29<2:30:35,  3.50s/it] 83%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                 | 12418/15000 [8:48:32<2:15:45,  3.15s/it] 83%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                 | 12419/15000 [8:48:34<2:05:15,  2.91s/it] 83%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████��█████████████████████████████▊                                 | 12420/15000 [8:48:36<1:57:56,  2.74s/it]                                                                                                                                                                                                                                                {'loss': 2.6384, 'grad_norm': 1.7265625, 'learning_rate': 9.888954700120323e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3496.51, 'total_tokens': 101465066, 'epoch': 0.83}
+ 83%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                 | 12420/15000 [8:48:36<1:57:56,  2.74s/it] 83%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                 | 12421/15000 [8:48:39<1:52:55,  2.63s/it] 83%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                 | 12422/15000 [8:48:41<1:49:22,  2.55s/it] 83%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                 | 12423/15000 [8:48:43<1:46:43,  2.48s/it] 83%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                 | 12424/15000 [8:48:46<1:44:54,  2.44s/it] 83%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                 | 12425/15000 [8:48:48<1:43:42,  2.42s/it] 83%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                 | 12426/15000 [8:48:50<1:42:45,  2.40s/it] 83%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                 | 12427/15000 [8:48:53<1:42:08,  2.38s/it] 83%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                 | 12428/15000 [8:48:55<1:41:39,  2.37s/it] 83%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                 | 12429/15000 [8:48:57<1:41:22,  2.37s/it] 83%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                 | 12430/15000 [8:49:00<1:41:05,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.6314, 'grad_norm': 1.7890625, 'learning_rate': 9.83495095960144e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3496.88, 'total_tokens': 101546907, 'epoch': 0.83}
+ 83%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                 | 12430/15000 [8:49:00<1:41:05,  2.36s/it] 83%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                 | 12431/15000 [8:49:02<1:40:54,  2.36s/it] 83%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                 | 12432/15000 [8:49:04<1:40:51,  2.36s/it] 83%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                 | 12433/15000 [8:49:07<1:40:40,  2.35s/it] 83%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                 | 12434/15000 [8:49:09<1:40:38,  2.35s/it] 83%|█████████████████████��█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                 | 12435/15000 [8:49:12<1:40:34,  2.35s/it] 83%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                 | 12436/15000 [8:49:14<1:40:27,  2.35s/it] 83%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                 | 12437/15000 [8:49:16<1:40:32,  2.35s/it] 83%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                 | 12438/15000 [8:49:19<1:40:27,  2.35s/it] 83%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                 | 12439/15000 [8:49:21<1:40:25,  2.35s/it] 83%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                 | 12440/15000 [8:49:23<1:40:25,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6262, 'grad_norm': 1.7421875, 'learning_rate': 9.781109228989552e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3486.26, 'total_tokens': 101628789, 'epoch': 0.83}
+ 83%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                 | 12440/15000 [8:49:23<1:40:25,  2.35s/it] 83%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                 | 12441/15000 [8:49:26<1:40:25,  2.35s/it] 83%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                 | 12442/15000 [8:49:28<1:40:25,  2.36s/it] 83%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                 | 12443/15000 [8:49:30<1:40:16,  2.35s/it] 83%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                 | 12444/15000 [8:49:33<1:40:07,  2.35s/it] 83%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                | 12445/15000 [8:49:35<1:40:07,  2.35s/it] 83%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                | 12446/15000 [8:49:37<1:40:08,  2.35s/it] 83%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                | 12447/15000 [8:49:40<1:40:03,  2.35s/it] 83%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                | 12448/15000 [8:49:42<1:39:58,  2.35s/it] 83%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                | 12449/15000 [8:49:44<1:39:58,  2.35s/it] 83%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                | 12450/15000 [8:49:47<1:39:55,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6712, 'grad_norm': 1.6796875, 'learning_rate': 9.727430039680824e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3491.83, 'total_tokens': 101710613, 'epoch': 0.83}
+ 83%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                | 12450/15000 [8:49:47<1:39:55,  2.35s/it] 83%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                | 12451/15000 [8:49:49<1:39:57,  2.35s/it] 83%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                | 12452/15000 [8:49:52<1:39:55,  2.35s/it] 83%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                | 12453/15000 [8:49:54<1:39:54,  2.35s/it] 83%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                | 12454/15000 [8:49:56<1:39:54,  2.35s/it] 83%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                | 12455/15000 [8:49:59<1:39:51,  2.35s/it] 83%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                | 12456/15000 [8:50:01<1:39:47,  2.35s/it] 83%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                | 12457/15000 [8:50:03<1:39:48,  2.35s/it] 83%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████��█████████████████████████████████████████████▎                                | 12458/15000 [8:50:06<1:39:41,  2.35s/it] 83%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                | 12459/15000 [8:50:08<1:39:37,  2.35s/it] 83%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                | 12460/15000 [8:50:10<1:39:36,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6894, 'grad_norm': 1.7265625, 'learning_rate': 9.67391392146717e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3484.5, 'total_tokens': 101792376, 'epoch': 0.83}
+ 83%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                | 12460/15000 [8:50:10<1:39:36,  2.35s/it] 83%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                | 12461/15000 [8:50:13<1:39:34,  2.35s/it] 83%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                | 12462/15000 [8:50:15<1:39:36,  2.35s/it] 83%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                | 12463/15000 [8:50:17<1:39:32,  2.35s/it] 83%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                | 12464/15000 [8:50:20<1:39:32,  2.36s/it] 83%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████���██████████▍                                | 12465/15000 [8:50:22<1:39:28,  2.35s/it] 83%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                | 12466/15000 [8:50:24<1:39:28,  2.36s/it] 83%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                | 12467/15000 [8:50:27<1:39:27,  2.36s/it] 83%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                | 12468/15000 [8:50:29<1:39:27,  2.36s/it] 83%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                | 12469/15000 [8:50:32<1:39:23,  2.36s/it] 83%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                | 12470/15000 [8:50:34<1:39:15,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6649, 'grad_norm': 1.84375, 'learning_rate': 9.620561402531067e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3493.35, 'total_tokens': 101874191, 'epoch': 0.83}
+ 83%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                | 12470/15000 [8:50:34<1:39:15,  2.35s/it] 83%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                | 12471/15000 [8:50:36<1:39:13,  2.35s/it] 83%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                | 12472/15000 [8:50:39<1:39:08,  2.35s/it] 83%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                | 12473/15000 [8:50:41<1:39:10,  2.35s/it] 83%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                | 12474/15000 [8:50:43<1:38:59,  2.35s/it] 83%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                | 12475/15000 [8:50:46<1:38:56,  2.35s/it] 83%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                | 12476/15000 [8:50:48<1:38:50,  2.35s/it] 83%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                | 12477/15000 [8:50:50<1:38:53,  2.35s/it] 83%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                | 12478/15000 [8:50:53<1:38:51,  2.35s/it] 83%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                | 12479/15000 [8:50:55<1:38:49,  2.35s/it] 83%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                | 12480/15000 [8:50:57<1:38:44,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6495, 'grad_norm': 1.7890625, 'learning_rate': 9.567373009440354e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3494.21, 'total_tokens': 101956003, 'epoch': 0.83}
+ 83%|██████████████████████████████���█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                | 12480/15000 [8:50:57<1:38:44,  2.35s/it] 83%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                | 12481/15000 [8:51:00<1:38:43,  2.35s/it] 83%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                | 12482/15000 [8:51:02<1:38:37,  2.35s/it] 83%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                | 12483/15000 [8:51:04<1:38:36,  2.35s/it] 83%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                | 12484/15000 [8:51:07<1:38:38,  2.35s/it] 83%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                | 12485/15000 [8:51:09<1:38:31,  2.35s/it] 83%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                | 12486/15000 [8:51:11<1:38:20,  2.35s/it] 83%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                | 12487/15000 [8:51:14<1:38:22,  2.35s/it] 83%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                | 12488/15000 [8:51:16<1:38:23,  2.35s/it] 83%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                | 12489/15000 [8:51:19<1:38:21,  2.35s/it] 83%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                | 12490/15000 [8:51:21<1:38:17,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.7083, 'grad_norm': 1.78125, 'learning_rate': 9.514349267142982e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3494.48, 'total_tokens': 102037802, 'epoch': 0.83}
+ 83%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                | 12490/15000 [8:51:21<1:38:17,  2.35s/it] 83%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                | 12491/15000 [8:51:23<1:38:20,  2.35s/it] 83%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                | 12492/15000 [8:51:26<1:38:16,  2.35s/it] 83%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                | 12493/15000 [8:51:28<1:38:14,  2.35s/it] 83%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                | 12494/15000 [8:51:30<1:38:14,  2.35s/it] 83%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                | 12495/15000 [8:51:33<1:38:13,  2.35s/it] 83%|██████████████████████████████████████████████████████████████████████████████████��█████████████████████████████████████████████████████████████████████████████▊                                | 12496/15000 [8:51:35<1:38:12,  2.35s/it] 83%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                | 12497/15000 [8:51:37<1:38:10,  2.35s/it] 83%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                | 12498/15000 [8:51:40<1:38:08,  2.35s/it] 83%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                | 12499/15000 [8:51:42<1:38:01,  2.35s/it] 83%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                | 12500/15000 [8:51:44<1:38:03,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.5984, 'grad_norm': 1.671875, 'learning_rate': 9.461490698961895e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3477.88, 'total_tokens': 102119567, 'epoch': 0.83}
+ 83%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                | 12500/15000 [8:51:44<1:38:03,  2.35s/it] 83%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                | 12501/15000 [8:51:47<1:38:02,  2.35s/it] 83%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                | 12502/15000 [8:51:49<1:37:55,  2.35s/it] 83%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                | 12503/15000 [8:51:51<1:37:54,  2.35s/it] 83%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                | 12504/15000 [8:51:54<1:37:52,  2.35s/it] 83%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                | 12505/15000 [8:51:56<1:37:49,  2.35s/it] 83%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                | 12506/15000 [8:51:59<1:37:55,  2.36s/it] 83%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                | 12507/15000 [8:52:01<1:37:43,  2.35s/it] 83%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                | 12508/15000 [8:52:03<1:37:46,  2.35s/it] 83%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                | 12509/15000 [8:52:06<1:37:46,  2.36s/it] 83%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                | 12510/15000 [8:52:08<1:37:37,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6787, 'grad_norm': 1.7890625, 'learning_rate': 9.408797826589804e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3497.08, 'total_tokens': 102201358, 'epoch': 0.83}
+ 83%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                | 12510/15000 [8:52:08<1:37:37,  2.35s/it] 83%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                | 12511/15000 [8:52:10<1:37:41,  2.35s/it] 83%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                | 12512/15000 [8:52:13<1:37:34,  2.35s/it] 83%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                | 12513/15000 [8:52:15<1:37:30,  2.35s/it] 83%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                | 12514/15000 [8:52:17<1:37:30,  2.35s/it] 83%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                | 12515/15000 [8:52:20<1:37:23,  2.35s/it] 83%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                | 12516/15000 [8:52:22<1:37:22,  2.35s/it] 83%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                | 12517/15000 [8:52:24<1:37:27,  2.35s/it] 83%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                | 12518/15000 [8:52:27<1:37:23,  2.35s/it] 83%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                | 12519/15000 [8:52:29<1:37:21,  2.35s/it] 83%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                | 12520/15000 [8:52:32<1:37:17,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.621, 'grad_norm': 1.703125, 'learning_rate': 9.356271170084105e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3487.66, 'total_tokens': 102283138, 'epoch': 0.83}
+ 83%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                | 12520/15000 [8:52:32<1:37:17,  2.35s/it] 83%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                | 12521/15000 [8:52:34<1:37:15,  2.35s/it] 83%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                | 12522/15000 [8:52:36<1:37:11,  2.35s/it] 83%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                               | 12523/15000 [8:52:39<1:37:15,  2.36s/it] 83%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                               | 12524/15000 [8:52:41<1:37:06,  2.35s/it] 84%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                               | 12525/15000 [8:52:43<1:37:05,  2.35s/it] 84%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                               | 12526/15000 [8:52:46<1:37:01,  2.35s/it] 84%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                               | 12527/15000 [8:52:48<1:36:57,  2.35s/it] 84%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                               | 12528/15000 [8:52:50<1:37:01,  2.35s/it] 84%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                               | 12529/15000 [8:52:53<1:36:55,  2.35s/it] 84%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                               | 12530/15000 [8:52:55<1:36:47,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.7011, 'grad_norm': 1.7734375, 'learning_rate': 9.303911247861677e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3498.63, 'total_tokens': 102364975, 'epoch': 0.84}
+ 84%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                               | 12530/15000 [8:52:55<1:36:47,  2.35s/it] 84%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                               | 12531/15000 [8:52:57<1:36:46,  2.35s/it] 84%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                               | 12532/15000 [8:53:00<1:36:46,  2.35s/it] 84%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                               | 12533/15000 [8:53:02<1:36:43,  2.35s/it] 84%|█████████████████████████████████████████��███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                               | 12534/15000 [8:53:04<1:36:46,  2.35s/it] 84%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                               | 12535/15000 [8:53:07<1:36:42,  2.35s/it] 84%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                               | 12536/15000 [8:53:09<1:36:42,  2.35s/it] 84%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                               | 12537/15000 [8:53:12<1:36:37,  2.35s/it] 84%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                               | 12538/15000 [8:53:14<1:36:34,  2.35s/it] 84%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                               | 12539/15000 [8:53:16<1:36:29,  2.35s/it] 84%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                               | 12540/15000 [8:53:19<1:36:21,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.644, 'grad_norm': 1.765625, 'learning_rate': 9.251718576693826e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3497.43, 'total_tokens': 102446731, 'epoch': 0.84}
+ 84%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                               | 12540/15000 [8:53:19<1:36:21,  2.35s/it] 84%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                               | 12541/15000 [8:53:21<1:36:22,  2.35s/it] 84%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                               | 12542/15000 [8:53:23<1:36:25,  2.35s/it] 84%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                               | 12543/15000 [8:53:26<1:36:16,  2.35s/it] 84%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                               | 12544/15000 [8:53:28<1:36:12,  2.35s/it] 84%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                               | 12545/15000 [8:53:30<1:36:15,  2.35s/it] 84%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                               | 12546/15000 [8:53:33<1:36:15,  2.35s/it] 84%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                               | 12547/15000 [8:53:35<1:36:12,  2.35s/it] 84%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                               | 12548/15000 [8:53:37<1:36:08,  2.35s/it] 84%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                               | 12549/15000 [8:53:40<1:36:04,  2.35s/it] 84%|██████████████████████████████████████████████████████████████████████████████████��██████████████████████████████████████████████████████████████████████████████▍                               | 12550/15000 [8:53:42<1:35:55,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6216, 'grad_norm': 1.7109375, 'learning_rate': 9.19969367170114e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3502.91, 'total_tokens': 102528539, 'epoch': 0.84}
+ 84%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                               | 12550/15000 [8:53:42<1:35:55,  2.35s/it] 84%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                               | 12551/15000 [8:53:44<1:35:59,  2.35s/it] 84%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                               | 12552/15000 [8:53:47<1:35:54,  2.35s/it] 84%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                               | 12553/15000 [8:53:49<1:36:01,  2.35s/it] 84%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                               | 12554/15000 [8:53:51<1:35:53,  2.35s/it] 84%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                               | 12555/15000 [8:53:54<1:35:55,  2.35s/it] 84%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                               | 12556/15000 [8:53:56<1:35:53,  2.35s/it] 84%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████��█████████████████████████████████████████████████▌                               | 12557/15000 [8:53:59<1:35:51,  2.35s/it] 84%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                               | 12558/15000 [8:54:01<1:35:43,  2.35s/it] 84%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                               | 12559/15000 [8:54:03<1:35:41,  2.35s/it] 84%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                               | 12560/15000 [8:54:06<1:35:38,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6082, 'grad_norm': 1.84375, 'learning_rate': 9.14783704634842e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3488.24, 'total_tokens': 102610333, 'epoch': 0.84}
+ 84%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                               | 12560/15000 [8:54:06<1:35:38,  2.35s/it] 84%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                               | 12561/15000 [8:54:08<1:35:38,  2.35s/it] 84%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                               | 12562/15000 [8:54:10<1:35:36,  2.35s/it] 84%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                               | 12563/15000 [8:54:13<1:35:30,  2.35s/it] 84%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████���███████████████████▋                               | 12564/15000 [8:54:15<1:35:29,  2.35s/it] 84%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                               | 12565/15000 [8:54:17<1:35:32,  2.35s/it] 84%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                               | 12566/15000 [8:54:20<1:35:31,  2.35s/it] 84%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                               | 12567/15000 [8:54:22<1:35:21,  2.35s/it] 84%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                               | 12568/15000 [8:54:24<1:35:21,  2.35s/it] 84%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                               | 12569/15000 [8:54:27<1:35:14,  2.35s/it] 84%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                               | 12570/15000 [8:54:29<1:35:18,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6671, 'grad_norm': 1.6796875, 'learning_rate': 9.096149212439636e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3476.19, 'total_tokens': 102692091, 'epoch': 0.84}
+ 84%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                               | 12570/15000 [8:54:29<1:35:18,  2.35s/it] 84%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                               | 12571/15000 [8:54:31<1:35:13,  2.35s/it] 84%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                               | 12572/15000 [8:54:34<1:35:07,  2.35s/it] 84%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                               | 12573/15000 [8:54:36<1:35:02,  2.35s/it] 84%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                               | 12574/15000 [8:54:39<1:35:10,  2.35s/it] 84%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                               | 12575/15000 [8:54:41<1:35:05,  2.35s/it] 84%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                               | 12576/15000 [8:54:43<1:35:03,  2.35s/it] 84%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                               | 12577/15000 [8:54:46<1:35:00,  2.35s/it] 84%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                               | 12578/15000 [8:54:48<1:35:03,  2.35s/it] 84%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                               | 12579/15000 [8:54:50<1:35:07,  2.36s/it] 84%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                               | 12580/15000 [8:54:53<1:35:02,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.6628, 'grad_norm': 1.703125, 'learning_rate': 9.044630680112828e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3484.63, 'total_tokens': 102773864, 'epoch': 0.84}
+ 84%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                               | 12580/15000 [8:54:53<1:35:02,  2.36s/it] 84%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                               | 12581/15000 [8:54:55<1:34:58,  2.36s/it] 84%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                               | 12582/15000 [8:54:57<1:34:51,  2.35s/it] 84%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                               | 12583/15000 [8:55:00<1:34:45,  2.35s/it] 84%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                               | 12584/15000 [8:55:02<1:34:47,  2.35s/it] 84%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                               | 12585/15000 [8:55:04<1:34:42,  2.35s/it] 84%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                               | 12586/15000 [8:55:07<1:34:36,  2.35s/it] 84%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                               | 12587/15000 [8:55:09<1:34:36,  2.35s/it] 84%|██████████████████████���██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                               | 12588/15000 [8:55:12<1:34:39,  2.35s/it] 84%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                               | 12589/15000 [8:55:14<1:34:33,  2.35s/it] 84%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                               | 12590/15000 [8:55:16<1:34:39,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.6, 'grad_norm': 1.703125, 'learning_rate': 8.993281957835125e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3466.37, 'total_tokens': 102855601, 'epoch': 0.84}
+ 84%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                               | 12590/15000 [8:55:16<1:34:39,  2.36s/it] 84%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                               | 12591/15000 [8:55:19<1:34:39,  2.36s/it] 84%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                               | 12592/15000 [8:55:21<1:34:30,  2.35s/it] 84%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                               | 12593/15000 [8:55:23<1:34:24,  2.35s/it] 84%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                               | 12594/15000 [8:55:26<1:34:24,  2.35s/it] 84%|████████████████████████████████████████████████████���█████████████████████████████████████████████████████████████████████████████████████████████████████████████                               | 12595/15000 [8:55:28<1:34:17,  2.35s/it] 84%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                               | 12596/15000 [8:55:30<1:34:10,  2.35s/it] 84%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                               | 12597/15000 [8:55:33<1:34:11,  2.35s/it] 84%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                               | 12598/15000 [8:55:35<1:34:08,  2.35s/it] 84%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                               | 12599/15000 [8:55:37<1:34:10,  2.35s/it] 84%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                               | 12600/15000 [8:55:40<1:34:10,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6624, 'grad_norm': 1.7109375, 'learning_rate': 8.942103552397673e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3478.57, 'total_tokens': 102937311, 'epoch': 0.84}
+ 84%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                               | 12600/15000 [8:55:40<1:34:10,  2.35s/it] 84%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                              | 12601/15000 [8:55:42<1:34:07,  2.35s/it] 84%|████████████████████████████████████████████████████████████████████████████████���█████████████████████████████████████████████████████████████████████████████████▏                              | 12602/15000 [8:55:44<1:34:17,  2.36s/it] 84%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                              | 12603/15000 [8:55:47<1:34:21,  2.36s/it] 84%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                              | 12604/15000 [8:55:49<1:34:15,  2.36s/it] 84%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                              | 12605/15000 [8:55:52<1:34:10,  2.36s/it] 84%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                              | 12606/15000 [8:55:54<1:34:02,  2.36s/it] 84%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                              | 12607/15000 [8:55:56<1:34:03,  2.36s/it] 84%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                              | 12608/15000 [8:55:59<1:33:55,  2.36s/it] 84%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                              | 12609/15000 [8:56:01<1:33:47,  2.35s/it] 84%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                              | 12610/15000 [8:56:03<1:33:49,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.6212, 'grad_norm': 1.6875, 'learning_rate': 8.89109596891069e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3476.18, 'total_tokens': 103019092, 'epoch': 0.84}
+ 84%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                              | 12610/15000 [8:56:03<1:33:49,  2.36s/it] 84%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                              | 12611/15000 [8:56:06<1:33:42,  2.35s/it] 84%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                              | 12612/15000 [8:56:08<1:33:42,  2.35s/it] 84%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                              | 12613/15000 [8:56:10<1:33:38,  2.35s/it] 84%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                              | 12614/15000 [8:56:13<1:33:33,  2.35s/it] 84%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                              | 12615/15000 [8:56:16<1:39:22,  2.50s/it] 84%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                              | 12616/15000 [8:56:18<1:37:42,  2.46s/it] 84%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                              | 12617/15000 [8:56:20<1:36:23,  2.43s/it] 84%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████��███████████████████████████████████████████████████▎                              | 12618/15000 [8:56:23<1:35:24,  2.40s/it] 84%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                              | 12619/15000 [8:56:25<1:34:39,  2.39s/it] 84%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                              | 12620/15000 [8:56:27<1:34:17,  2.38s/it]                                                                                                                                                                                                                                                {'loss': 2.6027, 'grad_norm': 1.6953125, 'learning_rate': 8.84025971079841e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3480.24, 'total_tokens': 103100885, 'epoch': 0.84}
+ 84%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                              | 12620/15000 [8:56:27<1:34:17,  2.38s/it] 84%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                              | 12621/15000 [8:56:30<1:34:00,  2.37s/it] 84%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                              | 12622/15000 [8:56:32<1:33:49,  2.37s/it] 84%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                              | 12623/15000 [8:56:34<1:33:36,  2.36s/it] 84%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                              | 12624/15000 [8:56:37<1:33:28,  2.36s/it] 84%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████���███████████████████████████▍                              | 12625/15000 [8:56:39<1:33:28,  2.36s/it] 84%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                              | 12626/15000 [8:56:41<1:33:19,  2.36s/it] 84%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                              | 12627/15000 [8:56:44<1:33:14,  2.36s/it] 84%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                              | 12628/15000 [8:56:46<1:33:04,  2.35s/it] 84%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                              | 12629/15000 [8:56:49<1:33:08,  2.36s/it] 84%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                              | 12630/15000 [8:56:51<1:33:04,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.6329, 'grad_norm': 1.7421875, 'learning_rate': 8.789595279794194e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3481.07, 'total_tokens': 103182603, 'epoch': 0.84}
+ 84%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                              | 12630/15000 [8:56:51<1:33:04,  2.36s/it] 84%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                              | 12631/15000 [8:56:53<1:33:00,  2.36s/it] 84%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████��████▌                              | 12632/15000 [8:56:56<1:33:01,  2.36s/it] 84%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                              | 12633/15000 [8:56:58<1:32:52,  2.35s/it] 84%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                              | 12634/15000 [8:57:00<1:32:48,  2.35s/it] 84%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                              | 12635/15000 [8:57:03<1:32:42,  2.35s/it] 84%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                              | 12636/15000 [8:57:05<1:32:41,  2.35s/it] 84%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                              | 12637/15000 [8:57:07<1:32:38,  2.35s/it] 84%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                              | 12638/15000 [8:57:10<1:32:38,  2.35s/it] 84%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                              | 12639/15000 [8:57:12<1:32:40,  2.36s/it] 84%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                              | 12640/15000 [8:57:14<1:32:42,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.6513, 'grad_norm': 1.7265625, 'learning_rate': 8.739103175935515e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3470.88, 'total_tokens': 103264310, 'epoch': 0.84}
+ 84%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                              | 12640/15000 [8:57:14<1:32:42,  2.36s/it] 84%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                              | 12641/15000 [8:57:17<1:32:40,  2.36s/it] 84%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                              | 12642/15000 [8:57:19<1:32:40,  2.36s/it] 84%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                              | 12643/15000 [8:57:22<1:32:34,  2.36s/it] 84%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                              | 12644/15000 [8:57:24<1:32:29,  2.36s/it] 84%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                              | 12645/15000 [8:57:26<1:32:30,  2.36s/it] 84%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                              | 12646/15000 [8:57:29<1:32:30,  2.36s/it] 84%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                              | 12647/15000 [8:57:31<1:32:24,  2.36s/it] 84%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                              | 12648/15000 [8:57:33<1:32:23,  2.36s/it] 84%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                              | 12649/15000 [8:57:36<1:32:22,  2.36s/it] 84%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                              | 12650/15000 [8:57:38<1:32:20,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.6183, 'grad_norm': 1.703125, 'learning_rate': 8.68878389755905e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3479.43, 'total_tokens': 103346077, 'epoch': 0.84}
+ 84%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                              | 12650/15000 [8:57:38<1:32:20,  2.36s/it] 84%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                              | 12651/15000 [8:57:40<1:32:15,  2.36s/it] 84%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                              | 12652/15000 [8:57:43<1:32:14,  2.36s/it] 84%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                              | 12653/15000 [8:57:45<1:32:07,  2.36s/it] 84%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                              | 12654/15000 [8:57:47<1:32:01,  2.35s/it] 84%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                              | 12655/15000 [8:57:50<1:32:00,  2.35s/it] 84%|█████████████████████��████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                              | 12656/15000 [8:57:52<1:31:59,  2.35s/it] 84%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                              | 12657/15000 [8:57:54<1:31:54,  2.35s/it] 84%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                              | 12658/15000 [8:57:57<1:31:58,  2.36s/it] 84%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                              | 12659/15000 [8:57:59<1:31:55,  2.36s/it] 84%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                              | 12660/15000 [8:58:02<1:31:52,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.662, 'grad_norm': 1.734375, 'learning_rate': 8.638637941295773e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3479.74, 'total_tokens': 103427780, 'epoch': 0.84}
+ 84%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                              | 12660/15000 [8:58:02<1:31:52,  2.36s/it] 84%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                              | 12661/15000 [8:58:04<1:31:53,  2.36s/it] 84%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                              | 12662/15000 [8:58:06<1:31:47,  2.36s/it] 84%|█████████████████████████████████████████████��████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                              | 12663/15000 [8:58:09<1:31:42,  2.35s/it] 84%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                              | 12664/15000 [8:58:11<1:31:40,  2.35s/it] 84%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                              | 12665/15000 [8:58:13<1:31:38,  2.35s/it] 84%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                              | 12666/15000 [8:58:16<1:31:35,  2.35s/it] 84%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                              | 12667/15000 [8:58:18<1:31:37,  2.36s/it] 84%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                              | 12668/15000 [8:58:20<1:31:34,  2.36s/it] 84%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                              | 12669/15000 [8:58:23<1:31:31,  2.36s/it] 84%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                              | 12670/15000 [8:58:25<1:31:27,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.6204, 'grad_norm': 1.6640625, 'learning_rate': 8.588665802066013e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3485.24, 'total_tokens': 103509560, 'epoch': 0.84}
+ 84%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                              | 12670/15000 [8:58:25<1:31:27,  2.36s/it] 84%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                              | 12671/15000 [8:58:27<1:31:25,  2.36s/it] 84%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                              | 12672/15000 [8:58:30<1:31:26,  2.36s/it] 84%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                              | 12673/15000 [8:58:32<1:31:22,  2.36s/it] 84%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                              | 12674/15000 [8:58:35<1:31:18,  2.36s/it] 84%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                              | 12675/15000 [8:58:37<1:31:22,  2.36s/it] 85%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                              | 12676/15000 [8:58:39<1:31:24,  2.36s/it] 85%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                              | 12677/15000 [8:58:42<1:31:22,  2.36s/it] 85%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                              | 12678/15000 [8:58:44<1:31:17,  2.36s/it] 85%|██████████████████████████████████████████████████████████████████████████��████████████████████████████████████████████████████████████████████████████████████████▏                             | 12679/15000 [8:58:46<1:31:14,  2.36s/it] 85%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                             | 12680/15000 [8:58:49<1:31:03,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.7228, 'grad_norm': 1.765625, 'learning_rate': 8.538867973074625e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3495.06, 'total_tokens': 103591300, 'epoch': 0.85}
+ 85%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                             | 12680/15000 [8:58:49<1:31:03,  2.36s/it] 85%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                             | 12681/15000 [8:58:51<1:31:08,  2.36s/it] 85%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                             | 12682/15000 [8:58:53<1:31:01,  2.36s/it] 85%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                             | 12683/15000 [8:58:56<1:30:58,  2.36s/it] 85%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                             | 12684/15000 [8:58:58<1:30:55,  2.36s/it] 85%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                             | 12685/15000 [8:59:00<1:30:52,  2.36s/it] 85%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                             | 12686/15000 [8:59:03<1:30:45,  2.35s/it] 85%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                             | 12687/15000 [8:59:05<1:30:45,  2.35s/it] 85%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                             | 12688/15000 [8:59:08<1:30:47,  2.36s/it] 85%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                             | 12689/15000 [8:59:10<1:30:38,  2.35s/it] 85%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                             | 12690/15000 [8:59:12<1:30:35,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6235, 'grad_norm': 1.765625, 'learning_rate': 8.489244945806061e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3487.41, 'total_tokens': 103673060, 'epoch': 0.85}
+ 85%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                             | 12690/15000 [8:59:12<1:30:35,  2.35s/it] 85%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                             | 12691/15000 [8:59:15<1:30:35,  2.35s/it] 85%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                             | 12692/15000 [8:59:17<1:30:27,  2.35s/it] 85%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████���███████████████████████████████████████████████████▎                             | 12693/15000 [8:59:19<1:30:24,  2.35s/it] 85%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                             | 12694/15000 [8:59:22<1:30:24,  2.35s/it] 85%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                             | 12695/15000 [8:59:24<1:30:24,  2.35s/it] 85%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                             | 12696/15000 [8:59:26<1:30:25,  2.36s/it] 85%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                             | 12697/15000 [8:59:29<1:30:27,  2.36s/it] 85%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                             | 12698/15000 [8:59:31<1:30:22,  2.36s/it] 85%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                             | 12699/15000 [8:59:33<1:30:24,  2.36s/it] 85%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                             | 12700/15000 [8:59:36<1:30:24,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.696, 'grad_norm': 1.6875, 'learning_rate': 8.439797210019585e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3471.46, 'total_tokens': 103754785, 'epoch': 0.85}
+ 85%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████��████████████████████████████████▍                             | 12700/15000 [8:59:36<1:30:24,  2.36s/it] 85%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                             | 12701/15000 [8:59:38<1:30:21,  2.36s/it] 85%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                             | 12702/15000 [8:59:41<1:30:14,  2.36s/it] 85%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                             | 12703/15000 [8:59:43<1:30:10,  2.36s/it] 85%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                             | 12704/15000 [8:59:45<1:30:15,  2.36s/it] 85%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                             | 12705/15000 [8:59:48<1:30:09,  2.36s/it] 85%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                             | 12706/15000 [8:59:50<1:30:03,  2.36s/it] 85%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                             | 12707/15000 [8:59:52<1:30:01,  2.36s/it] 85%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                             | 12708/15000 [8:59:55<1:29:58,  2.36s/it] 85%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████���████████████████████████████████▌                             | 12709/15000 [8:59:57<1:30:00,  2.36s/it] 85%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                             | 12710/15000 [8:59:59<1:29:57,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.6975, 'grad_norm': 1.7734375, 'learning_rate': 8.39052525374437e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3478.12, 'total_tokens': 103836491, 'epoch': 0.85}
+ 85%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                             | 12710/15000 [8:59:59<1:29:57,  2.36s/it] 85%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                             | 12711/15000 [9:00:02<1:29:52,  2.36s/it] 85%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                             | 12712/15000 [9:00:04<1:29:49,  2.36s/it] 85%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                             | 12713/15000 [9:00:06<1:29:48,  2.36s/it] 85%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                             | 12714/15000 [9:00:09<1:29:47,  2.36s/it] 85%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                             | 12715/15000 [9:00:11<1:29:47,  2.36s/it] 85%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████��██████████████▌                             | 12716/15000 [9:00:13<1:29:42,  2.36s/it] 85%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                             | 12717/15000 [9:00:16<1:29:34,  2.35s/it] 85%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                             | 12718/15000 [9:00:18<1:29:33,  2.35s/it] 85%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                             | 12719/15000 [9:00:21<1:29:23,  2.35s/it] 85%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                             | 12720/15000 [9:00:23<1:29:23,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6759, 'grad_norm': 1.7578125, 'learning_rate': 8.34142956327474e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3478.72, 'total_tokens': 103918156, 'epoch': 0.85}
+ 85%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                             | 12720/15000 [9:00:23<1:29:23,  2.35s/it] 85%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                             | 12721/15000 [9:00:25<1:29:26,  2.35s/it] 85%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                             | 12722/15000 [9:00:28<1:29:23,  2.35s/it] 85%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                             | 12723/15000 [9:00:30<1:29:21,  2.35s/it] 85%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                             | 12724/15000 [9:00:32<1:29:14,  2.35s/it] 85%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                             | 12725/15000 [9:00:35<1:29:14,  2.35s/it] 85%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                             | 12726/15000 [9:00:37<1:29:10,  2.35s/it] 85%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                             | 12727/15000 [9:00:39<1:29:08,  2.35s/it] 85%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                             | 12728/15000 [9:00:42<1:29:09,  2.35s/it] 85%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                             | 12729/15000 [9:00:44<1:29:03,  2.35s/it] 85%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                             | 12730/15000 [9:00:46<1:28:58,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6806, 'grad_norm': 1.859375, 'learning_rate': 8.292510623165344e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3485.71, 'total_tokens': 103999777, 'epoch': 0.85}
+ 85%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                             | 12730/15000 [9:00:46<1:28:58,  2.35s/it] 85%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                             | 12731/15000 [9:00:49<1:28:57,  2.35s/it] 85%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                             | 12732/15000 [9:00:51<1:28:56,  2.35s/it] 85%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                             | 12733/15000 [9:00:53<1:28:52,  2.35s/it] 85%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                             | 12734/15000 [9:00:56<1:28:46,  2.35s/it] 85%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                             | 12735/15000 [9:00:58<1:28:43,  2.35s/it] 85%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                             | 12736/15000 [9:01:01<1:28:42,  2.35s/it] 85%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                             | 12737/15000 [9:01:03<1:28:37,  2.35s/it] 85%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                             | 12738/15000 [9:01:05<1:28:38,  2.35s/it] 85%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                             | 12739/15000 [9:01:08<1:28:44,  2.36s/it] 85%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                             | 12740/15000 [9:01:10<1:28:40,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6873, 'grad_norm': 1.8125, 'learning_rate': 8.243768916226355e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3482.29, 'total_tokens': 104081443, 'epoch': 0.85}
+ 85%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                             | 12740/15000 [9:01:10<1:28:40,  2.35s/it] 85%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                             | 12741/15000 [9:01:12<1:28:37,  2.35s/it] 85%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                             | 12742/15000 [9:01:15<1:28:31,  2.35s/it] 85%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                             | 12743/15000 [9:01:17<1:28:27,  2.35s/it] 85%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                             | 12744/15000 [9:01:19<1:28:29,  2.35s/it] 85%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                             | 12745/15000 [9:01:22<1:28:35,  2.36s/it] 85%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                             | 12746/15000 [9:01:24<1:28:25,  2.35s/it] 85%|██████████████���█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                             | 12747/15000 [9:01:26<1:28:22,  2.35s/it] 85%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                             | 12748/15000 [9:01:29<1:28:19,  2.35s/it] 85%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                             | 12749/15000 [9:01:31<1:28:20,  2.35s/it] 85%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                             | 12750/15000 [9:01:33<1:28:10,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.7224, 'grad_norm': 1.875, 'learning_rate': 8.195204923518762e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3492.47, 'total_tokens': 104163046, 'epoch': 0.85}
+ 85%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                             | 12750/15000 [9:01:33<1:28:10,  2.35s/it] 85%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                             | 12751/15000 [9:01:36<1:28:18,  2.36s/it] 85%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                             | 12752/15000 [9:01:38<1:28:09,  2.35s/it] 85%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                             | 12753/15000 [9:01:41<1:28:02,  2.35s/it] 85%|█████████████████████████████████��██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                             | 12754/15000 [9:01:43<1:28:01,  2.35s/it] 85%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                             | 12755/15000 [9:01:45<1:28:02,  2.35s/it] 85%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                            | 12756/15000 [9:01:48<1:28:04,  2.36s/it] 85%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                            | 12757/15000 [9:01:50<1:28:03,  2.36s/it] 85%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                            | 12758/15000 [9:01:52<1:27:58,  2.35s/it] 85%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                            | 12759/15000 [9:01:55<1:27:55,  2.35s/it] 85%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                            | 12760/15000 [9:01:57<1:27:56,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.7025, 'grad_norm': 1.765625, 'learning_rate': 8.146819124349551e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3461.89, 'total_tokens': 104244489, 'epoch': 0.85}
+ 85%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                            | 12760/15000 [9:01:57<1:27:56,  2.36s/it] 85%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                            | 12761/15000 [9:01:59<1:27:53,  2.36s/it] 85%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                            | 12762/15000 [9:02:02<1:27:48,  2.35s/it][2025-11-17 06:44:55,923] [INFO] [axolotl.utils.data.wrappers.get_dataset_wrapper:87] [PID:8163] Loading dataset: Goader/kobza-2m-jsonl with base_type: pretrain and prompt_style: None
+
+Tokenizing Prompts (num_proc=64):   0%|                                                                                                                                                                        | 0/10000 [00:00<?, ? examples/s][A
+Tokenizing Prompts (num_proc=64):   2%|██▍                                                                                                                                                           | 157/10000 [00:05<06:01, 27.26 examples/s][A
+Tokenizing Prompts (num_proc=64):   3%|████▉                                                                                                                                                         | 314/10000 [00:06<02:54, 55.36 examples/s][A
+Tokenizing Prompts (num_proc=64):   5%|███████▍                                                                                                                                                      | 471/10000 [00:07<01:51, 85.65 examples/s][A
+Tokenizing Prompts (num_proc=64):   6%|█████████▊                                                                                                                                                   | 628/10000 [00:07<01:23, 112.31 examples/s][A
+Tokenizing Prompts (num_proc=64):   8%|████████████▎                                                                                                                                                | 785/10000 [00:08<01:06, 137.64 examples/s][A
+Tokenizing Prompts (num_proc=64):   9%|██████████████▊                                                                                                                                              | 942/10000 [00:09<00:57, 158.09 examples/s][A
+Tokenizing Prompts (num_proc=64):  11%|█████████████████▏                                                                                                                                          | 1099/10000 [00:09<00:50, 178.01 examples/s][A
+Tokenizing Prompts (num_proc=64):  13%|███████████████████▌                                                                                                                                        | 1256/10000 [00:10<00:45, 192.22 examples/s][A
+Tokenizing Prompts (num_proc=64):  14%|██████████████████████                                                                                                                                      | 1413/10000 [00:11<00:42, 202.70 examples/s][A
+Tokenizing Prompts (num_proc=64):  16%|████████████████████████▍                                                                                                                                   | 1570/10000 [00:12<00:47, 176.34 examples/s][A
+Tokenizing Prompts (num_proc=64):  17%|██████████████████████████▉                                                                                                                                 | 1727/10000 [00:13<00:43, 189.36 examples/s][A
+Tokenizing Prompts (num_proc=64):  19%|█████████████████████████████▍                                                                                                                              | 1884/10000 [00:13<00:40, 201.27 examples/s][A
+Tokenizing Prompts (num_proc=64):  20%|███████████████████████████████▊                                                                                                                            | 2041/10000 [00:14<00:30, 257.23 examples/s][A
+Tokenizing Prompts (num_proc=64):  22%|���█████████████████████████████████▎                                                                                                                         | 2198/10000 [00:14<00:31, 244.79 examples/s][A
+Tokenizing Prompts (num_proc=64):  24%|████████████████████████████████████▋                                                                                                                       | 2355/10000 [00:15<00:31, 241.58 examples/s][A
+Tokenizing Prompts (num_proc=64):  25%|███████████████████████████████████████▏                                                                                                                    | 2512/10000 [00:16<00:31, 238.96 examples/s][A
+Tokenizing Prompts (num_proc=64):  27%|█████████████████████████████████████████▌                                                                                                                  | 2668/10000 [00:17<00:40, 179.06 examples/s][A
+Tokenizing Prompts (num_proc=64):  28%|████████████████████████████████████████████                                                                                                                | 2824/10000 [00:18<00:36, 194.98 examples/s][A
+Tokenizing Prompts (num_proc=64):  30%|██████████████████████████████████████████████▍                                                                                                             | 2980/10000 [00:18<00:31, 223.87 examples/s][A
+Tokenizing Prompts (num_proc=64):  31%|████████████████████████████████████████████████▉                                                                                                           | 3136/10000 [00:18<00:24, 277.22 examples/s][A
+Tokenizing Prompts (num_proc=64):  33%|███████████████████████████████████████████████████▎                                                                                                        | 3292/10000 [00:19<00:25, 263.83 examples/s][A
+Tokenizing Prompts (num_proc=64):  34%|█████████████████████████████████████████████████████▊                                                                                                      | 3448/10000 [00:20<00:25, 256.49 examples/s][A
+Tokenizing Prompts (num_proc=64):  36%|████████████████████████████████████████████████████████▏                                                                                                   | 3604/10000 [00:20<00:26, 243.43 examples/s][A
+Tokenizing Prompts (num_proc=64):  38%|██████████████████████████████████████████████████████████▋                                                                                                 | 3760/10000 [00:21<00:27, 230.53 examples/s][A
+Tokenizing Prompts (num_proc=64):  39%|█████████████████████████████████████████████████████████████                                                                                               | 3916/10000 [00:22<00:24, 244.22 examples/s][A
+Tokenizing Prompts (num_proc=64):  41%|███████████████████████████████████████████████████████████████▌                                                                                            | 4072/10000 [00:22<00:24, 239.76 examples/s][A
+Tokenizing Prompts (num_proc=64):  42%|█████████████████████████████████████████████████████████████████▉                                                                                          | 4228/10000 [00:23<00:24, 237.39 examples/s][A
+Tokenizing Prompts (num_proc=64):  44%|████████████████████████████████████████████████████████████████████▍                                                                                       | 4384/10000 [00:24<00:23, 235.82 examples/s][A
+Tokenizing Prompts (num_proc=64):  45%|██████████████████████████████████████████████████████████████████████▊                                                                                     | 4540/10000 [00:24<00:23, 235.98 examples/s][A
+Tokenizing Prompts (num_proc=64):  47%|█████████████████████████████████████████████████████████████████████████▎                                                                                  | 4696/10000 [00:25<00:23, 227.92 examples/s][A
+Tokenizing Prompts (num_proc=64):  49%|███████████████████████████████████████████████████████████████████████████▋                                                                                | 4852/10000 [00:26<00:21, 237.60 examples/s][A
+Tokenizing Prompts (num_proc=64):  50%|██████████████████████████████████████████████████████████████████████████████                                                                              | 5008/10000 [00:27<00:22, 225.07 examples/s][A
+Tokenizing Prompts (num_proc=64):  52%|████████████████████████████████████████████████████████████████████████████████▌                                                                           | 5164/10000 [00:27<00:19, 244.26 examples/s][A
+Tokenizing Prompts (num_proc=64):  53%|██████████████████████████████████████████████████████████████████████████████████▉                                                                         | 5320/10000 [00:28<00:19, 240.40 examples/s][A
+Tokenizing Prompts (num_proc=64):  55%|█████████████████████████████████████████████████████████████████████████████████████▍                                                                      | 5476/10000 [00:28<00:18, 239.34 examples/s][A
+Tokenizing Prompts (num_proc=64):  56%|███████████████████████████████████████████████████████████████████████████████████████▊                                                                    | 5632/10000 [00:29<00:18, 230.95 examples/s][A
+Tokenizing Prompts (num_proc=64):  58%|██████████████████████████████████████████████████████████████████████████████████████████▎                                                                 | 5788/10000 [00:30<00:17, 235.57 examples/s][A
+Tokenizing Prompts (num_proc=64):  59%|████████████████████████████████████████████████████████████████████████████████████████████▋                                                               | 5944/10000 [00:30<00:17, 233.32 examples/s][A
+Tokenizing Prompts (num_proc=64):  61%|███████████████████████████████████████████████████████████████████████████████████████████████▏                                                            | 6100/10000 [00:31<00:16, 233.07 examples/s][A
+Tokenizing Prompts (num_proc=64):  63%|█████████████████████████████████████████████████████████████████████████████████████████████████▌                                                          | 6256/10000 [00:32<00:16, 222.39 examples/s][A
+Tokenizing Prompts (num_proc=64):  64%|█████��██████████████████████████████████████████████████████████████████████████████████████████████                                                        | 6412/10000 [00:32<00:15, 236.82 examples/s][A
+Tokenizing Prompts (num_proc=64):  66%|██████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                     | 6568/10000 [00:33<00:14, 234.85 examples/s][A
+Tokenizing Prompts (num_proc=64):  67%|████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                   | 6724/10000 [00:34<00:13, 234.25 examples/s][A
+Tokenizing Prompts (num_proc=64):  69%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                | 6880/10000 [00:34<00:13, 236.52 examples/s][A
+Tokenizing Prompts (num_proc=64):  70%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                              | 7036/10000 [00:35<00:12, 231.75 examples/s][A
+Tokenizing Prompts (num_proc=64):  72%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                           | 7192/10000 [00:36<00:11, 235.57 examples/s][A
+Tokenizing Prompts (num_proc=64):  73%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                         | 7348/10000 [00:36<00:11, 231.48 examples/s][A
+Tokenizing Prompts (num_proc=64):  75%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                       | 7504/10000 [00:37<00:10, 227.97 examples/s][A
+Tokenizing Prompts (num_proc=64):  77%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                    | 7660/10000 [00:38<00:10, 232.96 examples/s][A
+Tokenizing Prompts (num_proc=64):  78%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                  | 7816/10000 [00:38<00:09, 230.49 examples/s][A
+Tokenizing Prompts (num_proc=64):  80%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                               | 7972/10000 [00:39<00:08, 230.68 examples/s][A
+Tokenizing Prompts (num_proc=64):  81%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                             | 8128/10000 [00:40<00:09, 193.25 examples/s][A
+Tokenizing Prompts (num_proc=64):  83%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                          | 8284/10000 [00:40<00:06, 248.00 examples/s][A
+Tokenizing Prompts (num_proc=64):  84%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                        | 8440/10000 [00:41<00:06, 243.44 examples/s][A
+Tokenizing Prompts (num_proc=64):  86%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                      | 8596/10000 [00:42<00:05, 238.99 examples/s][A
+Tokenizing Prompts (num_proc=64):  88%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                   | 8752/10000 [00:42<00:05, 237.25 examples/s][A
+Tokenizing Prompts (num_proc=64):  89%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                 | 8908/10000 [00:43<00:04, 236.71 examples/s][A
+Tokenizing Prompts (num_proc=64):  91%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍              | 9064/10000 [00:44<00:03, 236.69 examples/s][A
+Tokenizing Prompts (num_proc=64):  92%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊            | 9220/10000 [00:44<00:03, 235.70 examples/s][A
+Tokenizing Prompts (num_proc=64):  94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎         | 9376/10000 [00:45<00:02, 234.08 examples/s][A
+Tokenizing Prompts (num_proc=64):  95%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████���███████████████▋       | 9532/10000 [00:46<00:02, 195.97 examples/s][A
+Tokenizing Prompts (num_proc=64):  97%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏    | 9688/10000 [00:46<00:01, 250.06 examples/s][A
+Tokenizing Prompts (num_proc=64):  98%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌  | 9844/10000 [00:47<00:00, 239.02 examples/s][A
+Tokenizing Prompts (num_proc=64): 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10000/10000 [00:48<00:00, 244.91 examples/s][ATokenizing Prompts (num_proc=64): 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10000/10000 [00:50<00:00, 198.56 examples/s]
+
+Dropping Long Sequences:   0%|                                                                                                                                                                                 | 0/10000 [00:00<?, ? examples/s][A
+Dropping Long Sequences:  10%|████████████████▌                                                                                                                                                    | 1000/10000 [00:01<00:13, 665.47 examples/s][A
+Dropping Long Sequences:  20%|████████████████████████████████▊                                                                                                                                   | 2000/10000 [00:01<00:06, 1273.17 examples/s][A
+Dropping Long Sequences:  30%|█████████████████████████████████████████████████▏                                                                                                                  | 3000/10000 [00:02<00:03, 1826.60 examples/s][A
+Dropping Long Sequences:  40%|█████████████████████████████████████████████████████████████████▌                                                                                                  | 4000/10000 [00:02<00:02, 2300.19 examples/s][A
+Dropping Long Sequences:  50%|██████████████████████████████████████████████████████████████████████████████████                                                                                  | 5000/10000 [00:02<00:01, 2632.07 examples/s][A
+Dropping Long Sequences:  60%|██████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                 | 6000/10000 [00:02<00:01, 3013.81 examples/s][A
+Dropping Long Sequences:  70%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                 | 7000/10000 [00:03<00:00, 3245.62 examples/s][A
+Dropping Long Sequences:  80%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                | 8000/10000 [00:03<00:00, 3392.19 examples/s][A
+Dropping Long Sequences:  90%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                | 9000/10000 [00:03<00:00, 3583.09 examples/s][A
+Dropping Long Sequences: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10000/10000 [00:03<00:00, 3573.37 examples/s][ADropping Long Sequences: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10000/10000 [00:03<00:00, 2523.72 examples/s]
+
+Add position_id column (Pretraining Sample Packing):   0%|                                                                                                                                                      | 0/8663 [00:00<?, ? examples/s][A
+Add position_id column (Pretraining Sample Packing):  12%|███████████████▉                                                                                                                          | 1000/8663 [00:01<00:10, 751.56 examples/s][A
+Add position_id column (Pretraining Sample Packing):  23%|███████████████████████████████▋                                                                                                         | 2000/8663 [00:01<00:04, 1567.59 examples/s][A
+Add position_id column (Pretraining Sample Packing):  35%|███████████████████████████████████████████████▍                                                                                         | 3000/8663 [00:01<00:02, 2428.36 examples/s][A
+Add position_id column (Pretraining Sample Packing):  46%|███████████████████████████████████████████████████████████████▎                                                                         | 4000/8663 [00:01<00:01, 3191.01 examples/s][A
+Add position_id column (Pretraining Sample Packing):  58%|███████████████████████████████████████████████████████████████████████████████                                                          | 5000/8663 [00:01<00:00, 3987.57 examples/s][A
+Add position_id column (Pretraining Sample Packing):  69%|██████████████████████████████████████████████████████████████████████████████████████████████▉                                          | 6000/8663 [00:02<00:00, 4646.66 examples/s][A
+Add position_id column (Pretraining Sample Packing):  81%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                          | 7000/8663 [00:02<00:00, 5183.38 examples/s][A
+Add position_id column (Pretraining Sample Packing):  92%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌          | 8000/8663 [00:02<00:00, 5432.17 examples/s][AAdd position_id column (Pretraining Sample Packing): 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 8663/8663 [00:02<00:00, 3413.09 examples/s]
+[2025-11-17 06:45:54,518] [DEBUG] [axolotl.utils.samplers.multipack.pack_parallel:177] [PID:8163] Using single process for pack_parallel, running sequentially.
+ 85%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                            | 12763/15000 [9:03:09<13:34:21, 21.84s/it] 85%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                            | 12764/15000 [9:03:11<9:56:03, 15.99s/it] 85%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                            | 12765/15000 [9:03:14<7:23:15, 11.90s/it] 85%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                            | 12766/15000 [9:03:16<5:36:17,  9.03s/it] 85%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                            | 12767/15000 [9:03:18<4:21:33,  7.03s/it] 85%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                            | 12768/15000 [9:03:21<3:29:19,  5.63s/it] 85%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████��▎                            | 12769/15000 [9:03:23<2:52:40,  4.64s/it] 85%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                            | 12770/15000 [9:03:26<2:27:02,  3.96s/it]                                                                                                                                                                                                                                                {'loss': 2.5558, 'grad_norm': 1.640625, 'learning_rate': 8.09861199626704e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3478.55, 'total_tokens': 104326027, 'epoch': 0.85}
+ 85%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                            | 12770/15000 [9:03:26<2:27:02,  3.96s/it] 85%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                            | 12771/15000 [9:03:28<2:09:09,  3.48s/it] 85%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                            | 12772/15000 [9:03:30<1:56:33,  3.14s/it] 85%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                            | 12773/15000 [9:03:33<1:47:41,  2.90s/it] 85%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                            | 12774/15000 [9:03:35<1:41:28,  2.73s/it] 85%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                            | 12775/15000 [9:03:37<1:37:09,  2.62s/it] 85%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                            | 12776/15000 [9:03:40<1:34:06,  2.54s/it] 85%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                            | 12777/15000 [9:03:42<1:31:58,  2.48s/it] 85%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                            | 12778/15000 [9:03:44<1:30:24,  2.44s/it] 85%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                            | 12779/15000 [9:03:47<1:29:16,  2.41s/it] 85%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                            | 12780/15000 [9:03:49<1:28:35,  2.39s/it]                                                                                                                                                                                                                                                {'loss': 2.6744, 'grad_norm': 6.875, 'learning_rate': 8.050584015056109e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3489.42, 'total_tokens': 104407890, 'epoch': 0.85}
+ 85%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                            | 12780/15000 [9:03:49<1:28:35,  2.39s/it] 85%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                            | 12781/15000 [9:03:51<1:28:03,  2.38s/it] 85%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                            | 12782/15000 [9:03:54<1:27:39,  2.37s/it] 85%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                            | 12783/15000 [9:03:56<1:27:25,  2.37s/it] 85%|��███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                            | 12784/15000 [9:03:58<1:27:11,  2.36s/it] 85%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                            | 12785/15000 [9:04:01<1:27:04,  2.36s/it] 85%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                            | 12786/15000 [9:04:03<1:26:53,  2.35s/it] 85%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                            | 12787/15000 [9:04:05<1:26:43,  2.35s/it] 85%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                            | 12788/15000 [9:04:08<1:26:40,  2.35s/it] 85%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                            | 12789/15000 [9:04:10<1:26:40,  2.35s/it] 85%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                            | 12790/15000 [9:04:12<1:26:35,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.7124, 'grad_norm': 1.75, 'learning_rate': 8.00273565473355e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3494.94, 'total_tokens': 104489719, 'epoch': 0.85}
+ 85%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                            | 12790/15000 [9:04:13<1:26:35,  2.35s/it] 85%|███████████████���████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                            | 12791/15000 [9:04:15<1:26:33,  2.35s/it] 85%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                            | 12792/15000 [9:04:17<1:26:27,  2.35s/it] 85%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                            | 12793/15000 [9:04:20<1:26:28,  2.35s/it] 85%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                            | 12794/15000 [9:04:22<1:26:28,  2.35s/it] 85%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                            | 12795/15000 [9:04:24<1:26:29,  2.35s/it] 85%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                            | 12796/15000 [9:04:27<1:26:25,  2.35s/it] 85%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                            | 12797/15000 [9:04:29<1:26:19,  2.35s/it] 85%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                            | 12798/15000 [9:04:31<1:26:17,  2.35s/it] 85%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                            | 12799/15000 [9:04:34<1:26:20,  2.35s/it] 85%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                            | 12800/15000 [9:04:36<1:26:15,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6074, 'grad_norm': 1.734375, 'learning_rate': 7.955067387543356e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3493.62, 'total_tokens': 104571551, 'epoch': 0.85}
+ 85%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                            | 12800/15000 [9:04:36<1:26:15,  2.35s/it] 85%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                            | 12801/15000 [9:04:38<1:26:09,  2.35s/it] 85%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                            | 12802/15000 [9:04:41<1:26:07,  2.35s/it] 85%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                            | 12803/15000 [9:04:43<1:26:04,  2.35s/it] 85%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                            | 12804/15000 [9:04:45<1:26:00,  2.35s/it] 85%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                            | 12805/15000 [9:04:48<1:25:58,  2.35s/it] 85%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                            | 12806/15000 [9:04:50<1:26:01,  2.35s/it] 85%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                            | 12807/15000 [9:04:52<1:25:52,  2.35s/it] 85%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                            | 12808/15000 [9:04:55<1:25:52,  2.35s/it] 85%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                            | 12809/15000 [9:04:57<1:25:54,  2.35s/it] 85%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                            | 12810/15000 [9:05:00<1:25:53,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6859, 'grad_norm': 1.7890625, 'learning_rate': 7.907579683952093e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3484.18, 'total_tokens': 104653366, 'epoch': 0.85}
+ 85%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                            | 12810/15000 [9:05:00<1:25:53,  2.35s/it] 85%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                            | 12811/15000 [9:05:02<1:25:48,  2.35s/it] 85%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                            | 12812/15000 [9:05:04<1:25:46,  2.35s/it] 85%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                            | 12813/15000 [9:05:07<1:25:40,  2.35s/it] 85%|██████████████████████████████████��█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                            | 12814/15000 [9:05:09<1:25:39,  2.35s/it] 85%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                            | 12815/15000 [9:05:11<1:25:34,  2.35s/it] 85%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                            | 12816/15000 [9:05:14<1:25:28,  2.35s/it] 85%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                            | 12817/15000 [9:05:16<1:25:30,  2.35s/it] 85%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                            | 12818/15000 [9:05:18<1:25:30,  2.35s/it] 85%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                            | 12819/15000 [9:05:21<1:25:27,  2.35s/it] 85%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                            | 12820/15000 [9:05:23<1:25:25,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6561, 'grad_norm': 1.859375, 'learning_rate': 7.860273012644204e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3490.11, 'total_tokens': 104735205, 'epoch': 0.85}
+ 85%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                            | 12820/15000 [9:05:23<1:25:25,  2.35s/it] 85%|███████████████████████████████████████████████��████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                            | 12821/15000 [9:05:25<1:25:26,  2.35s/it] 85%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                            | 12822/15000 [9:05:28<1:25:24,  2.35s/it] 85%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                            | 12823/15000 [9:05:30<1:25:20,  2.35s/it] 85%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                            | 12824/15000 [9:05:32<1:25:16,  2.35s/it] 86%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                            | 12825/15000 [9:05:35<1:25:16,  2.35s/it] 86%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                            | 12826/15000 [9:05:37<1:25:10,  2.35s/it] 86%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                            | 12827/15000 [9:05:40<1:25:11,  2.35s/it] 86%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                            | 12828/15000 [9:05:42<1:25:06,  2.35s/it] 86%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                            | 12829/15000 [9:05:44<1:25:04,  2.35s/it] 86%|█████████████████████████████████████████���███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                            | 12830/15000 [9:05:47<1:25:03,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.599, 'grad_norm': 1.75, 'learning_rate': 7.813147840517456e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3486.26, 'total_tokens': 104817034, 'epoch': 0.86}
+ 86%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                            | 12830/15000 [9:05:47<1:25:03,  2.35s/it] 86%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                            | 12831/15000 [9:05:49<1:24:59,  2.35s/it] 86%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                            | 12832/15000 [9:05:51<1:24:55,  2.35s/it] 86%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                            | 12833/15000 [9:05:54<1:24:57,  2.35s/it] 86%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                           | 12834/15000 [9:05:56<1:24:50,  2.35s/it] 86%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                           | 12835/15000 [9:05:58<1:24:47,  2.35s/it] 86%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                           | 12836/15000 [9:06:01<1:24:48,  2.35s/it] 86%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                           | 12837/15000 [9:06:03<1:24:47,  2.35s/it] 86%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                           | 12838/15000 [9:06:05<1:24:46,  2.35s/it] 86%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                           | 12839/15000 [9:06:08<1:24:42,  2.35s/it] 86%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                           | 12840/15000 [9:06:10<1:24:41,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6446, 'grad_norm': 1.6796875, 'learning_rate': 7.766204632678264e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3485.22, 'total_tokens': 104898843, 'epoch': 0.86}
+ 86%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                           | 12840/15000 [9:06:10<1:24:41,  2.35s/it] 86%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                           | 12841/15000 [9:06:12<1:24:39,  2.35s/it] 86%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                           | 12842/15000 [9:06:15<1:24:33,  2.35s/it] 86%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                           | 12843/15000 [9:06:17<1:24:31,  2.35s/it] 86%|█████████████████████████████████████████████████████████████���███████████████████████████████████████████████████████████████████████████████████████████████████████▎                           | 12844/15000 [9:06:19<1:24:32,  2.35s/it] 86%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                           | 12845/15000 [9:06:22<1:24:29,  2.35s/it] 86%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                           | 12846/15000 [9:06:24<1:24:30,  2.35s/it] 86%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                           | 12847/15000 [9:06:27<1:24:26,  2.35s/it] 86%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                           | 12848/15000 [9:06:29<1:24:25,  2.35s/it] 86%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                           | 12849/15000 [9:06:31<1:24:22,  2.35s/it] 86%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                           | 12850/15000 [9:06:34<1:24:23,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.7194, 'grad_norm': 1.890625, 'learning_rate': 7.719443852437131e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3479.02, 'total_tokens': 104980640, 'epoch': 0.86}
+ 86%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                           | 12850/15000 [9:06:34<1:24:23,  2.36s/it] 86%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                           | 12851/15000 [9:06:36<1:24:18,  2.35s/it] 86%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                           | 12852/15000 [9:06:38<1:24:11,  2.35s/it] 86%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                           | 12853/15000 [9:06:41<1:24:11,  2.35s/it] 86%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                           | 12854/15000 [9:06:43<1:24:15,  2.36s/it] 86%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                           | 12855/15000 [9:06:45<1:24:11,  2.36s/it] 86%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                           | 12856/15000 [9:06:48<1:24:08,  2.35s/it] 86%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                           | 12857/15000 [9:06:50<1:24:07,  2.36s/it] 86%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                           | 12858/15000 [9:06:52<1:24:05,  2.36s/it] 86%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                           | 12859/15000 [9:06:55<1:23:57,  2.35s/it] 86%|████████████████████████████████████████████████████████��████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                           | 12860/15000 [9:06:57<1:23:54,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.667, 'grad_norm': 1.734375, 'learning_rate': 7.67286596130409e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3488.32, 'total_tokens': 105062435, 'epoch': 0.86}
+ 86%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                           | 12860/15000 [9:06:57<1:23:54,  2.35s/it] 86%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                           | 12861/15000 [9:06:59<1:23:56,  2.35s/it] 86%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                           | 12862/15000 [9:07:02<1:23:55,  2.36s/it] 86%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                           | 12863/15000 [9:07:04<1:23:49,  2.35s/it] 86%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                           | 12864/15000 [9:07:07<1:23:47,  2.35s/it] 86%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                           | 12865/15000 [9:07:09<1:23:44,  2.35s/it] 86%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                           | 12866/15000 [9:07:11<1:23:41,  2.35s/it] 86%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                           | 12867/15000 [9:07:14<1:23:37,  2.35s/it] 86%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                           | 12868/15000 [9:07:16<1:23:34,  2.35s/it] 86%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                           | 12869/15000 [9:07:18<1:23:31,  2.35s/it] 86%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                           | 12870/15000 [9:07:21<1:23:28,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.631, 'grad_norm': 1.7265625, 'learning_rate': 7.626471418984113e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3488.44, 'total_tokens': 105144199, 'epoch': 0.86}
+ 86%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                           | 12870/15000 [9:07:21<1:23:28,  2.35s/it] 86%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                           | 12871/15000 [9:07:23<1:23:28,  2.35s/it] 86%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                           | 12872/15000 [9:07:25<1:23:27,  2.35s/it] 86%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                           | 12873/15000 [9:07:28<1:23:32,  2.36s/it] 86%|████████████████████████████████████████████████████████████████████████��████████████████████████████████████████████████████████████████████████████████████████████▋                           | 12874/15000 [9:07:30<1:23:25,  2.35s/it] 86%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                           | 12875/15000 [9:07:32<1:23:19,  2.35s/it] 86%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                           | 12876/15000 [9:07:35<1:23:09,  2.35s/it] 86%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                           | 12877/15000 [9:07:37<1:23:08,  2.35s/it] 86%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                           | 12878/15000 [9:07:39<1:23:08,  2.35s/it] 86%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                           | 12879/15000 [9:07:42<1:23:03,  2.35s/it] 86%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                           | 12880/15000 [9:07:44<1:23:05,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.663, 'grad_norm': 1.671875, 'learning_rate': 7.580260683372617e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3484.31, 'total_tokens': 105226026, 'epoch': 0.86}
+ 86%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                           | 12880/15000 [9:07:44<1:23:05,  2.35s/it] 86%|████████████████████████████████████████████████████████████████████████████████��████████████████████████████████████████████████████████████████████████████████████▋                           | 12881/15000 [9:07:47<1:28:02,  2.49s/it] 86%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                           | 12882/15000 [9:07:49<1:26:29,  2.45s/it] 86%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                           | 12883/15000 [9:07:52<1:25:24,  2.42s/it] 86%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                           | 12884/15000 [9:07:54<1:24:37,  2.40s/it] 86%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                           | 12885/15000 [9:07:56<1:24:04,  2.39s/it] 86%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                           | 12886/15000 [9:07:59<1:23:38,  2.37s/it] 86%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                           | 12887/15000 [9:08:01<1:23:26,  2.37s/it] 86%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                           | 12888/15000 [9:08:03<1:23:07,  2.36s/it] 86%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                           | 12889/15000 [9:08:06<1:22:59,  2.36s/it] 86%|████████████████████████████████████████████████████████████████████���████████████████████████████████████████████████████████████████████████████████████████████████▊                           | 12890/15000 [9:08:08<1:22:55,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.6775, 'grad_norm': 1.8125, 'learning_rate': 7.534234210550889e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3481.37, 'total_tokens': 105307774, 'epoch': 0.86}
+ 86%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                           | 12890/15000 [9:08:08<1:22:55,  2.36s/it] 86%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                           | 12891/15000 [9:08:11<1:22:47,  2.36s/it] 86%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                           | 12892/15000 [9:08:13<1:22:45,  2.36s/it] 86%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                           | 12893/15000 [9:08:15<1:22:41,  2.35s/it] 86%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                           | 12894/15000 [9:08:18<1:22:38,  2.35s/it] 86%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                           | 12895/15000 [9:08:20<1:22:35,  2.35s/it] 86%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                           | 12896/15000 [9:08:22<1:22:35,  2.36s/it] 86%|████████████████████████████████████████████████████████████████████████████��████████████████████████████████████████████████████████████████████████████████████████▉                           | 12897/15000 [9:08:25<1:22:29,  2.35s/it] 86%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                           | 12898/15000 [9:08:27<1:22:24,  2.35s/it] 86%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                           | 12899/15000 [9:08:29<1:22:20,  2.35s/it] 86%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                           | 12900/15000 [9:08:32<1:22:17,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6965, 'grad_norm': 1.75, 'learning_rate': 7.488392454781648e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3489.14, 'total_tokens': 105389547, 'epoch': 0.86}
+ 86%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                           | 12900/15000 [9:08:32<1:22:17,  2.35s/it] 86%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                           | 12901/15000 [9:08:34<1:22:14,  2.35s/it] 86%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                           | 12902/15000 [9:08:36<1:22:10,  2.35s/it] 86%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                           | 12903/15000 [9:08:39<1:22:14,  2.35s/it] 86%|█████████████████████████████████████████████████████████████████████████████████████��████████████████████████████████████████████████████████████████████████████████                           | 12904/15000 [9:08:41<1:22:10,  2.35s/it] 86%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                           | 12905/15000 [9:08:43<1:22:07,  2.35s/it] 86%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                           | 12906/15000 [9:08:46<1:22:09,  2.35s/it] 86%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                           | 12907/15000 [9:08:48<1:22:07,  2.35s/it] 86%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                           | 12908/15000 [9:08:51<1:22:02,  2.35s/it] 86%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                           | 12909/15000 [9:08:53<1:21:59,  2.35s/it] 86%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                           | 12910/15000 [9:08:55<1:21:56,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6869, 'grad_norm': 1.671875, 'learning_rate': 7.442735868504508e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3490.44, 'total_tokens': 105471359, 'epoch': 0.86}
+ 86%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                           | 12910/15000 [9:08:55<1:21:56,  2.35s/it] 86%|█████████████████████████████████████████████████████████████████████████████████████████████���████████████████████████████████████████████████████████████████████████                           | 12911/15000 [9:08:58<1:21:57,  2.35s/it] 86%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                          | 12912/15000 [9:09:00<1:21:55,  2.35s/it] 86%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                          | 12913/15000 [9:09:02<1:21:53,  2.35s/it] 86%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                          | 12914/15000 [9:09:05<1:21:53,  2.36s/it] 86%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                          | 12915/15000 [9:09:07<1:21:43,  2.35s/it] 86%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                          | 12916/15000 [9:09:09<1:21:40,  2.35s/it] 86%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                          | 12917/15000 [9:09:12<1:21:41,  2.35s/it] 86%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                          | 12918/15000 [9:09:14<1:21:39,  2.35s/it] 86%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                          | 12919/15000 [9:09:16<1:21:38,  2.35s/it] 86%|███████████████████████████████████████████████████████████████████████████��██████████████████████████████████████████████████████████████████████████████████████████▏                          | 12920/15000 [9:09:19<1:21:37,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.7016, 'grad_norm': 1.7265625, 'learning_rate': 7.397264902331549e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3482.69, 'total_tokens': 105553169, 'epoch': 0.86}
+ 86%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                          | 12920/15000 [9:09:19<1:21:37,  2.35s/it] 86%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                          | 12921/15000 [9:09:21<1:21:33,  2.35s/it] 86%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                          | 12922/15000 [9:09:23<1:21:26,  2.35s/it] 86%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                          | 12923/15000 [9:09:26<1:21:28,  2.35s/it] 86%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                          | 12924/15000 [9:09:28<1:21:24,  2.35s/it] 86%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                          | 12925/15000 [9:09:31<1:21:18,  2.35s/it] 86%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                          | 12926/15000 [9:09:33<1:21:09,  2.35s/it] 86%|█████████████████████████████████████████████████████████████████████████████��████████████████████████████████████████████████████████████████████████████████████████▎                          | 12927/15000 [9:09:35<1:21:11,  2.35s/it] 86%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                          | 12928/15000 [9:09:38<1:21:11,  2.35s/it] 86%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                          | 12929/15000 [9:09:40<1:21:07,  2.35s/it] 86%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                          | 12930/15000 [9:09:42<1:21:05,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6428, 'grad_norm': 1.7109375, 'learning_rate': 7.351980005042849e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3489.36, 'total_tokens': 105634936, 'epoch': 0.86}
+ 86%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                          | 12930/15000 [9:09:42<1:21:05,  2.35s/it] 86%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                          | 12931/15000 [9:09:45<1:21:05,  2.35s/it] 86%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                          | 12932/15000 [9:09:47<1:21:03,  2.35s/it] 86%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                          | 12933/15000 [9:09:49<1:21:02,  2.35s/it] 86%|███████████████████████████████████████████████████████████████████████████████��██████████████████████████████████████████████████████████████████████████████████████▍                          | 12934/15000 [9:09:52<1:20:59,  2.35s/it] 86%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                          | 12935/15000 [9:09:54<1:20:57,  2.35s/it] 86%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                          | 12936/15000 [9:09:56<1:20:52,  2.35s/it] 86%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                          | 12937/15000 [9:09:59<1:20:52,  2.35s/it] 86%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                          | 12938/15000 [9:10:01<1:20:50,  2.35s/it] 86%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                          | 12939/15000 [9:10:03<1:20:47,  2.35s/it] 86%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                          | 12940/15000 [9:10:06<1:20:47,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.5594, 'grad_norm': 1.6171875, 'learning_rate': 7.306881623582054e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3483.09, 'total_tokens': 105716716, 'epoch': 0.86}
+ 86%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                          | 12940/15000 [9:10:06<1:20:47,  2.35s/it] 86%|█████████████████████████████████████████████████████████████████████████████████��████████████████████████████████████████████████████████████████████████████████████▌                          | 12941/15000 [9:10:08<1:20:46,  2.35s/it] 86%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                          | 12942/15000 [9:10:11<1:20:44,  2.35s/it] 86%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                          | 12943/15000 [9:10:13<1:20:42,  2.35s/it] 86%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                          | 12944/15000 [9:10:15<1:20:44,  2.36s/it] 86%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                          | 12945/15000 [9:10:18<1:20:40,  2.36s/it] 86%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                          | 12946/15000 [9:10:20<1:20:41,  2.36s/it] 86%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                          | 12947/15000 [9:10:22<1:20:34,  2.36s/it] 86%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                          | 12948/15000 [9:10:25<1:20:26,  2.35s/it] 86%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                          | 12949/15000 [9:10:27<1:20:23,  2.35s/it] 86%|███████████████████████████████████████████████████████████████���██████████████████████████████████████████████████████████████████████████████████████████████████████▌                          | 12950/15000 [9:10:29<1:20:24,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.7078, 'grad_norm': 1.6953125, 'learning_rate': 7.2619702030519906e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3478.08, 'total_tokens': 105798478, 'epoch': 0.86}
+ 86%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                          | 12950/15000 [9:10:29<1:20:24,  2.35s/it] 86%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                          | 12951/15000 [9:10:32<1:20:22,  2.35s/it] 86%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                          | 12952/15000 [9:10:34<1:20:21,  2.35s/it] 86%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                          | 12953/15000 [9:10:36<1:20:23,  2.36s/it] 86%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                          | 12954/15000 [9:10:39<1:20:16,  2.35s/it] 86%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                          | 12955/15000 [9:10:41<1:20:15,  2.35s/it] 86%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                          | 12956/15000 [9:10:43<1:20:08,  2.35s/it] 86%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                          | 12957/15000 [9:10:46<1:20:06,  2.35s/it] 86%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                          | 12958/15000 [9:10:48<1:20:04,  2.35s/it] 86%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                          | 12959/15000 [9:10:51<1:19:58,  2.35s/it] 86%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                          | 12960/15000 [9:10:53<1:19:55,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6843, 'grad_norm': 1.8203125, 'learning_rate': 7.2172461867102445e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3489.77, 'total_tokens': 105880240, 'epoch': 0.86}
+ 86%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                          | 12960/15000 [9:10:53<1:19:55,  2.35s/it] 86%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                          | 12961/15000 [9:10:55<1:19:55,  2.35s/it] 86%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                          | 12962/15000 [9:10:58<1:19:54,  2.35s/it] 86%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                          | 12963/15000 [9:11:00<1:19:58,  2.36s/it] 86%|██████████████████████████████████████████████████████████████████��███████████████████████████████████████████████████████████████████████████████████████████████████▊                          | 12964/15000 [9:11:02<1:19:52,  2.35s/it] 86%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                          | 12965/15000 [9:11:05<1:19:47,  2.35s/it] 86%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                          | 12966/15000 [9:11:07<1:19:39,  2.35s/it] 86%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                          | 12967/15000 [9:11:09<1:19:36,  2.35s/it] 86%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                          | 12968/15000 [9:11:12<1:19:38,  2.35s/it] 86%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                          | 12969/15000 [9:11:14<1:19:36,  2.35s/it] 86%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                          | 12970/15000 [9:11:16<1:19:34,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6279, 'grad_norm': 1.828125, 'learning_rate': 7.172710015964804e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3486.72, 'total_tokens': 105962001, 'epoch': 0.86}
+ 86%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                          | 12970/15000 [9:11:16<1:19:34,  2.35s/it] 86%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                          | 12971/15000 [9:11:19<1:19:35,  2.35s/it] 86%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                          | 12972/15000 [9:11:21<1:19:34,  2.35s/it] 86%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                          | 12973/15000 [9:11:23<1:19:29,  2.35s/it] 86%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                          | 12974/15000 [9:11:26<1:19:29,  2.35s/it] 86%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                          | 12975/15000 [9:11:28<1:19:25,  2.35s/it] 87%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                          | 12976/15000 [9:11:31<1:19:24,  2.35s/it] 87%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                          | 12977/15000 [9:11:33<1:19:20,  2.35s/it] 87%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                          | 12978/15000 [9:11:35<1:19:18,  2.35s/it] 87%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                          | 12979/15000 [9:11:38<1:19:15,  2.35s/it] 87%|██████████████████████████████████████████████████��████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                          | 12980/15000 [9:11:40<1:19:12,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6371, 'grad_norm': 1.7109375, 'learning_rate': 7.1283621303696865e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3485.39, 'total_tokens': 106043773, 'epoch': 0.87}
+ 87%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                          | 12980/15000 [9:11:40<1:19:12,  2.35s/it] 87%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                          | 12981/15000 [9:11:42<1:19:07,  2.35s/it] 87%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                          | 12982/15000 [9:11:45<1:19:06,  2.35s/it] 87%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                          | 12983/15000 [9:11:47<1:19:01,  2.35s/it] 87%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                          | 12984/15000 [9:11:49<1:18:59,  2.35s/it] 87%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                          | 12985/15000 [9:11:52<1:18:55,  2.35s/it] 87%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                          | 12986/15000 [9:11:54<1:18:59,  2.35s/it] 87%|████████████████████████████████████████████████████���██████████████████████████████████████████████████████████████████████████████████████████████████████████████████                          | 12987/15000 [9:11:56<1:18:55,  2.35s/it] 87%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                          | 12988/15000 [9:11:59<1:18:53,  2.35s/it] 87%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                         | 12989/15000 [9:12:01<1:18:51,  2.35s/it] 87%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                         | 12990/15000 [9:12:03<1:18:53,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.6643, 'grad_norm': 1.7109375, 'learning_rate': 7.084202967620635e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3472.41, 'total_tokens': 106125499, 'epoch': 0.87}
+ 87%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                         | 12990/15000 [9:12:03<1:18:53,  2.36s/it] 87%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                         | 12991/15000 [9:12:06<1:18:52,  2.36s/it] 87%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                         | 12992/15000 [9:12:08<1:18:47,  2.35s/it] 87%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                         | 12993/15000 [9:12:11<1:18:43,  2.35s/it] 87%|██████████████████████████████████████████████████���████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                         | 12994/15000 [9:12:13<1:18:39,  2.35s/it] 87%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                         | 12995/15000 [9:12:15<1:18:33,  2.35s/it] 87%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                         | 12996/15000 [9:12:18<1:18:34,  2.35s/it] 87%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                         | 12997/15000 [9:12:20<1:18:32,  2.35s/it] 87%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                         | 12998/15000 [9:12:22<1:18:29,  2.35s/it] 87%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                         | 12999/15000 [9:12:25<1:18:29,  2.35s/it] 87%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                         | 13000/15000 [9:12:27<1:18:23,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6742, 'grad_norm': 1.7890625, 'learning_rate': 7.040232963550736e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3492.33, 'total_tokens': 106207263, 'epoch': 0.87}
+ 87%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                         | 13000/15000 [9:12:27<1:18:23,  2.35s/it] 87%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                         | 13001/15000 [9:12:29<1:18:20,  2.35s/it] 87%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                         | 13002/15000 [9:12:32<1:18:18,  2.35s/it] 87%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                         | 13003/15000 [9:12:34<1:18:22,  2.35s/it] 87%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                         | 13004/15000 [9:12:36<1:18:19,  2.35s/it] 87%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                         | 13005/15000 [9:12:39<1:18:10,  2.35s/it] 87%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                         | 13006/15000 [9:12:41<1:18:07,  2.35s/it] 87%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                         | 13007/15000 [9:12:43<1:18:10,  2.35s/it] 87%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                         | 13008/15000 [9:12:46<1:18:05,  2.35s/it] 87%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                         | 13009/15000 [9:12:48<1:18:07,  2.35s/it] 87%|██████████████████████��████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                         | 13010/15000 [9:12:51<1:18:04,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6329, 'grad_norm': 1.96875, 'learning_rate': 6.996452552126207e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3487.42, 'total_tokens': 106289069, 'epoch': 0.87}
+ 87%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                         | 13010/15000 [9:12:51<1:18:04,  2.35s/it] 87%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                         | 13011/15000 [9:12:53<1:18:03,  2.35s/it] 87%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                         | 13012/15000 [9:12:55<1:17:58,  2.35s/it] 87%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                         | 13013/15000 [9:12:58<1:17:56,  2.35s/it] 87%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                         | 13014/15000 [9:13:00<1:17:56,  2.35s/it] 87%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                         | 13015/15000 [9:13:02<1:17:52,  2.35s/it] 87%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                         | 13016/15000 [9:13:05<1:17:50,  2.35s/it] 87%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                         | 13017/15000 [9:13:07<1:17:49,  2.35s/it] 87%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                         | 13018/15000 [9:13:09<1:17:49,  2.36s/it] 87%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                         | 13019/15000 [9:13:12<1:17:44,  2.35s/it] 87%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                         | 13020/15000 [9:13:14<1:17:42,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6772, 'grad_norm': 1.703125, 'learning_rate': 6.952862165442004e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3479.49, 'total_tokens': 106370782, 'epoch': 0.87}
+ 87%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                         | 13020/15000 [9:13:14<1:17:42,  2.35s/it] 87%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                         | 13021/15000 [9:13:16<1:17:42,  2.36s/it] 87%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                         | 13022/15000 [9:13:19<1:17:37,  2.35s/it] 87%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                         | 13023/15000 [9:13:21<1:17:35,  2.35s/it] 87%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                         | 13024/15000 [9:13:23<1:17:31,  2.35s/it] 87%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                         | 13025/15000 [9:13:26<1:17:23,  2.35s/it] 87%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                         | 13026/15000 [9:13:28<1:17:23,  2.35s/it] 87%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                         | 13027/15000 [9:13:31<1:17:21,  2.35s/it] 87%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                         | 13028/15000 [9:13:33<1:17:12,  2.35s/it] 87%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                         | 13029/15000 [9:13:35<1:17:11,  2.35s/it] 87%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                         | 13030/15000 [9:13:38<1:17:14,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.7019, 'grad_norm': 1.6875, 'learning_rate': 6.9094622337176616e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3474.99, 'total_tokens': 106452517, 'epoch': 0.87}
+ 87%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                         | 13030/15000 [9:13:38<1:17:14,  2.35s/it] 87%|██████████████���████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                         | 13031/15000 [9:13:40<1:17:13,  2.35s/it] 87%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                         | 13032/15000 [9:13:42<1:17:12,  2.35s/it] 87%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                         | 13033/15000 [9:13:45<1:17:11,  2.35s/it] 87%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                         | 13034/15000 [9:13:47<1:17:07,  2.35s/it] 87%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                         | 13035/15000 [9:13:49<1:16:57,  2.35s/it] 87%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                         | 13036/15000 [9:13:52<1:16:56,  2.35s/it] 87%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                         | 13037/15000 [9:13:54<1:16:55,  2.35s/it] 87%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                         | 13038/15000 [9:13:56<1:16:53,  2.35s/it] 87%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                         | 13039/15000 [9:13:59<1:16:52,  2.35s/it] 87%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                         | 13040/15000 [9:14:01<1:16:50,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.643, 'grad_norm': 1.6796875, 'learning_rate': 6.866253185292976e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3481.58, 'total_tokens': 106534221, 'epoch': 0.87}
+ 87%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                         | 13040/15000 [9:14:01<1:16:50,  2.35s/it] 87%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                         | 13041/15000 [9:14:03<1:16:49,  2.35s/it] 87%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                         | 13042/15000 [9:14:06<1:16:44,  2.35s/it] 87%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                         | 13043/15000 [9:14:08<1:16:41,  2.35s/it] 87%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                         | 13044/15000 [9:14:10<1:16:34,  2.35s/it] 87%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                         | 13045/15000 [9:14:13<1:16:38,  2.35s/it] 87%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                         | 13046/15000 [9:14:15<1:16:38,  2.35s/it] 87%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                         | 13047/15000 [9:14:18<1:16:33,  2.35s/it] 87%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                         | 13048/15000 [9:14:20<1:16:33,  2.35s/it] 87%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                         | 13049/15000 [9:14:22<1:16:31,  2.35s/it] 87%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                         | 13050/15000 [9:14:25<1:16:29,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6059, 'grad_norm': 1.6484375, 'learning_rate': 6.823235446623824e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3478.26, 'total_tokens': 106615808, 'epoch': 0.87}
+ 87%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                         | 13050/15000 [9:14:25<1:16:29,  2.35s/it] 87%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                         | 13051/15000 [9:14:27<1:16:26,  2.35s/it] 87%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                         | 13052/15000 [9:14:29<1:16:15,  2.35s/it] 87%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                         | 13053/15000 [9:14:32<1:16:17,  2.35s/it] 87%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                         | 13054/15000 [9:14:34<1:16:16,  2.35s/it] 87%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                         | 13055/15000 [9:14:36<1:16:22,  2.36s/it] 87%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                         | 13056/15000 [9:14:39<1:16:18,  2.36s/it] 87%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                         | 13057/15000 [9:14:41<1:16:14,  2.35s/it] 87%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                         | 13058/15000 [9:14:43<1:16:11,  2.35s/it] 87%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                         | 13059/15000 [9:14:46<1:16:06,  2.35s/it] 87%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                         | 13060/15000 [9:14:48<1:16:04,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.74, 'grad_norm': 1.7421875, 'learning_rate': 6.78040944227791e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3486.37, 'total_tokens': 106697586, 'epoch': 0.87}
+ 87%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                         | 13060/15000 [9:14:48<1:16:04,  2.35s/it] 87%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                         | 13061/15000 [9:14:51<1:16:06,  2.35s/it] 87%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                         | 13062/15000 [9:14:53<1:16:05,  2.36s/it] 87%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                         | 13063/15000 [9:14:55<1:16:04,  2.36s/it] 87%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                         | 13064/15000 [9:14:58<1:16:00,  2.36s/it] 87%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                         | 13065/15000 [9:15:00<1:16:04,  2.36s/it] 87%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                         | 13066/15000 [9:15:02<1:15:57,  2.36s/it] 87%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                        | 13067/15000 [9:15:05<1:15:53,  2.36s/it] 87%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                        | 13068/15000 [9:15:07<1:15:45,  2.35s/it] 87%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                        | 13069/15000 [9:15:09<1:15:51,  2.36s/it] 87%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                        | 13070/15000 [9:15:12<1:15:45,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.6589, 'grad_norm': 1.8359375, 'learning_rate': 6.737775594930605e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3484.64, 'total_tokens': 106779276, 'epoch': 0.87}
+ 87%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                        | 13070/15000 [9:15:12<1:15:45,  2.36s/it] 87%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                        | 13071/15000 [9:15:14<1:15:43,  2.36s/it] 87%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                        | 13072/15000 [9:15:16<1:15:43,  2.36s/it] 87%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                        | 13073/15000 [9:15:19<1:15:44,  2.36s/it] 87%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                        | 13074/15000 [9:15:21<1:15:34,  2.35s/it] 87%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                        | 13075/15000 [9:15:23<1:15:30,  2.35s/it] 87%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████���████████████████████████████▏                        | 13076/15000 [9:15:26<1:15:30,  2.35s/it] 87%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                        | 13077/15000 [9:15:28<1:15:28,  2.36s/it] 87%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                        | 13078/15000 [9:15:31<1:15:19,  2.35s/it] 87%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                        | 13079/15000 [9:15:33<1:15:22,  2.35s/it] 87%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                        | 13080/15000 [9:15:35<1:15:21,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.6751, 'grad_norm': 1.71875, 'learning_rate': 6.69533432536078e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3472.92, 'total_tokens': 106860886, 'epoch': 0.87}
+ 87%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                        | 13080/15000 [9:15:35<1:15:21,  2.36s/it] 87%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                        | 13081/15000 [9:15:38<1:15:21,  2.36s/it] 87%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                        | 13082/15000 [9:15:40<1:15:20,  2.36s/it] 87%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████��████████████████████████████████████▎                        | 13083/15000 [9:15:42<1:15:13,  2.35s/it] 87%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                        | 13084/15000 [9:15:45<1:15:10,  2.35s/it] 87%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                        | 13085/15000 [9:15:47<1:15:06,  2.35s/it] 87%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                        | 13086/15000 [9:15:49<1:15:01,  2.35s/it] 87%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                        | 13087/15000 [9:15:52<1:14:58,  2.35s/it] 87%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                        | 13088/15000 [9:15:54<1:15:00,  2.35s/it] 87%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                        | 13089/15000 [9:15:56<1:15:00,  2.35s/it] 87%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                        | 13090/15000 [9:15:59<1:14:56,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.7163, 'grad_norm': 1.75, 'learning_rate': 6.6530860524466164e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3483.5, 'total_tokens': 106942572, 'epoch': 0.87}
+ 87%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████��███████████████████████████████████████████▍                        | 13090/15000 [9:15:59<1:14:56,  2.35s/it] 87%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                        | 13091/15000 [9:16:01<1:14:53,  2.35s/it] 87%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                        | 13092/15000 [9:16:04<1:14:53,  2.36s/it] 87%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                        | 13093/15000 [9:16:06<1:14:53,  2.36s/it] 87%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                        | 13094/15000 [9:16:08<1:14:48,  2.35s/it] 87%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                        | 13095/15000 [9:16:11<1:14:45,  2.35s/it] 87%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                        | 13096/15000 [9:16:13<1:14:43,  2.35s/it] 87%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                        | 13097/15000 [9:16:15<1:14:44,  2.36s/it] 87%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                        | 13098/15000 [9:16:18<1:14:44,  2.36s/it] 87%|██████████████████████████████████████████████████████████████████████████████████████████████���█████████████████████████████████████████████████████████████████████████▌                        | 13099/15000 [9:16:20<1:14:38,  2.36s/it] 87%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                        | 13100/15000 [9:16:22<1:14:39,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.6602, 'grad_norm': 1.6328125, 'learning_rate': 6.6110311931615324e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3467.83, 'total_tokens': 107024260, 'epoch': 0.87}
+ 87%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                        | 13100/15000 [9:16:22<1:14:39,  2.36s/it] 87%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                        | 13101/15000 [9:16:25<1:14:38,  2.36s/it] 87%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                        | 13102/15000 [9:16:27<1:14:36,  2.36s/it] 87%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                        | 13103/15000 [9:16:29<1:14:28,  2.36s/it] 87%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                        | 13104/15000 [9:16:32<1:14:23,  2.35s/it] 87%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                        | 13105/15000 [9:16:34<1:14:18,  2.35s/it] 87%|█████████████████████████████████████████████████████████████████████████████████████���██████████████████████████████████████████████████████████████████████████████████▋                        | 13106/15000 [9:16:36<1:14:17,  2.35s/it] 87%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                        | 13107/15000 [9:16:39<1:14:14,  2.35s/it] 87%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                        | 13108/15000 [9:16:41<1:14:09,  2.35s/it] 87%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                        | 13109/15000 [9:16:44<1:14:14,  2.36s/it] 87%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                        | 13110/15000 [9:16:46<1:14:07,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6142, 'grad_norm': 1.65625, 'learning_rate': 6.5691701625699885e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3477.56, 'total_tokens': 107105672, 'epoch': 0.87}
+ 87%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                        | 13110/15000 [9:16:46<1:14:07,  2.35s/it] 87%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                        | 13111/15000 [9:16:48<1:14:07,  2.35s/it] 87%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                        | 13112/15000 [9:16:51<1:14:03,  2.35s/it] 87%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                        | 13113/15000 [9:16:53<1:13:58,  2.35s/it] 87%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                        | 13114/15000 [9:16:55<1:13:55,  2.35s/it] 87%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                        | 13115/15000 [9:16:58<1:13:49,  2.35s/it] 87%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                        | 13116/15000 [9:17:00<1:13:48,  2.35s/it][2025-11-17 06:59:52,929] [INFO] [axolotl.utils.data.wrappers.get_dataset_wrapper:87] [PID:8163] Loading dataset: Goader/kobza-2m-jsonl with base_type: pretrain and prompt_style: None
+
+Tokenizing Prompts (num_proc=64):   0%|                                                                                                                                                                        | 0/10000 [00:00<?, ? examples/s][A
+Tokenizing Prompts (num_proc=64):   2%|██▍                                                                                                                                                           | 157/10000 [00:05<06:07, 26.81 examples/s][A
+Tokenizing Prompts (num_proc=64):   3%|████▉                                                                                                                                                         | 314/10000 [00:06<03:08, 51.45 examples/s][A
+Tokenizing Prompts (num_proc=64):   5%|███████▍                                                                                                                                                      | 471/10000 [00:07<01:47, 88.62 examples/s][A
+Tokenizing Prompts (num_proc=64):   6%|█████████▊                                                                                                                                                   | 628/10000 [00:08<01:20, 115.79 examples/s][A
+Tokenizing Prompts (num_proc=64):   8%|████████████▎                                                                                                                                                | 785/10000 [00:08<01:04, 143.50 examples/s][A
+Tokenizing Prompts (num_proc=64):   9%|██████████████▊                                                                                                                                              | 942/10000 [00:09<00:56, 161.32 examples/s][A
+Tokenizing Prompts (num_proc=64):  11%|█████████████████▏                                                                                                                                          | 1099/10000 [00:10<00:51, 172.40 examples/s][A
+Tokenizing Prompts (num_proc=64):  13%|███████████████████▌                                                                                                                                        | 1256/10000 [00:10<00:44, 197.56 examples/s][A
+Tokenizing Prompts (num_proc=64):  14%|██████████████████████                                                                                                                                      | 1413/10000 [00:11<00:48, 175.42 examples/s][A
+Tokenizing Prompts (num_proc=64):  16%|████████████████████████▍                                                                                                                                   | 1570/10000 [00:11<00:36, 229.66 examples/s][A
+Tokenizing Prompts (num_proc=64):  17%|██████████████████████████▉                                                                                                                                 | 1727/10000 [00:12<00:35, 229.88 examples/s][A
+Tokenizing Prompts (num_proc=64):  19%|█████████████████████████████▍                                                                                                                              | 1884/10000 [00:13<00:36, 220.17 examples/s][A
+Tokenizing Prompts (num_proc=64):  20%|███████████████████████████████▊                                                                                                                            | 2041/10000 [00:14<00:41, 193.26 examples/s][A
+Tokenizing Prompts (num_proc=64):  22%|██████████████████████████████████▎                                                                                                                         | 2198/10000 [00:14<00:31, 245.27 examples/s][A
+Tokenizing Prompts (num_proc=64):  24%|████████████████████████████████████▋                                                                                                                       | 2355/10000 [00:15<00:31, 245.46 examples/s][A
+Tokenizing Prompts (num_proc=64):  25%|███████████████████████████████████████▏                                                                                                                    | 2512/10000 [00:16<00:31, 234.77 examples/s][A
+Tokenizing Prompts (num_proc=64):  27%|█████████████████████████████████████████▌                                                                                                                  | 2668/10000 [00:16<00:30, 239.51 examples/s][A
+Tokenizing Prompts (num_proc=64):  28%|████████████████████████████████████████████                                                                                                                | 2824/10000 [00:17<00:30, 232.43 examples/s][A
+Tokenizing Prompts (num_proc=64):  30%|██████████████████████████████████████████████▍                                                                                                             | 2980/10000 [00:18<00:34, 200.60 examples/s][A
+Tokenizing Prompts (num_proc=64):  31%|████████████████████████████████████████████████▉                                                                                                           | 3136/10000 [00:19<00:29, 230.85 examples/s][A
+Tokenizing Prompts (num_proc=64):  33%|███████████████████████████████████████████████████▎                                                                                                        | 3292/10000 [00:19<00:26, 252.00 examples/s][A
+Tokenizing Prompts (num_proc=64):  34%|█████████████████████████████████████████████████████▊                                                                                                      | 3448/10000 [00:20<00:26, 244.19 examples/s][A
+Tokenizing Prompts (num_proc=64):  36%|████████████████████████████████████████████████████████▏                                                                                                   | 3604/10000 [00:20<00:26, 241.61 examples/s][A
+Tokenizing Prompts (num_proc=64):  38%|██████████████████████████████████████████████████████████▋                                                                                                 | 3760/10000 [00:21<00:25, 240.19 examples/s][A
+Tokenizing Prompts (num_proc=64):  39%|█████████████████████████████████████████████████████████████                                                                                               | 3916/10000 [00:22<00:25, 235.82 examples/s][A
+Tokenizing Prompts (num_proc=64):  41%|███████████████████████████████████████████████████████████████▌                                                                                            | 4072/10000 [00:23<00:27, 218.17 examples/s][A
+Tokenizing Prompts (num_proc=64):  42%|█████████████████████████████████████████████████████████████████▉                                                                                          | 4228/10000 [00:23<00:24, 232.37 examples/s][A
+Tokenizing Prompts (num_proc=64):  44%|████████████████████████████████████████████████████████████████████▍                                                                                       | 4384/10000 [00:24<00:24, 232.23 examples/s][A
+Tokenizing Prompts (num_proc=64):  45%|██████████████████████████████████████████████████████████████████████▊                                                                                     | 4540/10000 [00:24<00:22, 241.83 examples/s][A
+Tokenizing Prompts (num_proc=64):  47%|█████████████████████████████████████████████████████████████████████████▎                                                                                  | 4696/10000 [00:25<00:22, 238.42 examples/s][A
+Tokenizing Prompts (num_proc=64):  49%|███████████████████████████████████████████████████████████████████████████▋                                                                                | 4852/10000 [00:26<00:22, 228.51 examples/s][A
+Tokenizing Prompts (num_proc=64):  50%|██████████████████████████████████████████████████████████████████████████████                                                                              | 5008/10000 [00:27<00:25, 199.61 examples/s][A
+Tokenizing Prompts (num_proc=64):  52%|████████████████████████████████████████████████████████████████████████████████▌                                                                           | 5164/10000 [00:27<00:19, 254.47 examples/s][A
+Tokenizing Prompts (num_proc=64):  53%|██████████████████████████████████████████████████████████████████████████████████▉                                                                         | 5320/10000 [00:28<00:20, 232.30 examples/s][A
+Tokenizing Prompts (num_proc=64):  55%|█████████████████████████████████████████████████████████████████████████████████████▍                                                                      | 5476/10000 [00:28<00:18, 243.99 examples/s][A
+Tokenizing Prompts (num_proc=64):  56%|███████████████████████████████████████████████████████████████████████████████████████▊                                                                    | 5632/10000 [00:29<00:18, 238.37 examples/s][A
+Tokenizing Prompts (num_proc=64):  58%|██████████████████████████████████████████████████████████████████████████████████████████▎                                                                 | 5788/10000 [00:30<00:17, 240.87 examples/s][A
+Tokenizing Prompts (num_proc=64):  59%|████████████████████████████████████████████████████████████████████████████████��███████████▋                                                               | 5944/10000 [00:30<00:17, 232.87 examples/s][A
+Tokenizing Prompts (num_proc=64):  61%|███████████████████████████████████████████████████████████████████████████████████████████████▏                                                            | 6100/10000 [00:31<00:17, 225.64 examples/s][A
+Tokenizing Prompts (num_proc=64):  63%|█████████████████████████████████████████████████████████████████████████████████████████████████▌                                                          | 6256/10000 [00:32<00:15, 242.31 examples/s][A
+Tokenizing Prompts (num_proc=64):  64%|████████████████████████████████████████████████████████████████████████████████████████████████████                                                        | 6412/10000 [00:32<00:15, 235.37 examples/s][A
+Tokenizing Prompts (num_proc=64):  66%|██████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                     | 6568/10000 [00:33<00:14, 234.27 examples/s][A
+Tokenizing Prompts (num_proc=64):  67%|████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                   | 6724/10000 [00:34<00:13, 235.94 examples/s][A
+Tokenizing Prompts (num_proc=64):  69%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                | 6880/10000 [00:35<00:15, 197.96 examples/s][A
+Tokenizing Prompts (num_proc=64):  70%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                              | 7036/10000 [00:35<00:12, 242.46 examples/s][A
+Tokenizing Prompts (num_proc=64):  72%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                           | 7192/10000 [00:36<00:11, 247.89 examples/s][A
+Tokenizing Prompts (num_proc=64):  73%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                         | 7348/10000 [00:36<00:10, 246.17 examples/s][A
+Tokenizing Prompts (num_proc=64):  75%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                       | 7504/10000 [00:37<00:10, 240.80 examples/s][A
+Tokenizing Prompts (num_proc=64):  77%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████���█████▍                                    | 7660/10000 [00:38<00:09, 240.92 examples/s][A
+Tokenizing Prompts (num_proc=64):  78%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                  | 7816/10000 [00:38<00:09, 239.25 examples/s][A
+Tokenizing Prompts (num_proc=64):  80%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                               | 7972/10000 [00:39<00:10, 198.26 examples/s][A
+Tokenizing Prompts (num_proc=64):  81%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                             | 8128/10000 [00:40<00:09, 207.65 examples/s][A
+Tokenizing Prompts (num_proc=64):  83%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                          | 8284/10000 [00:40<00:06, 252.13 examples/s][A
+Tokenizing Prompts (num_proc=64):  84%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                        | 8440/10000 [00:41<00:06, 240.10 examples/s][A
+Tokenizing Prompts (num_proc=64):  86%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                      | 8596/10000 [00:42<00:05, 251.87 examples/s][A
+Tokenizing Prompts (num_proc=64):  88%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                   | 8752/10000 [00:43<00:06, 207.14 examples/s][A
+Tokenizing Prompts (num_proc=64):  89%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                 | 8908/10000 [00:43<00:04, 237.73 examples/s][A
+Tokenizing Prompts (num_proc=64):  91%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍              | 9064/10000 [00:44<00:03, 257.34 examples/s][A
+Tokenizing Prompts (num_proc=64):  92%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊            | 9220/10000 [00:44<00:03, 251.01 examples/s][A
+Tokenizing Prompts (num_proc=64):  94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎         | 9376/10000 [00:45<00:02, 229.72 examples/s][A
+Tokenizing Prompts (num_proc=64):  95%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋       | 9532/10000 [00:46<00:02, 205.96 examples/s][A
+Tokenizing Prompts (num_proc=64):  97%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏    | 9688/10000 [00:46<00:01, 252.46 examples/s][A
+Tokenizing Prompts (num_proc=64):  98%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌  | 9844/10000 [00:47<00:00, 249.68 examples/s][A
+Tokenizing Prompts (num_proc=64): 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10000/10000 [00:48<00:00, 244.36 examples/s][ATokenizing Prompts (num_proc=64): 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10000/10000 [00:50<00:00, 199.33 examples/s]
+
+Dropping Long Sequences:   0%|                                                                                                                                                                                 | 0/10000 [00:00<?, ? examples/s][A
+Dropping Long Sequences:  10%|████████████████▌                                                                                                                                                    | 1000/10000 [00:01<00:12, 692.73 examples/s][A
+Dropping Long Sequences:  20%|████████████████████████████████▊                                                                                                                                   | 2000/10000 [00:01<00:06, 1300.46 examples/s][A
+Dropping Long Sequences:  30%|█████████████████████████████████████████████████▏                                                                                                                  | 3000/10000 [00:01<00:03, 1881.50 examples/s][A
+Dropping Long Sequences:  40%|█████████████████████████████████████████████████████████████████▌                                                                                                  | 4000/10000 [00:02<00:02, 2391.50 examples/s][A
+Dropping Long Sequences:  50%|██████████████████████████████████████████████████████████████████████████████████                                                                                  | 5000/10000 [00:02<00:01, 2788.10 examples/s][A
+Dropping Long Sequences:  60%|██████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                 | 6000/10000 [00:02<00:01, 3108.04 examples/s][A
+Dropping Long Sequences:  70%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                 | 7000/10000 [00:02<00:00, 3351.74 examples/s][A
+Dropping Long Sequences:  80%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                | 8000/10000 [00:03<00:00, 3654.04 examples/s][A
+Dropping Long Sequences:  90%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                | 9000/10000 [00:03<00:00, 3650.88 examples/s][A
+Dropping Long Sequences: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10000/10000 [00:03<00:00, 3729.35 examples/s][ADropping Long Sequences: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10000/10000 [00:03<00:00, 2637.19 examples/s]
+
+Add position_id column (Pretraining Sample Packing):   0%|                                                                                                                                                      | 0/8737 [00:00<?, ? examples/s][A
+Add position_id column (Pretraining Sample Packing):  11%|███████████████▊                                                                                                                          | 1000/8737 [00:01<00:09, 808.22 examples/s][A
+Add position_id column (Pretraining Sample Packing):  23%|███████████████████████████████▎                                                                                                         | 2000/8737 [00:01<00:04, 1664.98 examples/s][A
+Add position_id column (Pretraining Sample Packing):  34%|███████████████████████████████████████████████                                                                                          | 3000/8737 [00:01<00:02, 2551.87 examples/s][A
+Add position_id column (Pretraining Sample Packing):  46%|██████████████████████████████████████████████████████████████▋                                                                          | 4000/8737 [00:01<00:01, 3358.40 examples/s][A
+Add position_id column (Pretraining Sample Packing):  57%|███████████████████████████████████████████████��██████████████████████████████▍                                                          | 5000/8737 [00:01<00:00, 4145.24 examples/s][A
+Add position_id column (Pretraining Sample Packing):  69%|██████████████████████████████████████████████████████████████████████████████████████████████                                           | 6000/8737 [00:01<00:00, 4816.03 examples/s][A
+Add position_id column (Pretraining Sample Packing):  80%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                           | 7000/8737 [00:02<00:00, 5436.88 examples/s][A
+Add position_id column (Pretraining Sample Packing):  92%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍           | 8000/8737 [00:02<00:00, 5674.29 examples/s][A
+Add position_id column (Pretraining Sample Packing): 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 8737/8737 [00:02<00:00, 5893.23 examples/s][AAdd position_id column (Pretraining Sample Packing): 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 8737/8737 [00:02<00:00, 3599.42 examples/s]
+[2025-11-17 07:00:50,846] [DEBUG] [axolotl.utils.samplers.multipack.pack_parallel:177] [PID:8163] Using single process for pack_parallel, running sequentially.
+ 87%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                        | 13117/15000 [9:18:05<11:03:49, 21.15s/it] 87%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                        | 13118/15000 [9:18:07<8:06:33, 15.51s/it] 87%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                        | 13119/15000 [9:18:10<6:02:31, 11.56s/it] 87%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                        | 13120/15000 [9:18:12<4:35:47,  8.80s/it]                                                                                                                                                                                                                                                {'loss': 2.5722, 'grad_norm': 1.8359375, 'learning_rate': 6.527503373823476e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3405.02, 'total_tokens': 107185687, 'epoch': 0.87}
+ 87%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                        | 13120/15000 [9:18:12<4:35:47,  8.80s/it] 87%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                        | 13121/15000 [9:18:14<3:35:01,  6.87s/it] 87%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                        | 13122/15000 [9:18:17<2:52:26,  5.51s/it] 87%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                        | 13123/15000 [9:18:19<2:22:45,  4.56s/it] 87%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                        | 13124/15000 [9:18:21<2:01:56,  3.90s/it] 88%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                        | 13125/15000 [9:18:24<1:47:24,  3.44s/it] 88%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                        | 13126/15000 [9:18:26<1:37:14,  3.11s/it] 88%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                        | 13127/15000 [9:18:29<1:30:05,  2.89s/it] 88%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                        | 13128/15000 [9:18:31<1:24:58,  2.72s/it] 88%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                        | 13129/15000 [9:18:33<1:21:29,  2.61s/it] 88%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                        | 13130/15000 [9:18:36<1:19:00,  2.54s/it]                                                                                                                                                                                                                                                {'loss': 2.7064, 'grad_norm': 1.7734375, 'learning_rate': 6.486031238156365e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3489.19, 'total_tokens': 107267533, 'epoch': 0.88}
+ 88%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                        | 13130/15000 [9:18:36<1:19:00,  2.54s/it] 88%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                        | 13131/15000 [9:18:38<1:17:16,  2.48s/it] 88%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                        | 13132/15000 [9:18:40<1:16:00,  2.44s/it] 88%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                        | 13133/15000 [9:18:43<1:15:06,  2.41s/it] 88%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                        | 13134/15000 [9:18:45<1:14:27,  2.39s/it] 88%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                        | 13135/15000 [9:18:47<1:13:59,  2.38s/it] 88%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                        | 13136/15000 [9:18:50<1:13:41,  2.37s/it] 88%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                        | 13137/15000 [9:18:52<1:13:26,  2.37s/it] 88%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                        | 13138/15000 [9:18:54<1:13:19,  2.36s/it] 88%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                        | 13139/15000 [9:18:57<1:13:07,  2.36s/it] 88%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                        | 13140/15000 [9:18:59<1:13:02,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.6889, 'grad_norm': 1.6953125, 'learning_rate': 6.444754164881901e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3487.77, 'total_tokens': 107349362, 'epoch': 0.88}
+ 88%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                        | 13140/15000 [9:18:59<1:13:02,  2.36s/it] 88%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████���                        | 13141/15000 [9:19:01<1:13:01,  2.36s/it] 88%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                        | 13142/15000 [9:19:04<1:12:56,  2.36s/it] 88%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                        | 13143/15000 [9:19:07<1:17:21,  2.50s/it] 88%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                        | 13144/15000 [9:19:09<1:15:55,  2.45s/it] 88%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                       | 13145/15000 [9:19:11<1:14:51,  2.42s/it] 88%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                       | 13146/15000 [9:19:14<1:14:13,  2.40s/it] 88%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                       | 13147/15000 [9:19:16<1:13:42,  2.39s/it] 88%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                       | 13148/15000 [9:19:18<1:13:22,  2.38s/it] 88%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                       | 13149/15000 [9:19:21<1:13:07,  2.37s/it] 88%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████��██████████████████████████████████▏                       | 13150/15000 [9:19:23<1:12:56,  2.37s/it]                                                                                                                                                                                                                                                {'loss': 2.6371, 'grad_norm': 1.7421875, 'learning_rate': 6.4036725613881275e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3485.0, 'total_tokens': 107431153, 'epoch': 0.88}
+ 88%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                       | 13150/15000 [9:19:23<1:12:56,  2.37s/it] 88%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                       | 13151/15000 [9:19:26<1:12:52,  2.36s/it] 88%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                       | 13152/15000 [9:19:28<1:12:43,  2.36s/it] 88%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                       | 13153/15000 [9:19:30<1:12:35,  2.36s/it] 88%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                       | 13154/15000 [9:19:33<1:12:30,  2.36s/it] 88%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                       | 13155/15000 [9:19:35<1:12:28,  2.36s/it] 88%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                       | 13156/15000 [9:19:37<1:12:25,  2.36s/it] 88%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████��████████████████████████████████████████████████▎                       | 13157/15000 [9:19:40<1:12:25,  2.36s/it] 88%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                       | 13158/15000 [9:19:42<1:12:23,  2.36s/it] 88%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                       | 13159/15000 [9:19:44<1:12:16,  2.36s/it] 88%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                       | 13160/15000 [9:19:47<1:12:15,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.6554, 'grad_norm': 1.7109375, 'learning_rate': 6.362786833133882e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3482.07, 'total_tokens': 107512979, 'epoch': 0.88}
+ 88%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                       | 13160/15000 [9:19:47<1:12:15,  2.36s/it] 88%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                       | 13161/15000 [9:19:49<1:12:11,  2.36s/it] 88%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                       | 13162/15000 [9:19:51<1:12:04,  2.35s/it] 88%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                       | 13163/15000 [9:19:54<1:12:01,  2.35s/it] 88%|██████████████████████████████████████████████████████████████████████████████████████████████████████████��██████████████████████████████████████████████████████████████▍                       | 13164/15000 [9:19:56<1:11:55,  2.35s/it] 88%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                       | 13165/15000 [9:19:58<1:11:55,  2.35s/it] 88%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                       | 13166/15000 [9:20:01<1:11:52,  2.35s/it] 88%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                       | 13167/15000 [9:20:03<1:11:47,  2.35s/it] 88%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                       | 13168/15000 [9:20:06<1:11:47,  2.35s/it] 88%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                       | 13169/15000 [9:20:08<1:11:47,  2.35s/it] 88%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                       | 13170/15000 [9:20:10<1:11:49,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.6075, 'grad_norm': 1.7265625, 'learning_rate': 6.322097383644805e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3474.93, 'total_tokens': 107594761, 'epoch': 0.88}
+ 88%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                       | 13170/15000 [9:20:10<1:11:49,  2.36s/it] 88%|████████████████████████████████████████████████████████████████████████████████████████████��████████████████████████████████████████████████████████████████████████████▍                       | 13171/15000 [9:20:13<1:11:48,  2.36s/it] 88%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                       | 13172/15000 [9:20:15<1:11:42,  2.35s/it] 88%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                       | 13173/15000 [9:20:17<1:11:43,  2.36s/it] 88%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                       | 13174/15000 [9:20:20<1:11:37,  2.35s/it] 88%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                       | 13175/15000 [9:20:22<1:11:32,  2.35s/it] 88%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                       | 13176/15000 [9:20:24<1:11:31,  2.35s/it] 88%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                       | 13177/15000 [9:20:27<1:11:29,  2.35s/it] 88%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                       | 13178/15000 [9:20:29<1:11:27,  2.35s/it] 88%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                       | 13179/15000 [9:20:31<1:11:21,  2.35s/it] 88%|████████████████████████████████████████████████████████���████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                       | 13180/15000 [9:20:34<1:11:20,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6922, 'grad_norm': 1.6875, 'learning_rate': 6.28160461450933e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3486.0, 'total_tokens': 107676545, 'epoch': 0.88}
+ 88%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                       | 13180/15000 [9:20:34<1:11:20,  2.35s/it] 88%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                       | 13181/15000 [9:20:36<1:11:19,  2.35s/it] 88%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                       | 13182/15000 [9:20:38<1:11:16,  2.35s/it] 88%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                       | 13183/15000 [9:20:41<1:11:16,  2.35s/it] 88%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                       | 13184/15000 [9:20:43<1:11:14,  2.35s/it] 88%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                       | 13185/15000 [9:20:46<1:11:13,  2.35s/it] 88%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                       | 13186/15000 [9:20:48<1:11:12,  2.36s/it] 88%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                       | 13187/15000 [9:20:50<1:11:10,  2.36s/it] 88%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                       | 13188/15000 [9:20:53<1:11:08,  2.36s/it] 88%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                       | 13189/15000 [9:20:55<1:11:06,  2.36s/it] 88%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                       | 13190/15000 [9:20:57<1:11:06,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.6708, 'grad_norm': 1.8125, 'learning_rate': 6.2413089253747426e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3472.83, 'total_tokens': 107758273, 'epoch': 0.88}
+ 88%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                       | 13190/15000 [9:20:57<1:11:06,  2.36s/it] 88%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                       | 13191/15000 [9:21:00<1:11:03,  2.36s/it] 88%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                       | 13192/15000 [9:21:02<1:11:03,  2.36s/it] 88%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                       | 13193/15000 [9:21:04<1:11:03,  2.36s/it] 88%|██████████████████████████████��██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                       | 13194/15000 [9:21:07<1:10:59,  2.36s/it] 88%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                       | 13195/15000 [9:21:09<1:10:53,  2.36s/it] 88%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                       | 13196/15000 [9:21:11<1:10:49,  2.36s/it] 88%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                       | 13197/15000 [9:21:14<1:10:48,  2.36s/it] 88%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                       | 13198/15000 [9:21:16<1:10:46,  2.36s/it] 88%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                       | 13199/15000 [9:21:19<1:10:40,  2.35s/it] 88%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                       | 13200/15000 [9:21:21<1:10:37,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.7162, 'grad_norm': 1.796875, 'learning_rate': 6.201210713943225e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3484.44, 'total_tokens': 107840018, 'epoch': 0.88}
+ 88%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                       | 13200/15000 [9:21:21<1:10:37,  2.35s/it] 88%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                       | 13201/15000 [9:21:23<1:10:36,  2.35s/it] 88%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                       | 13202/15000 [9:21:26<1:10:36,  2.36s/it] 88%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                       | 13203/15000 [9:21:28<1:10:30,  2.35s/it] 88%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                       | 13204/15000 [9:21:30<1:10:31,  2.36s/it] 88%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                       | 13205/15000 [9:21:33<1:10:29,  2.36s/it] 88%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                       | 13206/15000 [9:21:35<1:10:26,  2.36s/it] 88%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                       | 13207/15000 [9:21:37<1:10:22,  2.35s/it] 88%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                       | 13208/15000 [9:21:40<1:10:19,  2.35s/it] 88%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                       | 13209/15000 [9:21:42<1:10:18,  2.36s/it] 88%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                       | 13210/15000 [9:21:44<1:10:15,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6147, 'grad_norm': 1.6875, 'learning_rate': 6.16131037596794e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3484.1, 'total_tokens': 107921794, 'epoch': 0.88}
+ 88%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                       | 13210/15000 [9:21:44<1:10:15,  2.35s/it] 88%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                       | 13211/15000 [9:21:47<1:10:14,  2.36s/it] 88%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                       | 13212/15000 [9:21:49<1:10:08,  2.35s/it] 88%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                       | 13213/15000 [9:21:51<1:10:04,  2.35s/it] 88%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                       | 13214/15000 [9:21:54<1:09:59,  2.35s/it] 88%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                       | 13215/15000 [9:21:56<1:09:58,  2.35s/it] 88%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                       | 13216/15000 [9:21:59<1:09:55,  2.35s/it] 88%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                       | 13217/15000 [9:22:01<1:09:52,  2.35s/it] 88%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                       | 13218/15000 [9:22:03<1:09:53,  2.35s/it] 88%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                       | 13219/15000 [9:22:06<1:09:54,  2.36s/it] 88%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                       | 13220/15000 [9:22:08<1:09:49,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6921, 'grad_norm': 1.7734375, 'learning_rate': 6.12160830524911e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3490.1, 'total_tokens': 108003590, 'epoch': 0.88}
+ 88%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                       | 13220/15000 [9:22:08<1:09:49,  2.35s/it] 88%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                       | 13221/15000 [9:22:10<1:09:51,  2.36s/it] 88%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                       | 13222/15000 [9:22:13<1:09:49,  2.36s/it] 88%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████��█████████████████████▏                      | 13223/15000 [9:22:15<1:09:46,  2.36s/it] 88%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                      | 13224/15000 [9:22:17<1:09:41,  2.35s/it] 88%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                      | 13225/15000 [9:22:20<1:09:43,  2.36s/it] 88%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                      | 13226/15000 [9:22:22<1:09:43,  2.36s/it] 88%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                      | 13227/15000 [9:22:24<1:09:36,  2.36s/it] 88%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                      | 13228/15000 [9:22:27<1:09:30,  2.35s/it] 88%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                      | 13229/15000 [9:22:29<1:09:31,  2.36s/it] 88%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                      | 13230/15000 [9:22:32<1:09:27,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6666, 'grad_norm': 1.734375, 'learning_rate': 6.082104893630148e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3486.89, 'total_tokens': 108085362, 'epoch': 0.88}
+ 88%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████��████████████████████████████████████████▏                      | 13230/15000 [9:22:32<1:09:27,  2.35s/it] 88%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                      | 13231/15000 [9:22:34<1:09:25,  2.35s/it] 88%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                      | 13232/15000 [9:22:36<1:09:25,  2.36s/it] 88%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                      | 13233/15000 [9:22:39<1:09:21,  2.36s/it] 88%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                      | 13234/15000 [9:22:41<1:09:17,  2.35s/it] 88%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                      | 13235/15000 [9:22:43<1:09:20,  2.36s/it] 88%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                      | 13236/15000 [9:22:46<1:09:12,  2.35s/it] 88%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                      | 13237/15000 [9:22:48<1:09:10,  2.35s/it] 88%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                      | 13238/15000 [9:22:50<1:09:12,  2.36s/it] 88%|███████████████████████████████████████████████████████████████████████████████████████���██████████████████████████████████████████████████████████████████████████████████▎                      | 13239/15000 [9:22:53<1:09:14,  2.36s/it] 88%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                      | 13240/15000 [9:22:55<1:09:06,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.6554, 'grad_norm': 1.828125, 'learning_rate': 6.04280053099378e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3490.71, 'total_tokens': 108167125, 'epoch': 0.88}
+ 88%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                      | 13240/15000 [9:22:55<1:09:06,  2.36s/it] 88%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                      | 13241/15000 [9:22:57<1:09:03,  2.36s/it] 88%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                      | 13242/15000 [9:23:00<1:08:59,  2.35s/it] 88%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                      | 13243/15000 [9:23:02<1:08:55,  2.35s/it] 88%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                      | 13244/15000 [9:23:04<1:08:51,  2.35s/it] 88%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                      | 13245/15000 [9:23:07<1:08:52,  2.35s/it] 88%|████████████████████████████████████████████████████████████████████��█████████████████████████████████████████████████████████████████████████████████████████████████████▍                      | 13246/15000 [9:23:09<1:08:50,  2.35s/it] 88%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                      | 13247/15000 [9:23:12<1:08:44,  2.35s/it] 88%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                      | 13248/15000 [9:23:14<1:08:42,  2.35s/it] 88%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                      | 13249/15000 [9:23:16<1:08:38,  2.35s/it] 88%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                      | 13250/15000 [9:23:19<1:08:36,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6698, 'grad_norm': 1.734375, 'learning_rate': 6.0036956052581865e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3488.72, 'total_tokens': 108248915, 'epoch': 0.88}
+ 88%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                      | 13250/15000 [9:23:19<1:08:36,  2.35s/it] 88%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                      | 13251/15000 [9:23:21<1:08:34,  2.35s/it] 88%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                      | 13252/15000 [9:23:23<1:08:32,  2.35s/it] 88%|█████████████████████████████████████████████████���████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                      | 13253/15000 [9:23:26<1:08:33,  2.35s/it] 88%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                      | 13254/15000 [9:23:28<1:08:31,  2.36s/it] 88%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                      | 13255/15000 [9:23:30<1:08:25,  2.35s/it] 88%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                      | 13256/15000 [9:23:33<1:08:24,  2.35s/it] 88%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                      | 13257/15000 [9:23:35<1:08:22,  2.35s/it] 88%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                      | 13258/15000 [9:23:37<1:08:16,  2.35s/it] 88%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                      | 13259/15000 [9:23:40<1:08:15,  2.35s/it] 88%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                      | 13260/15000 [9:23:42<1:08:15,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6725, 'grad_norm': 1.734375, 'learning_rate': 5.964790502373213e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3481.5, 'total_tokens': 108330677, 'epoch': 0.88}
+ 88%|██████████████████████████████��███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                      | 13260/15000 [9:23:42<1:08:15,  2.35s/it] 88%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                      | 13261/15000 [9:23:44<1:08:14,  2.35s/it] 88%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                      | 13262/15000 [9:23:47<1:08:12,  2.35s/it] 88%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                      | 13263/15000 [9:23:49<1:08:10,  2.36s/it] 88%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                      | 13264/15000 [9:23:52<1:08:09,  2.36s/it] 88%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                      | 13265/15000 [9:23:54<1:08:02,  2.35s/it] 88%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                      | 13266/15000 [9:23:56<1:08:00,  2.35s/it] 88%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                      | 13267/15000 [9:23:59<1:08:00,  2.35s/it] 88%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                      | 13268/15000 [9:24:01<1:07:58,  2.35s/it] 88%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                      | 13269/15000 [9:24:03<1:07:57,  2.36s/it] 88%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                      | 13270/15000 [9:24:06<1:07:57,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.6575, 'grad_norm': 1.71875, 'learning_rate': 5.926085606316506e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3476.74, 'total_tokens': 108412480, 'epoch': 0.88}
+ 88%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                      | 13270/15000 [9:24:06<1:07:57,  2.36s/it] 88%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                      | 13271/15000 [9:24:08<1:07:52,  2.36s/it] 88%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                      | 13272/15000 [9:24:10<1:07:50,  2.36s/it] 88%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                      | 13273/15000 [9:24:13<1:07:43,  2.35s/it] 88%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                      | 13274/15000 [9:24:15<1:07:43,  2.35s/it] 88%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                      | 13275/15000 [9:24:17<1:07:35,  2.35s/it] 89%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                      | 13276/15000 [9:24:20<1:07:36,  2.35s/it] 89%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                      | 13277/15000 [9:24:22<1:07:33,  2.35s/it] 89%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                      | 13278/15000 [9:24:25<1:07:29,  2.35s/it] 89%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                      | 13279/15000 [9:24:27<1:07:27,  2.35s/it] 89%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                      | 13280/15000 [9:24:29<1:07:28,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.5954, 'grad_norm': 1.8984375, 'learning_rate': 5.887581299089773e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3478.16, 'total_tokens': 108494249, 'epoch': 0.89}
+ 89%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                      | 13280/15000 [9:24:29<1:07:28,  2.35s/it] 89%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                      | 13281/15000 [9:24:32<1:07:25,  2.35s/it] 89%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████��█████████████████████████▉                      | 13282/15000 [9:24:34<1:07:25,  2.35s/it] 89%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                      | 13283/15000 [9:24:36<1:07:24,  2.36s/it] 89%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                      | 13284/15000 [9:24:39<1:07:22,  2.36s/it] 89%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                      | 13285/15000 [9:24:41<1:07:20,  2.36s/it] 89%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                      | 13286/15000 [9:24:43<1:07:15,  2.35s/it] 89%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                      | 13287/15000 [9:24:46<1:07:12,  2.35s/it] 89%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                      | 13288/15000 [9:24:48<1:07:13,  2.36s/it] 89%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                      | 13289/15000 [9:24:50<1:07:14,  2.36s/it] 89%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                      | 13290/15000 [9:24:53<1:07:11,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.5937, 'grad_norm': 2.015625, 'learning_rate': 5.849277960714973e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3478.2, 'total_tokens': 108575992, 'epoch': 0.89}
+ 89%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                      | 13290/15000 [9:24:53<1:07:11,  2.36s/it] 89%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                      | 13291/15000 [9:24:55<1:07:06,  2.36s/it] 89%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                      | 13292/15000 [9:24:57<1:07:03,  2.36s/it] 89%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                      | 13293/15000 [9:25:00<1:07:01,  2.36s/it] 89%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                      | 13294/15000 [9:25:02<1:07:00,  2.36s/it] 89%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                      | 13295/15000 [9:25:05<1:06:58,  2.36s/it] 89%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                      | 13296/15000 [9:25:07<1:06:52,  2.35s/it] 89%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                      | 13297/15000 [9:25:09<1:06:49,  2.35s/it] 89%|███████████████████████████████████████████████████████████████████████████████████��███████████████████████████████████████████████████████████████████████████████████████                      | 13298/15000 [9:25:12<1:06:51,  2.36s/it] 89%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                      | 13299/15000 [9:25:14<1:06:47,  2.36s/it] 89%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                     | 13300/15000 [9:25:16<1:06:46,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.7579, 'grad_norm': 1.78125, 'learning_rate': 5.811175969230598e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3476.2, 'total_tokens': 108657749, 'epoch': 0.89}
+ 89%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                     | 13300/15000 [9:25:16<1:06:46,  2.36s/it] 89%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                     | 13301/15000 [9:25:19<1:06:43,  2.36s/it] 89%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                     | 13302/15000 [9:25:21<1:06:38,  2.35s/it] 89%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                     | 13303/15000 [9:25:23<1:06:37,  2.36s/it] 89%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                     | 13304/15000 [9:25:26<1:06:35,  2.36s/it] 89%|█████████████████████████████████████████████████████████████���█████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                     | 13305/15000 [9:25:28<1:06:29,  2.35s/it] 89%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                     | 13306/15000 [9:25:30<1:06:28,  2.35s/it] 89%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                     | 13307/15000 [9:25:33<1:06:30,  2.36s/it] 89%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                     | 13308/15000 [9:25:35<1:06:25,  2.36s/it] 89%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                     | 13309/15000 [9:25:38<1:06:23,  2.36s/it] 89%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                     | 13310/15000 [9:25:40<1:06:18,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6264, 'grad_norm': 1.71875, 'learning_rate': 5.773275700687916e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3487.22, 'total_tokens': 108739485, 'epoch': 0.89}
+ 89%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                     | 13310/15000 [9:25:40<1:06:18,  2.35s/it] 89%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                     | 13311/15000 [9:25:42<1:06:18,  2.36s/it] 89%|█████████████████████████████████████���█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                     | 13312/15000 [9:25:45<1:06:19,  2.36s/it] 89%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                     | 13313/15000 [9:25:47<1:06:11,  2.35s/it] 89%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                     | 13314/15000 [9:25:49<1:06:06,  2.35s/it] 89%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                     | 13315/15000 [9:25:52<1:06:03,  2.35s/it] 89%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                     | 13316/15000 [9:25:54<1:06:02,  2.35s/it] 89%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                     | 13317/15000 [9:25:56<1:06:03,  2.35s/it] 89%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                     | 13318/15000 [9:25:59<1:06:01,  2.35s/it] 89%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                     | 13319/15000 [9:26:01<1:06:00,  2.36s/it] 89%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                     | 13320/15000 [9:26:03<1:05:51,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6449, 'grad_norm': 1.7890625, 'learning_rate': 5.7355775291472845e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3499.55, 'total_tokens': 108821273, 'epoch': 0.89}
+ 89%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                     | 13320/15000 [9:26:03<1:05:51,  2.35s/it] 89%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                     | 13321/15000 [9:26:06<1:05:46,  2.35s/it] 89%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                     | 13322/15000 [9:26:08<1:05:44,  2.35s/it] 89%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                     | 13323/15000 [9:26:10<1:05:46,  2.35s/it] 89%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                     | 13324/15000 [9:26:13<1:05:42,  2.35s/it] 89%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                     | 13325/15000 [9:26:15<1:05:41,  2.35s/it] 89%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                     | 13326/15000 [9:26:18<1:05:37,  2.35s/it] 89%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                     | 13327/15000 [9:26:20<1:05:36,  2.35s/it] 89%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                     | 13328/15000 [9:26:22<1:05:32,  2.35s/it] 89%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                     | 13329/15000 [9:26:25<1:05:31,  2.35s/it] 89%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                     | 13330/15000 [9:26:27<1:05:27,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6904, 'grad_norm': 1.9296875, 'learning_rate': 5.698081826674436e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3489.91, 'total_tokens': 108902998, 'epoch': 0.89}
+ 89%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                     | 13330/15000 [9:26:27<1:05:27,  2.35s/it] 89%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                     | 13331/15000 [9:26:29<1:05:27,  2.35s/it] 89%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                     | 13332/15000 [9:26:32<1:05:27,  2.35s/it] 89%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                     | 13333/15000 [9:26:34<1:05:27,  2.36s/it] 89%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████���████████████████████████████████████▌                     | 13334/15000 [9:26:36<1:05:23,  2.35s/it] 89%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                     | 13335/15000 [9:26:39<1:05:20,  2.35s/it] 89%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                     | 13336/15000 [9:26:41<1:05:17,  2.35s/it] 89%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                     | 13337/15000 [9:26:43<1:05:13,  2.35s/it] 89%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                     | 13338/15000 [9:26:46<1:05:09,  2.35s/it] 89%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                     | 13339/15000 [9:26:48<1:05:07,  2.35s/it] 89%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                     | 13340/15000 [9:26:50<1:05:09,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6108, 'grad_norm': 1.78125, 'learning_rate': 5.6607889633368065e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3472.27, 'total_tokens': 108984724, 'epoch': 0.89}
+ 89%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                     | 13340/15000 [9:26:50<1:05:09,  2.35s/it] 89%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                     | 13341/15000 [9:26:53<1:05:08,  2.36s/it] 89%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                     | 13342/15000 [9:26:55<1:05:06,  2.36s/it] 89%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                     | 13343/15000 [9:26:58<1:05:01,  2.35s/it] 89%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                     | 13344/15000 [9:27:00<1:04:58,  2.35s/it] 89%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                     | 13345/15000 [9:27:02<1:04:57,  2.35s/it] 89%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                     | 13346/15000 [9:27:05<1:04:53,  2.35s/it] 89%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                     | 13347/15000 [9:27:07<1:04:51,  2.35s/it] 89%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                     | 13348/15000 [9:27:09<1:04:49,  2.35s/it] 89%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                     | 13349/15000 [9:27:12<1:04:46,  2.35s/it] 89%|█████████████████████████████████████████████████████████████��█████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                     | 13350/15000 [9:27:14<1:04:43,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6674, 'grad_norm': 1.78125, 'learning_rate': 5.62369930719991e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3483.66, 'total_tokens': 109066430, 'epoch': 0.89}
+ 89%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                     | 13350/15000 [9:27:14<1:04:43,  2.35s/it] 89%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                     | 13351/15000 [9:27:16<1:04:38,  2.35s/it] 89%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                     | 13352/15000 [9:27:19<1:04:36,  2.35s/it] 89%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                     | 13353/15000 [9:27:21<1:04:37,  2.35s/it] 89%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                     | 13354/15000 [9:27:23<1:04:31,  2.35s/it] 89%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                     | 13355/15000 [9:27:26<1:04:33,  2.35s/it] 89%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                     | 13356/15000 [9:27:28<1:04:31,  2.35s/it] 89%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                     | 13357/15000 [9:27:31<1:04:26,  2.35s/it] 89%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                     | 13358/15000 [9:27:33<1:04:25,  2.35s/it] 89%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                     | 13359/15000 [9:27:35<1:04:24,  2.35s/it] 89%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                     | 13360/15000 [9:27:38<1:04:21,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.5543, 'grad_norm': 2.34375, 'learning_rate': 5.586813224323677e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3483.38, 'total_tokens': 109148191, 'epoch': 0.89}
+ 89%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                     | 13360/15000 [9:27:38<1:04:21,  2.35s/it] 89%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                     | 13361/15000 [9:27:40<1:04:18,  2.35s/it] 89%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                     | 13362/15000 [9:27:42<1:04:15,  2.35s/it] 89%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                     | 13363/15000 [9:27:45<1:04:13,  2.35s/it] 89%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                     | 13364/15000 [9:27:47<1:04:11,  2.35s/it] 89%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                     | 13365/15000 [9:27:49<1:04:06,  2.35s/it] 89%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                     | 13366/15000 [9:27:52<1:04:02,  2.35s/it] 89%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                     | 13367/15000 [9:27:54<1:04:01,  2.35s/it] 89%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                     | 13368/15000 [9:27:56<1:04:04,  2.36s/it] 89%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                     | 13369/15000 [9:27:59<1:04:00,  2.35s/it] 89%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                     | 13370/15000 [9:28:01<1:03:57,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6491, 'grad_norm': 1.7734375, 'learning_rate': 5.550131078758855e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3486.55, 'total_tokens': 109229965, 'epoch': 0.89}
+ 89%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                     | 13370/15000 [9:28:01<1:03:57,  2.35s/it] 89%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                     | 13371/15000 [9:28:03<1:03:54,  2.35s/it] 89%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                     | 13372/15000 [9:28:06<1:03:51,  2.35s/it] 89%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                     | 13373/15000 [9:28:08<1:03:49,  2.35s/it] 89%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                     | 13374/15000 [9:28:11<1:03:47,  2.35s/it] 89%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                     | 13375/15000 [9:28:13<1:03:44,  2.35s/it] 89%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                     | 13376/15000 [9:28:15<1:03:42,  2.35s/it] 89%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                     | 13377/15000 [9:28:18<1:03:39,  2.35s/it] 89%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                    | 13378/15000 [9:28:20<1:03:36,  2.35s/it] 89%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████���████████████████████████████████████▏                    | 13379/15000 [9:28:22<1:03:34,  2.35s/it] 89%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                    | 13380/15000 [9:28:25<1:03:32,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6414, 'grad_norm': 1.7421875, 'learning_rate': 5.513653232543406e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3481.45, 'total_tokens': 109311658, 'epoch': 0.89}
+ 89%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                    | 13380/15000 [9:28:25<1:03:32,  2.35s/it] 89%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                    | 13381/15000 [9:28:27<1:03:32,  2.35s/it] 89%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                    | 13382/15000 [9:28:29<1:03:26,  2.35s/it] 89%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                    | 13383/15000 [9:28:32<1:03:27,  2.35s/it] 89%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                    | 13384/15000 [9:28:34<1:03:24,  2.35s/it] 89%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                    | 13385/15000 [9:28:36<1:03:23,  2.36s/it] 89%|█████████████████████████████████████████████████████████████████████████████████████████████████████████���██████████████████████████████████████████████████████████████████▏                    | 13386/15000 [9:28:39<1:03:21,  2.36s/it] 89%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                    | 13387/15000 [9:28:41<1:03:20,  2.36s/it] 89%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                    | 13388/15000 [9:28:43<1:03:14,  2.35s/it] 89%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                    | 13389/15000 [9:28:46<1:03:11,  2.35s/it] 89%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                    | 13390/15000 [9:28:48<1:03:07,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6883, 'grad_norm': 1.71875, 'learning_rate': 5.477380045698958e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3488.12, 'total_tokens': 109393374, 'epoch': 0.89}
+ 89%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                    | 13390/15000 [9:28:48<1:03:07,  2.35s/it] 89%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                    | 13391/15000 [9:28:51<1:03:07,  2.35s/it] 89%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                    | 13392/15000 [9:28:53<1:03:08,  2.36s/it] 89%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                    | 13393/15000 [9:28:55<1:03:04,  2.35s/it] 89%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                    | 13394/15000 [9:28:58<1:03:00,  2.35s/it] 89%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                    | 13395/15000 [9:29:00<1:02:56,  2.35s/it] 89%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                    | 13396/15000 [9:29:02<1:02:55,  2.35s/it] 89%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                    | 13397/15000 [9:29:05<1:02:56,  2.36s/it] 89%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                    | 13398/15000 [9:29:07<1:02:55,  2.36s/it] 89%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                    | 13399/15000 [9:29:09<1:02:53,  2.36s/it] 89%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                    | 13400/15000 [9:29:12<1:02:49,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.6217, 'grad_norm': 1.6328125, 'learning_rate': 5.441311876227207e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3482.86, 'total_tokens': 109475068, 'epoch': 0.89}
+ 89%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                    | 13400/15000 [9:29:12<1:02:49,  2.36s/it] 89%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                    | 13401/15000 [9:29:14<1:02:47,  2.36s/it] 89%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                    | 13402/15000 [9:29:16<1:02:41,  2.35s/it] 89%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                    | 13403/15000 [9:29:19<1:02:41,  2.36s/it] 89%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                    | 13404/15000 [9:29:21<1:02:41,  2.36s/it] 89%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                    | 13405/15000 [9:29:24<1:02:37,  2.36s/it] 89%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                    | 13406/15000 [9:29:26<1:02:33,  2.35s/it] 89%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                    | 13407/15000 [9:29:28<1:02:28,  2.35s/it] 89%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                    | 13408/15000 [9:29:31<1:02:24,  2.35s/it] 89%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                    | 13409/15000 [9:29:33<1:06:10,  2.50s/it] 89%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                    | 13410/15000 [9:29:36<1:05:02,  2.45s/it]                                                                                                                                                                                                                                                {'loss': 2.6784, 'grad_norm': 1.7421875, 'learning_rate': 5.405449080106432e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3480.07, 'total_tokens': 109556868, 'epoch': 0.89}
+ 89%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                    | 13410/15000 [9:29:36<1:05:02,  2.45s/it] 89%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                    | 13411/15000 [9:29:38<1:04:11,  2.42s/it] 89%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                    | 13412/15000 [9:29:40<1:03:35,  2.40s/it] 89%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                    | 13413/15000 [9:29:43<1:03:07,  2.39s/it] 89%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                    | 13414/15000 [9:29:45<1:02:49,  2.38s/it] 89%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████���██████████████▌                    | 13415/15000 [9:29:48<1:02:34,  2.37s/it] 89%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                    | 13416/15000 [9:29:50<1:02:25,  2.36s/it] 89%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                    | 13417/15000 [9:29:52<1:02:19,  2.36s/it] 89%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                    | 13418/15000 [9:29:55<1:02:14,  2.36s/it] 89%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                    | 13419/15000 [9:29:57<1:02:08,  2.36s/it] 89%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                    | 13420/15000 [9:29:59<1:02:06,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.741, 'grad_norm': 1.7734375, 'learning_rate': 5.3697920112879494e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3473.05, 'total_tokens': 109638551, 'epoch': 0.89}
+ 89%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                    | 13420/15000 [9:29:59<1:02:06,  2.36s/it] 89%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                    | 13421/15000 [9:30:02<1:02:02,  2.36s/it] 89%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████���████████████████████████████████████████████▋                    | 13422/15000 [9:30:04<1:01:59,  2.36s/it] 89%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                    | 13423/15000 [9:30:06<1:01:56,  2.36s/it] 89%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                    | 13424/15000 [9:30:09<1:01:51,  2.36s/it] 90%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                    | 13425/15000 [9:30:11<1:01:46,  2.35s/it] 90%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                    | 13426/15000 [9:30:13<1:01:47,  2.36s/it] 90%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                    | 13427/15000 [9:30:16<1:01:39,  2.35s/it] 90%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                    | 13428/15000 [9:30:18<1:01:37,  2.35s/it] 90%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                    | 13429/15000 [9:30:20<1:01:34,  2.35s/it] 90%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                    | 13430/15000 [9:30:23<1:01:29,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6622, 'grad_norm': 1.71875, 'learning_rate': 5.334341021692639e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3494.17, 'total_tokens': 109720288, 'epoch': 0.9}
+ 90%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                    | 13430/15000 [9:30:23<1:01:29,  2.35s/it] 90%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                    | 13431/15000 [9:30:25<1:01:28,  2.35s/it] 90%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                    | 13432/15000 [9:30:28<1:01:24,  2.35s/it] 90%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                    | 13433/15000 [9:30:30<1:01:26,  2.35s/it] 90%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                    | 13434/15000 [9:30:32<1:01:25,  2.35s/it] 90%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                    | 13435/15000 [9:30:35<1:01:22,  2.35s/it] 90%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                    | 13436/15000 [9:30:37<1:01:20,  2.35s/it] 90%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                    | 13437/15000 [9:30:39<1:01:17,  2.35s/it] 90%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                    | 13438/15000 [9:30:42<1:01:18,  2.35s/it] 90%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                    | 13439/15000 [9:30:44<1:01:14,  2.35s/it] 90%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                    | 13440/15000 [9:30:46<1:01:11,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6497, 'grad_norm': 1.8046875, 'learning_rate': 5.299096461207451e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3481.99, 'total_tokens': 109801996, 'epoch': 0.9}
+ 90%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                    | 13440/15000 [9:30:46<1:01:11,  2.35s/it] 90%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                    | 13441/15000 [9:30:49<1:01:11,  2.36s/it] 90%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                    | 13442/15000 [9:30:51<1:01:07,  2.35s/it] 90%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                    | 13443/15000 [9:30:53<1:01:02,  2.35s/it] 90%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                    | 13444/15000 [9:30:56<1:00:58,  2.35s/it] 90%|██████████████���█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                    | 13445/15000 [9:30:58<1:00:59,  2.35s/it] 90%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                    | 13446/15000 [9:31:00<1:00:55,  2.35s/it] 90%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                    | 13447/15000 [9:31:03<1:00:58,  2.36s/it] 90%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                    | 13448/15000 [9:31:05<1:00:54,  2.35s/it] 90%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                    | 13449/15000 [9:31:08<1:00:49,  2.35s/it] 90%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                    | 13450/15000 [9:31:10<1:00:49,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.7297, 'grad_norm': 1.828125, 'learning_rate': 5.264058677681962e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3471.21, 'total_tokens': 109883625, 'epoch': 0.9}
+ 90%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                    | 13450/15000 [9:31:10<1:00:49,  2.35s/it] 90%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                    | 13451/15000 [9:31:12<1:00:46,  2.35s/it] 90%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                    | 13452/15000 [9:31:15<1:00:44,  2.35s/it] 90%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                    | 13453/15000 [9:31:17<1:00:40,  2.35s/it] 90%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                    | 13454/15000 [9:31:19<1:00:41,  2.36s/it] 90%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                    | 13455/15000 [9:31:22<1:00:37,  2.35s/it] 90%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                   | 13456/15000 [9:31:24<1:00:34,  2.35s/it] 90%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                   | 13457/15000 [9:31:26<1:00:33,  2.35s/it] 90%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                   | 13458/15000 [9:31:29<1:00:31,  2.36s/it] 90%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                   | 13459/15000 [9:31:31<1:00:25,  2.35s/it] 90%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████��█████████████████████████████████████████████████▏                   | 13460/15000 [9:31:33<1:00:23,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6598, 'grad_norm': 1.6796875, 'learning_rate': 5.229228016924962e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3478.93, 'total_tokens': 109965218, 'epoch': 0.9}
+ 90%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                   | 13460/15000 [9:31:33<1:00:23,  2.35s/it] 90%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                   | 13461/15000 [9:31:36<1:00:20,  2.35s/it] 90%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                   | 13462/15000 [9:31:38<1:00:18,  2.35s/it] 90%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                   | 13463/15000 [9:31:40<1:00:13,  2.35s/it] 90%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                   | 13464/15000 [9:31:43<1:00:16,  2.35s/it] 90%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                   | 13465/15000 [9:31:45<1:00:14,  2.35s/it] 90%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                   | 13466/15000 [9:31:48<1:00:13,  2.36s/it] 90%|████████████████████████████████████████████████████████████████████████████████████████��████████████████████████████████████████████████████████████████████████████████████▎                   | 13467/15000 [9:31:50<1:00:07,  2.35s/it] 90%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                   | 13468/15000 [9:31:52<1:00:03,  2.35s/it] 90%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                   | 13469/15000 [9:31:55<1:00:01,  2.35s/it] 90%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                    | 13470/15000 [9:31:57<59:59,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6744, 'grad_norm': 1.703125, 'learning_rate': 5.194604822701003e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3468.85, 'total_tokens': 110046598, 'epoch': 0.9}
+ 90%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                    | 13470/15000 [9:31:57<59:59,  2.35s/it][2025-11-17 07:14:52,572] [INFO] [axolotl.utils.data.wrappers.get_dataset_wrapper:87] [PID:8163] Loading dataset: Goader/kobza-2m-jsonl with base_type: pretrain and prompt_style: None
+
+Tokenizing Prompts (num_proc=64):   0%|                                                                                                                                                                        | 0/10000 [00:00<?, ? examples/s][A
+Tokenizing Prompts (num_proc=64):   2%|██▍                                                                                                                                                           | 157/10000 [00:06<06:12, 26.43 examples/s][A
+Tokenizing Prompts (num_proc=64):   3%|████▉                                                                                                                                                         | 314/10000 [00:06<02:49, 57.08 examples/s][A
+Tokenizing Prompts (num_proc=64):   5%|███████▍                                                                                                                                                      | 471/10000 [00:07<01:53, 84.03 examples/s][A
+Tokenizing Prompts (num_proc=64):   6%|█████████▊                                                                                                                                                   | 628/10000 [00:08<01:22, 113.31 examples/s][A
+Tokenizing Prompts (num_proc=64):   8%|████████████▎                                                                                                                                                | 785/10000 [00:08<01:13, 125.68 examples/s][A
+Tokenizing Prompts (num_proc=64):   9%|██████████████▊                                                                                                                                              | 942/10000 [00:09<00:54, 167.02 examples/s][A
+Tokenizing Prompts (num_proc=64):  11%|█████████████████▏                                                                                                                                          | 1099/10000 [00:09<00:46, 189.68 examples/s][A
+Tokenizing Prompts (num_proc=64):  13%|███████████████████▌                                                                                                                                        | 1256/10000 [00:10<00:43, 201.33 examples/s][A
+Tokenizing Prompts (num_proc=64):  14%|██████████████████████                                                                                                                                      | 1413/10000 [00:11<00:48, 178.41 examples/s][A
+Tokenizing Prompts (num_proc=64):  16%|████████████████████████▍                                                                                                                                   | 1570/10000 [00:11<00:37, 225.80 examples/s][A
+Tokenizing Prompts (num_proc=64):  17%|██████████████████████████▉                                                                                                                                 | 1727/10000 [00:12<00:36, 227.62 examples/s][A
+Tokenizing Prompts (num_proc=64):  19%|█████████████████████████████▍                                                                                                                              | 1884/10000 [00:13<00:36, 222.22 examples/s][A
+Tokenizing Prompts (num_proc=64):  20%|███████████████████████████████▊                                                                                                                            | 2041/10000 [00:14<00:35, 226.83 examples/s][A
+Tokenizing Prompts (num_proc=64):  22%|██████████████████████████████████▎                                                                                                                         | 2198/10000 [00:14<00:34, 225.31 examples/s][A
+Tokenizing Prompts (num_proc=64):  24%|████████████████████████████████████▋                                                                                                                       | 2355/10000 [00:15<00:33, 231.38 examples/s][A
+Tokenizing Prompts (num_proc=64):  25%|███████████████████████████████████████▏                                                                                                                    | 2512/10000 [00:16<00:33, 221.11 examples/s][A
+Tokenizing Prompts (num_proc=64):  27%|█████████████████████████████████████████▌                                                                                                                  | 2668/10000 [00:17<00:33, 217.81 examples/s][A
+Tokenizing Prompts (num_proc=64):  28%|████████████████████████████████████████████                                                                                                                | 2824/10000 [00:17<00:33, 217.39 examples/s][A
+Tokenizing Prompts (num_proc=64):  30%|██████████████████████████████████████████████▍                                                                                                             | 2980/10000 [00:18<00:29, 239.32 examples/s][A
+Tokenizing Prompts (num_proc=64):  31%|████████████████████████████████████████████████▉                                                                                                           | 3136/10000 [00:19<00:31, 218.83 examples/s][A
+Tokenizing Prompts (num_proc=64):  33%|███████████████████████████████████████████████████▎                                                                                                        | 3292/10000 [00:19<00:28, 236.25 examples/s][A
+Tokenizing Prompts (num_proc=64):  34%|█████████████████████████████████████████████████████▊                                                                                                      | 3448/10000 [00:20<00:27, 236.90 examples/s][A
+Tokenizing Prompts (num_proc=64):  36%|████████████████████████████████████████████████████████▏                                                                                                   | 3604/10000 [00:21<00:32, 195.07 examples/s][A
+Tokenizing Prompts (num_proc=64):  38%|██████████████████████████████████████████████████████████▋                                                                                                 | 3760/10000 [00:21<00:30, 205.26 examples/s][A
+Tokenizing Prompts (num_proc=64):  39%|█████████████████████████████████████████████████████████████                                                                                               | 3916/10000 [00:22<00:23, 258.89 examples/s][A
+Tokenizing Prompts (num_proc=64):  41%|███████████████████████████████████████████████████████████████▌                                                                                            | 4072/10000 [00:22<00:23, 252.89 examples/s][A
+Tokenizing Prompts (num_proc=64):  42%|█████████████████████████████████████████████████████████████████▉                                                                                          | 4228/10000 [00:23<00:24, 237.72 examples/s][A
+Tokenizing Prompts (num_proc=64):  44%|████████████████████████████████████████████████████████████████████▍                                                                                       | 4384/10000 [00:24<00:23, 236.66 examples/s][A
+Tokenizing Prompts (num_proc=64):  45%|██████████████████████████████████████████████████████████████████████▊                                                                                     | 4540/10000 [00:24<00:22, 245.67 examples/s][A
+Tokenizing Prompts (num_proc=64):  47%|█████████████████████████████████████████████████████████████████████████▎                                                                                  | 4696/10000 [00:25<00:22, 232.47 examples/s][A
+Tokenizing Prompts (num_proc=64):  49%|███████████████████████████████████████████████████████████████████████████▋                                                                                | 4852/10000 [00:26<00:25, 200.42 examples/s][A
+Tokenizing Prompts (num_proc=64):  50%|██████████████████████████████████████████████████████████████████████████████                                                                              | 5008/10000 [00:27<00:23, 209.47 examples/s][A
+Tokenizing Prompts (num_proc=64):  52%|████████████████████████████████████████████████████████████████████████████████▌                                                                           | 5164/10000 [00:27<00:19, 251.78 examples/s][A
+Tokenizing Prompts (num_proc=64):  53%|██████████████████████████████████████████████████████████████████████████████████▉                                                                         | 5320/10000 [00:28<00:18, 253.08 examples/s][A
+Tokenizing Prompts (num_proc=64):  55%|█████████████████████████████████████████████████████████████████████████████████████▍                                                                      | 5476/10000 [00:28<00:18, 249.53 examples/s][A
+Tokenizing Prompts (num_proc=64):  56%|███████████████████████████████████████████████████████████████████████████████████████▊                                                                    | 5632/10000 [00:29<00:19, 229.03 examples/s][A
+Tokenizing Prompts (num_proc=64):  58%|██████████████████████████████████████████████████████████████████████████████████████████▎                                                                 | 5788/10000 [00:30<00:17, 243.39 examples/s][A
+Tokenizing Prompts (num_proc=64):  59%|████████████████████████████████████████████████████████████████████████████████████████████▋                                                               | 5944/10000 [00:30<00:17, 237.91 examples/s][A
+Tokenizing Prompts (num_proc=64):  61%|███████████████████████████████████████████████████████████████████████████████████████████████▏                                                            | 6100/10000 [00:31<00:16, 238.51 examples/s][A
+Tokenizing Prompts (num_proc=64):  63%|█████████████████████████████████████████████████████████████████████████████████████████████████▌                                                          | 6256/10000 [00:32<00:15, 242.02 examples/s][A
+Tokenizing Prompts (num_proc=64):  64%|████████████████████████████████████████████████████████████████████████████████████████████████████                                                        | 6412/10000 [00:32<00:15, 234.71 examples/s][A
+Tokenizing Prompts (num_proc=64):  66%|██████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                     | 6568/10000 [00:33<00:14, 229.14 examples/s][A
+Tokenizing Prompts (num_proc=64):  67%|████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                   | 6724/10000 [00:34<00:16, 197.08 examples/s][A
+Tokenizing Prompts (num_proc=64):  69%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                | 6880/10000 [00:34<00:12, 248.64 examples/s][A
+Tokenizing Prompts (num_proc=64):  70%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                              | 7036/10000 [00:35<00:12, 233.40 examples/s][A
+Tokenizing Prompts (num_proc=64):  72%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                           | 7192/10000 [00:36<00:12, 231.01 examples/s][A
+Tokenizing Prompts (num_proc=64):  73%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                         | 7348/10000 [00:36<00:10, 246.28 examples/s][A
+Tokenizing Prompts (num_proc=64):  75%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                       | 7504/10000 [00:37<00:10, 227.42 examples/s][A
+Tokenizing Prompts (num_proc=64):  77%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                    | 7660/10000 [00:38<00:09, 245.90 examples/s][A
+Tokenizing Prompts (num_proc=64):  78%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                  | 7816/10000 [00:39<00:09, 233.65 examples/s][A
+Tokenizing Prompts (num_proc=64):  80%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                               | 7972/10000 [00:39<00:08, 239.76 examples/s][A
+Tokenizing Prompts (num_proc=64):  81%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                             | 8128/10000 [00:40<00:08, 231.88 examples/s][A
+Tokenizing Prompts (num_proc=64):  83%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                          | 8284/10000 [00:41<00:07, 227.70 examples/s][A
+Tokenizing Prompts (num_proc=64):  84%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                        | 8440/10000 [00:41<00:06, 247.95 examples/s][A
+Tokenizing Prompts (num_proc=64):  86%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                      | 8596/10000 [00:42<00:05, 242.91 examples/s][A
+Tokenizing Prompts (num_proc=64):  88%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                   | 8752/10000 [00:43<00:05, 226.99 examples/s][A
+Tokenizing Prompts (num_proc=64):  89%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████���████████████████████████████▉                 | 8908/10000 [00:43<00:04, 244.19 examples/s][A
+Tokenizing Prompts (num_proc=64):  91%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍              | 9064/10000 [00:44<00:04, 200.23 examples/s][A
+Tokenizing Prompts (num_proc=64):  92%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊            | 9220/10000 [00:44<00:03, 252.66 examples/s][A
+Tokenizing Prompts (num_proc=64):  94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎         | 9376/10000 [00:45<00:02, 247.51 examples/s][A
+Tokenizing Prompts (num_proc=64):  95%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋       | 9532/10000 [00:46<00:02, 224.87 examples/s][A
+Tokenizing Prompts (num_proc=64):  97%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏    | 9688/10000 [00:46<00:01, 244.28 examples/s][A
+Tokenizing Prompts (num_proc=64):  98%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌  | 9844/10000 [00:47<00:00, 240.38 examples/s][A
+Tokenizing Prompts (num_proc=64): 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10000/10000 [00:48<00:00, 228.32 examples/s][ATokenizing Prompts (num_proc=64): 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10000/10000 [00:50<00:00, 198.00 examples/s]
+
+Dropping Long Sequences:   0%|                                                                                                                                                                                 | 0/10000 [00:00<?, ? examples/s][A
+Dropping Long Sequences:  10%|████████████████▌                                                                                                                                                    | 1000/10000 [00:01<00:12, 700.76 examples/s][A
+Dropping Long Sequences:  20%|███████████████���████████████████▊                                                                                                                                   | 2000/10000 [00:01<00:05, 1352.94 examples/s][A
+Dropping Long Sequences:  30%|█████████████████████████████████████████████████▏                                                                                                                  | 3000/10000 [00:01<00:03, 1883.14 examples/s][A
+Dropping Long Sequences:  40%|█████████████████████████████████████████████████████████████████▌                                                                                                  | 4000/10000 [00:02<00:02, 2337.09 examples/s][A
+Dropping Long Sequences:  50%|██████████████████████████████████████████████████████████████████████████████████                                                                                  | 5000/10000 [00:02<00:01, 2744.09 examples/s][A
+Dropping Long Sequences:  60%|██████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                 | 6000/10000 [00:02<00:01, 3041.34 examples/s][A
+Dropping Long Sequences:  70%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                 | 7000/10000 [00:02<00:00, 3320.77 examples/s][A
+Dropping Long Sequences:  80%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                | 8000/10000 [00:03<00:00, 3495.82 examples/s][A
+Dropping Long Sequences:  90%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                | 9000/10000 [00:03<00:00, 3561.83 examples/s][A
+Dropping Long Sequences: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10000/10000 [00:03<00:00, 3567.91 examples/s][ADropping Long Sequences: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10000/10000 [00:03<00:00, 2598.77 examples/s]
+
+Add position_id column (Pretraining Sample Packing):   0%|                                                                                                                                                      | 0/8689 [00:00<?, ? examples/s][A
+Add position_id column (Pretraining Sample Packing):  12%|███████████████▉                                                                                                                          | 1000/8689 [00:01<00:09, 821.90 examples/s][A
+Add position_id column (Pretraining Sample Packing):  23%|██████████████████���████████████▌                                                                                                         | 2000/8689 [00:01<00:03, 1702.63 examples/s][A
+Add position_id column (Pretraining Sample Packing):  35%|███████████████████████████████████████████████▎                                                                                         | 3000/8689 [00:01<00:02, 2611.81 examples/s][A
+Add position_id column (Pretraining Sample Packing):  46%|███████████████████████████████████████████████████████████████                                                                          | 4000/8689 [00:01<00:01, 3385.53 examples/s][A
+Add position_id column (Pretraining Sample Packing):  58%|██████████████████████████████████████████████████████████████████████████████▊                                                          | 5000/8689 [00:01<00:00, 4145.81 examples/s][A
+Add position_id column (Pretraining Sample Packing):  69%|██████████████████████████████████████████████████████████████████████████████████████████████▌                                          | 6000/8689 [00:01<00:00, 4744.85 examples/s][A
+Add position_id column (Pretraining Sample Packing):  81%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                          | 7000/8689 [00:02<00:00, 5323.46 examples/s][A
+Add position_id column (Pretraining Sample Packing):  92%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏          | 8000/8689 [00:02<00:00, 5533.12 examples/s][A
+Add position_id column (Pretraining Sample Packing): 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 8689/8689 [00:02<00:00, 5755.31 examples/s][AAdd position_id column (Pretraining Sample Packing): 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 8689/8689 [00:02<00:00, 3584.26 examples/s]
+[2025-11-17 07:15:50,862] [DEBUG] [axolotl.utils.samplers.multipack.pack_parallel:177] [PID:8163] Using single process for pack_parallel, running sequentially.
+ 90%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                   | 13471/15000 [9:33:05<9:24:39, 22.16s/it] 90%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                   | 13472/15000 [9:33:08<6:52:57, 16.22s/it] 90%|███████���█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                   | 13473/15000 [9:33:10<5:06:51, 12.06s/it] 90%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                   | 13474/15000 [9:33:12<3:52:37,  9.15s/it] 90%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                   | 13475/15000 [9:33:15<3:00:37,  7.11s/it] 90%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                   | 13476/15000 [9:33:17<2:24:16,  5.68s/it] 90%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                   | 13477/15000 [9:33:19<1:58:47,  4.68s/it] 90%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                   | 13478/15000 [9:33:22<1:40:56,  3.98s/it] 90%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                   | 13479/15000 [9:33:24<1:28:32,  3.49s/it] 90%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                   | 13480/15000 [9:33:26<1:19:47,  3.15s/it]                                                                                                                                                                                                                                                {'loss': 2.6957, 'grad_norm': 1.7265625, 'learning_rate': 5.160189436727042e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3491.75, 'total_tokens': 110128388, 'epoch': 0.9}
+ 90%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                   | 13480/15000 [9:33:26<1:19:47,  3.15s/it] 90%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                   | 13481/15000 [9:33:29<1:13:42,  2.91s/it] 90%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                   | 13482/15000 [9:33:31<1:09:27,  2.75s/it] 90%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                   | 13483/15000 [9:33:34<1:06:27,  2.63s/it] 90%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                   | 13484/15000 [9:33:36<1:04:17,  2.54s/it] 90%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                   | 13485/15000 [9:33:38<1:02:48,  2.49s/it] 90%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                   | 13486/15000 [9:33:41<1:01:45,  2.45s/it] 90%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                   | 13487/15000 [9:33:43<1:01:02,  2.42s/it] 90%|████████████████████████████████████████████████████████████████████████████████████████████████████████████���████████████████████████████████████████████████████████████████▌                   | 13488/15000 [9:33:45<1:00:29,  2.40s/it] 90%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                   | 13489/15000 [9:33:48<1:00:06,  2.39s/it] 90%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                   | 13490/15000 [9:33:50<59:52,  2.38s/it]                                                                                                                                                                                                                                                {'loss': 2.6526, 'grad_norm': 1.890625, 'learning_rate': 5.125982198669034e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3477.09, 'total_tokens': 110210250, 'epoch': 0.9}
+ 90%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                   | 13490/15000 [9:33:50<59:52,  2.38s/it] 90%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                   | 13491/15000 [9:33:52<59:37,  2.37s/it] 90%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                   | 13492/15000 [9:33:55<59:29,  2.37s/it] 90%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                   | 13493/15000 [9:33:57<59:23,  2.36s/it] 90%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                   | 13494/15000 [9:33:59<59:12,  2.36s/it] 90%|█████████████████████████████████████████████████████████████████��█████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                   | 13495/15000 [9:34:02<59:06,  2.36s/it] 90%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                   | 13496/15000 [9:34:04<59:02,  2.36s/it] 90%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                   | 13497/15000 [9:34:07<58:58,  2.35s/it] 90%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                   | 13498/15000 [9:34:09<58:54,  2.35s/it] 90%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                   | 13499/15000 [9:34:11<58:54,  2.35s/it] 90%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                   | 13500/15000 [9:34:14<58:49,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6452, 'grad_norm': 1.734375, 'learning_rate': 5.09198344613862e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3493.45, 'total_tokens': 110292058, 'epoch': 0.9}
+ 90%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                   | 13500/15000 [9:34:14<58:49,  2.35s/it] 90%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                   | 13501/15000 [9:34:16<58:48,  2.35s/it] 90%|████████████████████��██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                   | 13502/15000 [9:34:18<58:44,  2.35s/it] 90%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                   | 13503/15000 [9:34:21<58:43,  2.35s/it] 90%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                   | 13504/15000 [9:34:23<58:39,  2.35s/it] 90%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                   | 13505/15000 [9:34:25<58:39,  2.35s/it] 90%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                   | 13506/15000 [9:34:28<58:35,  2.35s/it] 90%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                   | 13507/15000 [9:34:30<58:33,  2.35s/it] 90%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                   | 13508/15000 [9:34:32<58:28,  2.35s/it] 90%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                   | 13509/15000 [9:34:35<58:27,  2.35s/it] 90%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                   | 13510/15000 [9:34:37<58:27,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6731, 'grad_norm': 1.7265625, 'learning_rate': 5.058193514689751e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3482.94, 'total_tokens': 110373903, 'epoch': 0.9}
+ 90%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                   | 13510/15000 [9:34:37<58:27,  2.35s/it] 90%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                   | 13511/15000 [9:34:39<58:23,  2.35s/it] 90%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                   | 13512/15000 [9:34:42<58:25,  2.36s/it] 90%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                   | 13513/15000 [9:34:44<58:26,  2.36s/it] 90%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                   | 13514/15000 [9:34:47<58:25,  2.36s/it] 90%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                   | 13515/15000 [9:34:49<58:20,  2.36s/it] 90%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                   | 13516/15000 [9:34:51<58:18,  2.36s/it] 90%|████████████████████████████████████████████████████████████████████████████████████████████████████���██████████████████████████████████████████████████████████████████████████▋                   | 13517/15000 [9:34:54<58:12,  2.36s/it] 90%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                   | 13518/15000 [9:34:56<58:10,  2.36s/it] 90%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                   | 13519/15000 [9:34:58<58:07,  2.35s/it] 90%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                   | 13520/15000 [9:35:01<58:03,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6011, 'grad_norm': 1.734375, 'learning_rate': 5.024612737815417e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3492.37, 'total_tokens': 110455733, 'epoch': 0.9}
+ 90%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                   | 13520/15000 [9:35:01<58:03,  2.35s/it] 90%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                   | 13521/15000 [9:35:03<57:59,  2.35s/it] 90%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                   | 13522/15000 [9:35:05<57:54,  2.35s/it] 90%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                   | 13523/15000 [9:35:08<57:52,  2.35s/it] 90%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                   | 13524/15000 [9:35:10<57:50,  2.35s/it] 90%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                   | 13525/15000 [9:35:12<57:49,  2.35s/it] 90%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                   | 13526/15000 [9:35:15<57:46,  2.35s/it] 90%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                   | 13527/15000 [9:35:17<57:44,  2.35s/it] 90%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                   | 13528/15000 [9:35:19<57:41,  2.35s/it] 90%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                   | 13529/15000 [9:35:22<57:39,  2.35s/it] 90%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                   | 13530/15000 [9:35:24<57:38,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.5844, 'grad_norm': 1.71875, 'learning_rate': 4.991241446944325e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3485.31, 'total_tokens': 110537544, 'epoch': 0.9}
+ 90%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                   | 13530/15000 [9:35:24<57:38,  2.35s/it] 90%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                   | 13531/15000 [9:35:27<57:38,  2.35s/it] 90%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                   | 13532/15000 [9:35:29<57:34,  2.35s/it] 90%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                   | 13533/15000 [9:35:31<57:33,  2.35s/it] 90%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                   | 13534/15000 [9:35:34<57:28,  2.35s/it] 90%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                   | 13535/15000 [9:35:36<57:29,  2.35s/it] 90%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                   | 13536/15000 [9:35:38<57:25,  2.35s/it] 90%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                   | 13537/15000 [9:35:41<57:22,  2.35s/it] 90%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                   | 13538/15000 [9:35:43<57:22,  2.35s/it] 90%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████���████████████████████████████████████████                   | 13539/15000 [9:35:45<57:18,  2.35s/it] 90%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                   | 13540/15000 [9:35:48<57:11,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.7589, 'grad_norm': 1.8203125, 'learning_rate': 4.9580799714376385e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3501.53, 'total_tokens': 110619354, 'epoch': 0.9}
+ 90%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                   | 13540/15000 [9:35:48<57:11,  2.35s/it] 90%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                   | 13541/15000 [9:35:50<57:13,  2.35s/it] 90%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                   | 13542/15000 [9:35:52<57:12,  2.35s/it] 90%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                   | 13543/15000 [9:35:55<57:08,  2.35s/it] 90%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                   | 13544/15000 [9:35:57<57:07,  2.35s/it] 90%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                   | 13545/15000 [9:35:59<57:05,  2.35s/it] 90%|█████████████████████████████████████████████████████████████████████████████████████████���██████████████████████████████████████████████████████████████████████████████████████                   | 13546/15000 [9:36:02<57:04,  2.35s/it] 90%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                   | 13547/15000 [9:36:04<57:02,  2.36s/it] 90%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                   | 13548/15000 [9:36:07<57:00,  2.36s/it] 90%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                  | 13549/15000 [9:36:09<56:55,  2.35s/it] 90%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                  | 13550/15000 [9:36:11<56:53,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.5681, 'grad_norm': 1.7890625, 'learning_rate': 4.925128638585745e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3488.78, 'total_tokens': 110701216, 'epoch': 0.9}
+ 90%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                  | 13550/15000 [9:36:11<56:53,  2.35s/it] 90%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                  | 13551/15000 [9:36:14<56:53,  2.36s/it] 90%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                  | 13552/15000 [9:36:16<56:54,  2.36s/it] 90%|████████████████████████████████████████���███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                  | 13553/15000 [9:36:18<56:49,  2.36s/it] 90%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                  | 13554/15000 [9:36:21<56:48,  2.36s/it] 90%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                  | 13555/15000 [9:36:23<56:44,  2.36s/it] 90%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                  | 13556/15000 [9:36:25<56:41,  2.36s/it] 90%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                  | 13557/15000 [9:36:28<56:37,  2.35s/it] 90%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                  | 13558/15000 [9:36:30<56:32,  2.35s/it] 90%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                  | 13559/15000 [9:36:32<56:31,  2.35s/it] 90%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                  | 13560/15000 [9:36:35<56:31,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.6713, 'grad_norm': 1.703125, 'learning_rate': 4.892387773604985e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3479.18, 'total_tokens': 110783015, 'epoch': 0.9}
+ 90%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                  | 13560/15000 [9:36:35<56:31,  2.36s/it] 90%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                  | 13561/15000 [9:36:37<56:27,  2.35s/it] 90%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                  | 13562/15000 [9:36:40<56:26,  2.36s/it] 90%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                  | 13563/15000 [9:36:42<56:22,  2.35s/it] 90%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                  | 13564/15000 [9:36:44<56:18,  2.35s/it] 90%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                  | 13565/15000 [9:36:47<56:15,  2.35s/it] 90%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                  | 13566/15000 [9:36:49<56:14,  2.35s/it] 90%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                  | 13567/15000 [9:36:51<56:11,  2.35s/it] 90%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████��██████████████████████████████████████████████████████████████████▍                  | 13568/15000 [9:36:54<56:06,  2.35s/it] 90%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                  | 13569/15000 [9:36:56<56:04,  2.35s/it] 90%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                  | 13570/15000 [9:36:58<56:02,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6807, 'grad_norm': 1.6953125, 'learning_rate': 4.859857699634485e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3489.0, 'total_tokens': 110864806, 'epoch': 0.9}
+ 90%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                  | 13570/15000 [9:36:58<56:02,  2.35s/it] 90%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                  | 13571/15000 [9:37:01<56:03,  2.35s/it] 90%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                  | 13572/15000 [9:37:03<55:59,  2.35s/it] 90%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                  | 13573/15000 [9:37:05<55:57,  2.35s/it] 90%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                  | 13574/15000 [9:37:08<55:54,  2.35s/it] 90%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                  | 13575/15000 [9:37:10<55:48,  2.35s/it] 91%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                  | 13576/15000 [9:37:12<55:46,  2.35s/it] 91%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                  | 13577/15000 [9:37:15<55:45,  2.35s/it] 91%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                  | 13578/15000 [9:37:17<55:41,  2.35s/it] 91%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                  | 13579/15000 [9:37:19<55:34,  2.35s/it] 91%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                  | 13580/15000 [9:37:22<55:38,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6574, 'grad_norm': 5.75, 'learning_rate': 4.827538737732937e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3475.52, 'total_tokens': 110946635, 'epoch': 0.91}
+ 91%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                  | 13580/15000 [9:37:22<55:38,  2.35s/it] 91%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                  | 13581/15000 [9:37:24<55:37,  2.35s/it] 91%|█████████���██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                  | 13582/15000 [9:37:27<55:35,  2.35s/it] 91%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                  | 13583/15000 [9:37:29<55:33,  2.35s/it] 91%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                  | 13584/15000 [9:37:31<55:31,  2.35s/it] 91%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                  | 13585/15000 [9:37:34<55:31,  2.35s/it] 91%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                  | 13586/15000 [9:37:36<55:28,  2.35s/it] 91%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                  | 13587/15000 [9:37:38<55:25,  2.35s/it] 91%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                  | 13588/15000 [9:37:41<55:19,  2.35s/it] 91%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                  | 13589/15000 [9:37:43<55:19,  2.35s/it] 91%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████���██████████████████████████████████████████████▋                  | 13590/15000 [9:37:45<55:15,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6677, 'grad_norm': 1.671875, 'learning_rate': 4.795431206875454e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3490.4, 'total_tokens': 111028435, 'epoch': 0.91}
+ 91%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                  | 13590/15000 [9:37:45<55:15,  2.35s/it] 91%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                  | 13591/15000 [9:37:48<55:15,  2.35s/it] 91%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                  | 13592/15000 [9:37:50<55:12,  2.35s/it] 91%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                  | 13593/15000 [9:37:52<55:13,  2.36s/it] 91%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                  | 13594/15000 [9:37:55<55:09,  2.35s/it] 91%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                  | 13595/15000 [9:37:57<55:06,  2.35s/it] 91%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                  | 13596/15000 [9:37:59<55:01,  2.35s/it] 91%|██████████████████████████████████████████████████████████████████████████████��█████████████████████████████████████████████████████████████████████████████████████████████████▊                  | 13597/15000 [9:38:02<55:02,  2.35s/it] 91%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                  | 13598/15000 [9:38:04<55:02,  2.36s/it] 91%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                  | 13599/15000 [9:38:07<55:01,  2.36s/it] 91%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                  | 13600/15000 [9:38:09<55:01,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.64, 'grad_norm': 1.8671875, 'learning_rate': 4.7635354239503935e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3471.91, 'total_tokens': 111110214, 'epoch': 0.91}
+ 91%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                  | 13600/15000 [9:38:09<55:01,  2.36s/it] 91%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                  | 13601/15000 [9:38:11<54:57,  2.36s/it] 91%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                  | 13602/15000 [9:38:14<54:51,  2.35s/it] 91%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                  | 13603/15000 [9:38:16<54:48,  2.35s/it] 91%|███████████████████████████��████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                  | 13604/15000 [9:38:18<54:43,  2.35s/it] 91%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                  | 13605/15000 [9:38:21<54:45,  2.36s/it] 91%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                  | 13606/15000 [9:38:23<54:45,  2.36s/it] 91%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                  | 13607/15000 [9:38:25<54:44,  2.36s/it] 91%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                  | 13608/15000 [9:38:28<54:40,  2.36s/it] 91%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                  | 13609/15000 [9:38:30<54:39,  2.36s/it] 91%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                  | 13610/15000 [9:38:32<54:35,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.694, 'grad_norm': 1.7421875, 'learning_rate': 4.731851703756269e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3487.5, 'total_tokens': 111192038, 'epoch': 0.91}
+ 91%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████���▉                  | 13610/15000 [9:38:32<54:35,  2.36s/it] 91%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                  | 13611/15000 [9:38:35<54:32,  2.36s/it] 91%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                  | 13612/15000 [9:38:37<54:31,  2.36s/it] 91%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                  | 13613/15000 [9:38:40<54:28,  2.36s/it] 91%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                  | 13614/15000 [9:38:42<54:26,  2.36s/it] 91%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                  | 13615/15000 [9:38:44<54:25,  2.36s/it] 91%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                  | 13616/15000 [9:38:47<54:18,  2.35s/it] 91%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                  | 13617/15000 [9:38:49<54:11,  2.35s/it] 91%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                  | 13618/15000 [9:38:51<54:12,  2.35s/it] 91%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                  | 13619/15000 [9:38:54<54:10,  2.35s/it] 91%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                  | 13620/15000 [9:38:56<54:06,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6623, 'grad_norm': 1.8046875, 'learning_rate': 4.7003803589986e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3492.86, 'total_tokens': 111273845, 'epoch': 0.91}
+ 91%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                  | 13620/15000 [9:38:56<54:06,  2.35s/it] 91%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                  | 13621/15000 [9:38:58<54:05,  2.35s/it] 91%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                  | 13622/15000 [9:39:01<54:02,  2.35s/it] 91%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                  | 13623/15000 [9:39:03<53:59,  2.35s/it] 91%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                  | 13624/15000 [9:39:05<54:00,  2.35s/it] 91%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                 | 13625/15000 [9:39:08<53:56,  2.35s/it] 91%|█████████████████████████████████████████████��███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                 | 13626/15000 [9:39:10<53:56,  2.36s/it] 91%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                 | 13627/15000 [9:39:13<53:52,  2.35s/it] 91%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                 | 13628/15000 [9:39:15<53:45,  2.35s/it] 91%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                 | 13629/15000 [9:39:17<53:43,  2.35s/it] 91%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                 | 13630/15000 [9:39:20<53:42,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6028, 'grad_norm': 1.71875, 'learning_rate': 4.669121700286849e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3482.02, 'total_tokens': 111355652, 'epoch': 0.91}
+ 91%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                 | 13630/15000 [9:39:20<53:42,  2.35s/it] 91%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                 | 13631/15000 [9:39:22<53:40,  2.35s/it] 91%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                 | 13632/15000 [9:39:24<53:38,  2.35s/it] 91%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                 | 13633/15000 [9:39:27<53:38,  2.35s/it] 91%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                 | 13634/15000 [9:39:29<53:34,  2.35s/it] 91%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                 | 13635/15000 [9:39:31<53:32,  2.35s/it] 91%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                 | 13636/15000 [9:39:34<53:31,  2.35s/it] 91%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                 | 13637/15000 [9:39:36<53:29,  2.35s/it] 91%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                 | 13638/15000 [9:39:38<53:25,  2.35s/it] 91%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                 | 13639/15000 [9:39:41<53:27,  2.36s/it] 91%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                 | 13640/15000 [9:39:43<53:25,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.6201, 'grad_norm': 1.703125, 'learning_rate': 4.6380760361313685e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3477.31, 'total_tokens': 111437438, 'epoch': 0.91}
+ 91%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                 | 13640/15000 [9:39:43<53:25,  2.36s/it] 91%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                 | 13641/15000 [9:39:45<53:22,  2.36s/it] 91%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                 | 13642/15000 [9:39:48<53:21,  2.36s/it] 91%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                 | 13643/15000 [9:39:50<53:18,  2.36s/it] 91%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                 | 13644/15000 [9:39:53<53:15,  2.36s/it] 91%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                 | 13645/15000 [9:39:55<53:14,  2.36s/it] 91%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                 | 13646/15000 [9:39:57<53:15,  2.36s/it] 91%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                 | 13647/15000 [9:40:00<53:17,  2.36s/it] 91%|███████████████████████████████████████████████��█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                 | 13648/15000 [9:40:02<53:17,  2.36s/it] 91%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                 | 13649/15000 [9:40:04<53:16,  2.37s/it] 91%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                 | 13650/15000 [9:40:07<53:13,  2.37s/it]                                                                                                                                                                                                                                                {'loss': 2.7117, 'grad_norm': 1.703125, 'learning_rate': 4.60724367294032e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3468.51, 'total_tokens': 111519226, 'epoch': 0.91}
+ 91%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                 | 13650/15000 [9:40:07<53:13,  2.37s/it] 91%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                 | 13651/15000 [9:40:09<53:09,  2.36s/it] 91%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                 | 13652/15000 [9:40:11<53:04,  2.36s/it] 91%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                 | 13653/15000 [9:40:14<52:57,  2.36s/it] 91%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                 | 13654/15000 [9:40:16<53:01,  2.36s/it] 91%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                 | 13655/15000 [9:40:19<52:57,  2.36s/it] 91%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                 | 13656/15000 [9:40:21<52:52,  2.36s/it] 91%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                 | 13657/15000 [9:40:23<52:52,  2.36s/it] 91%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                 | 13658/15000 [9:40:26<52:47,  2.36s/it] 91%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                 | 13659/15000 [9:40:28<52:46,  2.36s/it] 91%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                 | 13660/15000 [9:40:30<52:45,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.6613, 'grad_norm': 1.875, 'learning_rate': 4.5766249150166885e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3467.5, 'total_tokens': 111601000, 'epoch': 0.91}
+ 91%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                 | 13660/15000 [9:40:30<52:45,  2.36s/it] 91%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████���█████████████████████████████████████████▌                 | 13661/15000 [9:40:33<52:42,  2.36s/it] 91%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                 | 13662/15000 [9:40:35<52:38,  2.36s/it] 91%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                 | 13663/15000 [9:40:37<52:37,  2.36s/it] 91%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                 | 13664/15000 [9:40:40<52:31,  2.36s/it] 91%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                 | 13665/15000 [9:40:42<52:27,  2.36s/it] 91%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                 | 13666/15000 [9:40:44<52:24,  2.36s/it] 91%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                 | 13667/15000 [9:40:47<55:46,  2.51s/it] 91%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                 | 13668/15000 [9:40:50<54:42,  2.46s/it] 91%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                 | 13669/15000 [9:40:52<53:58,  2.43s/it] 91%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                 | 13670/15000 [9:40:54<53:24,  2.41s/it]                                                                                                                                                                                                                                                {'loss': 2.7859, 'grad_norm': 1.78125, 'learning_rate': 4.546220064555247e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3480.19, 'total_tokens': 111682697, 'epoch': 0.91}
+ 91%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                 | 13670/15000 [9:40:54<53:24,  2.41s/it] 91%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                 | 13671/15000 [9:40:57<52:57,  2.39s/it] 91%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                 | 13672/15000 [9:40:59<52:41,  2.38s/it] 91%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                 | 13673/15000 [9:41:01<52:30,  2.37s/it] 91%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                 | 13674/15000 [9:41:04<52:23,  2.37s/it] 91%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                 | 13675/15000 [9:41:06<52:17,  2.37s/it] 91%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                 | 13676/15000 [9:41:09<52:13,  2.37s/it] 91%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                 | 13677/15000 [9:41:11<52:08,  2.36s/it] 91%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                 | 13678/15000 [9:41:13<52:03,  2.36s/it] 91%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                 | 13679/15000 [9:41:16<52:04,  2.37s/it] 91%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                 | 13680/15000 [9:41:18<51:59,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.6591, 'grad_norm': 1.75, 'learning_rate': 4.5160294216396026e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3476.47, 'total_tokens': 111764517, 'epoch': 0.91}
+ 91%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                 | 13680/15000 [9:41:18<51:59,  2.36s/it] 91%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                 | 13681/15000 [9:41:20<51:55,  2.36s/it] 91%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                 | 13682/15000 [9:41:23<51:55,  2.36s/it] 91%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████��██████████████████████████████████████▉                 | 13683/15000 [9:41:25<51:50,  2.36s/it] 91%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                 | 13684/15000 [9:41:27<51:50,  2.36s/it] 91%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                 | 13685/15000 [9:41:30<51:45,  2.36s/it] 91%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                 | 13686/15000 [9:41:32<51:40,  2.36s/it] 91%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                 | 13687/15000 [9:41:35<51:41,  2.36s/it] 91%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                 | 13688/15000 [9:41:37<51:35,  2.36s/it] 91%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                 | 13689/15000 [9:41:39<51:32,  2.36s/it] 91%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                 | 13690/15000 [9:41:42<51:30,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.6763, 'grad_norm': 1.671875, 'learning_rate': 4.486053284239203e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3475.49, 'total_tokens': 111846280, 'epoch': 0.91}
+ 91%|██████████████████████████████████████████████████████████████████████████████████���██████████████████████████████████████████████████████████████████████████████████████████████▉                 | 13690/15000 [9:41:42<51:30,  2.36s/it] 91%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                 | 13691/15000 [9:41:44<51:30,  2.36s/it] 91%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                 | 13692/15000 [9:41:46<51:28,  2.36s/it] 91%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                 | 13693/15000 [9:41:49<51:22,  2.36s/it] 91%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                 | 13694/15000 [9:41:51<51:23,  2.36s/it] 91%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                 | 13695/15000 [9:41:53<51:20,  2.36s/it] 91%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                 | 13696/15000 [9:41:56<51:15,  2.36s/it] 91%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                 | 13697/15000 [9:41:58<51:07,  2.35s/it] 91%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                 | 13698/15000 [9:42:00<51:06,  2.36s/it] 91%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                 | 13699/15000 [9:42:03<51:05,  2.36s/it] 91%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                 | 13700/15000 [9:42:05<51:02,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.6535, 'grad_norm': 1.734375, 'learning_rate': 4.456291948206431e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3486.32, 'total_tokens': 111928088, 'epoch': 0.91}
+ 91%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                 | 13700/15000 [9:42:05<51:02,  2.36s/it] 91%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                 | 13701/15000 [9:42:08<51:01,  2.36s/it] 91%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                | 13702/15000 [9:42:10<51:00,  2.36s/it] 91%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                | 13703/15000 [9:42:12<50:57,  2.36s/it] 91%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                | 13704/15000 [9:42:15<50:53,  2.36s/it] 91%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████��███████████████████████████████████████▏                | 13705/15000 [9:42:17<50:51,  2.36s/it] 91%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                | 13706/15000 [9:42:19<50:46,  2.35s/it] 91%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                | 13707/15000 [9:42:22<50:42,  2.35s/it] 91%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                | 13708/15000 [9:42:24<50:40,  2.35s/it] 91%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                | 13709/15000 [9:42:26<50:39,  2.35s/it] 91%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                | 13710/15000 [9:42:29<50:36,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6147, 'grad_norm': 1.671875, 'learning_rate': 4.426745707273654e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3485.34, 'total_tokens': 112009830, 'epoch': 0.91}
+ 91%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                | 13710/15000 [9:42:29<50:36,  2.35s/it] 91%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                | 13711/15000 [9:42:31<50:35,  2.36s/it] 91%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                | 13712/15000 [9:42:33<50:34,  2.36s/it] 91%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                | 13713/15000 [9:42:36<50:33,  2.36s/it] 91%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                | 13714/15000 [9:42:38<50:28,  2.36s/it] 91%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                | 13715/15000 [9:42:41<50:26,  2.36s/it] 91%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                | 13716/15000 [9:42:43<50:25,  2.36s/it] 91%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                | 13717/15000 [9:42:45<50:24,  2.36s/it] 91%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                | 13718/15000 [9:42:48<50:23,  2.36s/it] 91%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                | 13719/15000 [9:42:50<50:20,  2.36s/it] 91%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                | 13720/15000 [9:42:52<50:15,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.5951, 'grad_norm': 1.7421875, 'learning_rate': 4.39741485305034e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3487.36, 'total_tokens': 112091527, 'epoch': 0.91}
+ 91%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                | 13720/15000 [9:42:52<50:15,  2.36s/it] 91%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                | 13721/15000 [9:42:55<50:14,  2.36s/it] 91%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                | 13722/15000 [9:42:57<50:13,  2.36s/it] 91%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                | 13723/15000 [9:42:59<50:12,  2.36s/it] 91%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                | 13724/15000 [9:43:02<50:16,  2.36s/it] 92%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                | 13725/15000 [9:43:04<50:18,  2.37s/it] 92%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                | 13726/15000 [9:43:07<50:12,  2.36s/it] 92%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████��█████████████████████████████████████████████████████▍                | 13727/15000 [9:43:09<50:09,  2.36s/it] 92%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                | 13728/15000 [9:43:11<50:05,  2.36s/it] 92%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                | 13729/15000 [9:43:14<50:00,  2.36s/it] 92%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                | 13730/15000 [9:43:16<49:57,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.6563, 'grad_norm': 1.796875, 'learning_rate': 4.368299675020184e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3475.87, 'total_tokens': 112173226, 'epoch': 0.92}
+ 92%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                | 13730/15000 [9:43:16<49:57,  2.36s/it] 92%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                | 13731/15000 [9:43:18<49:53,  2.36s/it] 92%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                | 13732/15000 [9:43:21<49:49,  2.36s/it] 92%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                | 13733/15000 [9:43:23<49:48,  2.36s/it] 92%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                | 13734/15000 [9:43:25<49:43,  2.36s/it] 92%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                | 13735/15000 [9:43:28<49:38,  2.35s/it] 92%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                | 13736/15000 [9:43:30<49:39,  2.36s/it] 92%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                | 13737/15000 [9:43:32<49:35,  2.36s/it] 92%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                | 13738/15000 [9:43:35<49:30,  2.35s/it] 92%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                | 13739/15000 [9:43:37<49:32,  2.36s/it] 92%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                | 13740/15000 [9:43:40<49:28,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.6518, 'grad_norm': 1.734375, 'learning_rate': 4.339400460538229e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3481.43, 'total_tokens': 112254912, 'epoch': 0.92}
+ 92%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                | 13740/15000 [9:43:40<49:28,  2.36s/it] 92%|█���████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                | 13741/15000 [9:43:42<49:30,  2.36s/it] 92%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                | 13742/15000 [9:43:44<49:30,  2.36s/it] 92%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                | 13743/15000 [9:43:47<49:26,  2.36s/it] 92%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                | 13744/15000 [9:43:49<49:20,  2.36s/it] 92%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                | 13745/15000 [9:43:51<49:16,  2.36s/it] 92%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                | 13746/15000 [9:43:54<49:14,  2.36s/it] 92%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                | 13747/15000 [9:43:56<49:12,  2.36s/it] 92%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                | 13748/15000 [9:43:58<49:10,  2.36s/it] 92%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████��███████████████████████████████████████████████████████████████████▋                | 13749/15000 [9:44:01<49:07,  2.36s/it] 92%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                | 13750/15000 [9:44:03<49:03,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6828, 'grad_norm': 1.7265625, 'learning_rate': 4.310717494828069e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3485.19, 'total_tokens': 112336652, 'epoch': 0.92}
+ 92%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                | 13750/15000 [9:44:03<49:03,  2.35s/it] 92%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                | 13751/15000 [9:44:05<48:58,  2.35s/it] 92%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                | 13752/15000 [9:44:08<48:54,  2.35s/it] 92%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                | 13753/15000 [9:44:10<48:52,  2.35s/it] 92%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                | 13754/15000 [9:44:12<48:51,  2.35s/it] 92%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                | 13755/15000 [9:44:15<48:48,  2.35s/it] 92%|████████████████████████████████████████████████��█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                | 13756/15000 [9:44:17<48:44,  2.35s/it] 92%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                | 13757/15000 [9:44:20<48:44,  2.35s/it] 92%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                | 13758/15000 [9:44:22<48:42,  2.35s/it] 92%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                | 13759/15000 [9:44:24<48:41,  2.35s/it] 92%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                | 13760/15000 [9:44:27<48:38,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.7036, 'grad_norm': 1.75, 'learning_rate': 4.2822510609789825e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3481.15, 'total_tokens': 112418316, 'epoch': 0.92}
+ 92%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                | 13760/15000 [9:44:27<48:38,  2.35s/it] 92%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                | 13761/15000 [9:44:29<48:35,  2.35s/it] 92%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                | 13762/15000 [9:44:31<48:31,  2.35s/it] 92%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                | 13763/15000 [9:44:34<48:29,  2.35s/it] 92%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                | 13764/15000 [9:44:36<48:27,  2.35s/it] 92%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                | 13765/15000 [9:44:38<48:25,  2.35s/it] 92%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                | 13766/15000 [9:44:41<48:24,  2.35s/it] 92%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                | 13767/15000 [9:44:43<48:21,  2.35s/it] 92%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                | 13768/15000 [9:44:45<48:21,  2.36s/it] 92%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                | 13769/15000 [9:44:48<48:17,  2.35s/it] 92%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                | 13770/15000 [9:44:50<48:15,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6916, 'grad_norm': 1.6796875, 'learning_rate': 4.254001439943189e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3484.55, 'total_tokens': 112500058, 'epoch': 0.92}
+ 92%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                | 13770/15000 [9:44:50<48:15,  2.35s/it] 92%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                | 13771/15000 [9:44:52<48:10,  2.35s/it] 92%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                | 13772/15000 [9:44:55<48:10,  2.35s/it] 92%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                | 13773/15000 [9:44:57<48:08,  2.35s/it] 92%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                | 13774/15000 [9:45:00<48:06,  2.35s/it] 92%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                | 13775/15000 [9:45:02<48:01,  2.35s/it] 92%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                | 13776/15000 [9:45:04<48:00,  2.35s/it] 92%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                | 13777/15000 [9:45:07<48:00,  2.36s/it] 92%|███████████████████████████████████���███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                | 13778/15000 [9:45:09<47:57,  2.35s/it] 92%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏               | 13779/15000 [9:45:11<47:56,  2.36s/it] 92%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏               | 13780/15000 [9:45:14<47:53,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.5897, 'grad_norm': 1.8046875, 'learning_rate': 4.225968910533038e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3475.87, 'total_tokens': 112581657, 'epoch': 0.92}
+ 92%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏               | 13780/15000 [9:45:14<47:53,  2.36s/it] 92%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏               | 13781/15000 [9:45:16<47:54,  2.36s/it] 92%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏               | 13782/15000 [9:45:18<47:47,  2.35s/it] 92%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏               | 13783/15000 [9:45:21<47:41,  2.35s/it] 92%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏               | 13784/15000 [9:45:23<47:40,  2.35s/it] 92%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏               | 13785/15000 [9:45:25<47:39,  2.35s/it] 92%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏               | 13786/15000 [9:45:28<47:38,  2.35s/it] 92%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏               | 13787/15000 [9:45:30<47:34,  2.35s/it] 92%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏               | 13788/15000 [9:45:33<47:30,  2.35s/it] 92%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎               | 13789/15000 [9:45:35<47:28,  2.35s/it] 92%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎               | 13790/15000 [9:45:37<47:28,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6006, 'grad_norm': 1.71875, 'learning_rate': 4.198153749418281e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3471.86, 'total_tokens': 112663338, 'epoch': 0.92}
+ 92%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎               | 13790/15000 [9:45:37<47:28,  2.35s/it] 92%|██████████████████████████████████████████████████████████████████████████████████████████████████████���████████████████████████████████████████████████████████████████████████████▎               | 13791/15000 [9:45:40<47:25,  2.35s/it] 92%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎               | 13792/15000 [9:45:42<47:23,  2.35s/it] 92%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎               | 13793/15000 [9:45:44<47:21,  2.35s/it] 92%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎               | 13794/15000 [9:45:47<47:22,  2.36s/it] 92%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎               | 13795/15000 [9:45:49<47:19,  2.36s/it] 92%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎               | 13796/15000 [9:45:51<47:14,  2.35s/it] 92%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎               | 13797/15000 [9:45:54<47:10,  2.35s/it] 92%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎               | 13798/15000 [9:45:56<47:08,  2.35s/it] 92%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍               | 13799/15000 [9:45:58<47:07,  2.35s/it] 92%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍               | 13800/15000 [9:46:01<47:00,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6097, 'grad_norm': 1.703125, 'learning_rate': 4.170556231123325e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3490.88, 'total_tokens': 112744855, 'epoch': 0.92}
+ 92%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍               | 13800/15000 [9:46:01<47:00,  2.35s/it] 92%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍               | 13801/15000 [9:46:03<47:00,  2.35s/it] 92%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍               | 13802/15000 [9:46:05<46:59,  2.35s/it] 92%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍               | 13803/15000 [9:46:08<46:57,  2.35s/it] 92%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍               | 13804/15000 [9:46:10<46:56,  2.36s/it] 92%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍               | 13805/15000 [9:46:13<46:52,  2.35s/it] 92%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████���███████████████████████████████████████▍               | 13806/15000 [9:46:15<46:52,  2.36s/it] 92%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍               | 13807/15000 [9:46:17<46:47,  2.35s/it] 92%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌               | 13808/15000 [9:46:20<46:45,  2.35s/it] 92%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌               | 13809/15000 [9:46:22<46:43,  2.35s/it] 92%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌               | 13810/15000 [9:46:24<46:41,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6248, 'grad_norm': 1.734375, 'learning_rate': 4.143176628024535e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3470.98, 'total_tokens': 112826318, 'epoch': 0.92}
+ 92%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌               | 13810/15000 [9:46:24<46:41,  2.35s/it] 92%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌               | 13811/15000 [9:46:27<46:38,  2.35s/it] 92%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌               | 13812/15000 [9:46:29<46:37,  2.35s/it] 92%|████████████████████████████████████████████████████████████████████████���██████████████████████████████████████████████████████████████████████████████████████████████████████████▌               | 13813/15000 [9:46:31<46:35,  2.35s/it] 92%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌               | 13814/15000 [9:46:34<46:32,  2.35s/it] 92%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌               | 13815/15000 [9:46:36<46:29,  2.35s/it] 92%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌               | 13816/15000 [9:46:38<46:24,  2.35s/it] 92%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌               | 13817/15000 [9:46:41<46:25,  2.35s/it] 92%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋               | 13818/15000 [9:46:43<46:23,  2.35s/it] 92%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋               | 13819/15000 [9:46:45<46:17,  2.35s/it] 92%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋               | 13820/15000 [9:46:48<46:15,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6571, 'grad_norm': 1.765625, 'learning_rate': 4.116015210347544e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3476.4, 'total_tokens': 112907927, 'epoch': 0.92}
+ 92%|█████��█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋               | 13820/15000 [9:46:48<46:15,  2.35s/it] 92%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋               | 13821/15000 [9:46:50<46:18,  2.36s/it] 92%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋               | 13822/15000 [9:46:53<46:15,  2.36s/it] 92%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋               | 13823/15000 [9:46:55<46:12,  2.36s/it] 92%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋               | 13824/15000 [9:46:57<46:09,  2.36s/it] 92%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋               | 13825/15000 [9:47:00<46:03,  2.35s/it][2025-11-17 07:29:54,622] [INFO] [axolotl.utils.data.wrappers.get_dataset_wrapper:87] [PID:8163] Loading dataset: Goader/kobza-2m-jsonl with base_type: pretrain and prompt_style: None
+
+Tokenizing Prompts (num_proc=64):   0%|                                                                                                                                                                        | 0/10000 [00:00<?, ? examples/s][A
+Tokenizing Prompts (num_proc=64):   2%|██▍                                                                                                                                                           | 157/10000 [00:06<06:52, 23.86 examples/s][A
+Tokenizing Prompts (num_proc=64):   3%|████▉                                                                                                                                                         | 314/10000 [00:06<02:55, 55.10 examples/s][A
+Tokenizing Prompts (num_proc=64):   5%|███████▍                                                                                                                                                      | 471/10000 [00:07<01:52, 84.65 examples/s][A
+Tokenizing Prompts (num_proc=64):   6%|█████████▊                                                                                                                                                   | 628/10000 [00:08<01:22, 113.67 examples/s][A
+Tokenizing Prompts (num_proc=64):   8%|█████████���██▎                                                                                                                                                | 785/10000 [00:09<01:14, 124.44 examples/s][A
+Tokenizing Prompts (num_proc=64):   9%|██████████████▊                                                                                                                                              | 942/10000 [00:09<01:01, 147.44 examples/s][A
+Tokenizing Prompts (num_proc=64):  11%|█████████████████▏                                                                                                                                          | 1099/10000 [00:10<00:53, 164.84 examples/s][A
+Tokenizing Prompts (num_proc=64):  13%|███████████████████▌                                                                                                                                        | 1256/10000 [00:11<00:49, 174.98 examples/s][A
+Tokenizing Prompts (num_proc=64):  14%|██████████████████████                                                                                                                                      | 1413/10000 [00:12<00:45, 188.33 examples/s][A
+Tokenizing Prompts (num_proc=64):  16%|████████████████████████▍                                                                                                                                   | 1570/10000 [00:12<00:34, 243.90 examples/s][A
+Tokenizing Prompts (num_proc=64):  17%|██████████████████████████▉                                                                                                                                 | 1727/10000 [00:13<00:35, 233.68 examples/s][A
+Tokenizing Prompts (num_proc=64):  19%|█████████████████████████████▍                                                                                                                              | 1884/10000 [00:13<00:35, 226.34 examples/s][A
+Tokenizing Prompts (num_proc=64):  20%|███████████████████████████████▊                                                                                                                            | 2041/10000 [00:14<00:41, 193.46 examples/s][A
+Tokenizing Prompts (num_proc=64):  22%|██████████████████████████████████▎                                                                                                                         | 2198/10000 [00:15<00:41, 187.86 examples/s][A
+Tokenizing Prompts (num_proc=64):  25%|███████████████████████████████████████▏                                                                                                                    | 2512/10000 [00:16<00:34, 220.14 examples/s][A
+Tokenizing Prompts (num_proc=64):  27%|█████████████████████████████████████████▌                                                                                                                  | 2668/10000 [00:17<00:33, 222.16 examples/s][A
+Tokenizing Prompts (num_proc=64):  28%|████████████████████████████████████████████                                                                                                                | 2824/10000 [00:18<00:27, 263.33 examples/s][A
+Tokenizing Prompts (num_proc=64):  30%|██████████████████████████████████████████████▍                                                                                                             | 2980/10000 [00:18<00:27, 258.95 examples/s][A
+Tokenizing Prompts (num_proc=64):  31%|████████████████████████████████████████████████▉                                                                                                           | 3136/10000 [00:19<00:29, 235.09 examples/s][A
+Tokenizing Prompts (num_proc=64):  33%|███████████████████████████████████████████████████▎                                                                                                        | 3292/10000 [00:20<00:33, 197.77 examples/s][A
+Tokenizing Prompts (num_proc=64):  36%|████████████████████████████████████████████████████████▏                                                                                                   | 3604/10000 [00:21<00:29, 214.55 examples/s][A
+Tokenizing Prompts (num_proc=64):  38%|██████████████████████████████████████████████████████████▋                                                                                                 | 3760/10000 [00:22<00:32, 189.82 examples/s][A
+Tokenizing Prompts (num_proc=64):  39%|█████████████████████████████████████████████████████████████                                                                                               | 3916/10000 [00:23<00:33, 181.88 examples/s][A
+Tokenizing Prompts (num_proc=64):  41%|███████████████████████████████████████████████████████████████▌                                                                                            | 4072/10000 [00:24<00:30, 192.74 examples/s][A
+Tokenizing Prompts (num_proc=64):  42%|█████████████████████████████████████████████████████████████████▉                                                                                          | 4228/10000 [00:24<00:24, 238.34 examples/s][A
+Tokenizing Prompts (num_proc=64):  44%|████████████████████████████████████████████████████████████████████▍                                                                                       | 4384/10000 [00:25<00:27, 200.93 examples/s][A
+Tokenizing Prompts (num_proc=64):  45%|██████████████████████████████████████████████████████████████████████▊                                                                                     | 4540/10000 [00:26<00:21, 252.92 examples/s][A
+Tokenizing Prompts (num_proc=64):  47%|█████████████████████████████████████████████████████████████████████████▎                                                                                  | 4696/10000 [00:26<00:22, 236.20 examples/s][A
+Tokenizing Prompts (num_proc=64):  49%|███████████████████████████████████████████████████████████████████████████▋                                                                                | 4852/10000 [00:27<00:21, 239.66 examples/s][A
+Tokenizing Prompts (num_proc=64):  50%|██████████████████████████████████████████████████████████████████████████████                                                                              | 5008/10000 [00:28<00:25, 195.24 examples/s][A
+Tokenizing Prompts (num_proc=64):  52%|████████████████████████████████████████████████████████████████████████████████▌                                                                           | 5164/10000 [00:29<00:23, 203.26 examples/s][A
+Tokenizing Prompts (num_proc=64):  53%|██████████████████████████████████████████████████████████████████████████████████▉                                                                         | 5320/10000 [00:29<00:18, 249.46 examples/s][A
+Tokenizing Prompts (num_proc=64):  55%|█████████████████████████████████████████████████████████████████████████████████████▍                                                                      | 5476/10000 [00:30<00:17, 251.85 examples/s][A
+Tokenizing Prompts (num_proc=64):  56%|███████████████████████████████████████████████████████████████████████████████████████���                                                                    | 5632/10000 [00:30<00:18, 235.76 examples/s][A
+Tokenizing Prompts (num_proc=64):  58%|██████████████████████████████████████████████████████████████████████████████████████████▎                                                                 | 5788/10000 [00:31<00:20, 209.79 examples/s][A
+Tokenizing Prompts (num_proc=64):  59%|████████████████████████████████████████████████████████████████████████████████████████████▋                                                               | 5944/10000 [00:32<00:18, 215.45 examples/s][A
+Tokenizing Prompts (num_proc=64):  61%|███████████████████████████████████████████████████████████████████████████████████████████████▏                                                            | 6100/10000 [00:32<00:14, 271.64 examples/s][A
+Tokenizing Prompts (num_proc=64):  63%|█████████████████████████████████████████████████████████████████████████████████████████████████▌                                                          | 6256/10000 [00:33<00:17, 215.42 examples/s][A
+Tokenizing Prompts (num_proc=64):  64%|████████████████████████████████████████████████████████████████████████████████████████████████████                                                        | 6412/10000 [00:34<00:14, 250.31 examples/s][A
+Tokenizing Prompts (num_proc=64):  66%|██████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                     | 6568/10000 [00:34<00:13, 263.51 examples/s][A
+Tokenizing Prompts (num_proc=64):  67%|████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                   | 6724/10000 [00:35<00:13, 236.77 examples/s][A
+Tokenizing Prompts (num_proc=64):  69%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                | 6880/10000 [00:36<00:12, 244.80 examples/s][A
+Tokenizing Prompts (num_proc=64):  70%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                              | 7036/10000 [00:37<00:14, 209.56 examples/s][A
+Tokenizing Prompts (num_proc=64):  72%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                           | 7192/10000 [00:37<00:12, 219.21 examples/s][A
+Tokenizing Prompts (num_proc=64):  73%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                         | 7348/10000 [00:38<00:10, 265.04 examples/s][A
+Tokenizing Prompts (num_proc=64):  75%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                       | 7504/10000 [00:38<00:09, 259.81 examples/s][A
+Tokenizing Prompts (num_proc=64):  77%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                    | 7660/10000 [00:39<00:09, 237.40 examples/s][A
+Tokenizing Prompts (num_proc=64):  78%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                  | 7816/10000 [00:40<00:10, 215.80 examples/s][A
+Tokenizing Prompts (num_proc=64):  80%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                               | 7972/10000 [00:41<00:10, 187.05 examples/s][A
+Tokenizing Prompts (num_proc=64):  81%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                             | 8128/10000 [00:42<00:08, 226.23 examples/s][A
+Tokenizing Prompts (num_proc=64):  83%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                          | 8284/10000 [00:42<00:08, 203.54 examples/s][A
+Tokenizing Prompts (num_proc=64):  84%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                        | 8440/10000 [00:43<00:06, 236.08 examples/s][A
+Tokenizing Prompts (num_proc=64):  86%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                      | 8596/10000 [00:44<00:06, 212.41 examples/s][A
+Tokenizing Prompts (num_proc=64):  88%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                   | 8752/10000 [00:44<00:04, 255.65 examples/s][A
+Tokenizing Prompts (num_proc=64):  89%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                 | 8908/10000 [00:45<00:04, 254.54 examples/s][A
+Tokenizing Prompts (num_proc=64):  91%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍              | 9064/10000 [00:45<00:03, 240.26 examples/s][A
+Tokenizing Prompts (num_proc=64):  92%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊            | 9220/10000 [00:46<00:03, 238.72 examples/s][A
+Tokenizing Prompts (num_proc=64):  94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎         | 9376/10000 [00:47<00:02, 242.67 examples/s][A
+Tokenizing Prompts (num_proc=64):  95%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋       | 9532/10000 [00:47<00:01, 239.36 examples/s][A
+Tokenizing Prompts (num_proc=64):  97%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏    | 9688/10000 [00:48<00:01, 231.11 examples/s][A
+Tokenizing Prompts (num_proc=64):  98%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌  | 9844/10000 [00:49<00:00, 230.27 examples/s][A
+Tokenizing Prompts (num_proc=64): 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10000/10000 [00:49<00:00, 238.42 examples/s][ATokenizing Prompts (num_proc=64): 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10000/10000 [00:51<00:00, 193.51 examples/s]
+
+Dropping Long Sequences:   0%|                                                                                                                                                                                 | 0/10000 [00:00<?, ? examples/s][A
+Dropping Long Sequences:  10%|████████████████▌                                                                                                                                                    | 1000/10000 [00:01<00:15, 574.78 examples/s][A
+Dropping Long Sequences:  20%|████████████████████████████████▊                                                                                                                                   | 2000/10000 [00:02<00:07, 1139.67 examples/s][A
+Dropping Long Sequences:  30%|████��████████████████████████████████████████████▏                                                                                                                  | 3000/10000 [00:02<00:04, 1660.00 examples/s][A
+Dropping Long Sequences:  40%|█████████████████████████████████████████████████████████████████▌                                                                                                  | 4000/10000 [00:02<00:02, 2131.00 examples/s][A
+Dropping Long Sequences:  50%|██████████████████████████████████████████████████████████████████████████████████                                                                                  | 5000/10000 [00:02<00:01, 2582.49 examples/s][A
+Dropping Long Sequences:  60%|██████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                 | 6000/10000 [00:03<00:01, 2918.84 examples/s][A
+Dropping Long Sequences:  70%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                 | 7000/10000 [00:03<00:00, 3178.16 examples/s][A
+Dropping Long Sequences:  80%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                | 8000/10000 [00:03<00:00, 3372.57 examples/s][A
+Dropping Long Sequences:  90%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                | 9000/10000 [00:03<00:00, 3420.69 examples/s][A
+Dropping Long Sequences: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10000/10000 [00:04<00:00, 3580.51 examples/s][ADropping Long Sequences: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10000/10000 [00:04<00:00, 2380.09 examples/s]
+
+Add position_id column (Pretraining Sample Packing):   0%|                                                                                                                                                      | 0/8703 [00:00<?, ? examples/s][A
+Add position_id column (Pretraining Sample Packing):  11%|███████████████▊                                                                                                                          | 1000/8703 [00:01<00:12, 610.88 examples/s][A
+Add position_id column (Pretraining Sample Packing):  23%|███████████████████████████████▍                                                                                                         | 2000/8703 [00:01<00:05, 1279.72 examples/s][A
+Add position_id column (Pretraining Sample Packing):  34%|████████���██████████████████████████████████████▏                                                                                         | 3000/8703 [00:01<00:02, 2012.99 examples/s][A
+Add position_id column (Pretraining Sample Packing):  46%|██████████████████████████████████████████████████████████████▉                                                                          | 4000/8703 [00:02<00:01, 2701.00 examples/s][A
+Add position_id column (Pretraining Sample Packing):  57%|██████████████████████████████████████████████████████████████████████████████▋                                                          | 5000/8703 [00:02<00:01, 3388.28 examples/s][A
+Add position_id column (Pretraining Sample Packing):  69%|██████████████████████████████████████████████████████████████████████████████████████████████▍                                          | 6000/8703 [00:02<00:00, 4053.17 examples/s][A
+Add position_id column (Pretraining Sample Packing):  80%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                          | 7000/8703 [00:02<00:00, 4696.10 examples/s][A
+Add position_id column (Pretraining Sample Packing):  92%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉           | 8000/8703 [00:02<00:00, 4899.00 examples/s][A
+Add position_id column (Pretraining Sample Packing): 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 8703/8703 [00:02<00:00, 5198.58 examples/s][AAdd position_id column (Pretraining Sample Packing): 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 8703/8703 [00:02<00:00, 2910.05 examples/s]
+[2025-11-17 07:30:55,401] [DEBUG] [axolotl.utils.samplers.multipack.pack_parallel:177] [PID:8163] Using single process for pack_parallel, running sequentially.
+ 92%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉               | 13826/15000 [9:48:10<7:25:25, 22.76s/it] 92%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉               | 13827/15000 [9:48:12<5:25:15, 16.64s/it] 92%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉               | 13828/15000 [9:48:15<4:01:15, 12.35s/it] 92%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉               | 13829/15000 [9:48:17<3:02:27,  9.35s/it] 92%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉               | 13830/15000 [9:48:19<2:21:21,  7.25s/it]                                                                                                                                                                                                                                                {'loss': 2.6625, 'grad_norm': 1.8203125, 'learning_rate': 4.089072246164571e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3327.26, 'total_tokens': 112985845, 'epoch': 0.92}
+ 92%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉               | 13830/15000 [9:48:19<2:21:21,  7.25s/it] 92%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉               | 13831/15000 [9:48:22<1:52:37,  5.78s/it] 92%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉               | 13832/15000 [9:48:24<1:32:27,  4.75s/it] 92%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉               | 13833/15000 [9:48:26<1:18:22,  4.03s/it] 92%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉               | 13834/15000 [9:48:29<1:08:33,  3.53s/it] 92%|███████████████████████████████████████���██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████               | 13835/15000 [9:48:31<1:01:38,  3.17s/it] 92%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊               | 13836/15000 [9:48:33<56:48,  2.93s/it] 92%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉               | 13837/15000 [9:48:36<53:21,  2.75s/it] 92%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉               | 13838/15000 [9:48:38<51:04,  2.64s/it] 92%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉               | 13839/15000 [9:48:41<49:25,  2.55s/it] 92%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉               | 13840/15000 [9:48:43<48:08,  2.49s/it]                                                                                                                                                                                                                                                {'loss': 2.7147, 'grad_norm': 1.7890625, 'learning_rate': 4.0623480013918036e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3505.28, 'total_tokens': 113067695, 'epoch': 0.92}
+ 92%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉               | 13840/15000 [9:48:43<48:08,  2.49s/it] 92%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████���█████▉               | 13841/15000 [9:48:45<47:23,  2.45s/it] 92%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉               | 13842/15000 [9:48:48<46:46,  2.42s/it] 92%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉               | 13843/15000 [9:48:50<46:17,  2.40s/it] 92%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉               | 13844/15000 [9:48:52<45:58,  2.39s/it] 92%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉               | 13845/15000 [9:48:55<45:42,  2.37s/it] 92%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉               | 13846/15000 [9:48:57<45:31,  2.37s/it] 92%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████               | 13847/15000 [9:48:59<45:25,  2.36s/it] 92%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████               | 13848/15000 [9:49:02<45:18,  2.36s/it] 92%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████               | 13849/15000 [9:49:04<45:13,  2.36s/it] 92%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████               | 13850/15000 [9:49:06<45:09,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.6599, 'grad_norm': 2.046875, 'learning_rate': 4.0358427397867425e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3488.82, 'total_tokens': 113149560, 'epoch': 0.92}
+ 92%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████               | 13850/15000 [9:49:06<45:09,  2.36s/it] 92%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████               | 13851/15000 [9:49:09<45:06,  2.36s/it] 92%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████               | 13852/15000 [9:49:11<45:00,  2.35s/it] 92%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████               | 13853/15000 [9:49:13<44:57,  2.35s/it] 92%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████               | 13854/15000 [9:49:16<44:54,  2.35s/it] 92%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████               | 13855/15000 [9:49:18<44:52,  2.35s/it] 92%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏              | 13856/15000 [9:49:21<44:52,  2.35s/it] 92%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏              | 13857/15000 [9:49:23<44:49,  2.35s/it] 92%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏              | 13858/15000 [9:49:25<44:45,  2.35s/it] 92%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏              | 13859/15000 [9:49:28<44:41,  2.35s/it] 92%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏              | 13860/15000 [9:49:30<44:38,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6919, 'grad_norm': 1.6953125, 'learning_rate': 4.009556722945624e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3495.67, 'total_tokens': 113231444, 'epoch': 0.92}
+ 92%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏              | 13860/15000 [9:49:30<44:38,  2.35s/it] 92%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏              | 13861/15000 [9:49:32<44:37,  2.35s/it] 92%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏              | 13862/15000 [9:49:35<44:35,  2.35s/it] 92%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████���██████████████████████████████████████████▏              | 13863/15000 [9:49:37<44:34,  2.35s/it] 92%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏              | 13864/15000 [9:49:39<44:30,  2.35s/it] 92%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏              | 13865/15000 [9:49:42<44:27,  2.35s/it] 92%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎              | 13866/15000 [9:49:44<44:26,  2.35s/it] 92%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎              | 13867/15000 [9:49:46<44:22,  2.35s/it] 92%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎              | 13868/15000 [9:49:49<44:18,  2.35s/it] 92%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎              | 13869/15000 [9:49:51<44:18,  2.35s/it] 92%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎              | 13870/15000 [9:49:53<44:14,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.7106, 'grad_norm': 1.7578125, 'learning_rate': 3.983490210300817e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3497.5, 'total_tokens': 113313292, 'epoch': 0.92}
+ 92%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎              | 13870/15000 [9:49:53<44:14,  2.35s/it] 92%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎              | 13871/15000 [9:49:56<44:10,  2.35s/it] 92%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎              | 13872/15000 [9:49:58<44:10,  2.35s/it] 92%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎              | 13873/15000 [9:50:00<44:07,  2.35s/it] 92%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎              | 13874/15000 [9:50:03<44:06,  2.35s/it] 92%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍              | 13875/15000 [9:50:05<44:03,  2.35s/it] 93%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍              | 13876/15000 [9:50:08<44:04,  2.35s/it] 93%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍              | 13877/15000 [9:50:10<44:03,  2.35s/it] 93%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████��████████████████▍              | 13878/15000 [9:50:12<43:59,  2.35s/it] 93%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍              | 13879/15000 [9:50:15<43:55,  2.35s/it] 93%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍              | 13880/15000 [9:50:17<43:54,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6269, 'grad_norm': 1.765625, 'learning_rate': 3.9576434591182824e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3483.56, 'total_tokens': 113395121, 'epoch': 0.93}
+ 93%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍              | 13880/15000 [9:50:17<43:54,  2.35s/it] 93%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍              | 13881/15000 [9:50:19<43:52,  2.35s/it] 93%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍              | 13882/15000 [9:50:22<43:50,  2.35s/it] 93%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍              | 13883/15000 [9:50:24<43:48,  2.35s/it] 93%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍              | 13884/15000 [9:50:26<43:45,  2.35s/it] 93%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌              | 13885/15000 [9:50:29<43:43,  2.35s/it] 93%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌              | 13886/15000 [9:50:31<43:39,  2.35s/it] 93%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌              | 13887/15000 [9:50:33<43:35,  2.35s/it] 93%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌              | 13888/15000 [9:50:36<43:33,  2.35s/it] 93%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌              | 13889/15000 [9:50:38<43:29,  2.35s/it] 93%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌              | 13890/15000 [9:50:40<43:28,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6447, 'grad_norm': 1.7734375, 'learning_rate': 3.932016724495021e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3487.14, 'total_tokens': 113476961, 'epoch': 0.93}
+ 93%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌              | 13890/15000 [9:50:40<43:28,  2.35s/it] 93%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌              | 13891/15000 [9:50:43<43:30,  2.35s/it] 93%|██████████████████���█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌              | 13892/15000 [9:50:45<43:25,  2.35s/it] 93%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌              | 13893/15000 [9:50:48<43:24,  2.35s/it] 93%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌              | 13894/15000 [9:50:50<43:22,  2.35s/it] 93%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋              | 13895/15000 [9:50:52<43:20,  2.35s/it] 93%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋              | 13896/15000 [9:50:55<43:18,  2.35s/it] 93%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋              | 13897/15000 [9:50:57<43:15,  2.35s/it] 93%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋              | 13898/15000 [9:50:59<43:13,  2.35s/it] 93%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋              | 13899/15000 [9:51:02<43:09,  2.35s/it] 93%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋              | 13900/15000 [9:51:04<43:08,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6417, 'grad_norm': 1.65625, 'learning_rate': 3.906610259356548e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3484.43, 'total_tokens': 113558748, 'epoch': 0.93}
+ 93%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋              | 13900/15000 [9:51:04<43:08,  2.35s/it] 93%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋              | 13901/15000 [9:51:06<43:07,  2.35s/it] 93%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋              | 13902/15000 [9:51:09<43:03,  2.35s/it] 93%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋              | 13903/15000 [9:51:11<43:01,  2.35s/it] 93%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊              | 13904/15000 [9:51:13<42:57,  2.35s/it] 93%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊              | 13905/15000 [9:51:16<42:54,  2.35s/it] 93%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊              | 13906/15000 [9:51:18<42:52,  2.35s/it] 93%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊              | 13907/15000 [9:51:20<42:51,  2.35s/it] 93%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊              | 13908/15000 [9:51:23<42:48,  2.35s/it] 93%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊              | 13909/15000 [9:51:25<42:45,  2.35s/it] 93%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊              | 13910/15000 [9:51:28<42:40,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6373, 'grad_norm': 1.75, 'learning_rate': 3.8814243144544295e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3500.68, 'total_tokens': 113640560, 'epoch': 0.93}
+ 93%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊              | 13910/15000 [9:51:28<42:40,  2.35s/it] 93%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊              | 13911/15000 [9:51:30<42:40,  2.35s/it] 93%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊              | 13912/15000 [9:51:32<42:35,  2.35s/it] 93%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████��█████▊              | 13913/15000 [9:51:35<42:35,  2.35s/it] 93%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉              | 13914/15000 [9:51:37<42:35,  2.35s/it] 93%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉              | 13915/15000 [9:51:39<42:31,  2.35s/it] 93%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉              | 13916/15000 [9:51:42<42:31,  2.35s/it] 93%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉              | 13917/15000 [9:51:44<42:28,  2.35s/it] 93%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉              | 13918/15000 [9:51:46<42:26,  2.35s/it] 93%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉              | 13919/15000 [9:51:49<42:23,  2.35s/it] 93%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉              | 13920/15000 [9:51:51<42:19,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6623, 'grad_norm': 1.7109375, 'learning_rate': 3.8564591383637634e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3495.39, 'total_tokens': 113722362, 'epoch': 0.93}
+ 93%|█████████████████████████████████████████████████████████████████████████████████████████████████████��██████████████████████████████████████████████████████████████████████████████▉              | 13920/15000 [9:51:51<42:19,  2.35s/it] 93%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉              | 13921/15000 [9:51:53<42:17,  2.35s/it] 93%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉              | 13922/15000 [9:51:56<42:12,  2.35s/it] 93%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉              | 13923/15000 [9:51:58<42:11,  2.35s/it] 93%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████              | 13924/15000 [9:52:00<42:07,  2.35s/it] 93%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████              | 13925/15000 [9:52:03<42:04,  2.35s/it] 93%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████              | 13926/15000 [9:52:05<42:04,  2.35s/it] 93%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████              | 13927/15000 [9:52:07<42:02,  2.35s/it] 93%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████              | 13928/15000 [9:52:10<42:01,  2.35s/it] 93%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████              | 13929/15000 [9:52:12<42:00,  2.35s/it] 93%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████              | 13930/15000 [9:52:15<41:56,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6433, 'grad_norm': 1.71875, 'learning_rate': 3.831714977480766e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3491.94, 'total_tokens': 113804192, 'epoch': 0.93}
+ 93%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████              | 13930/15000 [9:52:15<41:56,  2.35s/it] 93%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████              | 13931/15000 [9:52:17<41:54,  2.35s/it] 93%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████              | 13932/15000 [9:52:19<41:52,  2.35s/it] 93%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏             | 13933/15000 [9:52:22<45:27,  2.56s/it] 93%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏             | 13934/15000 [9:52:25<44:20,  2.50s/it] 93%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏             | 13935/15000 [9:52:27<43:30,  2.45s/it] 93%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏             | 13936/15000 [9:52:29<42:54,  2.42s/it] 93%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏             | 13937/15000 [9:52:32<42:31,  2.40s/it] 93%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏             | 13938/15000 [9:52:34<42:16,  2.39s/it] 93%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏             | 13939/15000 [9:52:36<42:00,  2.38s/it] 93%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏             | 13940/15000 [9:52:39<41:50,  2.37s/it]                                                                                                                                                                                                                                                {'loss': 2.6629, 'grad_norm': 1.84375, 'learning_rate': 3.807192076020311e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3487.56, 'total_tokens': 113885952, 'epoch': 0.93}
+ 93%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏             | 13940/15000 [9:52:39<41:50,  2.37s/it] 93%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏             | 13941/15000 [9:52:41<41:42,  2.36s/it] 93%|█████████████████████████████████████████████████��███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏             | 13942/15000 [9:52:43<41:36,  2.36s/it] 93%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎             | 13943/15000 [9:52:46<41:31,  2.36s/it] 93%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎             | 13944/15000 [9:52:48<41:25,  2.35s/it] 93%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎             | 13945/15000 [9:52:50<41:20,  2.35s/it] 93%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎             | 13946/15000 [9:52:53<41:18,  2.35s/it] 93%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎             | 13947/15000 [9:52:55<41:16,  2.35s/it] 93%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎             | 13948/15000 [9:52:58<41:12,  2.35s/it] 93%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎             | 13949/15000 [9:53:00<41:09,  2.35s/it] 93%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎             | 13950/15000 [9:53:02<41:08,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.5975, 'grad_norm': 1.6171875, 'learning_rate': 3.782890676013542e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3485.35, 'total_tokens': 113967746, 'epoch': 0.93}
+ 93%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎             | 13950/15000 [9:53:02<41:08,  2.35s/it] 93%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎             | 13951/15000 [9:53:05<41:07,  2.35s/it] 93%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍             | 13952/15000 [9:53:07<41:04,  2.35s/it] 93%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍             | 13953/15000 [9:53:09<41:00,  2.35s/it] 93%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍             | 13954/15000 [9:53:12<40:59,  2.35s/it] 93%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍             | 13955/15000 [9:53:14<40:58,  2.35s/it] 93%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍             | 13956/15000 [9:53:16<40:56,  2.35s/it] 93%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍             | 13957/15000 [9:53:19<40:53,  2.35s/it] 93%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍             | 13958/15000 [9:53:21<40:47,  2.35s/it] 93%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍             | 13959/15000 [9:53:23<40:46,  2.35s/it] 93%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍             | 13960/15000 [9:53:26<40:43,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.575, 'grad_norm': 1.6796875, 'learning_rate': 3.7588110173054582e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3494.21, 'total_tokens': 114049514, 'epoch': 0.93}
+ 93%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍             | 13960/15000 [9:53:26<40:43,  2.35s/it] 93%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍             | 13961/15000 [9:53:28<40:45,  2.35s/it] 93%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌             | 13962/15000 [9:53:30<40:41,  2.35s/it] 93%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌             | 13963/15000 [9:53:33<40:37,  2.35s/it] 93%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌             | 13964/15000 [9:53:35<40:38,  2.35s/it] 93%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌             | 13965/15000 [9:53:38<40:37,  2.36s/it] 93%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌             | 13966/15000 [9:53:40<40:34,  2.35s/it] 93%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌             | 13967/15000 [9:53:42<40:32,  2.35s/it] 93%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌             | 13968/15000 [9:53:45<40:30,  2.35s/it] 93%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌             | 13969/15000 [9:53:47<40:30,  2.36s/it] 93%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌             | 13970/15000 [9:53:49<40:27,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.6455, 'grad_norm': 1.78125, 'learning_rate': 3.7349533375525736e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3484.79, 'total_tokens': 114131341, 'epoch': 0.93}
+ 93%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌             | 13970/15000 [9:53:49<40:27,  2.36s/it] 93%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌             | 13971/15000 [9:53:52<40:24,  2.36s/it] 93%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋             | 13972/15000 [9:53:54<40:21,  2.36s/it] 93%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋             | 13973/15000 [9:53:56<40:17,  2.35s/it] 93%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋             | 13974/15000 [9:53:59<40:15,  2.35s/it] 93%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋             | 13975/15000 [9:54:01<40:09,  2.35s/it] 93%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋             | 13976/15000 [9:54:03<40:06,  2.35s/it] 93%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋             | 13977/15000 [9:54:06<40:07,  2.35s/it] 93%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋             | 13978/15000 [9:54:08<40:05,  2.35s/it] 93%|██��██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋             | 13979/15000 [9:54:10<40:02,  2.35s/it] 93%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋             | 13980/15000 [9:54:13<40:00,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6441, 'grad_norm': 2.046875, 'learning_rate': 3.7113178722205563e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3484.74, 'total_tokens': 114213131, 'epoch': 0.93}
+ 93%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋             | 13980/15000 [9:54:13<40:00,  2.35s/it] 93%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊             | 13981/15000 [9:54:15<39:56,  2.35s/it] 93%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊             | 13982/15000 [9:54:18<39:56,  2.35s/it] 93%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊             | 13983/15000 [9:54:20<39:53,  2.35s/it] 93%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊             | 13984/15000 [9:54:22<39:52,  2.35s/it] 93%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████���██████████████████████████████████████████████████████▊             | 13985/15000 [9:54:25<39:47,  2.35s/it] 93%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊             | 13986/15000 [9:54:27<39:44,  2.35s/it] 93%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊             | 13987/15000 [9:54:29<39:41,  2.35s/it] 93%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊             | 13988/15000 [9:54:32<39:38,  2.35s/it] 93%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊             | 13989/15000 [9:54:34<39:37,  2.35s/it] 93%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊             | 13990/15000 [9:54:36<39:37,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6602, 'grad_norm': 1.6875, 'learning_rate': 3.6879048545819043e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3473.58, 'total_tokens': 114294890, 'epoch': 0.93}
+ 93%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊             | 13990/15000 [9:54:36<39:37,  2.35s/it] 93%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉             | 13991/15000 [9:54:39<39:37,  2.36s/it] 93%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉             | 13992/15000 [9:54:41<39:33,  2.35s/it] 93%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉             | 13993/15000 [9:54:43<39:30,  2.35s/it] 93%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉             | 13994/15000 [9:54:46<39:30,  2.36s/it] 93%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉             | 13995/15000 [9:54:48<39:28,  2.36s/it] 93%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉             | 13996/15000 [9:54:50<39:24,  2.36s/it] 93%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉             | 13997/15000 [9:54:53<39:25,  2.36s/it] 93%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉             | 13998/15000 [9:54:55<39:19,  2.35s/it] 93%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉             | 13999/15000 [9:54:58<39:16,  2.35s/it] 93%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████���███████████████████████████████████████             | 14000/15000 [9:55:00<39:15,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.6373, 'grad_norm': 1.9375, 'learning_rate': 3.6647145157136546e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3480.86, 'total_tokens': 114376708, 'epoch': 0.93}
+ 93%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████             | 14000/15000 [9:55:00<39:15,  2.36s/it] 93%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████             | 14001/15000 [9:55:02<39:14,  2.36s/it] 93%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████             | 14002/15000 [9:55:05<39:11,  2.36s/it] 93%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████             | 14003/15000 [9:55:07<39:06,  2.35s/it] 93%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████             | 14004/15000 [9:55:09<39:03,  2.35s/it] 93%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████             | 14005/15000 [9:55:12<39:01,  2.35s/it] 93%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████             | 14006/15000 [9:55:14<38:57,  2.35s/it] 93%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████             | 14007/15000 [9:55:16<38:56,  2.35s/it] 93%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████             | 14008/15000 [9:55:19<38:54,  2.35s/it] 93%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████             | 14009/15000 [9:55:21<38:54,  2.36s/it] 93%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏            | 14010/15000 [9:55:23<38:51,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.7032, 'grad_norm': 1.8046875, 'learning_rate': 3.6417470844950814e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3486.1, 'total_tokens': 114458473, 'epoch': 0.93}
+ 93%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏            | 14010/15000 [9:55:23<38:51,  2.35s/it] 93%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏            | 14011/15000 [9:55:26<38:47,  2.35s/it] 93%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏            | 14012/15000 [9:55:28<38:43,  2.35s/it] 93%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏            | 14013/15000 [9:55:31<38:41,  2.35s/it] 93%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏            | 14014/15000 [9:55:33<38:38,  2.35s/it] 93%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏            | 14015/15000 [9:55:35<38:34,  2.35s/it] 93%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏            | 14016/15000 [9:55:38<38:35,  2.35s/it] 93%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏            | 14017/15000 [9:55:40<38:35,  2.36s/it] 93%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏            | 14018/15000 [9:55:42<38:31,  2.35s/it] 93%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏            | 14019/15000 [9:55:45<38:28,  2.35s/it] 93%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎            | 14020/15000 [9:55:47<38:27,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6553, 'grad_norm': 1.625, 'learning_rate': 3.61900278760547e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3479.75, 'total_tokens': 114540189, 'epoch': 0.93}
+ 93%|████████████████████████████████████████████████████████████████████████████████████████████████████████���█████████████████████████████████████████████████████████████████████████████▎            | 14020/15000 [9:55:47<38:27,  2.35s/it] 93%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎            | 14021/15000 [9:55:49<38:26,  2.36s/it] 93%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎            | 14022/15000 [9:55:52<38:22,  2.35s/it] 93%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎            | 14023/15000 [9:55:54<38:19,  2.35s/it] 93%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎            | 14024/15000 [9:55:56<38:15,  2.35s/it] 94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎            | 14025/15000 [9:55:59<38:13,  2.35s/it] 94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎            | 14026/15000 [9:56:01<38:10,  2.35s/it] 94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎            | 14027/15000 [9:56:03<38:07,  2.35s/it] 94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎            | 14028/15000 [9:56:06<38:04,  2.35s/it] 94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍            | 14029/15000 [9:56:08<38:02,  2.35s/it] 94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍            | 14030/15000 [9:56:11<38:00,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6037, 'grad_norm': 1.765625, 'learning_rate': 3.596481849521835e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3483.94, 'total_tokens': 114621903, 'epoch': 0.94}
+ 94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍            | 14030/15000 [9:56:11<38:00,  2.35s/it] 94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍            | 14031/15000 [9:56:13<37:59,  2.35s/it] 94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍            | 14032/15000 [9:56:15<37:57,  2.35s/it] 94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍            | 14033/15000 [9:56:18<37:55,  2.35s/it] 94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍            | 14034/15000 [9:56:20<37:51,  2.35s/it] 94%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████���████████████████████████████████████████████████████████████████████████▍            | 14035/15000 [9:56:22<37:48,  2.35s/it] 94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍            | 14036/15000 [9:56:25<37:44,  2.35s/it] 94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍            | 14037/15000 [9:56:27<37:45,  2.35s/it] 94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍            | 14038/15000 [9:56:29<37:43,  2.35s/it] 94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌            | 14039/15000 [9:56:32<37:40,  2.35s/it] 94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌            | 14040/15000 [9:56:34<37:39,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.5686, 'grad_norm': 1.6796875, 'learning_rate': 3.5741844925167537e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3479.23, 'total_tokens': 114703656, 'epoch': 0.94}
+ 94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌            | 14040/15000 [9:56:34<37:39,  2.35s/it] 94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌            | 14041/15000 [9:56:36<37:35,  2.35s/it] 94%|█████████████████████████��████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌            | 14042/15000 [9:56:39<37:33,  2.35s/it] 94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌            | 14043/15000 [9:56:41<37:33,  2.35s/it] 94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌            | 14044/15000 [9:56:43<37:31,  2.36s/it] 94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌            | 14045/15000 [9:56:46<37:29,  2.36s/it] 94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌            | 14046/15000 [9:56:48<37:26,  2.36s/it] 94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌            | 14047/15000 [9:56:51<37:23,  2.35s/it] 94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌            | 14048/15000 [9:56:53<37:23,  2.36s/it] 94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋            | 14049/15000 [9:56:55<37:21,  2.36s/it] 94%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████��████████████████████████████████████████████████████████████████████▋            | 14050/15000 [9:56:58<37:17,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.7039, 'grad_norm': 1.7734375, 'learning_rate': 3.5521109366561305e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3488.42, 'total_tokens': 114785484, 'epoch': 0.94}
+ 94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋            | 14050/15000 [9:56:58<37:17,  2.36s/it] 94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋            | 14051/15000 [9:57:00<37:13,  2.35s/it] 94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋            | 14052/15000 [9:57:02<37:11,  2.35s/it] 94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋            | 14053/15000 [9:57:05<37:09,  2.35s/it] 94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋            | 14054/15000 [9:57:07<37:06,  2.35s/it] 94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋            | 14055/15000 [9:57:09<37:03,  2.35s/it] 94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋            | 14056/15000 [9:57:12<37:01,  2.35s/it] 94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋            | 14057/15000 [9:57:14<36:58,  2.35s/it] 94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊            | 14058/15000 [9:57:16<36:56,  2.35s/it] 94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊            | 14059/15000 [9:57:19<36:53,  2.35s/it] 94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊            | 14060/15000 [9:57:21<36:52,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6857, 'grad_norm': 1.6875, 'learning_rate': 3.53026139979706e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3479.0, 'total_tokens': 114867263, 'epoch': 0.94}
+ 94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊            | 14060/15000 [9:57:21<36:52,  2.35s/it] 94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊            | 14061/15000 [9:57:23<36:51,  2.36s/it] 94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊            | 14062/15000 [9:57:26<36:48,  2.35s/it] 94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████��███████████████████████████████▊            | 14063/15000 [9:57:28<36:45,  2.35s/it] 94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊            | 14064/15000 [9:57:31<36:45,  2.36s/it] 94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊            | 14065/15000 [9:57:33<36:43,  2.36s/it] 94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊            | 14066/15000 [9:57:35<36:41,  2.36s/it] 94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊            | 14067/15000 [9:57:38<36:37,  2.36s/it] 94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉            | 14068/15000 [9:57:40<36:35,  2.36s/it] 94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉            | 14069/15000 [9:57:42<36:33,  2.36s/it] 94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉            | 14070/15000 [9:57:45<36:31,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.6152, 'grad_norm': 1.7109375, 'learning_rate': 3.5086360975856396e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3477.58, 'total_tokens': 114949029, 'epoch': 0.94}
+ 94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉            | 14070/15000 [9:57:45<36:31,  2.36s/it] 94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉            | 14071/15000 [9:57:47<36:28,  2.36s/it] 94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉            | 14072/15000 [9:57:49<36:23,  2.35s/it] 94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉            | 14073/15000 [9:57:52<36:18,  2.35s/it] 94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉            | 14074/15000 [9:57:54<36:17,  2.35s/it] 94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉            | 14075/15000 [9:57:56<36:16,  2.35s/it] 94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉            | 14076/15000 [9:57:59<36:16,  2.36s/it] 94%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████            | 14077/15000 [9:58:01<36:13,  2.35s/it] 94%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████            | 14078/15000 [9:58:04<36:13,  2.36s/it] 94%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████            | 14079/15000 [9:58:06<36:10,  2.36s/it] 94%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████            | 14080/15000 [9:58:08<36:06,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.642, 'grad_norm': 1.78125, 'learning_rate': 3.487235243454878e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3489.82, 'total_tokens': 115030793, 'epoch': 0.94}
+ 94%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████            | 14080/15000 [9:58:08<36:06,  2.35s/it] 94%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████            | 14081/15000 [9:58:11<36:06,  2.36s/it] 94%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████            | 14082/15000 [9:58:13<36:03,  2.36s/it] 94%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████            | 14083/15000 [9:58:15<36:00,  2.36s/it] 94%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████            | 14084/15000 [9:58:18<35:58,  2.36s/it] 94%|████████████████████████████████████████████████████████████████████████��██████████████████████████████████████████████████████████████████████████████████████████████████████████████            | 14085/15000 [9:58:20<35:53,  2.35s/it] 94%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████            | 14086/15000 [9:58:22<35:53,  2.36s/it] 94%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏           | 14087/15000 [9:58:25<35:51,  2.36s/it] 94%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏           | 14088/15000 [9:58:27<35:48,  2.36s/it] 94%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏           | 14089/15000 [9:58:29<35:44,  2.35s/it] 94%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏           | 14090/15000 [9:58:32<35:42,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6517, 'grad_norm': 1.8359375, 'learning_rate': 3.4660590486225623e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3478.36, 'total_tokens': 115112524, 'epoch': 0.94}
+ 94%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏           | 14090/15000 [9:58:32<35:42,  2.35s/it] 94%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏           | 14091/15000 [9:58:34<35:40,  2.35s/it] 94%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏           | 14092/15000 [9:58:36<35:38,  2.35s/it] 94%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏           | 14093/15000 [9:58:39<35:35,  2.35s/it] 94%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏           | 14094/15000 [9:58:41<35:32,  2.35s/it] 94%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏           | 14095/15000 [9:58:44<35:31,  2.36s/it] 94%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏           | 14096/15000 [9:58:46<35:27,  2.35s/it] 94%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎           | 14097/15000 [9:58:48<35:25,  2.35s/it] 94%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎           | 14098/15000 [9:58:51<35:25,  2.36s/it] 94%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎           | 14099/15000 [9:58:53<35:20,  2.35s/it] 94%|███████████████████████████████████████████████████████████████████��███████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎           | 14100/15000 [9:58:55<35:20,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.6303, 'grad_norm': 1.7265625, 'learning_rate': 3.445107722089187e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3475.93, 'total_tokens': 115194285, 'epoch': 0.94}
+ 94%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎           | 14100/15000 [9:58:55<35:20,  2.36s/it] 94%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎           | 14101/15000 [9:58:58<35:19,  2.36s/it] 94%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎           | 14102/15000 [9:59:00<35:14,  2.35s/it] 94%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎           | 14103/15000 [9:59:02<35:13,  2.36s/it] 94%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎           | 14104/15000 [9:59:05<35:09,  2.35s/it] 94%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎           | 14105/15000 [9:59:07<35:08,  2.36s/it] 94%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍           | 14106/15000 [9:59:09<35:03,  2.35s/it] 94%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍           | 14107/15000 [9:59:12<34:59,  2.35s/it] 94%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍           | 14108/15000 [9:59:14<34:58,  2.35s/it] 94%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍           | 14109/15000 [9:59:16<34:55,  2.35s/it] 94%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍           | 14110/15000 [9:59:19<34:54,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6981, 'grad_norm': 1.890625, 'learning_rate': 3.4243814706358915e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3475.94, 'total_tokens': 115276026, 'epoch': 0.94}
+ 94%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍           | 14110/15000 [9:59:19<34:54,  2.35s/it] 94%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍           | 14111/15000 [9:59:21<34:53,  2.35s/it] 94%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍           | 14112/15000 [9:59:24<34:52,  2.36s/it] 94%|█████████████████████████████████████████████████████████████████████████████████████████████���█████████████████████████████████████████████████████████████████████████████████████████▍           | 14113/15000 [9:59:26<34:48,  2.35s/it] 94%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍           | 14114/15000 [9:59:28<34:46,  2.35s/it] 94%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍           | 14115/15000 [9:59:31<34:42,  2.35s/it] 94%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌           | 14116/15000 [9:59:33<34:39,  2.35s/it] 94%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌           | 14117/15000 [9:59:35<34:37,  2.35s/it] 94%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌           | 14118/15000 [9:59:38<34:33,  2.35s/it] 94%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌           | 14119/15000 [9:59:40<34:31,  2.35s/it] 94%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌           | 14120/15000 [9:59:42<34:29,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.7253, 'grad_norm': 1.65625, 'learning_rate': 3.4038804988223994e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3482.42, 'total_tokens': 115357746, 'epoch': 0.94}
+ 94%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌           | 14120/15000 [9:59:42<34:29,  2.35s/it] 94%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌           | 14121/15000 [9:59:45<34:28,  2.35s/it] 94%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌           | 14122/15000 [9:59:47<34:26,  2.35s/it] 94%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌           | 14123/15000 [9:59:49<34:24,  2.35s/it] 94%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌           | 14124/15000 [9:59:52<34:22,  2.35s/it] 94%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋           | 14125/15000 [9:59:54<34:21,  2.36s/it] 94%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋           | 14126/15000 [9:59:57<34:19,  2.36s/it] 94%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋           | 14127/15000 [9:59:59<34:16,  2.36s/it] 94%|███████████████████████████████████████████████████████████████████████████████████████��██████████████████████████████████████████████████████████████████████████████████████████████▋           | 14128/15000 [10:00:01<34:12,  2.35s/it] 94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋           | 14129/15000 [10:00:04<34:09,  2.35s/it] 94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋           | 14130/15000 [10:00:06<34:05,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6623, 'grad_norm': 2.359375, 'learning_rate': 3.383605008985037e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3488.81, 'total_tokens': 115439416, 'epoch': 0.94}
+ 94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋           | 14130/15000 [10:00:06<34:05,  2.35s/it] 94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊           | 14131/15000 [10:00:08<34:04,  2.35s/it] 94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊           | 14132/15000 [10:00:11<34:04,  2.36s/it] 94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊           | 14133/15000 [10:00:13<34:01,  2.35s/it] 94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊           | 14134/15000 [10:00:15<33:59,  2.36s/it] 94%|████��█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊           | 14135/15000 [10:00:18<33:56,  2.35s/it] 94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊           | 14136/15000 [10:00:20<33:53,  2.35s/it] 94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊           | 14137/15000 [10:00:22<33:50,  2.35s/it] 94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊           | 14138/15000 [10:00:25<33:48,  2.35s/it] 94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊           | 14139/15000 [10:00:27<33:46,  2.35s/it] 94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉           | 14140/15000 [10:00:29<33:47,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.6518, 'grad_norm': 1.703125, 'learning_rate': 3.3635552012346958e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3465.16, 'total_tokens': 115521100, 'epoch': 0.94}
+ 94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉           | 14140/15000 [10:00:29<33:47,  2.36s/it] 94%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████��██████████████████████████████████████████████████████████▉           | 14141/15000 [10:00:32<33:44,  2.36s/it] 94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉           | 14142/15000 [10:00:34<33:42,  2.36s/it] 94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉           | 14143/15000 [10:00:37<33:39,  2.36s/it] 94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉           | 14144/15000 [10:00:39<33:36,  2.36s/it] 94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉           | 14145/15000 [10:00:41<33:33,  2.36s/it] 94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉           | 14146/15000 [10:00:44<33:32,  2.36s/it] 94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉           | 14147/15000 [10:00:46<33:29,  2.36s/it] 94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉           | 14148/15000 [10:00:48<33:26,  2.36s/it] 94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉           | 14149/15000 [10:00:51<33:25,  2.36s/it] 94%|█████████���█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████           | 14150/15000 [10:00:53<33:22,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.68, 'grad_norm': 1.734375, 'learning_rate': 3.34373127345489e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3483.71, 'total_tokens': 115602877, 'epoch': 0.94}
+ 94%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████           | 14150/15000 [10:00:53<33:22,  2.36s/it] 94%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████           | 14151/15000 [10:00:55<33:22,  2.36s/it] 94%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████           | 14152/15000 [10:00:58<33:20,  2.36s/it] 94%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████           | 14153/15000 [10:01:00<33:16,  2.36s/it] 94%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████           | 14154/15000 [10:01:02<33:12,  2.36s/it] 94%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████           | 14155/15000 [10:01:05<33:11,  2.36s/it] 94%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████��█████████████████████████████████████████████████████           | 14156/15000 [10:01:07<33:08,  2.36s/it] 94%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████           | 14157/15000 [10:01:10<33:05,  2.36s/it] 94%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████           | 14158/15000 [10:01:12<33:03,  2.36s/it] 94%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████           | 14159/15000 [10:01:14<32:58,  2.35s/it] 94%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏          | 14160/15000 [10:01:17<32:55,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6365, 'grad_norm': 1.8671875, 'learning_rate': 3.3241334212997777e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3480.06, 'total_tokens': 115684402, 'epoch': 0.94}
+ 94%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏          | 14160/15000 [10:01:17<32:55,  2.35s/it] 94%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏          | 14161/15000 [10:01:19<32:56,  2.36s/it] 94%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏          | 14162/15000 [10:01:21<32:53,  2.36s/it] 94%|███████████████████████████████████████████���███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏          | 14163/15000 [10:01:24<32:50,  2.35s/it] 94%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏          | 14164/15000 [10:01:26<32:49,  2.36s/it] 94%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏          | 14165/15000 [10:01:28<32:45,  2.35s/it] 94%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏          | 14166/15000 [10:01:31<32:42,  2.35s/it] 94%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏          | 14167/15000 [10:01:33<32:41,  2.35s/it] 94%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏          | 14168/15000 [10:01:35<32:37,  2.35s/it] 94%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎          | 14169/15000 [10:01:38<32:35,  2.35s/it] 94%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎          | 14170/15000 [10:01:40<32:32,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6401, 'grad_norm': 1.6875, 'learning_rate': 3.304761838192252e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3472.38, 'total_tokens': 115765849, 'epoch': 0.94}
+ 94%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎          | 14170/15000 [10:01:40<32:32,  2.35s/it] 94%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎          | 14171/15000 [10:01:42<32:33,  2.36s/it] 94%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎          | 14172/15000 [10:01:45<32:28,  2.35s/it] 94%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎          | 14173/15000 [10:01:47<32:26,  2.35s/it] 94%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎          | 14174/15000 [10:01:50<32:23,  2.35s/it] 94%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎          | 14175/15000 [10:01:52<32:21,  2.35s/it] 95%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎          | 14176/15000 [10:01:54<32:17,  2.35s/it][2025-11-17 07:44:48,390] [INFO] [axolotl.utils.data.wrappers.get_dataset_wrapper:87] [PID:8163] Loading dataset: Goader/kobza-2m-jsonl with base_type: pretrain and prompt_style: None
+
+Tokenizing Prompts (num_proc=64):   0%|                                                                                                                                                                        | 0/10000 [00:00<?, ? examples/s][A
+Tokenizing Prompts (num_proc=64):   2%|██▍                                                                                                                                                           | 157/10000 [00:06<06:18, 26.03 examples/s][A
+Tokenizing Prompts (num_proc=64):   3%|█��██▉                                                                                                                                                         | 314/10000 [00:07<03:21, 48.17 examples/s][A
+Tokenizing Prompts (num_proc=64):   5%|███████▍                                                                                                                                                      | 471/10000 [00:07<01:52, 84.90 examples/s][A
+Tokenizing Prompts (num_proc=64):   6%|█████████▊                                                                                                                                                   | 628/10000 [00:08<01:25, 109.62 examples/s][A
+Tokenizing Prompts (num_proc=64):   8%|████████████▎                                                                                                                                                | 785/10000 [00:09<01:08, 134.28 examples/s][A
+Tokenizing Prompts (num_proc=64):   9%|██████████████▊                                                                                                                                              | 942/10000 [00:09<00:57, 156.62 examples/s][A
+Tokenizing Prompts (num_proc=64):  11%|█████████████████▏                                                                                                                                          | 1099/10000 [00:10<00:51, 171.62 examples/s][A
+Tokenizing Prompts (num_proc=64):  13%|███████████████████▌                                                                                                                                        | 1256/10000 [00:11<00:47, 183.47 examples/s][A
+Tokenizing Prompts (num_proc=64):  14%|██████████████████████                                                                                                                                      | 1413/10000 [00:11<00:43, 195.87 examples/s][A
+Tokenizing Prompts (num_proc=64):  16%|████████████████████████▍                                                                                                                                   | 1570/10000 [00:12<00:45, 185.79 examples/s][A
+Tokenizing Prompts (num_proc=64):  17%|██████████████████████████▉                                                                                                                                 | 1727/10000 [00:13<00:40, 204.93 examples/s][A
+Tokenizing Prompts (num_proc=64):  19%|█████████████████████████████▍                                                                                                                              | 1884/10000 [00:14<00:39, 207.03 examples/s][A
+Tokenizing Prompts (num_proc=64):  20%|███████████████████████████████▊                                                                                                                            | 2041/10000 [00:14<00:38, 207.64 examples/s][A
+Tokenizing Prompts (num_proc=64):  22%|██████████████████████████████████▎                                                                                                                         | 2198/10000 [00:16<00:48, 159.54 examples/s][A
+Tokenizing Prompts (num_proc=64):  24%|████████████████████████████████████▋                                                                                                                       | 2355/10000 [00:16<00:38, 197.77 examples/s][A
+Tokenizing Prompts (num_proc=64):  25%|███████████████████████████████████████▏                                                                                                                    | 2512/10000 [00:17<00:36, 205.70 examples/s][A
+Tokenizing Prompts (num_proc=64):  27%|█████████████████████████████████████████▌                                                                                                                  | 2668/10000 [00:17<00:27, 263.76 examples/s][A
+Tokenizing Prompts (num_proc=64):  28%|████████████████████████████████████████████                                                                                                                | 2824/10000 [00:18<00:28, 253.01 examples/s][A
+Tokenizing Prompts (num_proc=64):  30%|████████████████████████████████���█████████████▍                                                                                                             | 2980/10000 [00:19<00:35, 195.05 examples/s][A
+Tokenizing Prompts (num_proc=64):  31%|████████████████████████████████████████████████▉                                                                                                           | 3136/10000 [00:19<00:27, 253.13 examples/s][A
+Tokenizing Prompts (num_proc=64):  33%|███████████████████████████████████████████████████▎                                                                                                        | 3292/10000 [00:21<00:35, 189.16 examples/s][A
+Tokenizing Prompts (num_proc=64):  34%|█████████████████████████████████████████████████████▊                                                                                                      | 3448/10000 [00:21<00:25, 254.46 examples/s][A
+Tokenizing Prompts (num_proc=64):  36%|████████████████████████████████████████████████████████▏                                                                                                   | 3604/10000 [00:21<00:25, 253.61 examples/s][A
+Tokenizing Prompts (num_proc=64):  38%|██████████████████████████████████████████████████████████▋                                                                                                 | 3760/10000 [00:23<00:34, 181.09 examples/s][A
+Tokenizing Prompts (num_proc=64):  39%|█████████████████████████████████████████████████████████████                                                                                               | 3916/10000 [00:23<00:24, 245.38 examples/s][A
+Tokenizing Prompts (num_proc=64):  41%|███████████████████████████████████████████████████████████████▌                                                                                            | 4072/10000 [00:24<00:27, 214.08 examples/s][A
+Tokenizing Prompts (num_proc=64):  42%|█████████████████████████████████████████████████████████████████▉                                                                                          | 4228/10000 [00:24<00:25, 229.10 examples/s][A
+Tokenizing Prompts (num_proc=64):  44%|████████████████████████████████████████████████████████████████████▍                                                                                       | 4384/10000 [00:26<00:27, 205.19 examples/s][A
+Tokenizing Prompts (num_proc=64):  45%|██████████████████████████████████████████████████████████████████████▊                                                                                     | 4540/10000 [00:26<00:24, 227.31 examples/s][A
+Tokenizing Prompts (num_proc=64):  47%|█████████████████████████████████████████████████████████████████████████▎                                                                                  | 4696/10000 [00:26<00:23, 229.28 examples/s][A
+Tokenizing Prompts (num_proc=64):  49%|███████████████████████████████████████████████████████████████████████████▋                                                                                | 4852/10000 [00:27<00:22, 224.00 examples/s][A
+Tokenizing Prompts (num_proc=64):  50%|██████████████████████████████████████████████████████████████████████████████                                                                              | 5008/10000 [00:28<00:23, 211.68 examples/s][A
+Tokenizing Prompts (num_proc=64):  52%|██████���█████████████████████████████████████████████████████████████████████████▌                                                                           | 5164/10000 [00:29<00:22, 219.04 examples/s][A
+Tokenizing Prompts (num_proc=64):  53%|██████████████████████████████████████████████████████████████████████████████████▉                                                                         | 5320/10000 [00:30<00:25, 181.14 examples/s][A
+Tokenizing Prompts (num_proc=64):  55%|█████████████████████████████████████████████████████████████████████████████████████▍                                                                      | 5476/10000 [00:30<00:19, 236.75 examples/s][A
+Tokenizing Prompts (num_proc=64):  56%|███████████████████████████████████████████████████████████████████████████████████████▊                                                                    | 5632/10000 [00:31<00:24, 176.58 examples/s][A
+Tokenizing Prompts (num_proc=64):  58%|██████████████████████████████████████████████████████████████████████████████████████████▎                                                                 | 5788/10000 [00:32<00:17, 236.15 examples/s][A
+Tokenizing Prompts (num_proc=64):  59%|████████████████████████████████████████████████████████████████████████████████████████████▋                                                               | 5944/10000 [00:33<00:20, 202.70 examples/s][A
+Tokenizing Prompts (num_proc=64):  61%|███████████████████████████████████████████████████████████████████████████████████████████████▏                                                            | 6100/10000 [00:33<00:15, 251.31 examples/s][A
+Tokenizing Prompts (num_proc=64):  63%|█████████████████████████████████████████████████████████████████████████████████████████████████▌                                                          | 6256/10000 [00:34<00:18, 204.48 examples/s][A
+Tokenizing Prompts (num_proc=64):  64%|████████████████████████████████████████████████████████████████████████████████████████████████████                                                        | 6412/10000 [00:35<00:15, 235.35 examples/s][A
+Tokenizing Prompts (num_proc=64):  66%|██████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                     | 6568/10000 [00:35<00:14, 233.48 examples/s][A
+Tokenizing Prompts (num_proc=64):  67%|████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                   | 6724/10000 [00:36<00:12, 256.31 examples/s][A
+Tokenizing Prompts (num_proc=64):  69%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                | 6880/10000 [00:37<00:15, 198.59 examples/s][A
+Tokenizing Prompts (num_proc=64):  70%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                              | 7036/10000 [00:37<00:11, 254.47 examples/s][A
+Tokenizing Prompts (num_proc=64):  72%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                           | 7192/10000 [00:38<00:14, 199.07 examples/s][A
+Tokenizing Prompts (num_proc=64):  73%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                         | 7348/10000 [00:38<00:10, 251.87 examples/s][A
+Tokenizing Prompts (num_proc=64):  75%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                       | 7504/10000 [00:39<00:10, 243.94 examples/s][A
+Tokenizing Prompts (num_proc=64):  77%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                    | 7660/10000 [00:40<00:09, 235.14 examples/s][A
+Tokenizing Prompts (num_proc=64):  78%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                  | 7816/10000 [00:41<00:11, 197.04 examples/s][A
+Tokenizing Prompts (num_proc=64):  80%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                               | 7972/10000 [00:41<00:08, 248.41 examples/s][A
+Tokenizing Prompts (num_proc=64):  81%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                             | 8128/10000 [00:42<00:07, 235.79 examples/s][A
+Tokenizing Prompts (num_proc=64):  83%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                          | 8284/10000 [00:43<00:07, 239.70 examples/s][A
+Tokenizing Prompts (num_proc=64):  84%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                        | 8440/10000 [00:43<00:06, 228.47 examples/s][A
+Tokenizing Prompts (num_proc=64):  86%|█████████████████████████████████████████████████████��████████████████████████████████████████████████████████████████████████████████                      | 8596/10000 [00:44<00:05, 240.01 examples/s][A
+Tokenizing Prompts (num_proc=64):  88%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                   | 8752/10000 [00:45<00:05, 237.26 examples/s][A
+Tokenizing Prompts (num_proc=64):  89%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                 | 8908/10000 [00:46<00:04, 221.85 examples/s][A
+Tokenizing Prompts (num_proc=64):  91%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍              | 9064/10000 [00:46<00:03, 234.78 examples/s][A
+Tokenizing Prompts (num_proc=64):  92%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊            | 9220/10000 [00:47<00:03, 233.60 examples/s][A
+Tokenizing Prompts (num_proc=64):  94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎         | 9376/10000 [00:48<00:03, 193.04 examples/s][A
+Tokenizing Prompts (num_proc=64):  95%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋       | 9532/10000 [00:48<00:01, 245.93 examples/s][A
+Tokenizing Prompts (num_proc=64):  97%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏    | 9688/10000 [00:49<00:01, 241.48 examples/s][A
+Tokenizing Prompts (num_proc=64):  98%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌  | 9844/10000 [00:49<00:00, 238.14 examples/s][A
+Tokenizing Prompts (num_proc=64): 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10000/10000 [00:50<00:00, 235.77 examples/s][ATokenizing Prompts (num_proc=64): 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10000/10000 [00:52<00:00, 191.31 examples/s]
+
+Dropping Long Sequences:   0%|                                                                                                                                                                                 | 0/10002 [00:00<?, ? examples/s][A
+Dropping Long Sequences:  10%|████████████████▍                                                                                                                                                    | 1000/10002 [00:01<00:13, 673.37 examples/s][A
+Dropping Long Sequences:  20%|████████████████████████████████▊                                                                                                                                   | 2000/10002 [00:01<00:06, 1286.87 examples/s][A
+Dropping Long Sequences:  30%|█████████████████████████████████████████████████▏                                                                                                                  | 3000/10002 [00:02<00:03, 1885.78 examples/s][A
+Dropping Long Sequences:  40%|█████████████████████████████████████████████████████████████████▌                                                                                                  | 4000/10002 [00:02<00:02, 2404.98 examples/s][A
+Dropping Long Sequences:  50%|█████████████████████████████████████████████████████████████████████████████████▉                                                                                  | 5000/10002 [00:02<00:01, 2820.98 examples/s][A
+Dropping Long Sequences:  60%|██████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                 | 6000/10002 [00:02<00:01, 2801.43 examples/s][A
+Dropping Long Sequences:  70%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                 | 7000/10002 [00:03<00:01, 2971.40 examples/s][A
+Dropping Long Sequences:  80%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                | 8000/10002 [00:03<00:00, 3213.43 examples/s][A
+Dropping Long Sequences:  90%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                | 9000/10002 [00:03<00:00, 3364.37 examples/s][A
+Dropping Long Sequences: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉| 10000/10002 [00:03<00:00, 3509.77 examples/s][ADropping Long Sequences: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10002/10002 [00:03<00:00, 2509.68 examples/s]
+
+Add position_id column (Pretraining Sample Packing):   0%|                                                                                                                                                      | 0/8733 [00:00<?, ? examples/s][A
+Add position_id column (Pretraining Sample Packing):  11%|███████████████▊                                                                                                                          | 1000/8733 [00:01<00:09, 777.84 examples/s][A
+Add position_id column (Pretraining Sample Packing):  23%|███████████████████████████████▍                                                                                                         | 2000/8733 [00:01<00:04, 1610.98 examples/s][A
+Add position_id column (Pretraining Sample Packing):  34%|███████████████████████████████████████████████                                                                                          | 3000/8733 [00:01<00:02, 2468.44 examples/s][A
+Add position_id column (Pretraining Sample Packing):  46%|██████████████████████████████████████████████████████████████▊                                                                          | 4000/8733 [00:01<00:01, 3265.57 examples/s][A
+Add position_id column (Pretraining Sample Packing):  57%|██████████████████████████████████████████████████████████████████████████████▍                                                          | 5000/8733 [00:01<00:00, 4011.24 examples/s][A
+Add position_id column (Pretraining Sample Packing):  69%|██████████████████████████████████████████████████████████████████████████████████████████████▏                                          | 6000/8733 [00:02<00:00, 4654.25 examples/s][A
+Add position_id column (Pretraining Sample Packing):  80%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                           | 7000/8733 [00:02<00:00, 5241.48 examples/s][A
+Add position_id column (Pretraining Sample Packing):  92%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌           | 8000/8733 [00:02<00:00, 5496.41 examples/s][A
+Add position_id column (Pretraining Sample Packing): 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 8733/8733 [00:02<00:00, 5806.39 examples/s][AAdd position_id column (Pretraining Sample Packing): 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 8733/8733 [00:02<00:00, 3486.81 examples/s]
+[2025-11-17 07:45:48,782] [DEBUG] [axolotl.utils.samplers.multipack.pack_parallel:177] [PID:8163] Using single process for pack_parallel, running sequentially.
+ 95%|█��███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍          | 14177/15000 [10:03:03<5:05:43, 22.29s/it] 95%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍          | 14178/15000 [10:03:05<3:43:25, 16.31s/it] 95%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍          | 14179/15000 [10:03:08<2:45:51, 12.12s/it] 95%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌          | 14180/15000 [10:03:10<2:05:37,  9.19s/it]                                                                                                                                                                                                                                                {'loss': 2.6937, 'grad_norm': 1.90625, 'learning_rate': 3.2856167153220166e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3390.16, 'total_tokens': 115845529, 'epoch': 0.95}
+ 95%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌          | 14180/15000 [10:03:10<2:05:37,  9.19s/it] 95%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌          | 14181/15000 [10:03:12<1:37:28,  7.14s/it] 95%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌          | 14182/15000 [10:03:15<1:17:46,  5.70s/it] 95%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████��███████████████████████████████████████████████████████▌          | 14183/15000 [10:03:17<1:03:59,  4.70s/it] 95%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍          | 14184/15000 [10:03:20<54:18,  3.99s/it] 95%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍          | 14185/15000 [10:03:22<47:33,  3.50s/it] 95%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍          | 14186/15000 [10:03:24<42:50,  3.16s/it] 95%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍          | 14187/15000 [10:03:27<39:31,  2.92s/it] 95%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍          | 14188/15000 [10:03:29<37:11,  2.75s/it] 95%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌          | 14189/15000 [10:03:31<35:33,  2.63s/it] 95%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌          | 14190/15000 [10:03:34<34:24,  2.55s/it]                                                                                                                                                                                                                                                {'loss': 2.6681, 'grad_norm': 1.765625, 'learning_rate': 3.266698241643703e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3484.84, 'total_tokens': 115927382, 'epoch': 0.95}
+ 95%|██████████████████████████████████████��████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌          | 14190/15000 [10:03:34<34:24,  2.55s/it] 95%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌          | 14191/15000 [10:03:36<33:34,  2.49s/it] 95%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌          | 14192/15000 [10:03:38<32:58,  2.45s/it] 95%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌          | 14193/15000 [10:03:41<32:30,  2.42s/it] 95%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌          | 14194/15000 [10:03:43<32:12,  2.40s/it] 95%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌          | 14195/15000 [10:03:45<31:58,  2.38s/it] 95%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌          | 14196/15000 [10:03:48<31:48,  2.37s/it] 95%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌          | 14197/15000 [10:03:51<34:20,  2.57s/it] 95%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████���█████████████████████████████████████████████████████████████▋          | 14198/15000 [10:03:53<33:29,  2.51s/it] 95%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋          | 14199/15000 [10:03:55<32:48,  2.46s/it] 95%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋          | 14200/15000 [10:03:58<32:22,  2.43s/it]                                                                                                                                                                                                                                                {'loss': 2.6934, 'grad_norm': 1.75, 'learning_rate': 3.2480066038750096e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3482.12, 'total_tokens': 116009223, 'epoch': 0.95}
+ 95%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋          | 14200/15000 [10:03:58<32:22,  2.43s/it] 95%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋          | 14201/15000 [10:04:00<32:01,  2.41s/it] 95%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋          | 14202/15000 [10:04:03<31:48,  2.39s/it] 95%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋          | 14203/15000 [10:04:05<31:36,  2.38s/it] 95%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋          | 14204/15000 [10:04:07<31:26,  2.37s/it] 95%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋          | 14205/15000 [10:04:10<31:19,  2.36s/it] 95%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋          | 14206/15000 [10:04:12<31:13,  2.36s/it] 95%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋          | 14207/15000 [10:04:14<31:10,  2.36s/it] 95%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊          | 14208/15000 [10:04:17<31:07,  2.36s/it] 95%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊          | 14209/15000 [10:04:19<31:03,  2.36s/it] 95%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊          | 14210/15000 [10:04:21<30:59,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6542, 'grad_norm': 1.75, 'learning_rate': 3.229541986494855e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3499.28, 'total_tokens': 116091066, 'epoch': 0.95}
+ 95%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊          | 14210/15000 [10:04:21<30:59,  2.35s/it] 95%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊          | 14211/15000 [10:04:24<30:57,  2.35s/it] 95%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊          | 14212/15000 [10:04:26<30:54,  2.35s/it] 95%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊          | 14213/15000 [10:04:28<30:51,  2.35s/it] 95%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊          | 14214/15000 [10:04:31<30:48,  2.35s/it] 95%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊          | 14215/15000 [10:04:33<30:47,  2.35s/it] 95%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊          | 14216/15000 [10:04:35<30:44,  2.35s/it] 95%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊          | 14217/15000 [10:04:38<30:42,  2.35s/it] 95%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉          | 14218/15000 [10:04:40<30:39,  2.35s/it] 95%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉          | 14219/15000 [10:04:43<30:35,  2.35s/it] 95%|█████████████████████████████��█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉          | 14220/15000 [10:04:45<30:34,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6871, 'grad_norm': 1.6796875, 'learning_rate': 3.2113045717415623e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3487.54, 'total_tokens': 116172914, 'epoch': 0.95}
+ 95%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉          | 14220/15000 [10:04:45<30:34,  2.35s/it] 95%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉          | 14221/15000 [10:04:47<30:33,  2.35s/it] 95%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉          | 14222/15000 [10:04:50<30:31,  2.35s/it] 95%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉          | 14223/15000 [10:04:52<30:30,  2.36s/it] 95%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉          | 14224/15000 [10:04:54<30:26,  2.35s/it] 95%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉          | 14225/15000 [10:04:57<30:25,  2.35s/it] 95%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████��███████████████████████████████████████▉          | 14226/15000 [10:04:59<30:20,  2.35s/it] 95%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████          | 14227/15000 [10:05:01<30:19,  2.35s/it] 95%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████          | 14228/15000 [10:05:04<30:18,  2.35s/it] 95%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████          | 14229/15000 [10:05:06<30:14,  2.35s/it] 95%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████          | 14230/15000 [10:05:08<30:12,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6978, 'grad_norm': 1.7578125, 'learning_rate': 3.1932945396110455e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3481.11, 'total_tokens': 116254740, 'epoch': 0.95}
+ 95%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████          | 14230/15000 [10:05:08<30:12,  2.35s/it] 95%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████          | 14231/15000 [10:05:11<30:08,  2.35s/it] 95%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████          | 14232/15000 [10:05:13<30:07,  2.35s/it] 95%|██████████████████████████████████████████████████████��█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████          | 14233/15000 [10:05:15<30:03,  2.35s/it] 95%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████          | 14234/15000 [10:05:18<30:01,  2.35s/it] 95%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████          | 14235/15000 [10:05:20<29:59,  2.35s/it] 95%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████          | 14236/15000 [10:05:23<29:57,  2.35s/it] 95%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏         | 14237/15000 [10:05:25<29:54,  2.35s/it] 95%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏         | 14238/15000 [10:05:27<29:52,  2.35s/it] 95%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏         | 14239/15000 [10:05:30<29:49,  2.35s/it] 95%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏         | 14240/15000 [10:05:32<29:47,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6388, 'grad_norm': 1.7734375, 'learning_rate': 3.175512067855055e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3490.43, 'total_tokens': 116336584, 'epoch': 0.95}
+ 95%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏         | 14240/15000 [10:05:32<29:47,  2.35s/it] 95%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏         | 14241/15000 [10:05:34<29:45,  2.35s/it] 95%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏         | 14242/15000 [10:05:37<29:42,  2.35s/it] 95%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏         | 14243/15000 [10:05:39<29:40,  2.35s/it] 95%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏         | 14244/15000 [10:05:41<29:37,  2.35s/it] 95%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏         | 14245/15000 [10:05:44<29:34,  2.35s/it] 95%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏         | 14246/15000 [10:05:46<29:32,  2.35s/it] 95%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎         | 14247/15000 [10:05:48<29:31,  2.35s/it] 95%|████████████████████████████████████████��███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎         | 14248/15000 [10:05:51<29:28,  2.35s/it] 95%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎         | 14249/15000 [10:05:53<29:27,  2.35s/it] 95%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎         | 14250/15000 [10:05:55<29:24,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6313, 'grad_norm': 1.796875, 'learning_rate': 3.157957331979408e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3491.33, 'total_tokens': 116418377, 'epoch': 0.95}
+ 95%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎         | 14250/15000 [10:05:55<29:24,  2.35s/it] 95%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎         | 14251/15000 [10:05:58<29:23,  2.35s/it] 95%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎         | 14252/15000 [10:06:00<29:22,  2.36s/it] 95%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎         | 14253/15000 [10:06:03<29:18,  2.35s/it] 95%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████��█████████████████████████████████▎         | 14254/15000 [10:06:05<29:16,  2.35s/it] 95%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎         | 14255/15000 [10:06:07<29:13,  2.35s/it] 95%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍         | 14256/15000 [10:06:10<29:11,  2.35s/it] 95%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍         | 14257/15000 [10:06:12<29:08,  2.35s/it] 95%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍         | 14258/15000 [10:06:14<29:06,  2.35s/it] 95%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍         | 14259/15000 [10:06:17<29:04,  2.35s/it] 95%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍         | 14260/15000 [10:06:19<29:01,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.75, 'grad_norm': 1.875, 'learning_rate': 3.140630505242262e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3489.8, 'total_tokens': 116500151, 'epoch': 0.95}
+ 95%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍         | 14260/15000 [10:06:19<29:01,  2.35s/it] 95%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍         | 14261/15000 [10:06:21<28:59,  2.35s/it] 95%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍         | 14262/15000 [10:06:24<28:57,  2.35s/it] 95%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍         | 14263/15000 [10:06:26<28:55,  2.35s/it] 95%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍         | 14264/15000 [10:06:28<28:50,  2.35s/it] 95%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍         | 14265/15000 [10:06:31<28:49,  2.35s/it] 95%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌         | 14266/15000 [10:06:33<28:45,  2.35s/it] 95%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌         | 14267/15000 [10:06:35<28:43,  2.35s/it] 95%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌         | 14268/15000 [10:06:38<28:40,  2.35s/it] 95%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████���███████████████████████████████████████████████▌         | 14269/15000 [10:06:40<28:38,  2.35s/it] 95%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌         | 14270/15000 [10:06:43<28:34,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.7214, 'grad_norm': 1.75, 'learning_rate': 3.1235317586523954e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3497.92, 'total_tokens': 116581894, 'epoch': 0.95}
+ 95%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌         | 14270/15000 [10:06:43<28:34,  2.35s/it] 95%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌         | 14271/15000 [10:06:45<28:35,  2.35s/it] 95%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌         | 14272/15000 [10:06:47<28:32,  2.35s/it] 95%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌         | 14273/15000 [10:06:50<28:28,  2.35s/it] 95%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌         | 14274/15000 [10:06:52<28:28,  2.35s/it] 95%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌         | 14275/15000 [10:06:54<28:26,  2.35s/it] 95%|███████████████████████████████████████████��████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋         | 14276/15000 [10:06:57<28:22,  2.35s/it] 95%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋         | 14277/15000 [10:06:59<28:21,  2.35s/it] 95%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋         | 14278/15000 [10:07:01<28:18,  2.35s/it] 95%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋         | 14279/15000 [10:07:04<28:15,  2.35s/it] 95%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋         | 14280/15000 [10:07:06<28:13,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6196, 'grad_norm': 1.8046875, 'learning_rate': 3.10666126096754e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3486.32, 'total_tokens': 116663724, 'epoch': 0.95}
+ 95%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋         | 14280/15000 [10:07:06<28:13,  2.35s/it] 95%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋         | 14281/15000 [10:07:08<28:11,  2.35s/it] 95%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████��██████████████████████████████▋         | 14282/15000 [10:07:11<28:07,  2.35s/it] 95%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋         | 14283/15000 [10:07:13<28:05,  2.35s/it] 95%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋         | 14284/15000 [10:07:15<28:04,  2.35s/it] 95%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊         | 14285/15000 [10:07:18<28:01,  2.35s/it] 95%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊         | 14286/15000 [10:07:20<27:58,  2.35s/it] 95%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊         | 14287/15000 [10:07:23<27:56,  2.35s/it] 95%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊         | 14288/15000 [10:07:25<27:55,  2.35s/it] 95%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊         | 14289/15000 [10:07:27<27:52,  2.35s/it] 95%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊         | 14290/15000 [10:07:30<27:50,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6915, 'grad_norm': 1.71875, 'learning_rate': 3.090019178692693e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3482.12, 'total_tokens': 116745493, 'epoch': 0.95}
+ 95%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊         | 14290/15000 [10:07:30<27:50,  2.35s/it] 95%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊         | 14291/15000 [10:07:32<27:49,  2.35s/it] 95%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊         | 14292/15000 [10:07:34<27:45,  2.35s/it] 95%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊         | 14293/15000 [10:07:37<27:42,  2.35s/it] 95%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊         | 14294/15000 [10:07:39<27:41,  2.35s/it] 95%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉         | 14295/15000 [10:07:41<27:38,  2.35s/it] 95%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉         | 14296/15000 [10:07:44<27:36,  2.35s/it] 95%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████��██████████████████████████████████████████████▉         | 14297/15000 [10:07:46<27:34,  2.35s/it] 95%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉         | 14298/15000 [10:07:48<27:31,  2.35s/it] 95%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉         | 14299/15000 [10:07:51<27:28,  2.35s/it] 95%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉         | 14300/15000 [10:07:53<27:28,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6576, 'grad_norm': 1.7109375, 'learning_rate': 3.073605676078491e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3470.84, 'total_tokens': 116827284, 'epoch': 0.95}
+ 95%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉         | 14300/15000 [10:07:53<27:28,  2.35s/it] 95%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉         | 14301/15000 [10:07:55<27:26,  2.35s/it] 95%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉         | 14302/15000 [10:07:58<27:23,  2.35s/it] 95%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉         | 14303/15000 [10:08:00<27:20,  2.35s/it] 95%|███████████████████████████████████████████��████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉         | 14304/15000 [10:08:03<27:15,  2.35s/it] 95%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████         | 14305/15000 [10:08:05<27:13,  2.35s/it] 95%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████         | 14306/15000 [10:08:07<27:12,  2.35s/it] 95%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████         | 14307/15000 [10:08:10<27:09,  2.35s/it] 95%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████         | 14308/15000 [10:08:12<27:07,  2.35s/it] 95%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████         | 14309/15000 [10:08:14<27:05,  2.35s/it] 95%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████         | 14310/15000 [10:08:17<27:01,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6442, 'grad_norm': 4.09375, 'learning_rate': 3.0574209151195785e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3495.82, 'total_tokens': 116909073, 'epoch': 0.95}
+ 95%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████��███████████████████████████████         | 14310/15000 [10:08:17<27:01,  2.35s/it] 95%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████         | 14311/15000 [10:08:19<26:59,  2.35s/it] 95%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████         | 14312/15000 [10:08:21<26:57,  2.35s/it] 95%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████         | 14313/15000 [10:08:24<26:56,  2.35s/it] 95%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏        | 14314/15000 [10:08:26<26:52,  2.35s/it] 95%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏        | 14315/15000 [10:08:28<26:51,  2.35s/it] 95%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏        | 14316/15000 [10:08:31<26:48,  2.35s/it] 95%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏        | 14317/15000 [10:08:33<26:45,  2.35s/it] 95%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏        | 14318/15000 [10:08:35<26:43,  2.35s/it] 95%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏        | 14319/15000 [10:08:38<26:38,  2.35s/it] 95%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏        | 14320/15000 [10:08:40<26:37,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.7184, 'grad_norm': 1.6796875, 'learning_rate': 3.0414650555530066e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3487.3, 'total_tokens': 116990851, 'epoch': 0.95}
+ 95%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏        | 14320/15000 [10:08:40<26:37,  2.35s/it] 95%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏        | 14321/15000 [10:08:42<26:37,  2.35s/it] 95%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏        | 14322/15000 [10:08:45<26:35,  2.35s/it] 95%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏        | 14323/15000 [10:08:47<26:33,  2.35s/it] 95%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎        | 14324/15000 [10:08:50<26:32,  2.36s/it] 96%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎        | 14325/15000 [10:08:52<26:28,  2.35s/it] 96%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎        | 14326/15000 [10:08:54<26:25,  2.35s/it] 96%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎        | 14327/15000 [10:08:57<26:23,  2.35s/it] 96%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎        | 14328/15000 [10:08:59<26:20,  2.35s/it] 96%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎        | 14329/15000 [10:09:01<26:19,  2.35s/it] 96%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎        | 14330/15000 [10:09:04<26:17,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.635, 'grad_norm': 1.8359375, 'learning_rate': 3.0257382548566774e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3481.95, 'total_tokens': 117072630, 'epoch': 0.96}
+ 96%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎        | 14330/15000 [10:09:04<26:17,  2.35s/it] 96%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎        | 14331/15000 [10:09:06<26:14,  2.35s/it] 96%|█████████████████████████████��███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎        | 14332/15000 [10:09:08<26:11,  2.35s/it] 96%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎        | 14333/15000 [10:09:11<26:08,  2.35s/it] 96%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍        | 14334/15000 [10:09:13<26:08,  2.35s/it] 96%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍        | 14335/15000 [10:09:15<26:04,  2.35s/it] 96%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍        | 14336/15000 [10:09:18<26:02,  2.35s/it] 96%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍        | 14337/15000 [10:09:20<25:59,  2.35s/it] 96%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍        | 14338/15000 [10:09:22<25:57,  2.35s/it] 96%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍        | 14339/15000 [10:09:25<25:55,  2.35s/it] 96%|█████████████████████████████████████████████████████████████████████████████████████████████████████��███████████████████████████████████████████████████████████████████████████████████▍        | 14340/15000 [10:09:27<25:51,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6614, 'grad_norm': 1.7734375, 'learning_rate': 3.0102406682477535e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3492.22, 'total_tokens': 117154378, 'epoch': 0.96}
+ 96%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍        | 14340/15000 [10:09:27<25:51,  2.35s/it] 96%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍        | 14341/15000 [10:09:30<25:49,  2.35s/it] 96%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍        | 14342/15000 [10:09:32<25:48,  2.35s/it] 96%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌        | 14343/15000 [10:09:34<25:45,  2.35s/it] 96%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌        | 14344/15000 [10:09:37<25:43,  2.35s/it] 96%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌        | 14345/15000 [10:09:39<25:41,  2.35s/it] 96%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌        | 14346/15000 [10:09:41<25:40,  2.35s/it] 96%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌        | 14347/15000 [10:09:44<25:35,  2.35s/it] 96%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌        | 14348/15000 [10:09:46<25:32,  2.35s/it] 96%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌        | 14349/15000 [10:09:48<25:29,  2.35s/it] 96%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌        | 14350/15000 [10:09:51<25:28,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.7518, 'grad_norm': 1.796875, 'learning_rate': 2.9949724486811688e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3478.87, 'total_tokens': 117236131, 'epoch': 0.96}
+ 96%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌        | 14350/15000 [10:09:51<25:28,  2.35s/it] 96%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌        | 14351/15000 [10:09:53<25:26,  2.35s/it] 96%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌        | 14352/15000 [10:09:55<25:24,  2.35s/it] 96%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋        | 14353/15000 [10:09:58<25:22,  2.35s/it] 96%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋        | 14354/15000 [10:10:00<25:19,  2.35s/it] 96%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋        | 14355/15000 [10:10:02<25:17,  2.35s/it] 96%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋        | 14356/15000 [10:10:05<25:15,  2.35s/it] 96%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋        | 14357/15000 [10:10:07<25:13,  2.35s/it] 96%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋        | 14358/15000 [10:10:10<25:10,  2.35s/it] 96%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋        | 14359/15000 [10:10:12<25:07,  2.35s/it] 96%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋        | 14360/15000 [10:10:14<25:05,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.7108, 'grad_norm': 1.8984375, 'learning_rate': 2.9799337468480763e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3480.48, 'total_tokens': 117317899, 'epoch': 0.96}
+ 96%|███████���█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋        | 14360/15000 [10:10:14<25:05,  2.35s/it] 96%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋        | 14361/15000 [10:10:17<25:03,  2.35s/it] 96%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋        | 14362/15000 [10:10:19<25:01,  2.35s/it] 96%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊        | 14363/15000 [10:10:21<24:57,  2.35s/it] 96%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊        | 14364/15000 [10:10:24<24:54,  2.35s/it] 96%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊        | 14365/15000 [10:10:26<24:53,  2.35s/it] 96%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊        | 14366/15000 [10:10:28<24:51,  2.35s/it] 96%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊        | 14367/15000 [10:10:31<24:48,  2.35s/it] 96%|███████████████████████████████████████████████████████████████████████████████���█████████████████████████████████████████████████████████████████████████████████████████████████████████▊        | 14368/15000 [10:10:33<24:47,  2.35s/it] 96%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊        | 14369/15000 [10:10:35<24:46,  2.36s/it] 96%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊        | 14370/15000 [10:10:38<24:43,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6621, 'grad_norm': 1.734375, 'learning_rate': 2.9651247111743987e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3490.04, 'total_tokens': 117399669, 'epoch': 0.96}
+ 96%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊        | 14370/15000 [10:10:38<24:43,  2.35s/it] 96%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊        | 14371/15000 [10:10:40<24:41,  2.35s/it] 96%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉        | 14372/15000 [10:10:42<24:37,  2.35s/it] 96%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉        | 14373/15000 [10:10:45<24:36,  2.36s/it] 96%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████���▉        | 14374/15000 [10:10:47<24:32,  2.35s/it] 96%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉        | 14375/15000 [10:10:50<24:31,  2.35s/it] 96%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉        | 14376/15000 [10:10:52<24:28,  2.35s/it] 96%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉        | 14377/15000 [10:10:54<24:25,  2.35s/it] 96%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉        | 14378/15000 [10:10:57<24:23,  2.35s/it] 96%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉        | 14379/15000 [10:10:59<24:19,  2.35s/it] 96%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉        | 14380/15000 [10:11:01<24:17,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.7425, 'grad_norm': 1.78125, 'learning_rate': 2.9505454878193383e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3486.77, 'total_tokens': 117481428, 'epoch': 0.96}
+ 96%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉        | 14380/15000 [10:11:01<24:17,  2.35s/it] 96%|█████████████████████████████████████████████████████████████████████████████████████���███████████████████████████████████████████████████████████████████████████████████████████████████▉        | 14381/15000 [10:11:04<24:16,  2.35s/it] 96%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████        | 14382/15000 [10:11:06<24:13,  2.35s/it] 96%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████        | 14383/15000 [10:11:08<24:12,  2.35s/it] 96%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████        | 14384/15000 [10:11:11<24:09,  2.35s/it] 96%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████        | 14385/15000 [10:11:13<24:07,  2.35s/it] 96%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████        | 14386/15000 [10:11:15<24:05,  2.35s/it] 96%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████        | 14387/15000 [10:11:18<24:01,  2.35s/it] 96%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████        | 14388/15000 [10:11:20<23:57,  2.35s/it] 96%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████���████████████████████████████        | 14389/15000 [10:11:22<23:56,  2.35s/it] 96%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████        | 14390/15000 [10:11:25<23:54,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.7136, 'grad_norm': 1.7890625, 'learning_rate': 2.936196220673942e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3483.06, 'total_tokens': 117563172, 'epoch': 0.96}
+ 96%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████        | 14390/15000 [10:11:25<23:54,  2.35s/it] 96%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████        | 14391/15000 [10:11:27<23:51,  2.35s/it] 96%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏       | 14392/15000 [10:11:30<23:50,  2.35s/it] 96%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏       | 14393/15000 [10:11:32<23:48,  2.35s/it] 96%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏       | 14394/15000 [10:11:34<23:45,  2.35s/it] 96%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏       | 14395/15000 [10:11:37<23:42,  2.35s/it] 96%|███████████████████████████████████████████████████████���██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏       | 14396/15000 [10:11:39<23:41,  2.35s/it] 96%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏       | 14397/15000 [10:11:41<23:37,  2.35s/it] 96%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏       | 14398/15000 [10:11:44<23:33,  2.35s/it] 96%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏       | 14399/15000 [10:11:46<23:32,  2.35s/it] 96%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏       | 14400/15000 [10:11:48<23:30,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.658, 'grad_norm': 1.71875, 'learning_rate': 2.9220770513596843e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3484.98, 'total_tokens': 117644941, 'epoch': 0.96}
+ 96%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏       | 14400/15000 [10:11:48<23:30,  2.35s/it] 96%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎       | 14401/15000 [10:11:51<23:27,  2.35s/it] 96%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████���█████████████████████████████▎       | 14402/15000 [10:11:53<23:25,  2.35s/it] 96%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎       | 14403/15000 [10:11:55<23:23,  2.35s/it] 96%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎       | 14404/15000 [10:11:58<23:21,  2.35s/it] 96%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎       | 14405/15000 [10:12:00<23:19,  2.35s/it] 96%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎       | 14406/15000 [10:12:02<23:18,  2.35s/it] 96%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎       | 14407/15000 [10:12:05<23:17,  2.36s/it] 96%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎       | 14408/15000 [10:12:07<23:14,  2.36s/it] 96%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎       | 14409/15000 [10:12:10<23:10,  2.35s/it] 96%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎       | 14410/15000 [10:12:12<23:07,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6979, 'grad_norm': 1.6953125, 'learning_rate': 2.908188119227067e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3492.65, 'total_tokens': 117726731, 'epoch': 0.96}
+ 96%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎       | 14410/15000 [10:12:12<23:07,  2.35s/it] 96%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍       | 14411/15000 [10:12:14<23:05,  2.35s/it] 96%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍       | 14412/15000 [10:12:17<23:03,  2.35s/it] 96%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍       | 14413/15000 [10:12:19<23:02,  2.35s/it] 96%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍       | 14414/15000 [10:12:21<22:59,  2.35s/it] 96%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍       | 14415/15000 [10:12:24<22:57,  2.36s/it] 96%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍       | 14416/15000 [10:12:26<22:54,  2.35s/it] 96%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████���███████████████████████████████████████████████████████████████████▍       | 14417/15000 [10:12:28<22:53,  2.36s/it] 96%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍       | 14418/15000 [10:12:31<22:51,  2.36s/it] 96%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍       | 14419/15000 [10:12:33<22:49,  2.36s/it] 96%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍       | 14420/15000 [10:12:35<22:46,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.581, 'grad_norm': 1.7109375, 'learning_rate': 2.8945295613542427e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3484.55, 'total_tokens': 117808468, 'epoch': 0.96}
+ 96%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍       | 14420/15000 [10:12:35<22:46,  2.36s/it] 96%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌       | 14421/15000 [10:12:38<22:43,  2.36s/it] 96%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌       | 14422/15000 [10:12:40<22:40,  2.35s/it] 96%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌       | 14423/15000 [10:12:42<22:37,  2.35s/it] 96%|█████████████��████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌       | 14424/15000 [10:12:45<22:35,  2.35s/it] 96%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌       | 14425/15000 [10:12:47<22:33,  2.35s/it] 96%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌       | 14426/15000 [10:12:50<22:31,  2.35s/it] 96%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌       | 14427/15000 [10:12:52<22:29,  2.35s/it] 96%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌       | 14428/15000 [10:12:54<22:27,  2.36s/it] 96%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌       | 14429/15000 [10:12:57<22:25,  2.36s/it] 96%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋       | 14430/15000 [10:12:59<22:23,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.6485, 'grad_norm': 1.6328125, 'learning_rate': 2.88110151254566e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3472.94, 'total_tokens': 117890175, 'epoch': 0.96}
+ 96%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████���███████████████████████████████████████████████████████████████████████▋       | 14430/15000 [10:12:59<22:23,  2.36s/it] 96%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋       | 14431/15000 [10:13:01<22:21,  2.36s/it] 96%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋       | 14432/15000 [10:13:04<22:17,  2.35s/it] 96%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋       | 14433/15000 [10:13:06<22:15,  2.35s/it] 96%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋       | 14434/15000 [10:13:08<22:13,  2.36s/it] 96%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋       | 14435/15000 [10:13:11<22:10,  2.36s/it] 96%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋       | 14436/15000 [10:13:13<22:07,  2.35s/it] 96%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋       | 14437/15000 [10:13:15<22:04,  2.35s/it] 96%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋       | 14438/15000 [10:13:18<22:01,  2.35s/it] 96%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋       | 14439/15000 [10:13:20<21:58,  2.35s/it] 96%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊       | 14440/15000 [10:13:22<21:56,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6676, 'grad_norm': 1.828125, 'learning_rate': 2.867904105330744e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3485.52, 'total_tokens': 117971926, 'epoch': 0.96}
+ 96%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊       | 14440/15000 [10:13:23<21:56,  2.35s/it] 96%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊       | 14441/15000 [10:13:25<21:54,  2.35s/it] 96%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊       | 14442/15000 [10:13:27<21:53,  2.35s/it] 96%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊       | 14443/15000 [10:13:30<21:52,  2.36s/it] 96%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊       | 14444/15000 [10:13:32<21:50,  2.36s/it] 96%|████████████████████████████████████████████████████████████████████████████��█████████████████████████████████████████████████████████████████████████████████████████████████████████████▊       | 14445/15000 [10:13:34<21:47,  2.36s/it] 96%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊       | 14446/15000 [10:13:37<21:45,  2.36s/it] 96%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊       | 14447/15000 [10:13:39<21:43,  2.36s/it] 96%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊       | 14448/15000 [10:13:41<21:40,  2.36s/it] 96%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊       | 14449/15000 [10:13:44<21:38,  2.36s/it] 96%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉       | 14450/15000 [10:13:46<21:36,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.6766, 'grad_norm': 1.7734375, 'learning_rate': 2.854937469962574e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3482.29, 'total_tokens': 118053714, 'epoch': 0.96}
+ 96%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉       | 14450/15000 [10:13:46<21:36,  2.36s/it] 96%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉       | 14451/15000 [10:13:48<21:34,  2.36s/it] 96%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉       | 14452/15000 [10:13:51<21:31,  2.36s/it] 96%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉       | 14453/15000 [10:13:53<21:28,  2.36s/it] 96%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉       | 14454/15000 [10:13:55<21:24,  2.35s/it] 96%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉       | 14455/15000 [10:13:58<22:35,  2.49s/it] 96%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉       | 14456/15000 [10:14:01<22:11,  2.45s/it] 96%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉       | 14457/15000 [10:14:03<21:55,  2.42s/it] 96%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉       | 14458/15000 [10:14:05<21:39,  2.40s/it] 96%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████       | 14459/15000 [10:14:08<21:29,  2.38s/it] 96%|██████████████████████████████████████��████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████       | 14460/15000 [10:14:10<21:21,  2.37s/it]                                                                                                                                                                                                                                                {'loss': 2.6441, 'grad_norm': 1.6796875, 'learning_rate': 2.8422017344166096e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3486.66, 'total_tokens': 118135442, 'epoch': 0.96}
+ 96%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████       | 14460/15000 [10:14:10<21:21,  2.37s/it] 96%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████       | 14461/15000 [10:14:12<21:17,  2.37s/it] 96%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████       | 14462/15000 [10:14:15<21:12,  2.36s/it] 96%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████       | 14463/15000 [10:14:17<21:07,  2.36s/it] 96%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████       | 14464/15000 [10:14:19<21:03,  2.36s/it] 96%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████       | 14465/15000 [10:14:22<21:00,  2.36s/it] 96%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████��████████████████████████████████████████████████       | 14466/15000 [10:14:24<20:56,  2.35s/it] 96%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████       | 14467/15000 [10:14:27<20:53,  2.35s/it] 96%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████       | 14468/15000 [10:14:29<20:50,  2.35s/it] 96%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏      | 14469/15000 [10:14:31<20:48,  2.35s/it] 96%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏      | 14470/15000 [10:14:34<20:45,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6104, 'grad_norm': 1.6640625, 'learning_rate': 2.8296970243894107e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3492.08, 'total_tokens': 118217172, 'epoch': 0.96}
+ 96%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏      | 14470/15000 [10:14:34<20:45,  2.35s/it] 96%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏      | 14471/15000 [10:14:36<20:44,  2.35s/it] 96%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏      | 14472/15000 [10:14:38<20:42,  2.35s/it] 96%|██████████████████████████████���████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏      | 14473/15000 [10:14:41<20:39,  2.35s/it] 96%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏      | 14474/15000 [10:14:43<20:37,  2.35s/it] 96%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏      | 14475/15000 [10:14:45<20:35,  2.35s/it] 97%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏      | 14476/15000 [10:14:48<20:32,  2.35s/it] 97%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏      | 14477/15000 [10:14:50<20:31,  2.35s/it] 97%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏      | 14478/15000 [10:14:52<20:28,  2.35s/it] 97%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎      | 14479/15000 [10:14:55<20:25,  2.35s/it] 97%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎      | 14480/15000 [10:14:57<20:23,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.5903, 'grad_norm': 1.59375, 'learning_rate': 2.8174234632974263e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3480.61, 'total_tokens': 118298847, 'epoch': 0.97}
+ 97%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎      | 14480/15000 [10:14:57<20:23,  2.35s/it] 97%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎      | 14481/15000 [10:14:59<20:22,  2.36s/it] 97%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎      | 14482/15000 [10:15:02<20:22,  2.36s/it] 97%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎      | 14483/15000 [10:15:04<20:18,  2.36s/it] 97%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎      | 14484/15000 [10:15:07<20:16,  2.36s/it] 97%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎      | 14485/15000 [10:15:09<20:13,  2.36s/it] 97%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎      | 14486/15000 [10:15:11<20:12,  2.36s/it] 97%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████��      | 14487/15000 [10:15:14<20:10,  2.36s/it] 97%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍      | 14488/15000 [10:15:16<20:06,  2.36s/it] 97%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍      | 14489/15000 [10:15:18<20:04,  2.36s/it] 97%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍      | 14490/15000 [10:15:21<20:02,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.6231, 'grad_norm': 1.78125, 'learning_rate': 2.8053811722757462e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3469.44, 'total_tokens': 118380406, 'epoch': 0.97}
+ 97%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍      | 14490/15000 [10:15:21<20:02,  2.36s/it] 97%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍      | 14491/15000 [10:15:23<19:59,  2.36s/it] 97%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍      | 14492/15000 [10:15:25<19:56,  2.36s/it] 97%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍      | 14493/15000 [10:15:28<19:55,  2.36s/it] 97%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍      | 14494/15000 [10:15:30<19:51,  2.36s/it] 97%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍      | 14495/15000 [10:15:32<19:49,  2.36s/it] 97%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍      | 14496/15000 [10:15:35<19:46,  2.35s/it] 97%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍      | 14497/15000 [10:15:37<19:44,  2.35s/it] 97%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌      | 14498/15000 [10:15:40<19:42,  2.35s/it] 97%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌      | 14499/15000 [10:15:42<19:39,  2.35s/it] 97%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌      | 14500/15000 [10:15:44<19:37,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.5966, 'grad_norm': 1.7421875, 'learning_rate': 2.7935702701769174e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3471.2, 'total_tokens': 118461994, 'epoch': 0.97}
+ 97%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████��█████████████▌      | 14500/15000 [10:15:44<19:37,  2.35s/it] 97%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌      | 14501/15000 [10:15:47<19:34,  2.35s/it] 97%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌      | 14502/15000 [10:15:49<19:32,  2.35s/it] 97%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌      | 14503/15000 [10:15:51<19:30,  2.35s/it] 97%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌      | 14504/15000 [10:15:54<19:28,  2.36s/it] 97%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌      | 14505/15000 [10:15:56<19:26,  2.36s/it] 97%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌      | 14506/15000 [10:15:58<19:22,  2.35s/it] 97%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌      | 14507/15000 [10:16:01<19:19,  2.35s/it] 97%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋      | 14508/15000 [10:16:03<19:17,  2.35s/it] 97%|█████████████████████████████���█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋      | 14509/15000 [10:16:05<19:15,  2.35s/it] 97%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋      | 14510/15000 [10:16:08<19:12,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.7462, 'grad_norm': 1.78125, 'learning_rate': 2.7819908735697788e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3471.19, 'total_tokens': 118543427, 'epoch': 0.97}
+ 97%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋      | 14510/15000 [10:16:08<19:12,  2.35s/it] 97%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋      | 14511/15000 [10:16:10<19:10,  2.35s/it] 97%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋      | 14512/15000 [10:16:12<19:07,  2.35s/it] 97%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋      | 14513/15000 [10:16:15<19:06,  2.35s/it] 97%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋      | 14514/15000 [10:16:17<19:04,  2.35s/it] 97%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████���█████████████████████████████████████████████████████████████▋      | 14515/15000 [10:16:20<19:02,  2.36s/it] 97%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋      | 14516/15000 [10:16:22<18:59,  2.36s/it] 97%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊      | 14517/15000 [10:16:24<18:56,  2.35s/it] 97%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊      | 14518/15000 [10:16:27<18:56,  2.36s/it] 97%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊      | 14519/15000 [10:16:29<18:52,  2.35s/it] 97%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊      | 14520/15000 [10:16:31<18:49,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6679, 'grad_norm': 1.796875, 'learning_rate': 2.7706430967382996e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3472.9, 'total_tokens': 118624892, 'epoch': 0.97}
+ 97%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊      | 14520/15000 [10:16:31<18:49,  2.35s/it] 97%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊      | 14521/15000 [10:16:34<18:47,  2.35s/it] 97%|███████████████��███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊      | 14522/15000 [10:16:36<18:45,  2.36s/it] 97%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊      | 14523/15000 [10:16:38<18:43,  2.35s/it] 97%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊      | 14524/15000 [10:16:41<18:40,  2.35s/it] 97%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊      | 14525/15000 [10:16:43<18:37,  2.35s/it] 97%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊      | 14526/15000 [10:16:45<18:36,  2.36s/it] 97%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉      | 14527/15000 [10:16:48<18:33,  2.35s/it] 97%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉      | 14528/15000 [10:16:50<18:30,  2.35s/it] 97%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉      | 14529/15000 [10:16:52<18:27,  2.35s/it] 97%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉      | 14530/15000 [10:16:55<18:25,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.5787, 'grad_norm': 1.796875, 'learning_rate': 2.7595270516804563e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3479.18, 'total_tokens': 118706440, 'epoch': 0.97}
+ 97%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉      | 14530/15000 [10:16:55<18:25,  2.35s/it] 97%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉      | 14531/15000 [10:16:57<18:22,  2.35s/it] 97%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉      | 14532/15000 [10:17:00<18:20,  2.35s/it] 97%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉      | 14533/15000 [10:17:02<18:18,  2.35s/it] 97%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉      | 14534/15000 [10:17:04<18:16,  2.35s/it][2025-11-17 07:59:58,588] [INFO] [axolotl.utils.data.wrappers.get_dataset_wrapper:87] [PID:8163] Loading dataset: Goader/kobza-2m-jsonl with base_type: pretrain and prompt_style: None
+
+Tokenizing Prompts (num_proc=64):   0%|                                                                                                                                                                        | 0/10000 [00:00<?, ? examples/s][A
+Tokenizing Prompts (num_proc=64):   2%|██▍                                                                                                                                                           | 157/10000 [00:07<07:23, 22.17 examples/s][A
+Tokenizing Prompts (num_proc=64):   3%|████▉                                                                                                                                                         | 314/10000 [00:07<03:28, 46.53 examples/s][A
+Tokenizing Prompts (num_proc=64):   5%|███████▍                                                                                                                                                      | 471/10000 [00:08<02:10, 73.01 examples/s][A
+Tokenizing Prompts (num_proc=64):   6%|█████████▉                                                                                                                                                    | 628/10000 [00:09<01:34, 99.39 examples/s][A
+Tokenizing Prompts (num_proc=64):   8%|████████████▎                                                                                                                                                | 785/10000 [00:09<01:04, 143.95 examples/s][A
+Tokenizing Prompts (num_proc=64):   9%|██████████████▊                                                                                                                                              | 942/10000 [00:10<01:04, 139.70 examples/s][A
+Tokenizing Prompts (num_proc=64):  11%|█████████████████▏                                                                                                                                          | 1099/10000 [00:11<00:56, 157.26 examples/s][A
+Tokenizing Prompts (num_proc=64):  13%|███████████████████▌                                                                                                                                        | 1256/10000 [00:11<00:41, 212.99 examples/s][A
+Tokenizing Prompts (num_proc=64):  14%|██████████████████████                                                                                                                                      | 1413/10000 [00:12<00:50, 168.52 examples/s][A
+Tokenizing Prompts (num_proc=64):  16%|████████████████████████▍                                                                                                                                   | 1570/10000 [00:13<00:46, 179.82 examples/s][A
+Tokenizing Prompts (num_proc=64):  17%|██████████████████████████▉                                                                                                                                 | 1727/10000 [00:14<00:36, 224.80 examples/s][A
+Tokenizing Prompts (num_proc=64):  19%|█████████████████████████████▍                                                                                                                              | 1884/10000 [00:15<00:41, 193.62 examples/s][A
+Tokenizing Prompts (num_proc=64):  20%|███████████████████████████████▊                                                                                                                            | 2041/10000 [00:15<00:35, 224.61 examples/s][A
+Tokenizing Prompts (num_proc=64):  22%|██████████████████████████████████▎                                                                                                                         | 2198/10000 [00:16<00:38, 200.09 examples/s][A
+Tokenizing Prompts (num_proc=64):  24%|████████████████████████████████████▋                                                                                                                       | 2355/10000 [00:17<00:33, 231.28 examples/s][A
+Tokenizing Prompts (num_proc=64):  25%|███████████████████████████████████████▏                                                                                                                    | 2512/10000 [00:17<00:30, 249.25 examples/s][A
+Tokenizing Prompts (num_proc=64):  27%|█████████████████████████████████████████▌                                                                                                                  | 2668/10000 [00:18<00:29, 244.64 examples/s][A
+Tokenizing Prompts (num_proc=64):  28%|████████████████████████████████████████████                                                                                                                | 2824/10000 [00:19<00:37, 188.89 examples/s][A
+Tokenizing Prompts (num_proc=64):  30%|██████████████████████████████████████████████▍                                                                                                             | 2980/10000 [00:19<00:28, 247.54 examples/s][A
+Tokenizing Prompts (num_proc=64):  31%|████████████████████████████████████████████████▉                                                                                                           | 3136/10000 [00:20<00:36, 190.44 examples/s][A
+Tokenizing Prompts (num_proc=64):  33%|███████████████████████████████████████████████████▎                                                                                                        | 3292/10000 [00:21<00:28, 237.01 examples/s][A
+Tokenizing Prompts (num_proc=64):  34%|█████████████████████████████████████████████████████▊                                                                                                      | 3448/10000 [00:22<00:34, 192.28 examples/s][A
+Tokenizing Prompts (num_proc=64):  36%|████████████████████████████████████████████████████████▏                                                                                                   | 3604/10000 [00:22<00:31, 201.63 examples/s][A
+Tokenizing Prompts (num_proc=64):  38%|██████████████████████████████████████████████████████████▋                                                                                                 | 3760/10000 [00:23<00:30, 204.50 examples/s][A
+Tokenizing Prompts (num_proc=64):  39%|█████████████████████████████████████████████████████████████                                                                                               | 3916/10000 [00:24<00:26, 233.92 examples/s][A
+Tokenizing Prompts (num_proc=64):  41%|███████████████████████████████████████████████████████████████▌                                                                                            | 4072/10000 [00:24<00:26, 220.82 examples/s][A
+Tokenizing Prompts (num_proc=64):  42%|█████████████████████████████████████████████████████████████████▉                                                                                          | 4228/10000 [00:25<00:26, 215.23 examples/s][A
+Tokenizing Prompts (num_proc=64):  44%|████████████████████████████████████████████████████████████████████▍                                                                                       | 4384/10000 [00:26<00:26, 208.31 examples/s][A
+Tokenizing Prompts (num_proc=64):  45%|██████████████████████████████████████████████████████████████████████▊                                                                                     | 4540/10000 [00:27<00:25, 215.43 examples/s][A
+Tokenizing Prompts (num_proc=64):  47%|█████████████████████████████████████████████████████████████████████████▎                                                                                  | 4696/10000 [00:27<00:24, 212.25 examples/s][A
+Tokenizing Prompts (num_proc=64):  49%|███████████████████████████████████████████████████████████████████████████▋                                                                                | 4852/10000 [00:29<00:26, 190.98 examples/s][A
+Tokenizing Prompts (num_proc=64):  50%|██████████████████████████████████████████████████████████████████████████████                                                                              | 5008/10000 [00:29<00:24, 200.94 examples/s][A
+Tokenizing Prompts (num_proc=64):  52%|████████████████████████████████████████████████████████████████████████████████▌                                                                           | 5164/10000 [00:30<00:21, 223.02 examples/s][A
+Tokenizing Prompts (num_proc=64):  53%|███████���██████████████████████████████████████████████████████████████████████████▉                                                                         | 5320/10000 [00:31<00:22, 204.89 examples/s][A
+Tokenizing Prompts (num_proc=64):  55%|█████████████████████████████████████████████████████████████████████████████████████▍                                                                      | 5476/10000 [00:31<00:19, 227.47 examples/s][A
+Tokenizing Prompts (num_proc=64):  56%|███████████████████████████████████████████████████████████████████████████████████████▊                                                                    | 5632/10000 [00:32<00:23, 186.74 examples/s][A
+Tokenizing Prompts (num_proc=64):  58%|██████████████████████████████████████████████████████████████████████████████████████████▎                                                                 | 5788/10000 [00:32<00:17, 243.26 examples/s][A
+Tokenizing Prompts (num_proc=64):  59%|████████████████████████████████████████████████████████████████████████████████████████████▋                                                               | 5944/10000 [00:33<00:17, 238.40 examples/s][A
+Tokenizing Prompts (num_proc=64):  61%|███████████████████████████████████████████████████████████████████████████████████████████████▏                                                            | 6100/10000 [00:34<00:17, 229.38 examples/s][A
+Tokenizing Prompts (num_proc=64):  63%|█████████████████████████████████████████████████████████████████████████████████████████████████▌                                                          | 6256/10000 [00:35<00:16, 231.17 examples/s][A
+Tokenizing Prompts (num_proc=64):  64%|████████████████████████████████████████████████████████████████████████████████████████████████████                                                        | 6412/10000 [00:36<00:19, 185.76 examples/s][A
+Tokenizing Prompts (num_proc=64):  66%|██████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                     | 6568/10000 [00:36<00:13, 246.64 examples/s][A
+Tokenizing Prompts (num_proc=64):  67%|████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                   | 6724/10000 [00:37<00:17, 192.05 examples/s][A
+Tokenizing Prompts (num_proc=64):  69%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                | 6880/10000 [00:37<00:12, 250.01 examples/s][A
+Tokenizing Prompts (num_proc=64):  70%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                              | 7036/10000 [00:39<00:15, 193.53 examples/s][A
+Tokenizing Prompts (num_proc=64):  72%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                           | 7192/10000 [00:39<00:13, 202.09 examples/s][A
+Tokenizing Prompts (num_proc=64):  73%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                         | 7348/10000 [00:39<00:10, 258.30 examples/s][A
+Tokenizing Prompts (num_proc=64):  75%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                       | 7504/10000 [00:40<00:10, 240.67 examples/s][A
+Tokenizing Prompts (num_proc=64):  77%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                    | 7660/10000 [00:41<00:10, 229.13 examples/s][A
+Tokenizing Prompts (num_proc=64):  78%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                  | 7816/10000 [00:42<00:09, 234.71 examples/s][A
+Tokenizing Prompts (num_proc=64):  80%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                               | 7972/10000 [00:43<00:10, 191.94 examples/s][A
+Tokenizing Prompts (num_proc=64):  81%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                             | 8128/10000 [00:43<00:09, 200.57 examples/s][A
+Tokenizing Prompts (num_proc=64):  83%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                          | 8284/10000 [00:44<00:08, 206.19 examples/s][A
+Tokenizing Prompts (num_proc=64):  84%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                        | 8440/10000 [00:45<00:07, 212.15 examples/s][A
+Tokenizing Prompts (num_proc=64):  86%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                      | 8596/10000 [00:45<00:05, 272.34 examples/s][A
+Tokenizing Prompts (num_proc=64):  88%|███████████████████���████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                   | 8752/10000 [00:46<00:05, 244.29 examples/s][A
+Tokenizing Prompts (num_proc=64):  89%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                 | 8908/10000 [00:46<00:04, 248.57 examples/s][A
+Tokenizing Prompts (num_proc=64):  91%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍              | 9064/10000 [00:47<00:03, 241.06 examples/s][A
+Tokenizing Prompts (num_proc=64):  92%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊            | 9220/10000 [00:48<00:03, 230.15 examples/s][A
+Tokenizing Prompts (num_proc=64):  94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎         | 9376/10000 [00:49<00:02, 231.62 examples/s][A
+Tokenizing Prompts (num_proc=64):  95%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋       | 9532/10000 [00:49<00:02, 221.89 examples/s][A
+Tokenizing Prompts (num_proc=64):  97%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏    | 9688/10000 [00:50<00:01, 219.00 examples/s][A
+Tokenizing Prompts (num_proc=64):  98%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌  | 9844/10000 [00:51<00:00, 225.96 examples/s][A
+Tokenizing Prompts (num_proc=64): 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10000/10000 [00:51<00:00, 220.71 examples/s][ATokenizing Prompts (num_proc=64): 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████���█████████████████████████████████████████████| 10000/10000 [00:53<00:00, 186.03 examples/s]
+
+Dropping Long Sequences:   0%|                                                                                                                                                                                 | 0/10001 [00:00<?, ? examples/s][A
+Dropping Long Sequences:  10%|████████████████▍                                                                                                                                                    | 1000/10001 [00:01<00:13, 680.78 examples/s][A
+Dropping Long Sequences:  20%|████████████████████████████████▊                                                                                                                                   | 2000/10001 [00:01<00:06, 1317.08 examples/s][A
+Dropping Long Sequences:  30%|█████████████████████████████████████████████████▏                                                                                                                  | 3000/10001 [00:01<00:03, 1920.92 examples/s][A
+Dropping Long Sequences:  40%|█████████████████████████████████████████████████████████████████▌                                                                                                  | 4000/10001 [00:02<00:02, 2409.61 examples/s][A
+Dropping Long Sequences:  50%|█████████████████████████████████████████████████████████████████████████████████▉                                                                                  | 5000/10001 [00:02<00:01, 2732.68 examples/s][A
+Dropping Long Sequences:  60%|██████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                 | 6000/10001 [00:02<00:01, 3004.49 examples/s][A
+Dropping Long Sequences:  70%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                 | 7000/10001 [00:03<00:00, 3040.00 examples/s][A
+Dropping Long Sequences:  80%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                | 8000/10001 [00:03<00:00, 3182.52 examples/s][A
+Dropping Long Sequences:  90%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                | 9000/10001 [00:03<00:00, 3332.17 examples/s][A
+Dropping Long Sequences: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉| 10000/10001 [00:03<00:00, 3426.31 examples/s][ADropping Long Sequences: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████���█████████████████████████████████| 10001/10001 [00:03<00:00, 2513.34 examples/s]
+
+Add position_id column (Pretraining Sample Packing):   0%|                                                                                                                                                      | 0/8628 [00:00<?, ? examples/s][A
+Add position_id column (Pretraining Sample Packing):  12%|███████████████▉                                                                                                                          | 1000/8628 [00:01<00:09, 775.05 examples/s][A
+Add position_id column (Pretraining Sample Packing):  23%|███████████████████████████████▊                                                                                                         | 2000/8628 [00:01<00:04, 1615.13 examples/s][A
+Add position_id column (Pretraining Sample Packing):  35%|███████████████████████████████████████████████▋                                                                                         | 3000/8628 [00:01<00:02, 2500.96 examples/s][A
+Add position_id column (Pretraining Sample Packing):  46%|███████████████████████████████████████████████████████████████▌                                                                         | 4000/8628 [00:01<00:01, 3305.22 examples/s][A
+Add position_id column (Pretraining Sample Packing):  58%|███████████████████████████████████████████████████████████████████████████████▍                                                         | 5000/8628 [00:01<00:00, 4110.87 examples/s][A
+Add position_id column (Pretraining Sample Packing):  70%|███████████████████████████████████████████████████████████████████████████████████████████████▎                                         | 6000/8628 [00:02<00:00, 4760.89 examples/s][A
+Add position_id column (Pretraining Sample Packing):  81%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                         | 7000/8628 [00:02<00:00, 5326.80 examples/s][A
+Add position_id column (Pretraining Sample Packing):  93%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████          | 8000/8628 [00:02<00:00, 5544.84 examples/s][AAdd position_id column (Pretraining Sample Packing): 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 8628/8628 [00:02<00:00, 3493.82 examples/s]
+[2025-11-17 08:01:00,507] [DEBUG] [axolotl.utils.samplers.multipack.pack_parallel:177] [PID:8163] Using single process for pack_parallel, running sequentially.
+ 97%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████      | 14535/15000 [10:18:15<2:56:34, 22.78s/it] 97%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████      | 14536/15000 [10:18:17<2:08:47, 16.65s/it] 97%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████      | 14537/15000 [10:18:19<1:35:24, 12.36s/it] 97%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████      | 14538/15000 [10:18:22<1:12:03,  9.36s/it] 97%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████      | 14539/15000 [10:18:24<55:45,  7.26s/it] 97%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████      | 14540/15000 [10:18:26<44:21,  5.79s/it]                                                                                                                                                                                                                                                {'loss': 2.6459, 'grad_norm': 1.75, 'learning_rate': 2.748642848107123e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3439.12, 'total_tokens': 118787101, 'epoch': 0.97}
+ 97%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████      | 14540/15000 [10:18:26<44:21,  5.79s/it] 97%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████      | 14541/15000 [10:18:29<36:21,  4.75s/it] 97%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████      | 14542/15000 [10:18:31<30:46,  4.03s/it] 97%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████      | 14543/15000 [10:18:33<26:51,  3.53s/it] 97%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████      | 14544/15000 [10:18:36<24:07,  3.17s/it] 97%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████      | 14545/15000 [10:18:38<22:11,  2.93s/it] 97%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏     | 14546/15000 [10:18:41<20:51,  2.76s/it] 97%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏     | 14547/15000 [10:18:43<19:51,  2.63s/it] 97%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏     | 14548/15000 [10:18:45<19:12,  2.55s/it] 97%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏     | 14549/15000 [10:18:48<18:43,  2.49s/it] 97%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏     | 14550/15000 [10:18:50<18:21,  2.45s/it]                                                                                                                                                                                                                                                {'loss': 2.6522, 'grad_norm': 1.75, 'learning_rate': 2.737990593441001e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3493.38, 'total_tokens': 118868940, 'epoch': 0.97}
+ 97%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏     | 14550/15000 [10:18:50<18:21,  2.45s/it] 97%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏     | 14551/15000 [10:18:52<18:06,  2.42s/it] 97%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏     | 14552/15000 [10:18:55<17:55,  2.40s/it] 97%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏     | 14553/15000 [10:18:57<17:45,  2.38s/it] 97%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏     | 14554/15000 [10:18:59<17:38,  2.37s/it] 97%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏     | 14555/15000 [10:19:02<17:33,  2.37s/it] 97%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎     | 14556/15000 [10:19:04<17:28,  2.36s/it] 97%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████���██████████████████████████████████████▎     | 14557/15000 [10:19:06<17:24,  2.36s/it] 97%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎     | 14558/15000 [10:19:09<17:21,  2.36s/it] 97%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎     | 14559/15000 [10:19:11<17:18,  2.36s/it] 97%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎     | 14560/15000 [10:19:13<17:16,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6753, 'grad_norm': 1.578125, 'learning_rate': 2.7275703928155353e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3489.6, 'total_tokens': 118950801, 'epoch': 0.97}
+ 97%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎     | 14560/15000 [10:19:13<17:16,  2.35s/it] 97%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎     | 14561/15000 [10:19:16<17:14,  2.36s/it] 97%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎     | 14562/15000 [10:19:18<17:10,  2.35s/it] 97%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎     | 14563/15000 [10:19:21<17:08,  2.35s/it] 97%|██████████████████████████████████���█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎     | 14564/15000 [10:19:23<17:05,  2.35s/it] 97%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎     | 14565/15000 [10:19:25<17:03,  2.35s/it] 97%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍     | 14566/15000 [10:19:28<17:02,  2.36s/it] 97%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍     | 14567/15000 [10:19:30<16:59,  2.35s/it] 97%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍     | 14568/15000 [10:19:32<16:57,  2.36s/it] 97%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍     | 14569/15000 [10:19:35<16:54,  2.35s/it] 97%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍     | 14570/15000 [10:19:37<16:51,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6564, 'grad_norm': 1.6484375, 'learning_rate': 2.717382349073907e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3495.22, 'total_tokens': 119032658, 'epoch': 0.97}
+ 97%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████���██████████████████████████████████████████████████████████████▍     | 14570/15000 [10:19:37<16:51,  2.35s/it] 97%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍     | 14571/15000 [10:19:39<16:50,  2.35s/it] 97%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍     | 14572/15000 [10:19:42<16:47,  2.35s/it] 97%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍     | 14573/15000 [10:19:44<16:45,  2.35s/it] 97%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍     | 14574/15000 [10:19:46<16:42,  2.35s/it] 97%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌     | 14575/15000 [10:19:49<16:40,  2.35s/it] 97%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌     | 14576/15000 [10:19:51<16:37,  2.35s/it] 97%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌     | 14577/15000 [10:19:53<16:36,  2.35s/it] 97%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████���██████▌     | 14578/15000 [10:19:56<16:33,  2.35s/it] 97%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌     | 14579/15000 [10:19:58<16:30,  2.35s/it] 97%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌     | 14580/15000 [10:20:01<16:28,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.7212, 'grad_norm': 1.7578125, 'learning_rate': 2.7074265627679918e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3483.64, 'total_tokens': 119114428, 'epoch': 0.97}
+ 97%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌     | 14580/15000 [10:20:01<16:28,  2.35s/it] 97%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌     | 14581/15000 [10:20:03<16:25,  2.35s/it] 97%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌     | 14582/15000 [10:20:05<16:23,  2.35s/it] 97%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌     | 14583/15000 [10:20:08<16:21,  2.35s/it] 97%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌     | 14584/15000 [10:20:10<16:19,  2.35s/it] 97%|█████████████████████████████████████████████████████████████████��██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋     | 14585/15000 [10:20:12<16:16,  2.35s/it] 97%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋     | 14586/15000 [10:20:15<16:15,  2.36s/it] 97%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋     | 14587/15000 [10:20:17<16:13,  2.36s/it] 97%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋     | 14588/15000 [10:20:19<16:11,  2.36s/it] 97%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋     | 14589/15000 [10:20:22<16:09,  2.36s/it] 97%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋     | 14590/15000 [10:20:24<16:07,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.7032, 'grad_norm': 1.7734375, 'learning_rate': 2.6977031321573766e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3474.2, 'total_tokens': 119196261, 'epoch': 0.97}
+ 97%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋     | 14590/15000 [10:20:24<16:07,  2.36s/it] 97%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████��███████████████████████████████▋     | 14591/15000 [10:20:26<16:04,  2.36s/it] 97%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋     | 14592/15000 [10:20:29<16:01,  2.36s/it] 97%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋     | 14593/15000 [10:20:31<15:59,  2.36s/it] 97%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋     | 14594/15000 [10:20:34<15:55,  2.35s/it] 97%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊     | 14595/15000 [10:20:36<15:53,  2.35s/it] 97%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊     | 14596/15000 [10:20:38<15:51,  2.35s/it] 97%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊     | 14597/15000 [10:20:41<15:49,  2.35s/it] 97%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊     | 14598/15000 [10:20:43<15:46,  2.35s/it] 97%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊     | 14599/15000 [10:20:45<15:44,  2.35s/it] 97%|██████���█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊     | 14600/15000 [10:20:48<15:42,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.6966, 'grad_norm': 1.7890625, 'learning_rate': 2.6882121532084056e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3471.94, 'total_tokens': 119278061, 'epoch': 0.97}
+ 97%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊     | 14600/15000 [10:20:48<15:42,  2.36s/it] 97%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊     | 14601/15000 [10:20:50<15:39,  2.36s/it] 97%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊     | 14602/15000 [10:20:52<15:36,  2.35s/it] 97%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊     | 14603/15000 [10:20:55<15:33,  2.35s/it] 97%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉     | 14604/15000 [10:20:57<15:32,  2.35s/it] 97%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉     | 14605/15000 [10:20:59<15:29,  2.35s/it] 97%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉     | 14606/15000 [10:21:02<15:27,  2.35s/it] 97%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉     | 14607/15000 [10:21:04<15:24,  2.35s/it] 97%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉     | 14608/15000 [10:21:06<15:23,  2.35s/it] 97%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉     | 14609/15000 [10:21:09<15:20,  2.36s/it] 97%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉     | 14610/15000 [10:21:11<15:19,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.6904, 'grad_norm': 1.75, 'learning_rate': 2.6789537195932e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3471.73, 'total_tokens': 119359834, 'epoch': 0.97}
+ 97%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉     | 14610/15000 [10:21:11<15:19,  2.36s/it] 97%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉     | 14611/15000 [10:21:14<15:17,  2.36s/it] 97%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉     | 14612/15000 [10:21:16<15:14,  2.36s/it] 97%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉     | 14613/15000 [10:21:18<15:12,  2.36s/it] 97%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████     | 14614/15000 [10:21:21<15:09,  2.36s/it] 97%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████     | 14615/15000 [10:21:23<15:06,  2.35s/it] 97%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████     | 14616/15000 [10:21:25<15:03,  2.35s/it] 97%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████     | 14617/15000 [10:21:28<15:01,  2.35s/it] 97%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████     | 14618/15000 [10:21:30<14:59,  2.36s/it] 97%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████     | 14619/15000 [10:21:32<14:57,  2.36s/it] 97%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████     | 14620/15000 [10:21:35<14:54,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6544, 'grad_norm': 1.8125, 'learning_rate': 2.6699279226887647e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3489.74, 'total_tokens': 119441635, 'epoch': 0.97}
+ 97%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████     | 14620/15000 [10:21:35<14:54,  2.35s/it] 97%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████     | 14621/15000 [10:21:37<14:52,  2.35s/it] 97%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████     | 14622/15000 [10:21:39<14:50,  2.36s/it] 97%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████     | 14623/15000 [10:21:42<14:48,  2.36s/it] 97%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏    | 14624/15000 [10:21:44<14:44,  2.35s/it] 98%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏    | 14625/15000 [10:21:47<14:41,  2.35s/it] 98%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏    | 14626/15000 [10:21:49<14:38,  2.35s/it] 98%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████��███████████████████████████████████████████████████████████▏    | 14627/15000 [10:21:51<14:37,  2.35s/it] 98%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏    | 14628/15000 [10:21:54<14:36,  2.36s/it] 98%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏    | 14629/15000 [10:21:56<14:33,  2.35s/it] 98%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏    | 14630/15000 [10:21:58<14:30,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6793, 'grad_norm': 1.671875, 'learning_rate': 2.6611348515760753e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3489.75, 'total_tokens': 119523408, 'epoch': 0.98}
+ 98%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏    | 14630/15000 [10:21:58<14:30,  2.35s/it] 98%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏    | 14631/15000 [10:22:01<14:28,  2.36s/it] 98%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏    | 14632/15000 [10:22:03<14:26,  2.35s/it] 98%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎    | 14633/15000 [10:22:05<14:24,  2.35s/it] 98%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎    | 14634/15000 [10:22:08<14:21,  2.35s/it] 98%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎    | 14635/15000 [10:22:10<14:18,  2.35s/it] 98%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎    | 14636/15000 [10:22:12<14:16,  2.35s/it] 98%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎    | 14637/15000 [10:22:15<14:13,  2.35s/it] 98%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎    | 14638/15000 [10:22:17<14:11,  2.35s/it] 98%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎    | 14639/15000 [10:22:19<14:09,  2.35s/it] 98%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎    | 14640/15000 [10:22:22<14:05,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6695, 'grad_norm': 1.703125, 'learning_rate': 2.6525745930391895e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3501.03, 'total_tokens': 119605233, 'epoch': 0.98}
+ 98%|███████████████████████████████████████████████████████████████████████████████████████████████���█████████████████████████████████████████████████████████████████████████████████████████████▎    | 14640/15000 [10:22:22<14:05,  2.35s/it] 98%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎    | 14641/15000 [10:22:24<14:03,  2.35s/it] 98%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎    | 14642/15000 [10:22:27<14:02,  2.35s/it] 98%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍    | 14643/15000 [10:22:29<14:01,  2.36s/it] 98%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍    | 14644/15000 [10:22:31<13:58,  2.35s/it] 98%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍    | 14645/15000 [10:22:34<13:55,  2.35s/it] 98%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍    | 14646/15000 [10:22:36<13:53,  2.35s/it] 98%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍    | 14647/15000 [10:22:38<13:50,  2.35s/it] 98%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍    | 14648/15000 [10:22:41<13:48,  2.35s/it] 98%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍    | 14649/15000 [10:22:43<13:45,  2.35s/it] 98%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍    | 14650/15000 [10:22:45<13:43,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6995, 'grad_norm': 1.7421875, 'learning_rate': 2.644247231564402e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3482.58, 'total_tokens': 119687018, 'epoch': 0.98}
+ 98%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍    | 14650/15000 [10:22:45<13:43,  2.35s/it] 98%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍    | 14651/15000 [10:22:48<13:41,  2.35s/it] 98%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍    | 14652/15000 [10:22:50<13:38,  2.35s/it] 98%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌    | 14653/15000 [10:22:52<13:37,  2.36s/it] 98%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌    | 14654/15000 [10:22:55<13:35,  2.36s/it] 98%|█████████████████████████���███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌    | 14655/15000 [10:22:57<13:31,  2.35s/it] 98%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌    | 14656/15000 [10:22:59<13:29,  2.35s/it] 98%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌    | 14657/15000 [10:23:02<13:27,  2.35s/it] 98%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌    | 14658/15000 [10:23:04<13:25,  2.35s/it] 98%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌    | 14659/15000 [10:23:07<13:23,  2.36s/it] 98%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌    | 14660/15000 [10:23:09<13:21,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.6799, 'grad_norm': 1.765625, 'learning_rate': 2.636152849339416e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3478.62, 'total_tokens': 119768794, 'epoch': 0.98}
+ 98%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌    | 14660/15000 [10:23:09<13:21,  2.36s/it] 98%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌    | 14661/15000 [10:23:11<13:17,  2.35s/it] 98%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋    | 14662/15000 [10:23:14<13:15,  2.35s/it] 98%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋    | 14663/15000 [10:23:16<13:13,  2.36s/it] 98%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋    | 14664/15000 [10:23:18<13:11,  2.36s/it] 98%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋    | 14665/15000 [10:23:21<13:09,  2.36s/it] 98%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋    | 14666/15000 [10:23:23<13:06,  2.35s/it] 98%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋    | 14667/15000 [10:23:25<13:03,  2.35s/it] 98%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋    | 14668/15000 [10:23:28<13:01,  2.35s/it] 98%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████��██████████████████████████▋    | 14669/15000 [10:23:30<12:58,  2.35s/it] 98%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋    | 14670/15000 [10:23:32<12:56,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.658, 'grad_norm': 1.6328125, 'learning_rate': 2.628291526252506e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3483.8, 'total_tokens': 119850582, 'epoch': 0.98}
+ 98%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋    | 14670/15000 [10:23:32<12:56,  2.35s/it] 98%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋    | 14671/15000 [10:23:35<12:54,  2.35s/it] 98%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊    | 14672/15000 [10:23:37<12:52,  2.35s/it] 98%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊    | 14673/15000 [10:23:40<12:50,  2.36s/it] 98%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊    | 14674/15000 [10:23:42<12:47,  2.35s/it] 98%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊    | 14675/15000 [10:23:44<12:45,  2.36s/it] 98%|██████████████████████████████████████████��██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊    | 14676/15000 [10:23:47<12:42,  2.35s/it] 98%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊    | 14677/15000 [10:23:49<12:40,  2.35s/it] 98%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊    | 14678/15000 [10:23:51<12:38,  2.35s/it] 98%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊    | 14679/15000 [10:23:54<12:36,  2.36s/it] 98%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊    | 14680/15000 [10:23:56<12:34,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.7193, 'grad_norm': 1.6953125, 'learning_rate': 2.6206633398917663e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3476.64, 'total_tokens': 119932379, 'epoch': 0.98}
+ 98%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊    | 14680/15000 [10:23:56<12:34,  2.36s/it] 98%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊    | 14681/15000 [10:23:58<12:31,  2.36s/it] 98%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████��████████████████████████████████████████████████████████████▉    | 14682/15000 [10:24:01<12:28,  2.35s/it] 98%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉    | 14683/15000 [10:24:03<12:26,  2.36s/it] 98%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉    | 14684/15000 [10:24:05<12:24,  2.36s/it] 98%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉    | 14685/15000 [10:24:08<12:22,  2.36s/it] 98%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉    | 14686/15000 [10:24:10<12:20,  2.36s/it] 98%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉    | 14687/15000 [10:24:12<12:17,  2.35s/it] 98%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉    | 14688/15000 [10:24:15<12:15,  2.36s/it] 98%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉    | 14689/15000 [10:24:17<12:12,  2.36s/it] 98%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████���█████████▉    | 14690/15000 [10:24:20<12:10,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.5963, 'grad_norm': 1.6875, 'learning_rate': 2.613268365544311e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3486.53, 'total_tokens': 120014178, 'epoch': 0.98}
+ 98%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉    | 14690/15000 [10:24:20<12:10,  2.36s/it] 98%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████    | 14691/15000 [10:24:22<12:07,  2.36s/it] 98%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████    | 14692/15000 [10:24:24<12:05,  2.36s/it] 98%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████    | 14693/15000 [10:24:27<12:02,  2.35s/it] 98%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████    | 14694/15000 [10:24:29<12:00,  2.35s/it] 98%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████    | 14695/15000 [10:24:31<11:58,  2.36s/it] 98%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████    | 14696/15000 [10:24:34<11:56,  2.36s/it] 98%|███████████████████████████████████████████████████████████��██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████    | 14697/15000 [10:24:36<11:53,  2.36s/it] 98%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████    | 14698/15000 [10:24:38<11:51,  2.36s/it] 98%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████    | 14699/15000 [10:24:41<11:48,  2.36s/it] 98%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████    | 14700/15000 [10:24:43<11:46,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.6777, 'grad_norm': 1.7890625, 'learning_rate': 2.6061066761955545e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3482.06, 'total_tokens': 120095982, 'epoch': 0.98}
+ 98%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████    | 14700/15000 [10:24:43<11:46,  2.36s/it] 98%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏   | 14701/15000 [10:24:45<11:44,  2.35s/it] 98%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏   | 14702/15000 [10:24:48<11:41,  2.35s/it] 98%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████���█████████████████████████████████████████████▏   | 14703/15000 [10:24:50<11:38,  2.35s/it] 98%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏   | 14704/15000 [10:24:53<11:36,  2.35s/it] 98%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏   | 14705/15000 [10:24:55<11:33,  2.35s/it] 98%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏   | 14706/15000 [10:24:57<11:31,  2.35s/it] 98%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏   | 14707/15000 [10:25:00<11:29,  2.35s/it] 98%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏   | 14708/15000 [10:25:02<11:26,  2.35s/it] 98%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏   | 14709/15000 [10:25:05<12:03,  2.49s/it] 98%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏   | 14710/15000 [10:25:07<11:49,  2.45s/it]                                                                                                                                                                                                                                                {'loss': 2.6535, 'grad_norm': 1.8203125, 'learning_rate': 2.5991783425284774e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3488.86, 'total_tokens': 120177804, 'epoch': 0.98}
+ 98%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏   | 14710/15000 [10:25:07<11:49,  2.45s/it] 98%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎   | 14711/15000 [10:25:09<11:38,  2.42s/it] 98%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎   | 14712/15000 [10:25:12<11:30,  2.40s/it] 98%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎   | 14713/15000 [10:25:14<11:25,  2.39s/it] 98%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎   | 14714/15000 [10:25:16<11:19,  2.38s/it] 98%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎   | 14715/15000 [10:25:19<11:14,  2.37s/it] 98%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎   | 14716/15000 [10:25:21<11:10,  2.36s/it] 98%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎   | 14717/15000 [10:25:24<11:08,  2.36s/it] 98%|███████████████████████████████████████████████████████████████���██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎   | 14718/15000 [10:25:26<11:05,  2.36s/it] 98%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎   | 14719/15000 [10:25:28<11:02,  2.36s/it] 98%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍   | 14720/15000 [10:25:31<11:00,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.6352, 'grad_norm': 1.875, 'learning_rate': 2.592483432922935e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3476.0, 'total_tokens': 120259565, 'epoch': 0.98}
+ 98%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍   | 14720/15000 [10:25:31<11:00,  2.36s/it] 98%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍   | 14721/15000 [10:25:33<10:57,  2.36s/it] 98%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍   | 14722/15000 [10:25:35<10:54,  2.36s/it] 98%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍   | 14723/15000 [10:25:38<10:52,  2.36s/it] 98%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████��███████████████████████████████████████████▍   | 14724/15000 [10:25:40<10:49,  2.35s/it] 98%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍   | 14725/15000 [10:25:42<10:47,  2.35s/it] 98%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍   | 14726/15000 [10:25:45<10:44,  2.35s/it] 98%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍   | 14727/15000 [10:25:47<10:42,  2.35s/it] 98%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍   | 14728/15000 [10:25:49<10:40,  2.35s/it] 98%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍   | 14729/15000 [10:25:52<10:37,  2.35s/it] 98%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌   | 14730/15000 [10:25:54<10:35,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6156, 'grad_norm': 1.859375, 'learning_rate': 2.5860220134549846e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3481.96, 'total_tokens': 120341320, 'epoch': 0.98}
+ 98%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌   | 14730/15000 [10:25:54<10:35,  2.35s/it] 98%|████████████████████��█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌   | 14731/15000 [10:25:56<10:33,  2.35s/it] 98%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌   | 14732/15000 [10:25:59<10:30,  2.35s/it] 98%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌   | 14733/15000 [10:26:01<10:28,  2.35s/it] 98%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌   | 14734/15000 [10:26:04<10:26,  2.35s/it] 98%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌   | 14735/15000 [10:26:06<10:23,  2.35s/it] 98%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌   | 14736/15000 [10:26:08<10:21,  2.35s/it] 98%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌   | 14737/15000 [10:26:11<10:19,  2.35s/it] 98%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌   | 14738/15000 [10:26:13<10:16,  2.35s/it] 98%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌   | 14739/15000 [10:26:15<10:14,  2.35s/it] 98%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋   | 14740/15000 [10:26:18<10:12,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6632, 'grad_norm': 1.84375, 'learning_rate': 2.579794147896229e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3477.63, 'total_tokens': 120423089, 'epoch': 0.98}
+ 98%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋   | 14740/15000 [10:26:18<10:12,  2.35s/it] 98%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋   | 14741/15000 [10:26:20<10:09,  2.35s/it] 98%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋   | 14742/15000 [10:26:22<10:06,  2.35s/it] 98%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋   | 14743/15000 [10:26:25<10:04,  2.35s/it] 98%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋   | 14744/15000 [10:26:27<10:01,  2.35s/it] 98%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████���█████████████████████████████████████████▋   | 14745/15000 [10:26:29<09:59,  2.35s/it] 98%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋   | 14746/15000 [10:26:32<09:57,  2.35s/it] 98%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋   | 14747/15000 [10:26:34<09:55,  2.35s/it] 98%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋   | 14748/15000 [10:26:36<09:52,  2.35s/it] 98%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊   | 14749/15000 [10:26:39<09:50,  2.35s/it] 98%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊   | 14750/15000 [10:26:41<09:47,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.632, 'grad_norm': 1.703125, 'learning_rate': 2.5737998977131833e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3495.34, 'total_tokens': 120504776, 'epoch': 0.98}
+ 98%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊   | 14750/15000 [10:26:41<09:47,  2.35s/it] 98%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊   | 14751/15000 [10:26:44<09:46,  2.35s/it] 98%|██████████████████████��███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊   | 14752/15000 [10:26:46<09:43,  2.35s/it] 98%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊   | 14753/15000 [10:26:48<09:40,  2.35s/it] 98%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊   | 14754/15000 [10:26:51<09:38,  2.35s/it] 98%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊   | 14755/15000 [10:26:53<09:36,  2.35s/it] 98%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊   | 14756/15000 [10:26:55<09:33,  2.35s/it] 98%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊   | 14757/15000 [10:26:58<09:31,  2.35s/it] 98%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊   | 14758/15000 [10:27:00<09:29,  2.35s/it] 98%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉   | 14759/15000 [10:27:02<09:26,  2.35s/it] 98%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉   | 14760/15000 [10:27:05<09:23,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6618, 'grad_norm': 1.78125, 'learning_rate': 2.568039322066678e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3493.3, 'total_tokens': 120586509, 'epoch': 0.98}
+ 98%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉   | 14760/15000 [10:27:05<09:23,  2.35s/it] 98%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉   | 14761/15000 [10:27:07<09:21,  2.35s/it] 98%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉   | 14762/15000 [10:27:09<09:19,  2.35s/it] 98%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉   | 14763/15000 [10:27:12<09:16,  2.35s/it] 98%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉   | 14764/15000 [10:27:14<09:14,  2.35s/it] 98%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉   | 14765/15000 [10:27:16<09:12,  2.35s/it] 98%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████��███████████████████████████████████████▉   | 14766/15000 [10:27:19<09:10,  2.35s/it] 98%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉   | 14767/15000 [10:27:21<09:08,  2.35s/it] 98%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉   | 14768/15000 [10:27:24<09:05,  2.35s/it] 98%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████   | 14769/15000 [10:27:26<09:03,  2.35s/it] 98%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████   | 14770/15000 [10:27:28<09:01,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.5996, 'grad_norm': 1.6796875, 'learning_rate': 2.5625124778112707e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3481.95, 'total_tokens': 120668265, 'epoch': 0.98}
+ 98%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████   | 14770/15000 [10:27:28<09:01,  2.35s/it] 98%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████   | 14771/15000 [10:27:31<08:59,  2.35s/it] 98%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████   | 14772/15000 [10:27:33<08:56,  2.35s/it] 98%|████████████████████████���██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████   | 14773/15000 [10:27:35<08:53,  2.35s/it] 98%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████   | 14774/15000 [10:27:38<08:50,  2.35s/it] 98%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████   | 14775/15000 [10:27:40<08:49,  2.35s/it] 99%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████   | 14776/15000 [10:27:42<08:46,  2.35s/it] 99%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████   | 14777/15000 [10:27:45<08:44,  2.35s/it] 99%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏  | 14778/15000 [10:27:47<08:42,  2.35s/it] 99%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏  | 14779/15000 [10:27:49<08:39,  2.35s/it] 99%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏  | 14780/15000 [10:27:52<08:37,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6478, 'grad_norm': 1.6875, 'learning_rate': 2.5572194194946817e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3488.22, 'total_tokens': 120750083, 'epoch': 0.99}
+ 99%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏  | 14780/15000 [10:27:52<08:37,  2.35s/it] 99%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏  | 14781/15000 [10:27:54<08:35,  2.35s/it] 99%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏  | 14782/15000 [10:27:56<08:33,  2.35s/it] 99%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏  | 14783/15000 [10:27:59<08:31,  2.36s/it] 99%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏  | 14784/15000 [10:28:01<08:29,  2.36s/it] 99%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏  | 14785/15000 [10:28:04<08:26,  2.36s/it] 99%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏  | 14786/15000 [10:28:06<08:24,  2.36s/it] 99%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████���█████████████████████████████████████████████▏  | 14787/15000 [10:28:08<08:21,  2.36s/it] 99%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎  | 14788/15000 [10:28:11<08:19,  2.36s/it] 99%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎  | 14789/15000 [10:28:13<08:17,  2.36s/it] 99%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎  | 14790/15000 [10:28:15<08:14,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6974, 'grad_norm': 1.765625, 'learning_rate': 2.552160199357259e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3495.06, 'total_tokens': 120831841, 'epoch': 0.99}
+ 99%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎  | 14790/15000 [10:28:15<08:14,  2.35s/it] 99%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎  | 14791/15000 [10:28:18<08:12,  2.35s/it] 99%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎  | 14792/15000 [10:28:20<08:09,  2.35s/it] 99%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎  | 14793/15000 [10:28:22<08:07,  2.35s/it] 99%|██████████████���████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎  | 14794/15000 [10:28:25<08:04,  2.35s/it] 99%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎  | 14795/15000 [10:28:27<08:02,  2.35s/it] 99%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎  | 14796/15000 [10:28:29<07:59,  2.35s/it] 99%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎  | 14797/15000 [10:28:32<07:57,  2.35s/it] 99%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍  | 14798/15000 [10:28:34<07:55,  2.35s/it] 99%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍  | 14799/15000 [10:28:36<07:52,  2.35s/it] 99%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍  | 14800/15000 [10:28:39<07:50,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6891, 'grad_norm': 1.7265625, 'learning_rate': 2.5473348673314657e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3470.3, 'total_tokens': 120913559, 'epoch': 0.99}
+ 99%|███████████████████████████████████████████████████████████████████████████████████████████���███████████████████████████████████████████████████████████████████████████████████████████████████▍  | 14800/15000 [10:28:39<07:50,  2.35s/it] 99%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍  | 14801/15000 [10:28:41<07:47,  2.35s/it] 99%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍  | 14802/15000 [10:28:44<07:45,  2.35s/it] 99%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍  | 14803/15000 [10:28:46<07:42,  2.35s/it] 99%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍  | 14804/15000 [10:28:48<07:39,  2.35s/it] 99%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍  | 14805/15000 [10:28:51<07:37,  2.35s/it] 99%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍  | 14806/15000 [10:28:53<07:35,  2.35s/it] 99%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌  | 14807/15000 [10:28:55<07:33,  2.35s/it] 99%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████���███████████████████████████████████████████████████████████▌  | 14808/15000 [10:28:58<07:31,  2.35s/it] 99%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌  | 14809/15000 [10:29:00<07:28,  2.35s/it] 99%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌  | 14810/15000 [10:29:02<07:26,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6386, 'grad_norm': 1.734375, 'learning_rate': 2.5427434710413755e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3489.47, 'total_tokens': 120995238, 'epoch': 0.99}
+ 99%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌  | 14810/15000 [10:29:02<07:26,  2.35s/it] 99%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌  | 14811/15000 [10:29:05<07:24,  2.35s/it] 99%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌  | 14812/15000 [10:29:07<07:21,  2.35s/it] 99%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌  | 14813/15000 [10:29:09<07:19,  2.35s/it] 99%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌  | 14814/15000 [10:29:12<07:17,  2.35s/it] 99%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌  | 14815/15000 [10:29:14<07:15,  2.35s/it] 99%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌  | 14816/15000 [10:29:16<07:13,  2.35s/it] 99%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋  | 14817/15000 [10:29:19<07:10,  2.35s/it] 99%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋  | 14818/15000 [10:29:21<07:08,  2.35s/it] 99%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋  | 14819/15000 [10:29:23<07:05,  2.35s/it] 99%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋  | 14820/15000 [10:29:26<07:03,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6743, 'grad_norm': 1.703125, 'learning_rate': 2.5383860558022216e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3480.89, 'total_tokens': 121076980, 'epoch': 0.99}
+ 99%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋  | 14820/15000 [10:29:26<07:03,  2.35s/it] 99%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋  | 14821/15000 [10:29:28<07:01,  2.35s/it] 99%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋  | 14822/15000 [10:29:31<06:59,  2.35s/it] 99%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋  | 14823/15000 [10:29:33<06:57,  2.36s/it] 99%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋  | 14824/15000 [10:29:35<06:54,  2.36s/it] 99%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋  | 14825/15000 [10:29:38<06:52,  2.36s/it] 99%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋  | 14826/15000 [10:29:40<06:50,  2.36s/it] 99%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊  | 14827/15000 [10:29:42<06:47,  2.35s/it] 99%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊  | 14828/15000 [10:29:45<06:45,  2.36s/it] 99%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊  | 14829/15000 [10:29:47<06:42,  2.35s/it] 99%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊  | 14830/15000 [10:29:49<06:39,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6389, 'grad_norm': 1.6171875, 'learning_rate': 2.5342626646199317e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3491.24, 'total_tokens': 121158758, 'epoch': 0.99}
+ 99%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊  | 14830/15000 [10:29:49<06:39,  2.35s/it] 99%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊  | 14831/15000 [10:29:52<06:37,  2.35s/it] 99%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊  | 14832/15000 [10:29:54<06:35,  2.35s/it] 99%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊  | 14833/15000 [10:29:56<06:33,  2.35s/it] 99%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊  | 14834/15000 [10:29:59<06:31,  2.36s/it] 99%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊  | 14835/15000 [10:30:01<06:29,  2.36s/it] 99%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉  | 14836/15000 [10:30:04<06:27,  2.36s/it] 99%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉  | 14837/15000 [10:30:06<06:25,  2.36s/it] 99%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉  | 14838/15000 [10:30:08<06:22,  2.36s/it] 99%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉  | 14839/15000 [10:30:11<06:19,  2.36s/it] 99%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉  | 14840/15000 [10:30:13<06:17,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.6536, 'grad_norm': 1.6953125, 'learning_rate': 2.530373338190709e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3468.18, 'total_tokens': 121240375, 'epoch': 0.99}
+ 99%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉  | 14840/15000 [10:30:13<06:17,  2.36s/it] 99%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉  | 14841/15000 [10:30:15<06:14,  2.36s/it] 99%|██████████████████████████████████████████████████████████████���████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉  | 14842/15000 [10:30:18<06:12,  2.36s/it] 99%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉  | 14843/15000 [10:30:20<06:09,  2.35s/it] 99%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉  | 14844/15000 [10:30:22<06:07,  2.35s/it] 99%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉  | 14845/15000 [10:30:25<06:05,  2.35s/it] 99%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████  | 14846/15000 [10:30:27<06:02,  2.35s/it] 99%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████  | 14847/15000 [10:30:29<06:00,  2.35s/it] 99%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████  | 14848/15000 [10:30:32<05:58,  2.36s/it] 99%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████  | 14849/15000 [10:30:34<05:56,  2.36s/it] 99%|██████████████████████████████████████████████████████████████████████████████████████████████████████���█████████████████████████████████████████████████████████████████████████████████████████  | 14850/15000 [10:30:37<05:53,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.6437, 'grad_norm': 1.71875, 'learning_rate': 2.52671811490064e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3462.65, 'total_tokens': 121321859, 'epoch': 0.99}
+ 99%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████  | 14850/15000 [10:30:37<05:53,  2.36s/it] 99%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████  | 14851/15000 [10:30:39<05:51,  2.36s/it] 99%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████  | 14852/15000 [10:30:41<05:48,  2.36s/it] 99%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████  | 14853/15000 [10:30:44<05:46,  2.36s/it] 99%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████  | 14854/15000 [10:30:46<05:44,  2.36s/it] 99%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████  | 14855/15000 [10:30:48<05:41,  2.36s/it] 99%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████���███████████▏ | 14856/15000 [10:30:51<05:39,  2.36s/it] 99%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏ | 14857/15000 [10:30:53<05:36,  2.36s/it] 99%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏ | 14858/15000 [10:30:55<05:34,  2.35s/it] 99%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏ | 14859/15000 [10:30:58<05:31,  2.35s/it] 99%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏ | 14860/15000 [10:31:00<05:29,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.6287, 'grad_norm': 1.8125, 'learning_rate': 2.5232970308253003e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3466.84, 'total_tokens': 121403523, 'epoch': 0.99}
+ 99%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏ | 14860/15000 [10:31:00<05:29,  2.36s/it] 99%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏ | 14861/15000 [10:31:02<05:27,  2.36s/it] 99%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏ | 14862/15000 [10:31:05<05:24,  2.35s/it] 99%|████████████████████████████████████████████���███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏ | 14863/15000 [10:31:07<05:22,  2.35s/it] 99%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏ | 14864/15000 [10:31:10<05:20,  2.35s/it] 99%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎ | 14865/15000 [10:31:12<05:17,  2.35s/it] 99%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎ | 14866/15000 [10:31:14<05:15,  2.35s/it] 99%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎ | 14867/15000 [10:31:17<05:13,  2.35s/it] 99%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎ | 14868/15000 [10:31:19<05:10,  2.35s/it] 99%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎ | 14869/15000 [10:31:21<05:08,  2.35s/it] 99%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎ | 14870/15000 [10:31:24<05:05,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6327, 'grad_norm': 1.796875, 'learning_rate': 2.5201101197294095e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3489.17, 'total_tokens': 121485145, 'epoch': 0.99}
+ 99%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎ | 14870/15000 [10:31:24<05:05,  2.35s/it] 99%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎ | 14871/15000 [10:31:26<05:03,  2.35s/it] 99%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎ | 14872/15000 [10:31:28<05:01,  2.35s/it] 99%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎ | 14873/15000 [10:31:31<04:58,  2.35s/it] 99%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎ | 14874/15000 [10:31:33<04:56,  2.35s/it] 99%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍ | 14875/15000 [10:31:35<04:53,  2.35s/it] 99%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍ | 14876/15000 [10:31:38<04:51,  2.35s/it] 99%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████���████████████████████████████████████████▍ | 14877/15000 [10:31:40<04:49,  2.35s/it] 99%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍ | 14878/15000 [10:31:42<04:47,  2.35s/it] 99%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍ | 14879/15000 [10:31:45<04:44,  2.35s/it] 99%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍ | 14880/15000 [10:31:47<04:42,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.596, 'grad_norm': 1.8125, 'learning_rate': 2.5171574130664915e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3475.65, 'total_tokens': 121566644, 'epoch': 0.99}
+ 99%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍ | 14880/15000 [10:31:47<04:42,  2.35s/it] 99%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍ | 14881/15000 [10:31:50<04:39,  2.35s/it][2025-11-17 08:14:44,097] [INFO] [axolotl.utils.data.wrappers.get_dataset_wrapper:87] [PID:8163] Loading dataset: Goader/kobza-2m-jsonl with base_type: pretrain and prompt_style: None
+
+Tokenizing Prompts (num_proc=64):   0%|                                                                                                                                                                        | 0/10000 [00:00<?, ? examples/s][A
+Tokenizing Prompts (num_proc=64):   2%|██▍                                                                                                                                                           | 157/10000 [00:05<06:12, 26.43 examples/s][A
+Tokenizing Prompts (num_proc=64):   3%|████▉                                                                                                                                                         | 314/10000 [00:07<03:00, 53.52 examples/s][A
+Tokenizing Prompts (num_proc=64):   5%|███████▍                                                                                                                                                      | 471/10000 [00:07<01:52, 84.52 examples/s][A
+Tokenizing Prompts (num_proc=64):   6%|█████████▊                                                                                                                                                   | 628/10000 [00:08<01:24, 110.99 examples/s][A
+Tokenizing Prompts (num_proc=64):   8%|████████████▎                                                                                                                                                | 785/10000 [00:08<01:07, 135.77 examples/s][A
+Tokenizing Prompts (num_proc=64):   9%|██████████████▊                                                                                                                                              | 942/10000 [00:09<00:58, 155.20 examples/s][A
+Tokenizing Prompts (num_proc=64):  11%|█████████████████▏                                                                                                                                          | 1099/10000 [00:10<00:52, 170.53 examples/s][A
+Tokenizing Prompts (num_proc=64):  13%|███████████████████▌                                                                                                                                        | 1256/10000 [00:10<00:47, 183.05 examples/s][A
+Tokenizing Prompts (num_proc=64):  14%|██████████████████████                                                                                                                                      | 1413/10000 [00:11<00:44, 193.01 examples/s][A
+Tokenizing Prompts (num_proc=64):  16%|████████████████████████▍                                                                                                                                   | 1570/10000 [00:13<00:53, 157.19 examples/s][A
+Tokenizing Prompts (num_proc=64):  17%|██████████████████████████▉                                                                                                                                 | 1727/10000 [00:13<00:44, 185.75 examples/s][A
+Tokenizing Prompts (num_proc=64):  19%|█████████████████████████████▍                                                                                                                              | 1884/10000 [00:13<00:33, 238.94 examples/s][A
+Tokenizing Prompts (num_proc=64):  20%|███████████████████████████████▊                                                                                                                            | 2041/10000 [00:14<00:41, 193.32 examples/s][A
+Tokenizing Prompts (num_proc=64):  22%|██████████████████████████████████▎                                                                                                                         | 2198/10000 [00:15<00:33, 235.86 examples/s][A
+Tokenizing Prompts (num_proc=64):  24%|████████████████████████████████████▋                                                                                                                       | 2355/10000 [00:16<00:38, 198.85 examples/s][A
+Tokenizing Prompts (num_proc=64):  25%|███████████████████████████████████████▏                                                                                                                    | 2512/10000 [00:16<00:29, 254.98 examples/s][A
+Tokenizing Prompts (num_proc=64):  27%|█████████████████████████████████████████▌                                                                                                                  | 2668/10000 [00:17<00:30, 244.32 examples/s][A
+Tokenizing Prompts (num_proc=64):  28%|████████████████████████████████████████████                                                                                                                | 2824/10000 [00:18<00:30, 236.96 examples/s][A
+Tokenizing Prompts (num_proc=64):  30%|██████████████████████████████████████████████▍                                                                                                             | 2980/10000 [00:18<00:30, 229.21 examples/s][A
+Tokenizing Prompts (num_proc=64):  31%|████████████████████████████████████████████████▉                                                                                                           | 3136/10000 [00:19<00:30, 227.14 examples/s][A
+Tokenizing Prompts (num_proc=64):  33%|███████████████████████████████████████████████████▎                                                                                                        | 3292/10000 [00:20<00:29, 229.76 examples/s][A
+Tokenizing Prompts (num_proc=64):  34%|█████████████████████████████████████████████████████▊                                                                                                      | 3448/10000 [00:20<00:29, 224.86 examples/s][A
+Tokenizing Prompts (num_proc=64):  36%|████████████████████████████████████████████████████████▏                                                                                                   | 3604/10000 [00:21<00:33, 190.95 examples/s][A
+Tokenizing Prompts (num_proc=64):  38%|██████████████████████████████████████████████████████████▋                                                                                                 | 3760/10000 [00:22<00:31, 199.59 examples/s][A
+Tokenizing Prompts (num_proc=64):  39%|█████████████████████████████████████████████████████████████                                                                                               | 3916/10000 [00:22<00:23, 256.05 examples/s][A
+Tokenizing Prompts (num_proc=64):  41%|███████████████████████████████████████████████████████████████▌                                                                                            | 4072/10000 [00:23<00:24, 242.20 examples/s][A
+Tokenizing Prompts (num_proc=64):  42%|█████████████████████████████████████████████████████████████████▉                                                                                          | 4228/10000 [00:24<00:23, 242.38 examples/s][A
+Tokenizing Prompts (num_proc=64):  44%|████████████████████████████████████████████████████████████████████▍                                                                                       | 4384/10000 [00:24<00:23, 242.53 examples/s][A
+Tokenizing Prompts (num_proc=64):  45%|██████████████████████████████████████████████████████████████████████▊                                                                                     | 4540/10000 [00:25<00:23, 229.65 examples/s][A
+Tokenizing Prompts (num_proc=64):  47%|█████████████████████████████████████████████████████████████████████████▎                                                                                  | 4696/10000 [00:26<00:22, 233.01 examples/s][A
+Tokenizing Prompts (num_proc=64):  49%|███████████████████████████████████████████████████████████████████████████▋                                                                                | 4852/10000 [00:26<00:22, 231.12 examples/s][A
+Tokenizing Prompts (num_proc=64):  50%|██████████████████████████████████████████████████████████████████████████████                                                                              | 5008/10000 [00:27<00:22, 217.31 examples/s][A
+Tokenizing Prompts (num_proc=64):  52%|████████████████████████████████████████████████████████████████████████████████▌                                                                           | 5164/10000 [00:28<00:20, 234.36 examples/s][A
+Tokenizing Prompts (num_proc=64):  53%|██████████████████████████████████████████████████████████████��███████████████████▉                                                                         | 5320/10000 [00:28<00:20, 233.59 examples/s][A
+Tokenizing Prompts (num_proc=64):  55%|█████████████████████████████████████████████████████████████████████████████████████▍                                                                      | 5476/10000 [00:29<00:19, 227.74 examples/s][A
+Tokenizing Prompts (num_proc=64):  56%|███████████████████████████████████████████████████████████████████████████████████████▊                                                                    | 5632/10000 [00:30<00:22, 191.04 examples/s][A
+Tokenizing Prompts (num_proc=64):  58%|██████████████████████████████████████████████████████████████████████████████████████████▎                                                                 | 5788/10000 [00:31<00:17, 245.35 examples/s][A
+Tokenizing Prompts (num_proc=64):  59%|████████████████████████████████████████████████████████████████████████████████████████████▋                                                               | 5944/10000 [00:32<00:23, 174.96 examples/s][A
+Tokenizing Prompts (num_proc=64):  61%|███████████████████████████████████████████████████████████████████████████████████████████████▏                                                            | 6100/10000 [00:32<00:18, 211.40 examples/s][A
+Tokenizing Prompts (num_proc=64):  63%|█████████████████████████████████████████████████████████████████████████████████████████████████▌                                                          | 6256/10000 [00:33<00:14, 265.17 examples/s][A
+Tokenizing Prompts (num_proc=64):  64%|████████████████████████████████████████████████████████████████████████████████████████████████████                                                        | 6412/10000 [00:33<00:14, 254.88 examples/s][A
+Tokenizing Prompts (num_proc=64):  66%|██████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                     | 6568/10000 [00:34<00:13, 247.00 examples/s][A
+Tokenizing Prompts (num_proc=64):  67%|████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                   | 6724/10000 [00:35<00:13, 242.02 examples/s][A
+Tokenizing Prompts (num_proc=64):  69%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                | 6880/10000 [00:35<00:12, 240.09 examples/s][A
+Tokenizing Prompts (num_proc=64):  70%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                              | 7036/10000 [00:36<00:12, 238.19 examples/s][A
+Tokenizing Prompts (num_proc=64):  72%|███████████���████████████████████████████████████████████████████████████████████████████████████████████████████▏                                           | 7192/10000 [00:37<00:12, 221.20 examples/s][A
+Tokenizing Prompts (num_proc=64):  73%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                         | 7348/10000 [00:37<00:11, 240.00 examples/s][A
+Tokenizing Prompts (num_proc=64):  75%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                       | 7504/10000 [00:38<00:10, 238.87 examples/s][A
+Tokenizing Prompts (num_proc=64):  77%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                    | 7660/10000 [00:39<00:12, 191.95 examples/s][A
+Tokenizing Prompts (num_proc=64):  78%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                  | 7816/10000 [00:40<00:09, 225.55 examples/s][A
+Tokenizing Prompts (num_proc=64):  80%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                               | 7972/10000 [00:40<00:08, 244.09 examples/s][A
+Tokenizing Prompts (num_proc=64):  81%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                             | 8128/10000 [00:41<00:07, 243.80 examples/s][A
+Tokenizing Prompts (num_proc=64):  83%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                          | 8284/10000 [00:42<00:08, 198.11 examples/s][A
+Tokenizing Prompts (num_proc=64):  84%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                        | 8440/10000 [00:42<00:06, 250.55 examples/s][A
+Tokenizing Prompts (num_proc=64):  86%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                      | 8596/10000 [00:43<00:05, 246.23 examples/s][A
+Tokenizing Prompts (num_proc=64):  88%|██████████████████████████████████████████████████████████████████████████��█████████████████████████████████████████████████████████████▌                   | 8752/10000 [00:43<00:05, 243.10 examples/s][A
+Tokenizing Prompts (num_proc=64):  89%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                 | 8908/10000 [00:44<00:04, 238.33 examples/s][A
+Tokenizing Prompts (num_proc=64):  91%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍              | 9064/10000 [00:45<00:03, 235.51 examples/s][A
+Tokenizing Prompts (num_proc=64):  92%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊            | 9220/10000 [00:46<00:03, 228.51 examples/s][A
+Tokenizing Prompts (num_proc=64):  94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎         | 9376/10000 [00:46<00:02, 229.95 examples/s][A
+Tokenizing Prompts (num_proc=64):  95%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋       | 9532/10000 [00:47<00:02, 227.59 examples/s][A
+Tokenizing Prompts (num_proc=64):  97%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏    | 9688/10000 [00:48<00:01, 232.73 examples/s][A
+Tokenizing Prompts (num_proc=64):  98%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌  | 9844/10000 [00:48<00:00, 225.81 examples/s][A
+Tokenizing Prompts (num_proc=64): 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10000/10000 [00:49<00:00, 231.57 examples/s][ATokenizing Prompts (num_proc=64): 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10000/10000 [00:51<00:00, 194.33 examples/s]
+
+Dropping Long Sequences:   0%|                                                                                                                                                                                 | 0/10000 [00:00<?, ? examples/s][A
+Dropping Long Sequences:  10%|████████████████▌                                                                                                                                                    | 1000/10000 [00:01<00:13, 682.01 examples/s][A
+Dropping Long Sequences:  20%|████████████████████████████████▊                                                                                                                                   | 2000/10000 [00:01<00:06, 1329.87 examples/s][A
+Dropping Long Sequences:  30%|█████████████████████████████████████████████████▏                                                                                                                  | 3000/10000 [00:01<00:03, 1891.19 examples/s][A
+Dropping Long Sequences:  40%|█████████████████████████████████████████████████████████████████▌                                                                                                  | 4000/10000 [00:02<00:02, 2333.56 examples/s][A
+Dropping Long Sequences:  50%|██████████████████████████████████████████████████████████████████████████████████                                                                                  | 5000/10000 [00:02<00:01, 2750.24 examples/s][A
+Dropping Long Sequences:  60%|██████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                 | 6000/10000 [00:02<00:01, 3010.48 examples/s][A
+Dropping Long Sequences:  70%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                 | 7000/10000 [00:03<00:00, 3203.43 examples/s][A
+Dropping Long Sequences:  80%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                | 8000/10000 [00:03<00:00, 3325.19 examples/s][A
+Dropping Long Sequences:  90%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                | 9000/10000 [00:03<00:00, 3507.79 examples/s][A
+Dropping Long Sequences: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10000/10000 [00:03<00:00, 3604.05 examples/s][ADropping Long Sequences: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10000/10000 [00:03<00:00, 2572.45 examples/s]
+
+Add position_id column (Pretraining Sample Packing):   0%|                                                                                                                                                      | 0/8725 [00:00<?, ? examples/s][A
+Add position_id column (Pretraining Sample Packing):  11%|███████████████▊                                                                                                                          | 1000/8725 [00:01<00:09, 779.05 examples/s][A
+Add position_id column (Pretraining Sample Packing):  23%|███████████████████████████████▍                                                                                                         | 2000/8725 [00:01<00:04, 1608.52 examples/s][A
+Add position_id column (Pretraining Sample Packing):  34%|███████████████████████████████████████████████                                                                                          | 3000/8725 [00:01<00:02, 2475.74 examples/s][A
+Add position_id column (Pretraining Sample Packing):  46%|██████████████████████████████████████████████████████████████▊                                                                          | 4000/8725 [00:01<00:01, 3250.69 examples/s][A
+Add position_id column (Pretraining Sample Packing):  57%|██████████████████████████████████████████████████████████████████████████████▌                                                          | 5000/8725 [00:01<00:00, 4040.96 examples/s][A
+Add position_id column (Pretraining Sample Packing):  69%|██████████████████████████████████████████████████████████████████████████████████████████████▏                                          | 6000/8725 [00:02<00:00, 4668.42 examples/s][A
+Add position_id column (Pretraining Sample Packing):  80%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                           | 7000/8725 [00:02<00:00, 5290.05 examples/s][A
+Add position_id column (Pretraining Sample Packing):  92%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌           | 8000/8725 [00:02<00:00, 5489.10 examples/s][A
+Add position_id column (Pretraining Sample Packing): 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 8725/8725 [00:02<00:00, 5839.84 examples/s][AAdd position_id column (Pretraining Sample Packing): 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 8725/8725 [00:02<00:00, 3496.63 examples/s]
+[2025-11-17 08:15:43,582] [DEBUG] [axolotl.utils.samplers.multipack.pack_parallel:177] [PID:8163] Using single process for pack_parallel, running sequentially.
+ 99%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍ | 14882/15000 [10:32:58<43:41, 22.22s/it] 99%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍ | 14883/15000 [10:33:00<31:42, 16.26s/it] 99%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍ | 14884/15000 [10:33:03<23:21, 12.09s/it] 99%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌ | 14885/15000 [10:33:05<17:33,  9.16s/it] 99%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌ | 14886/15000 [10:33:07<13:31,  7.12s/it] 99%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌ | 14887/15000 [10:33:10<10:42,  5.69s/it] 99%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌ | 14888/15000 [10:33:12<08:45,  4.69s/it] 99%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌ | 14889/15000 [10:33:15<07:22,  3.99s/it] 99%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌ | 14890/15000 [10:33:17<06:24,  3.50s/it]                                                                                                                                                                                                                                                {'loss': 2.6483, 'grad_norm': 1.859375, 'learning_rate': 2.5144389399785716e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3458.21, 'total_tokens': 121647578, 'epoch': 0.99}
+ 99%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌ | 14890/15000 [10:33:17<06:24,  3.50s/it] 99%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌ | 14891/15000 [10:33:19<05:43,  3.15s/it] 99%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌ | 14892/15000 [10:33:22<05:14,  2.91s/it] 99%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌ | 14893/15000 [10:33:24<04:53,  2.74s/it] 99%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋ | 14894/15000 [10:33:26<04:38,  2.62s/it] 99%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋ | 14895/15000 [10:33:29<04:26,  2.54s/it] 99%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋ | 14896/15000 [10:33:31<04:18,  2.48s/it] 99%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋ | 14897/15000 [10:33:33<04:11,  2.45s/it] 99%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋ | 14898/15000 [10:33:36<04:06,  2.42s/it] 99%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋ | 14899/15000 [10:33:38<04:02,  2.40s/it] 99%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋ | 14900/15000 [10:33:40<03:58,  2.38s/it]                                                                                                                                                                                                                                                {'loss': 2.7048, 'grad_norm': 1.8359375, 'learning_rate': 2.5119547272958775e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3500.45, 'total_tokens': 121729450, 'epoch': 0.99}
+ 99%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋ | 14900/15000 [10:33:40<03:58,  2.38s/it] 99%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋ | 14901/15000 [10:33:43<03:54,  2.37s/it] 99%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋ | 14902/15000 [10:33:45<03:51,  2.36s/it] 99%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋ | 14903/15000 [10:33:47<03:48,  2.36s/it] 99%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 14904/15000 [10:33:50<03:46,  2.36s/it] 99%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 14905/15000 [10:33:52<03:43,  2.36s/it] 99%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 14906/15000 [10:33:54<03:41,  2.35s/it] 99%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 14907/15000 [10:33:57<03:38,  2.35s/it] 99%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 14908/15000 [10:33:59<03:36,  2.35s/it] 99%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 14909/15000 [10:34:02<03:34,  2.35s/it] 99%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 14910/15000 [10:34:04<03:31,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.721, 'grad_norm': 1.734375, 'learning_rate': 2.5097047995365907e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3501.65, 'total_tokens': 121811287, 'epoch': 0.99}
+ 99%|███████████████████████████��████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 14910/15000 [10:34:04<03:31,  2.35s/it] 99%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 14911/15000 [10:34:06<03:29,  2.35s/it] 99%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 14912/15000 [10:34:09<03:26,  2.35s/it] 99%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 14913/15000 [10:34:11<03:24,  2.35s/it] 99%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 14914/15000 [10:34:13<03:22,  2.35s/it] 99%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 14915/15000 [10:34:16<03:19,  2.35s/it] 99%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 14916/15000 [10:34:18<03:17,  2.35s/it] 99%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 14917/15000 [10:34:20<03:15,  2.35s/it] 99%|██████████████████████████████████████████████████████████████���█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 14918/15000 [10:34:23<03:12,  2.35s/it] 99%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 14919/15000 [10:34:25<03:10,  2.35s/it] 99%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 14920/15000 [10:34:27<03:08,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6584, 'grad_norm': 1.828125, 'learning_rate': 2.507689178906587e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3490.09, 'total_tokens': 121893161, 'epoch': 0.99}
+ 99%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 14920/15000 [10:34:27<03:08,  2.35s/it] 99%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 14921/15000 [10:34:30<03:05,  2.35s/it] 99%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 14922/15000 [10:34:32<03:03,  2.35s/it] 99%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████ | 14923/15000 [10:34:34<03:01,  2.35s/it] 99%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████ | 14924/15000 [10:34:37<02:58,  2.35s/it]100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████ | 14925/15000 [10:34:39<02:56,  2.35s/it]100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████ | 14926/15000 [10:34:42<02:54,  2.35s/it]100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████ | 14927/15000 [10:34:44<02:51,  2.36s/it]100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████ | 14928/15000 [10:34:46<02:49,  2.35s/it]100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████ | 14929/15000 [10:34:49<02:47,  2.35s/it]100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████ | 14930/15000 [10:34:51<02:44,  2.36s/it]                                                                                                                                                                                                                                                {'loss': 2.6456, 'grad_norm': 1.71875, 'learning_rate': 2.505907885299231e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3480.19, 'total_tokens': 121975000, 'epoch': 1.0}
+100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████ | 14930/15000 [10:34:51<02:44,  2.36s/it]100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████ | 14931/15000 [10:34:53<02:42,  2.36s/it]100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████ | 14932/15000 [10:34:56<02:40,  2.35s/it]100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏| 14933/15000 [10:34:58<02:37,  2.35s/it]100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏| 14934/15000 [10:35:00<02:35,  2.35s/it]100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏| 14935/15000 [10:35:03<02:32,  2.35s/it]100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏| 14936/15000 [10:35:05<02:30,  2.35s/it]100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏| 14937/15000 [10:35:07<02:28,  2.35s/it]100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏| 14938/15000 [10:35:10<02:25,  2.35s/it]100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏| 14939/15000 [10:35:12<02:23,  2.35s/it]100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏| 14940/15000 [10:35:14<02:21,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6584, 'grad_norm': 1.6953125, 'learning_rate': 2.5043609362951663e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3492.52, 'total_tokens': 122056845, 'epoch': 1.0}
+100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏| 14940/15000 [10:35:14<02:21,  2.35s/it]100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏| 14941/15000 [10:35:17<02:18,  2.35s/it]100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏| 14942/15000 [10:35:19<02:16,  2.35s/it]100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎| 14943/15000 [10:35:21<02:13,  2.35s/it]100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎| 14944/15000 [10:35:24<02:11,  2.35s/it]100%|█████████████████████████████████████████████████████████████████████████████████████████████████��███████████████████████████████████████████████████████████████████████████████████████████████▎| 14945/15000 [10:35:26<02:09,  2.35s/it]100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎| 14946/15000 [10:35:29<02:07,  2.35s/it]100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎| 14947/15000 [10:35:31<02:04,  2.35s/it]100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎| 14948/15000 [10:35:33<02:02,  2.35s/it]100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎| 14949/15000 [10:35:36<01:59,  2.35s/it]100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎| 14950/15000 [10:35:38<01:57,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.7094, 'grad_norm': 1.671875, 'learning_rate': 2.503048347162159e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3484.71, 'total_tokens': 122138673, 'epoch': 1.0}
+100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎| 14950/15000 [10:35:38<01:57,  2.35s/it]100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎| 14951/15000 [10:35:40<01:55,  2.35s/it]100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍| 14952/15000 [10:35:43<01:52,  2.35s/it]100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍| 14953/15000 [10:35:45<01:50,  2.35s/it]100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍| 14954/15000 [10:35:47<01:48,  2.35s/it]100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍| 14955/15000 [10:35:50<01:45,  2.35s/it]100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍| 14956/15000 [10:35:52<01:43,  2.35s/it]100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍| 14957/15000 [10:35:54<01:40,  2.35s/it]100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍| 14958/15000 [10:35:57<01:38,  2.35s/it]100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍| 14959/15000 [10:35:59<01:36,  2.35s/it]100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍| 14960/15000 [10:36:01<01:34,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6962, 'grad_norm': 1.875, 'learning_rate': 2.5019701308549334e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3497.13, 'total_tokens': 122220516, 'epoch': 1.0}
+100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍| 14960/15000 [10:36:01<01:34,  2.35s/it]100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍| 14961/15000 [10:36:04<01:31,  2.35s/it]100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌| 14962/15000 [10:36:06<01:29,  2.35s/it]100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌| 14963/15000 [10:36:09<01:27,  2.35s/it]100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌| 14964/15000 [10:36:11<01:24,  2.35s/it]100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌| 14965/15000 [10:36:13<01:22,  2.35s/it]100%|██████████████████████████████████████████████████████��██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌| 14966/15000 [10:36:16<01:19,  2.35s/it]100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌| 14967/15000 [10:36:18<01:17,  2.35s/it]100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌| 14968/15000 [10:36:21<01:19,  2.49s/it]100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌| 14969/15000 [10:36:23<01:15,  2.45s/it]100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌| 14970/15000 [10:36:25<01:12,  2.42s/it]                                                                                                                                                                                                                                                {'loss': 2.6592, 'grad_norm': 1.765625, 'learning_rate': 2.5011262980150484e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3491.6, 'total_tokens': 122302330, 'epoch': 1.0}
+100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌| 14970/15000 [10:36:25<01:12,  2.42s/it]100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌| 14971/15000 [10:36:28<01:09,  2.40s/it]100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋| 14972/15000 [10:36:30<01:06,  2.38s/it]100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋| 14973/15000 [10:36:32<01:04,  2.37s/it]100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋| 14974/15000 [10:36:35<01:01,  2.37s/it]100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋| 14975/15000 [10:36:37<00:59,  2.36s/it]100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋| 14976/15000 [10:36:40<00:56,  2.36s/it]100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋| 14977/15000 [10:36:42<00:54,  2.36s/it]100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋| 14978/15000 [10:36:44<00:51,  2.36s/it]100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋| 14979/15000 [10:36:47<00:49,  2.35s/it]100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████���████████████████████████████████████████▋| 14980/15000 [10:36:49<00:47,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.717, 'grad_norm': 1.7421875, 'learning_rate': 2.5005168569707944e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3493.22, 'total_tokens': 122384096, 'epoch': 1.0}
+100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋| 14980/15000 [10:36:49<00:47,  2.35s/it]100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊| 14981/15000 [10:36:51<00:44,  2.35s/it]100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊| 14982/15000 [10:36:54<00:42,  2.35s/it]100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊| 14983/15000 [10:36:56<00:39,  2.35s/it]100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊| 14984/15000 [10:36:58<00:37,  2.35s/it]100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊| 14985/15000 [10:37:01<00:35,  2.35s/it]100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊| 14986/15000 [10:37:03<00:32,  2.35s/it]100%|██████████��██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊| 14987/15000 [10:37:05<00:30,  2.35s/it]100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊| 14988/15000 [10:37:08<00:28,  2.35s/it]100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊| 14989/15000 [10:37:10<00:25,  2.35s/it]100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊| 14990/15000 [10:37:12<00:23,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6637, 'grad_norm': 16.5, 'learning_rate': 2.5001418137371084e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3483.1, 'total_tokens': 122465868, 'epoch': 1.0}
+100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊| 14990/15000 [10:37:12<00:23,  2.35s/it]100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉| 14991/15000 [10:37:15<00:21,  2.35s/it]100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉| 14992/15000 [10:37:17<00:18,  2.35s/it]100%|████████████████████████████████████████████████████████████████████████████████���████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉| 14993/15000 [10:37:20<00:16,  2.35s/it]100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉| 14994/15000 [10:37:22<00:14,  2.35s/it]100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉| 14995/15000 [10:37:24<00:11,  2.35s/it]100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉| 14996/15000 [10:37:27<00:09,  2.35s/it]100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉| 14997/15000 [10:37:29<00:07,  2.36s/it]100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉| 14998/15000 [10:37:31<00:04,  2.35s/it]100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉| 14999/15000 [10:37:34<00:02,  2.35s/it]100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 15000/15000 [10:37:36<00:00,  2.35s/it]                                                                                                                                                                                                                                                {'loss': 2.6059, 'grad_norm': 1.765625, 'learning_rate': 2.5000011720155124e-06, 'memory/max_active (GiB)': 60.68, 'memory/max_allocated (GiB)': 60.68, 'memory/device_reserved (GiB)': 61.25, 'tokens_per_second_per_gpu': 3486.49, 'total_tokens': 122547650, 'epoch': 1.0}
+100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 15000/15000 [10:37:36<00:00,  2.35s/it][2025-11-17 08:20:27,937] [INFO] [axolotl.core.trainers.base._save:676] [PID:7990] Saving model checkpoint to ./outputs/gemma-3-12b-focus-pt/checkpoint-15000
+                                                                                                                                                                                                                                                {'train_runtime': 38302.0512, 'train_samples_per_second': 0.783, 'train_steps_per_second': 0.392, 'train_loss': 3.05627900835673, 'memory/max_active (GiB)': 27.2, 'memory/max_allocated (GiB)': 27.2, 'memory/device_reserved (GiB)': 61.25, 'epoch': 1.0}
+100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 15000/15000 [10:38:17<00:00,  2.35s/it]100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 15000/15000 [10:38:17<00:00,  2.55s/it]
+[2025-11-17 08:21:10,213] [INFO] [axolotl.train.save_trained_model:218] [PID:7990] Training completed! Saving trained model to ./outputs/gemma-3-12b-focus-pt.
+[2025-11-17 08:21:50,073] [INFO] [axolotl.train.save_trained_model:336] [PID:7990] Model successfully saved to ./outputs/gemma-3-12b-focus-pt