Upload 10 files

6c7ba25 verified 8 months ago

18.3 kB

	{
	"best_global_step": null,
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 0.1359452956130453,
	"eval_steps": 500,
	"global_step": 10000,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.0013594529561304532,
	"grad_norm": 2.6843507289886475,
	"learning_rate": 2.9959624247202926e-05,
	"loss": 0.791,
	"step": 100
	},
	{
	"epoch": 0.0027189059122609063,
	"grad_norm": 7.921170711517334,
	"learning_rate": 2.9918840658519014e-05,
	"loss": 0.7116,
	"step": 200
	},
	{
	"epoch": 0.0040783588683913595,
	"grad_norm": 1.703231692314148,
	"learning_rate": 2.98780570698351e-05,
	"loss": 0.7025,
	"step": 300
	},
	{
	"epoch": 0.005437811824521813,
	"grad_norm": 1.4689126014709473,
	"learning_rate": 2.9837273481151187e-05,
	"loss": 0.7026,
	"step": 400
	},
	{
	"epoch": 0.006797264780652266,
	"grad_norm": 6.632850646972656,
	"learning_rate": 2.979648989246727e-05,
	"loss": 0.7006,
	"step": 500
	},
	{
	"epoch": 0.008156717736782719,
	"grad_norm": 1.7937493324279785,
	"learning_rate": 2.975570630378336e-05,
	"loss": 0.6996,
	"step": 600
	},
	{
	"epoch": 0.009516170692913172,
	"grad_norm": 1.545050024986267,
	"learning_rate": 2.9714922715099447e-05,
	"loss": 0.6988,
	"step": 700
	},
	{
	"epoch": 0.010875623649043625,
	"grad_norm": 6.718420505523682,
	"learning_rate": 2.967413912641553e-05,
	"loss": 0.6934,
	"step": 800
	},
	{
	"epoch": 0.012235076605174078,
	"grad_norm": 2.417815923690796,
	"learning_rate": 2.9633355537731616e-05,
	"loss": 0.7031,
	"step": 900
	},
	{
	"epoch": 0.013594529561304532,
	"grad_norm": 3.016540765762329,
	"learning_rate": 2.9592571949047704e-05,
	"loss": 0.7003,
	"step": 1000
	},
	{
	"epoch": 0.014953982517434985,
	"grad_norm": 1.3102728128433228,
	"learning_rate": 2.9551788360363792e-05,
	"loss": 0.6939,
	"step": 1100
	},
	{
	"epoch": 0.016313435473565438,
	"grad_norm": 3.511146306991577,
	"learning_rate": 2.9511004771679877e-05,
	"loss": 0.7018,
	"step": 1200
	},
	{
	"epoch": 0.01767288842969589,
	"grad_norm": 2.3049850463867188,
	"learning_rate": 2.9470221182995965e-05,
	"loss": 0.7093,
	"step": 1300
	},
	{
	"epoch": 0.019032341385826344,
	"grad_norm": 1.0154485702514648,
	"learning_rate": 2.942943759431205e-05,
	"loss": 0.7035,
	"step": 1400
	},
	{
	"epoch": 0.020391794341956797,
	"grad_norm": 2.085158348083496,
	"learning_rate": 2.9388654005628134e-05,
	"loss": 0.7015,
	"step": 1500
	},
	{
	"epoch": 0.02175124729808725,
	"grad_norm": 3.9277114868164062,
	"learning_rate": 2.9347870416944225e-05,
	"loss": 0.6994,
	"step": 1600
	},
	{
	"epoch": 0.023110700254217704,
	"grad_norm": 1.8050942420959473,
	"learning_rate": 2.930708682826031e-05,
	"loss": 0.7027,
	"step": 1700
	},
	{
	"epoch": 0.024470153210348157,
	"grad_norm": 1.5299062728881836,
	"learning_rate": 2.9266303239576394e-05,
	"loss": 0.6989,
	"step": 1800
	},
	{
	"epoch": 0.02582960616647861,
	"grad_norm": 3.9614956378936768,
	"learning_rate": 2.9225519650892482e-05,
	"loss": 0.6968,
	"step": 1900
	},
	{
	"epoch": 0.027189059122609063,
	"grad_norm": 1.5142548084259033,
	"learning_rate": 2.9184736062208567e-05,
	"loss": 0.6996,
	"step": 2000
	},
	{
	"epoch": 0.028548512078739516,
	"grad_norm": 2.0255579948425293,
	"learning_rate": 2.9143952473524655e-05,
	"loss": 0.6992,
	"step": 2100
	},
	{
	"epoch": 0.02990796503486997,
	"grad_norm": 3.3495869636535645,
	"learning_rate": 2.9103168884840743e-05,
	"loss": 0.6986,
	"step": 2200
	},
	{
	"epoch": 0.03126741799100042,
	"grad_norm": 4.41119909286499,
	"learning_rate": 2.9062385296156827e-05,
	"loss": 0.6963,
	"step": 2300
	},
	{
	"epoch": 0.032626870947130876,
	"grad_norm": 2.923621416091919,
	"learning_rate": 2.902160170747291e-05,
	"loss": 0.6935,
	"step": 2400
	},
	{
	"epoch": 0.033986323903261326,
	"grad_norm": 6.4013285636901855,
	"learning_rate": 2.8980818118789e-05,
	"loss": 0.6984,
	"step": 2500
	},
	{
	"epoch": 0.03534577685939178,
	"grad_norm": 2.191399097442627,
	"learning_rate": 2.8940034530105088e-05,
	"loss": 0.6955,
	"step": 2600
	},
	{
	"epoch": 0.03670522981552223,
	"grad_norm": 1.6993489265441895,
	"learning_rate": 2.8899250941421172e-05,
	"loss": 0.7002,
	"step": 2700
	},
	{
	"epoch": 0.03806468277165269,
	"grad_norm": 3.364286184310913,
	"learning_rate": 2.885846735273726e-05,
	"loss": 0.6964,
	"step": 2800
	},
	{
	"epoch": 0.03942413572778314,
	"grad_norm": 1.9982099533081055,
	"learning_rate": 2.8817683764053345e-05,
	"loss": 0.7069,
	"step": 2900
	},
	{
	"epoch": 0.040783588683913595,
	"grad_norm": 1.524899959564209,
	"learning_rate": 2.877690017536943e-05,
	"loss": 0.6961,
	"step": 3000
	},
	{
	"epoch": 0.042143041640044045,
	"grad_norm": 2.2762181758880615,
	"learning_rate": 2.873611658668552e-05,
	"loss": 0.6991,
	"step": 3100
	},
	{
	"epoch": 0.0435024945961745,
	"grad_norm": 2.0052831172943115,
	"learning_rate": 2.8695332998001605e-05,
	"loss": 0.6987,
	"step": 3200
	},
	{
	"epoch": 0.04486194755230495,
	"grad_norm": 1.6109389066696167,
	"learning_rate": 2.865454940931769e-05,
	"loss": 0.6974,
	"step": 3300
	},
	{
	"epoch": 0.04622140050843541,
	"grad_norm": 1.7458642721176147,
	"learning_rate": 2.8613765820633778e-05,
	"loss": 0.6984,
	"step": 3400
	},
	{
	"epoch": 0.04758085346456586,
	"grad_norm": 5.7916083335876465,
	"learning_rate": 2.8572982231949862e-05,
	"loss": 0.6986,
	"step": 3500
	},
	{
	"epoch": 0.048940306420696314,
	"grad_norm": 2.8352317810058594,
	"learning_rate": 2.8532198643265954e-05,
	"loss": 0.7004,
	"step": 3600
	},
	{
	"epoch": 0.050299759376826764,
	"grad_norm": 6.102287769317627,
	"learning_rate": 2.8491415054582038e-05,
	"loss": 0.6975,
	"step": 3700
	},
	{
	"epoch": 0.05165921233295722,
	"grad_norm": 2.8221065998077393,
	"learning_rate": 2.8450631465898123e-05,
	"loss": 0.7092,
	"step": 3800
	},
	{
	"epoch": 0.05301866528908767,
	"grad_norm": 2.0802714824676514,
	"learning_rate": 2.840984787721421e-05,
	"loss": 0.7097,
	"step": 3900
	},
	{
	"epoch": 0.05437811824521813,
	"grad_norm": 4.515227794647217,
	"learning_rate": 2.8369064288530295e-05,
	"loss": 0.6991,
	"step": 4000
	},
	{
	"epoch": 0.055737571201348576,
	"grad_norm": 4.737243175506592,
	"learning_rate": 2.8328280699846383e-05,
	"loss": 0.7042,
	"step": 4100
	},
	{
	"epoch": 0.05709702415747903,
	"grad_norm": 5.016382694244385,
	"learning_rate": 2.828749711116247e-05,
	"loss": 0.7008,
	"step": 4200
	},
	{
	"epoch": 0.05845647711360948,
	"grad_norm": 2.7722420692443848,
	"learning_rate": 2.8246713522478556e-05,
	"loss": 0.7038,
	"step": 4300
	},
	{
	"epoch": 0.05981593006973994,
	"grad_norm": 3.596283435821533,
	"learning_rate": 2.820592993379464e-05,
	"loss": 0.7008,
	"step": 4400
	},
	{
	"epoch": 0.06117538302587039,
	"grad_norm": 3.8389534950256348,
	"learning_rate": 2.8165146345110728e-05,
	"loss": 0.6986,
	"step": 4500
	},
	{
	"epoch": 0.06253483598200084,
	"grad_norm": 2.992204189300537,
	"learning_rate": 2.8124362756426816e-05,
	"loss": 0.7027,
	"step": 4600
	},
	{
	"epoch": 0.0638942889381313,
	"grad_norm": 1.4091521501541138,
	"learning_rate": 2.80835791677429e-05,
	"loss": 0.7032,
	"step": 4700
	},
	{
	"epoch": 0.06525374189426175,
	"grad_norm": 1.7205729484558105,
	"learning_rate": 2.804279557905899e-05,
	"loss": 0.7061,
	"step": 4800
	},
	{
	"epoch": 0.0666131948503922,
	"grad_norm": 2.666346549987793,
	"learning_rate": 2.8002011990375073e-05,
	"loss": 0.7016,
	"step": 4900
	},
	{
	"epoch": 0.06797264780652265,
	"grad_norm": 2.0234336853027344,
	"learning_rate": 2.7961228401691158e-05,
	"loss": 0.6986,
	"step": 5000
	},
	{
	"epoch": 0.06933210076265311,
	"grad_norm": 1.3103491067886353,
	"learning_rate": 2.792044481300725e-05,
	"loss": 0.6995,
	"step": 5100
	},
	{
	"epoch": 0.07069155371878356,
	"grad_norm": 3.3153600692749023,
	"learning_rate": 2.7879661224323334e-05,
	"loss": 0.6968,
	"step": 5200
	},
	{
	"epoch": 0.07205100667491401,
	"grad_norm": 3.262269973754883,
	"learning_rate": 2.7838877635639418e-05,
	"loss": 0.7041,
	"step": 5300
	},
	{
	"epoch": 0.07341045963104446,
	"grad_norm": 5.839659214019775,
	"learning_rate": 2.7798094046955506e-05,
	"loss": 0.692,
	"step": 5400
	},
	{
	"epoch": 0.07476991258717493,
	"grad_norm": 6.034287929534912,
	"learning_rate": 2.775731045827159e-05,
	"loss": 0.7034,
	"step": 5500
	},
	{
	"epoch": 0.07612936554330538,
	"grad_norm": 3.7333922386169434,
	"learning_rate": 2.771652686958768e-05,
	"loss": 0.6986,
	"step": 5600
	},
	{
	"epoch": 0.07748881849943583,
	"grad_norm": 2.81872820854187,
	"learning_rate": 2.7675743280903767e-05,
	"loss": 0.7021,
	"step": 5700
	},
	{
	"epoch": 0.07884827145556628,
	"grad_norm": 2.6562986373901367,
	"learning_rate": 2.763495969221985e-05,
	"loss": 0.6999,
	"step": 5800
	},
	{
	"epoch": 0.08020772441169673,
	"grad_norm": 4.191847801208496,
	"learning_rate": 2.7594176103535936e-05,
	"loss": 0.704,
	"step": 5900
	},
	{
	"epoch": 0.08156717736782719,
	"grad_norm": 1.9238234758377075,
	"learning_rate": 2.7553392514852024e-05,
	"loss": 0.6996,
	"step": 6000
	},
	{
	"epoch": 0.08292663032395764,
	"grad_norm": 1.6448299884796143,
	"learning_rate": 2.751260892616811e-05,
	"loss": 0.7033,
	"step": 6100
	},
	{
	"epoch": 0.08428608328008809,
	"grad_norm": 2.8520469665527344,
	"learning_rate": 2.7471825337484196e-05,
	"loss": 0.707,
	"step": 6200
	},
	{
	"epoch": 0.08564553623621854,
	"grad_norm": 4.698349952697754,
	"learning_rate": 2.7431041748800284e-05,
	"loss": 0.6995,
	"step": 6300
	},
	{
	"epoch": 0.087004989192349,
	"grad_norm": 3.2636826038360596,
	"learning_rate": 2.739025816011637e-05,
	"loss": 0.697,
	"step": 6400
	},
	{
	"epoch": 0.08836444214847945,
	"grad_norm": 5.062309741973877,
	"learning_rate": 2.7349474571432457e-05,
	"loss": 0.7068,
	"step": 6500
	},
	{
	"epoch": 0.0897238951046099,
	"grad_norm": 1.9477702379226685,
	"learning_rate": 2.7308690982748545e-05,
	"loss": 0.6946,
	"step": 6600
	},
	{
	"epoch": 0.09108334806074035,
	"grad_norm": 6.437952518463135,
	"learning_rate": 2.726790739406463e-05,
	"loss": 0.6968,
	"step": 6700
	},
	{
	"epoch": 0.09244280101687082,
	"grad_norm": 1.488918423652649,
	"learning_rate": 2.7227123805380717e-05,
	"loss": 0.6964,
	"step": 6800
	},
	{
	"epoch": 0.09380225397300126,
	"grad_norm": 1.5171183347702026,
	"learning_rate": 2.7186340216696802e-05,
	"loss": 0.6948,
	"step": 6900
	},
	{
	"epoch": 0.09516170692913171,
	"grad_norm": 5.248293876647949,
	"learning_rate": 2.7145556628012886e-05,
	"loss": 0.6914,
	"step": 7000
	},
	{
	"epoch": 0.09652115988526216,
	"grad_norm": 3.5038247108459473,
	"learning_rate": 2.7104773039328978e-05,
	"loss": 0.7016,
	"step": 7100
	},
	{
	"epoch": 0.09788061284139263,
	"grad_norm": 2.2439801692962646,
	"learning_rate": 2.7063989450645062e-05,
	"loss": 0.6976,
	"step": 7200
	},
	{
	"epoch": 0.09924006579752308,
	"grad_norm": 5.262351036071777,
	"learning_rate": 2.7023205861961147e-05,
	"loss": 0.7015,
	"step": 7300
	},
	{
	"epoch": 0.10059951875365353,
	"grad_norm": 2.734067916870117,
	"learning_rate": 2.6982422273277235e-05,
	"loss": 0.7012,
	"step": 7400
	},
	{
	"epoch": 0.10195897170978398,
	"grad_norm": 7.341092586517334,
	"learning_rate": 2.694163868459332e-05,
	"loss": 0.6977,
	"step": 7500
	},
	{
	"epoch": 0.10331842466591444,
	"grad_norm": 2.047778367996216,
	"learning_rate": 2.6900855095909407e-05,
	"loss": 0.6934,
	"step": 7600
	},
	{
	"epoch": 0.10467787762204489,
	"grad_norm": 5.612318515777588,
	"learning_rate": 2.6860071507225495e-05,
	"loss": 0.696,
	"step": 7700
	},
	{
	"epoch": 0.10603733057817534,
	"grad_norm": 3.8864567279815674,
	"learning_rate": 2.681928791854158e-05,
	"loss": 0.6958,
	"step": 7800
	},
	{
	"epoch": 0.10739678353430579,
	"grad_norm": 2.456672191619873,
	"learning_rate": 2.6778504329857664e-05,
	"loss": 0.7014,
	"step": 7900
	},
	{
	"epoch": 0.10875623649043625,
	"grad_norm": 1.5562827587127686,
	"learning_rate": 2.6737720741173752e-05,
	"loss": 0.7,
	"step": 8000
	},
	{
	"epoch": 0.1101156894465667,
	"grad_norm": 1.646262764930725,
	"learning_rate": 2.669693715248984e-05,
	"loss": 0.7028,
	"step": 8100
	},
	{
	"epoch": 0.11147514240269715,
	"grad_norm": 2.5881056785583496,
	"learning_rate": 2.6656153563805925e-05,
	"loss": 0.697,
	"step": 8200
	},
	{
	"epoch": 0.1128345953588276,
	"grad_norm": 3.108797788619995,
	"learning_rate": 2.6615369975122013e-05,
	"loss": 0.7,
	"step": 8300
	},
	{
	"epoch": 0.11419404831495807,
	"grad_norm": 1.5215388536453247,
	"learning_rate": 2.6574586386438097e-05,
	"loss": 0.6956,
	"step": 8400
	},
	{
	"epoch": 0.11555350127108852,
	"grad_norm": 1.2557023763656616,
	"learning_rate": 2.6533802797754182e-05,
	"loss": 0.7032,
	"step": 8500
	},
	{
	"epoch": 0.11691295422721897,
	"grad_norm": 3.6592652797698975,
	"learning_rate": 2.6493019209070273e-05,
	"loss": 0.6957,
	"step": 8600
	},
	{
	"epoch": 0.11827240718334942,
	"grad_norm": 1.6143642663955688,
	"learning_rate": 2.6452235620386358e-05,
	"loss": 0.6961,
	"step": 8700
	},
	{
	"epoch": 0.11963186013947988,
	"grad_norm": 1.7212355136871338,
	"learning_rate": 2.6411452031702442e-05,
	"loss": 0.7041,
	"step": 8800
	},
	{
	"epoch": 0.12099131309561033,
	"grad_norm": 1.2407207489013672,
	"learning_rate": 2.637066844301853e-05,
	"loss": 0.6938,
	"step": 8900
	},
	{
	"epoch": 0.12235076605174078,
	"grad_norm": 4.306702613830566,
	"learning_rate": 2.6329884854334615e-05,
	"loss": 0.704,
	"step": 9000
	},
	{
	"epoch": 0.12371021900787123,
	"grad_norm": 4.0667219161987305,
	"learning_rate": 2.6289101265650703e-05,
	"loss": 0.6966,
	"step": 9100
	},
	{
	"epoch": 0.12506967196400168,
	"grad_norm": 2.244699478149414,
	"learning_rate": 2.624831767696679e-05,
	"loss": 0.6976,
	"step": 9200
	},
	{
	"epoch": 0.12642912492013214,
	"grad_norm": 4.839937210083008,
	"learning_rate": 2.6207534088282875e-05,
	"loss": 0.6972,
	"step": 9300
	},
	{
	"epoch": 0.1277885778762626,
	"grad_norm": 5.436954021453857,
	"learning_rate": 2.6166750499598963e-05,
	"loss": 0.698,
	"step": 9400
	},
	{
	"epoch": 0.12914803083239304,
	"grad_norm": 5.324636459350586,
	"learning_rate": 2.6125966910915048e-05,
	"loss": 0.699,
	"step": 9500
	},
	{
	"epoch": 0.1305074837885235,
	"grad_norm": 2.4143927097320557,
	"learning_rate": 2.6085183322231136e-05,
	"loss": 0.7033,
	"step": 9600
	},
	{
	"epoch": 0.13186693674465394,
	"grad_norm": 3.336245059967041,
	"learning_rate": 2.6044399733547224e-05,
	"loss": 0.6993,
	"step": 9700
	},
	{
	"epoch": 0.1332263897007844,
	"grad_norm": 1.2645655870437622,
	"learning_rate": 2.600361614486331e-05,
	"loss": 0.6977,
	"step": 9800
	},
	{
	"epoch": 0.13458584265691487,
	"grad_norm": 3.2803938388824463,
	"learning_rate": 2.5962832556179393e-05,
	"loss": 0.6993,
	"step": 9900
	},
	{
	"epoch": 0.1359452956130453,
	"grad_norm": 2.2295751571655273,
	"learning_rate": 2.592204896749548e-05,
	"loss": 0.6923,
	"step": 10000
	}
	],
	"logging_steps": 100,
	"max_steps": 73559,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 1,
	"save_steps": 10000,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": false
	},
	"attributes": {}
	}
	},
	"total_flos": 0.0,
	"train_batch_size": 8,
	"trial_name": null,
	"trial_params": null
	}